最后更新:2020-03-19 14:18:26 手机定位技术交流文章
在我们开始今天的分享之前,让我们看一个来自实际业务分析场景的示例:
一家零售公司在市场上有30种产品,这些产品的类别、销量和销售量相差很大。因此,该公司的业务分析师希望按照一定的标准将30种产品分为三个等级:A、B和C,以便该公司能够制定战略性的产品规划。他该怎么办?
许多人可能会考虑应用波士顿矩阵,以销售额和销售额为横坐标和纵坐标,计算中心轴,将每个产品放入矩阵中,从而得到产品的总体分类情况。

似乎没问题,对吗?但是在实际情况中,许多人这样做是错误的。为什么?事实上,
是对的,但许多人忽略了最关键的问题:应该用什么标准来衡量和判断中轴线的划分
许多人会选择直接拉数据的平均值作为中轴线,然而,这种分类方法在实践中可能会导致对数据的错误判断,因为数据之间的差异可能会显示出由于不同类别而出现的族群现象,而此时一些数据可能会混合到其他类别中“就像鱼眼混珠”
例如,我们可以举一个非常极端的例子。甲、乙、丙产品的销售量分别为100、50和1。显然,甲和乙产品属于一类,丙产品属于一类。然而,如果平均值是151/3=50.03,在除法之后,A被分类为一个类,而B和C被分类为一个类。
怎么样,我们今天要介绍的分类分析方法——聚类现在应该使用,这不奇怪吗
什么是聚类分析?
聚类最初是一个统计概念,现在属于机器学习中的无监督学习范畴。大部分应用于数据挖掘和数据分析领域。简而言之,它可以用一个词来概括——物以类聚。
如果将人与其他动物进行比较,你可以很容易地找到一些判断特征,如四肢、嘴巴、耳朵、皮毛等。根据判断指标的不同,可以划分出某一类人、某一类狗、某一类鱼等。这就是集群
顾名思义,聚类就是根据数据本身的特点研究对大量数据或样本的分类方法,并根据分类方法对数据进行合理的分类,最后将相似的数据分成一组,即“同类但不同类”
聚类不是一种分类
在这里,有些人可能认为聚类不是一种分类,但实际上,从严格意义上讲,聚类和分类不是一回事,两者有很大的区别
分类根据已建立的程序模式和标准进行判断和划分。例如,在我们开始提到的例子中,我们直接规定以数据的平均值为中心轴,然后我们的工作只剩下一个:判断每个数据是否达到平均值。
,也就是说,我们在分类前已经预先有了一套数据划分标准,只需要严格按照标准进行数据分组
不同于集群。我们不知道具体的划分标准。我们需要通过算法判断数据之间的相似性,并将相似的数据放在一起。也就是说,聚类最关键的工作是探索和挖掘数据中的潜在差异和联系。
在聚类的结论出来之前,我不知道每个类别有什么特征。我必须通过人类经验来分析聚类结果,看看这个类别有什么特征。
聚类方法
知道聚类的含义,那么我们如何对数据进行聚类?有许多
聚类方法,但在我们的数据分析中常用的是K-Mcans聚类方法。该方法简单有效,可用于许多分析软件的算法计算。
简要回答以实例介绍K-Mcans聚类方法的原理和过程:
1,确定组数。k在
K-Mcans聚类方法中是组的数量,这是聚类后我们想要得到的组的数量例如,我有以下六个数据。我想把这些数据分成两类,然后K=2

2,随机选择K值作为数据中心
这个数据中心的选择是完全随机的,也就是说,如何选择并不重要,因为这里K=2,所以我们把a和b作为数据中心
为了便于理解,我们可以用A和B作为数据中心制作散点图。

3,计算其他值与数据中心之间的“距离”
由于选择了数据中心,因此它们周围一定有许多类似的数据。我们如何判断这些数据是否与它们相似?
这里我们将介绍欧几里德距离的概念。通俗地说,欧几里德距离是多维空间中每个点之间的绝对距离,表示两点之间的距离。公式为

。如果是普通的二维数据,这个公式将直接成为毕达哥拉斯定理。因此,我们可以计算其他6个点的a和b之间的距离。谁离得近,谁就是数据中心。

因此,我们可以看到C-H和B之间的距离比A之间的距离更近,所以第一组是
第一组:A第二组:B、C、D、E、F、G、H4,重新选择新的数据中心
已经获得了第一组的结果。我们重复前两个步骤,并重新选择每组数据的数据中心。
第一组只有A,所以A仍然是数据中心。在第二组中,有7个数值。将这7个数值的平均值作为新的数据中心,我们称之为P,计算平均坐标为(5.14,5.14)5,再次计算其他数据与新数据中心之间的距离
,或者直接计算毕达哥拉斯定理,计算其他数据与A和P之间的欧几里得距离,如下:

我们可以看到其中一些接近A,一些接近P,所以再次选择数据中心
是这里的旧规则。继续重复前面的操作。以每组数据的平均值为数据中心:
第一组有两个值,平均坐标为(0.5,1)。这是第一个新的数据中心,名为0。第二个组有六个值,平均值为(5.8,5.6)。这是第二个新的数据中心,命名为Q7。重新计算其他数据和新数据中心之间的距离

。这时,我们发现,只有a和b更接近o,而其他6个数据更接近q,所以第三组是
组1: a,b组2: c,d,e,f,g,H。在计算之后,我们发现分组情况没有改变,这表明我们的计算收敛已经结束,我们不需要继续分组。最后,根据相似性将数据成功地分成两组。
8,方法概述
简单地说,我们重复选择数据中心-计算距离-分组-一次又一次地选择数据中心的过程,直到分组后所有数据都不会改变,并且将获得最终的聚合结果。
如何在实践中运用聚类
来理解聚类分析的思想和方法,我们如何将其运用到实践中?面对大量数据,我们应该怎么做?
实际上在很多分析软件中都有聚类分析功能,如Python、Excel等。,如FineBI中的聚类函数。下次分析数据时,我们应该知道这些名字的含义吗?

给出了聚类数和距离的方法,可以快速得到聚合结果。您可以点击左下角的“了解更多”下载并尝试。
本文由 在线网速测试 整理编辑,转载请注明出处。