用最简单通俗的话解释聚类分析，看完不会来找我

返回电脑百科

最后更新：2020-03-19 14:18:26 手机定位技术交流文章

在我们开始今天的分享之前，让我们看一个来自实际业务分析场景的示例:

一家零售公司在市场上有30种产品，这些产品的类别、销量和销售量相差很大。因此，该公司的业务分析师希望按照一定的标准将30种产品分为三个等级:A、B和C，以便该公司能够制定战略性的产品规划。他该怎么办？

许多人可能会考虑应用波士顿矩阵，以销售额和销售额为横坐标和纵坐标，计算中心轴，将每个产品放入矩阵中，从而得到产品的总体分类情况。

似乎没问题，对吗？但是在实际情况中，许多人这样做是错误的。为什么？事实上，

是对的，但许多人忽略了最关键的问题:应该用什么标准来衡量和判断中轴线的划分

许多人会选择直接拉数据的平均值作为中轴线，然而，这种分类方法在实践中可能会导致对数据的错误判断，因为数据之间的差异可能会显示出由于不同类别而出现的族群现象，而此时一些数据可能会混合到其他类别中“就像鱼眼混珠”

例如，我们可以举一个非常极端的例子。甲、乙、丙产品的销售量分别为100、50和1。显然，甲和乙产品属于一类，丙产品属于一类。然而，如果平均值是151/3=50.03，在除法之后，A被分类为一个类，而B和C被分类为一个类。

怎么样，我们今天要介绍的分类分析方法——聚类现在应该使用，这不奇怪吗

什么是聚类分析？

聚类最初是一个统计概念，现在属于机器学习中的无监督学习范畴。大部分应用于数据挖掘和数据分析领域。简而言之，它可以用一个词来概括——物以类聚。

如果将人与其他动物进行比较，你可以很容易地找到一些判断特征，如四肢、嘴巴、耳朵、皮毛等。根据判断指标的不同，可以划分出某一类人、某一类狗、某一类鱼等。这就是集群

顾名思义，聚类就是根据数据本身的特点研究对大量数据或样本的分类方法，并根据分类方法对数据进行合理的分类，最后将相似的数据分成一组，即“同类但不同类”

聚类不是一种分类

在这里，有些人可能认为聚类不是一种分类，但实际上，从严格意义上讲，聚类和分类不是一回事，两者有很大的区别

分类根据已建立的程序模式和标准进行判断和划分。例如，在我们开始提到的例子中，我们直接规定以数据的平均值为中心轴，然后我们的工作只剩下一个:判断每个数据是否达到平均值。

，也就是说，我们在分类前已经预先有了一套数据划分标准，只需要严格按照标准进行数据分组

不同于集群。我们不知道具体的划分标准。我们需要通过算法判断数据之间的相似性，并将相似的数据放在一起。也就是说，聚类最关键的工作是探索和挖掘数据中的潜在差异和联系。

在聚类的结论出来之前，我不知道每个类别有什么特征。我必须通过人类经验来分析聚类结果，看看这个类别有什么特征。

聚类方法

知道聚类的含义，那么我们如何对数据进行聚类？有许多

聚类方法，但在我们的数据分析中常用的是K-Mcans聚类方法。该方法简单有效，可用于许多分析软件的算法计算。

简要回答以实例介绍K-Mcans聚类方法的原理和过程:

1，确定组数。k在

K-Mcans聚类方法中是组的数量，这是聚类后我们想要得到的组的数量例如，我有以下六个数据。我想把这些数据分成两类，然后K=2

2，随机选择K值作为数据中心

这个数据中心的选择是完全随机的，也就是说，如何选择并不重要，因为这里K=2，所以我们把a和b作为数据中心

为了便于理解，我们可以用A和B作为数据中心制作散点图。

3，计算其他值与数据中心之间的“距离”

由于选择了数据中心，因此它们周围一定有许多类似的数据。我们如何判断这些数据是否与它们相似？

这里我们将介绍欧几里德距离的概念。通俗地说，欧几里德距离是多维空间中每个点之间的绝对距离，表示两点之间的距离。公式为

。如果是普通的二维数据，这个公式将直接成为毕达哥拉斯定理。因此，我们可以计算其他6个点的a和b之间的距离。谁离得近，谁就是数据中心。

因此，我们可以看到C-H和B之间的距离比A之间的距离更近，所以第一组是

第一组:A第二组:B、C、D、E、F、G、H

4，重新选择新的数据中心

已经获得了第一组的结果。我们重复前两个步骤，并重新选择每组数据的数据中心。

第一组只有A，所以A仍然是数据中心。在第二组中，有7个数值。将这7个数值的平均值作为新的数据中心，我们称之为P，计算平均坐标为(5.14，5.14)

5，再次计算其他数据与新数据中心之间的距离

，或者直接计算毕达哥拉斯定理，计算其他数据与A和P之间的欧几里得距离，如下:

我们可以看到其中一些接近A，一些接近P，所以再次选择数据中心

是这里的旧规则。继续重复前面的操作。以每组数据的平均值为数据中心:

第一组有两个值，平均坐标为(0.5，1)。这是第一个新的数据中心，名为0。第二个组有六个值，平均值为(5.8，5.6)。这是第二个新的数据中心，命名为Q

7。重新计算其他数据和新数据中心之间的距离

。这时，我们发现，只有a和b更接近o，而其他6个数据更接近q，所以第三组是

组1: a，b组2: c，d，e，f，g，H

。在计算之后，我们发现分组情况没有改变，这表明我们的计算收敛已经结束，我们不需要继续分组。最后，根据相似性将数据成功地分成两组。

8，方法概述

简单地说，我们重复选择数据中心-计算距离-分组-一次又一次地选择数据中心的过程，直到分组后所有数据都不会改变，并且将获得最终的聚合结果。

如何在实践中运用聚类

来理解聚类分析的思想和方法，我们如何将其运用到实践中？面对大量数据，我们应该怎么做？

实际上在很多分析软件中都有聚类分析功能，如Python、Excel等。，如FineBI中的聚类函数。下次分析数据时，我们应该知道这些名字的含义吗？

给出了聚类数和距离的方法，可以快速得到聚合结果。您可以点击左下角的“了解更多”下载并尝试。

本文由在线网速测试整理编辑，转载请注明出处。

用最简单通俗的话解释聚类分析，看完不会来找我

热门文章

文章分类