用最简单通俗的话解释聚类分析,看完不会来找我

      最后更新:2020-03-19 14:18:26 手机定位技术交流文章

      在我们开始今天的分享之前,让我们看一个来自实际业务分析场景的示例:

      一家零售公司在市场上有30种产品,这些产品的类别、销量和销售量相差很大。因此,该公司的业务分析师希望按照一定的标准将30种产品分为三个等级:A、B和C,以便该公司能够制定战略性的产品规划。他该怎么办?

      许多人可能会考虑应用波士顿矩阵,以销售额和销售额为横坐标和纵坐标,计算中心轴,将每个产品放入矩阵中,从而得到产品的总体分类情况。



      似乎没问题,对吗?但是在实际情况中,许多人这样做是错误的。为什么?事实上,

      是对的,但许多人忽略了最关键的问题:应该用什么标准来衡量和判断中轴线的划分

      许多人会选择直接拉数据的平均值作为中轴线,然而,这种分类方法在实践中可能会导致对数据的错误判断,因为数据之间的差异可能会显示出由于不同类别而出现的族群现象,而此时一些数据可能会混合到其他类别中“就像鱼眼混珠”

      例如,我们可以举一个非常极端的例子。甲、乙、丙产品的销售量分别为100、50和1。显然,甲和乙产品属于一类,丙产品属于一类。然而,如果平均值是151/3=50.03,在除法之后,A被分类为一个类,而B和C被分类为一个类。

      怎么样,我们今天要介绍的分类分析方法——聚类现在应该使用,这不奇怪吗

      什么是聚类分析?

      聚类最初是一个统计概念,现在属于机器学习中的无监督学习范畴。大部分应用于数据挖掘和数据分析领域。简而言之,它可以用一个词来概括——物以类聚。

      如果将人与其他动物进行比较,你可以很容易地找到一些判断特征,如四肢、嘴巴、耳朵、皮毛等。根据判断指标的不同,可以划分出某一类人、某一类狗、某一类鱼等。这就是集群

      顾名思义,聚类就是根据数据本身的特点研究对大量数据或样本的分类方法,并根据分类方法对数据进行合理的分类,最后将相似的数据分成一组,即“同类但不同类”

      聚类不是一种分类

      在这里,有些人可能认为聚类不是一种分类,但实际上,从严格意义上讲,聚类和分类不是一回事,两者有很大的区别

      分类根据已建立的程序模式和标准进行判断和划分。例如,在我们开始提到的例子中,我们直接规定以数据的平均值为中心轴,然后我们的工作只剩下一个:判断每个数据是否达到平均值。

      ,也就是说,我们在分类前已经预先有了一套数据划分标准,只需要严格按照标准进行数据分组

      不同于集群。我们不知道具体的划分标准。我们需要通过算法判断数据之间的相似性,并将相似的数据放在一起。也就是说,聚类最关键的工作是探索和挖掘数据中的潜在差异和联系。

      在聚类的结论出来之前,我不知道每个类别有什么特征。我必须通过人类经验来分析聚类结果,看看这个类别有什么特征。

      聚类方法

      知道聚类的含义,那么我们如何对数据进行聚类?有许多

      聚类方法,但在我们的数据分析中常用的是K-Mcans聚类方法。该方法简单有效,可用于许多分析软件的算法计算。

      简要回答以实例介绍K-Mcans聚类方法的原理和过程:

      1,确定组数。k在

      K-Mcans聚类方法中是组的数量,这是聚类后我们想要得到的组的数量例如,我有以下六个数据。我想把这些数据分成两类,然后K=2

      2,随机选择K值作为数据中心

      这个数据中心的选择是完全随机的,也就是说,如何选择并不重要,因为这里K=2,所以我们把a和b作为数据中心

      为了便于理解,我们可以用A和B作为数据中心制作散点图。

      3,计算其他值与数据中心之间的“距离”

      由于选择了数据中心,因此它们周围一定有许多类似的数据。我们如何判断这些数据是否与它们相似?

      这里我们将介绍欧几里德距离的概念。通俗地说,欧几里德距离是多维空间中每个点之间的绝对距离,表示两点之间的距离。公式为

      。如果是普通的二维数据,这个公式将直接成为毕达哥拉斯定理。因此,我们可以计算其他6个点的a和b之间的距离。谁离得近,谁就是数据中心。

      因此,我们可以看到C-H和B之间的距离比A之间的距离更近,所以第一组是

      第一组:A第二组:B、C、D、E、F、G、H

      4,重新选择新的数据中心

      已经获得了第一组的结果。我们重复前两个步骤,并重新选择每组数据的数据中心。

      第一组只有A,所以A仍然是数据中心。在第二组中,有7个数值。将这7个数值的平均值作为新的数据中心,我们称之为P,计算平均坐标为(5.14,5.14)

      5,再次计算其他数据与新数据中心之间的距离

      ,或者直接计算毕达哥拉斯定理,计算其他数据与A和P之间的欧几里得距离,如下:

      我们可以看到其中一些接近A,一些接近P,所以再次选择数据中心

      是这里的旧规则。继续重复前面的操作。以每组数据的平均值为数据中心:

      第一组有两个值,平均坐标为(0.5,1)。这是第一个新的数据中心,名为0。第二个组有六个值,平均值为(5.8,5.6)。这是第二个新的数据中心,命名为Q

      7。重新计算其他数据和新数据中心之间的距离

      。这时,我们发现,只有a和b更接近o,而其他6个数据更接近q,所以第三组是

      组1: a,b组2: c,d,e,f,g,H

      。在计算之后,我们发现分组情况没有改变,这表明我们的计算收敛已经结束,我们不需要继续分组。最后,根据相似性将数据成功地分成两组。

      8,方法概述

      简单地说,我们重复选择数据中心-计算距离-分组-一次又一次地选择数据中心的过程,直到分组后所有数据都不会改变,并且将获得最终的聚合结果。

      如何在实践中运用聚类

      来理解聚类分析的思想和方法,我们如何将其运用到实践中?面对大量数据,我们应该怎么做?

      实际上在很多分析软件中都有聚类分析功能,如Python、Excel等。,如FineBI中的聚类函数。下次分析数据时,我们应该知道这些名字的含义吗?

      给出了聚类数和距离的方法,可以快速得到聚合结果。您可以点击左下角的“了解更多”下载并尝试。

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/1959.html

          热门文章

          文章分类