K-Means（一）K值的选择

如题所述

推荐答案 2022-06-24

算法1.1 基本K均值算法

1：选择K个点作为初始质心

2：repeat

3：    将每一个点指派到最近的质心，形成K个簇

4：    重新计算每个簇的质心

5：until    质心不发生变化

关于K值的选择

Tan et al.的《数据挖掘导论》给了许多簇评估的方式，包括非监督的、监督的和相对的。这里只介绍两种非监督的。其中重点介绍第一种，关于凝聚度和分离度的方法。

        （1）使用凝聚度和分离度

凝聚度是衡量簇内点的临近程度，而分离度是指簇与簇之间的临近程度。衡量总体的有效性可以用凝聚度、分离度或者是两者的某种组合。

关于两者的计算，分为基于图的观点和基于原型（有质心）的观点。都不难理解。一个是基于点本身，另一个基于点与质心。

①基于图的观点

凝聚度可以定义为用连接簇内点的邻近度图中边的加权和。

分离度可以用从一个簇到另一个簇的点的边的加权和来表示。

②基于原型的观点

凝聚度可以定义为关于簇原型（质心或中心）的邻近度的和。

分离度可以用两个簇的临近性度量。就是两个簇质心之间的距离。

③关于凝聚度与分离度之间的关系

聚类的目标就是使组内的相似性越大，组间的差别越大。而这两个指标可以用凝聚度和分离度来表示。也就是说，使凝聚度越小，分离度越大。于是我想到可以把两者结合起来对聚类效果进行评价。然而，在《数据挖掘导论》写道：

是否可以这样理解，总TSS不变，减少SSE就是增加SSB，这就是聚类的目标。即，我们只需要关注两者其一即可。问题是，SSE随着K值的增加，是会减少的。可以看到，随着K越来越大，甚至趋向于m（数据集总的样本数），SSE这时等于0。所以单单通过这个值评价聚类效果我认为是不合理的。在实际应用中还是需要结合domain knowledge选择K。

Tan在书中写道可以通过观察“拐点”来选择最优K值。但是像我这张图是很难找到一个拐点的。

④使用轮廓系数

轮廓系数结合了凝聚度和分离度。轮廓系数的定义不难理解，就是一种度量凝聚度和分离度的方式。计算个体的轮廓系数由三步组成。

Definition 轮廓系数

        ⅰ 对于第i个对象，计算它到簇中所有其他对象的平均距离，记为ai

        ⅱ 对于第i个对象和不包含该对象的任意簇，计算该对象到给定簇中所有对象的平均距离。关于所有的簇，找出最小值，记作bi

         ⅲ 对于第i个对象，轮廓系数Si=（bi - ai） / max（ai, bi）

轮廓系数的值在-1与1之间，我们不希望出现负值。因为出现负值表示点到簇内点的平均距离大ai于点到其他簇的最小平均距离。这在直觉上也是不对的，因为我们想要簇内距离最小。

我们可以简单地取簇中点的轮廓系数的平均值，计算簇的平均轮廓系数。通过计算所有点的平均轮廓系数，可以得到聚类优良性的总度量。

轮廓系数越趋近于1，说明聚类效果越好。因为此时ai越趋近于0。

类似于绘制SSE，我们也可以绘制K与轮廓系数的图，通过观察“拐点”选择最优K值。值得注意的是，轮廓系数是越高越好，而SSE是越低越好，两种拐点的类型在图上有微小差别。

总结：

本小节主要介绍了基本K-Means算法和K值的选择。接下来会介绍K-Means的优化算法。

参考文献：

[1]Pang-Ning Tan, Michael Steinbach, Vipin Kumar. 数据挖掘导论 [M]. 人民邮电出版社, 2011.

温馨提示：答案为网友推荐，仅供参考

当前网址：http://77.wendadaohang.com/zd/83qpW8Y8NN3GIpW3qY.html

相似回答

k-means的k值该如何确定?答：揭秘k-means中的K值选择之谜在聚类分析的世界里，确定k-means算法的k值并非易事。一种经典的策略，被称为elbow method，它通过观察数据内在的结构来揭示k值的适中范围。在这个方法中，x轴代表着聚类的数量，而y轴则是衡量每个聚类内部（within-cluster sum of squares，WSS）的点到其中心点的距离平方...

最常用的聚类算法——K-Means原理详解和实操应用(R&Python)答：K-Means，这一经典的无监督学习算法，凭借其简单易用的特性，在数据挖掘和机器学习中占据着重要地位。它的核心理念是将数据划分为K个紧密且内部差异小的子集，每个子集之间则有明显区别，以最小化总误差平方和（SSE）为目标。然而，选择合适的聚类数K却是一大挑战，它直接决定了算法的性能和结果的稳定...

聚类(K-means、K-均值)算法的基础、原理、Python实现和应用答：2. K-means的智慧：步骤与优化确定K值是关键，通常通过SSE（误差平方和）和轮廓系数来权衡。初始化中心点的选择至关重要，K-means++策略通过增加初始点之间的距离，有效避免了局部最优问题。对于空簇的处理，K-means采用迭代策略，不断调整直到达到稳定状态。3. 工程实践：Python实战与评估在Pyt...

使用轮廓系数确定K-means中的K答：即a(i)< K 值确定：在实际应用中，由于Kmean一般作为数据预处理，或者用于辅助分聚类贴标签。所以k一般不会设置很大。可以通过枚举，令k从2到一个固定值如10，在每个k值上重复运行数次kmeans(避免局部最优解)，并计算当前k的平均轮廓系数，最后选取轮廓系数最大的值对应的k作为最终的集群数目。

K-means原理、优化、应用答：解决K-Means算法对初始簇心比较敏感的问题，二分K-Means算法是一种弱化初始质心的一种算法。1、将所有样本数据作为一个簇放到一个队列中。2、从队列中选择一个簇进行K-Means算法划分，划分为两个子簇，并将子簇添加到队列中。3、循环迭代步骤2操作，直到中止条件达到...

K-Means 聚类算法答：K-Means是一种基于自下而上的聚类分析方法,基本概念就是空间中有N个点,初始选择K个点作为中心聚类点,将N个点分别与K个点计算距离,选择自己最近的点作为自己的中心点,不断地更新中心聚集点。相关概念: K值:要得到的簇的个数质心:每个簇的均值向量,即向量各维取品军即可距离度量:常用欧几里得距离和余弦相似...

八:聚类算法K-means(20191223-29)答：对于每一个簇计算总误差在给定的簇上进行K-均值聚类,k值为2 计算将该簇划分成两个簇后总误差选择是的误差最小的那个簇进行划分在原始的K-means算法中,每一次的划分所有的样本都要参与运算,如果数据量非常大的话,这个时间是非常高的,因此有了一种分批处理的改进算法。使用Mini Batch(分批处理)的方法对...

大家正在搜

K值是多少1001K值是多少 K-means K值和D值没有合适的K值怎么办 K值U值 K值的含义 K—means算法 K值 K定值