关于K-Means聚类算法的，大家交流一下。

论文里都说：K-Means算法对数据输入顺序敏感。怎么理解呢？
我的理解是：K-Means算法选取前K个点为中心，数据输入顺序不同，选取的K个中心点就不同，因此聚类结果不同。这个的根源还是K-Means算法对初始聚类中心的敏感性
而且，我做过实验，打乱了iris中数据的顺序，得到3个不同的数据集。但是我采用相同的中心，得到的结果是一样的。
大家是怎么理解：K-Means算法对数据输入顺序敏感的，这个问题的？
谢谢啊！

举报该问题

推荐答案 2011-05-06

当然是敏感的，跟程序中如何处理数据有很大的关系。比如两个中心点（-1,0）（1,0），这时读入数据（0,0），那么程序计算与所有中心点的距离，因为距离相同，程序会给其中一个，至于给哪个，都是由程序决定，一般按数据存储的先后顺序来给。而且结果不同不能代表聚类结果差，而是说明结果的多样化，本身K的选取就是没有一个约定的方法，所以结果有差别也是理所当然的。关键是你要如何体现你的算法的优越性。就是要跟别的算法作比较，比如从算法的空间、时间复杂度，算法的运行处理速度等等因素来做比较。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://77.wendadaohang.com/zd/Y3YqI3NYp.html

第1个回答 2011-05-06

相同的初始中心，在后面的数据不同的输入顺序下，仍然可能造成不同数据集结果。直观上因为不同的输入顺序中对各中心的影响不同。
你要验证你的理解的正确性，需要给出严格证明；
而要否定你的理解，只需要做出反例即可。追问

谢谢你的回答，你的回答很好，请问你可以举出这样的反例吗？谢谢你了

追答

我暂时没空帮你构造反例……不过这位叫蔚蓝的朋友MS举了一种也算是反例的情况（等距离）。

第2个回答 2011-05-06

bjsjjachjasch

相似回答

关于K-Means聚类算法的,大家交流一下。答：而且结果不同不能代表聚类结果差，而是说明结果的多样化，本身K的选取就是没有一个约定的方法，所以结果有差别也是理所当然的。关键是你要如何体现你的算法的优越性。就是要跟别的算法作比较，比如从算法的空间、时间复杂度，算法的运行处理速度等等因素来做比较。

Kmeans聚类算法简介(有点枯燥)答：由于具有出色的速度和良好的可扩展性,Kmeans聚类算法算得上是最著名的聚类方法。Kmeans算法是一个重复移动类中心点的过程,把类的中心点,也称重心(centroids),移动到其包含成员的平均位置,然后重新划分其内部成员。k是算法计算出的超参数,表示类的数量;Kmeans可以自动分配样本到不同的类,但是不能决定究竟要分几个类...

最常用的聚类算法——K-Means原理详解和实操应用(R&Python)答：K-Means，这一经典的无监督学习算法，凭借其简单易用的特性，在数据挖掘和机器学习中占据着重要地位。它的核心理念是将数据划分为K个紧密且内部差异小的子集，每个子集之间则有明显区别，以最小化总误差平方和（SSE）为目标。然而，选择合适的聚类数K却是一大挑战，它直接决定了算法的性能和结果的稳定...

聚类k-means++、k-means参数、Mini Batch K-Means答：1.2 KMeans() 参数参数：n_clusters：整形，缺省值=8 【生成的聚类数，即产生的质心（centroids）数。】max_iter：整形，缺省值=300 ,执行一次k-means算法所进行的最大迭代数。n_init：整形，缺省值=10 ,用不同的质心初始化值运行算法的次数，最终解是在inertia意义下选出的最优结果。init：有...

典型的聚类算法有哪些,并简述K-means算法的原理及不足?答：K-means算法是一种常用的聚类算法，其原理如下：初始化：随机选择k个初始质心，每个质心表示一个簇的中心点。分配：对于每个数据点，计算其到k个质心的距离，将其分配给距离最近的质心所表示的簇。重新计算质心：对于每个簇，重新计算其所有点的均值，得到新的质心位置。重复2和3步，直到质心位置不再...

K-Means 聚类算法答：答案就是聚类。而本文所提供的k-means聚类分析方法就可以用于解决这类问题。一,聚类思想所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法,属于无监督学习方法,这个方法要保证同一类的数据有相似的特征,如下图: 根据样本之间的距离或者说相似性,把越相似,差异越小的样本聚成一类(簇),最后形成多个簇,...

kmeans聚类算法优缺点答：1、优点 k-平均算法是解决聚类问题的一种经典算法，算法简单、快速。对处理大数据集，该算法是相对可伸缩的和高效率的，因为它的复杂度大约是O(nkt) O(nkt)O(nkt)，其中n是所有对象的数目，k是簇的数目，t是迭代的次数。通常k<<n。这个算法经常以局部最优结束。算法尝试找出使平方误差函数值最小...

大家正在搜

基于聚类算法的属于聚类算法的是 sklearn聚类算法 isodata聚类算法 dbscan聚类算法聚类算法的应用聚类算法聚类算法比较聚类算法有哪几种

在大数据量时，K-means算法和层次聚类算法谁更有优势

如何评价一个k-means聚类质量算法

在大数据量时,K-means算法和层次聚类算法谁更有优势?为...

关于k-means算法的聚类分析

对比传统K-Means等聚类算法，LDA主题模型在文本聚类上...

k-means聚类算法一定要指定聚类个数吗

K-Means聚类算法原理是怎么样的？

k-means聚类算法，噪声值怎么处理？