K均值聚类分析的原理

如题所述

举报该问题

推荐答案 2020-01-16

在训练图像中,数据事件数量非常多。如果将这些数据事件逐一与模拟区域数据模式进行比对,对计算机性能要求高,计算效率低下。对数据事件分析发现,很多数据事件具有很高的相似性,可以将其划分为同一类。这样大大减少数据事件的个数,提高了运算效率。基于这样考虑,聚类分析技术被引入到多点地质统计学中。

J.B.MacQueen在1967年提出的K-means算法是到目前为止用于科学和工业应用的诸多聚类算法中一种极有影响的技术。它是聚类方法中一个基本的划分方法,常常采用误差平方和准则函数作为聚类准则函数,误差平方和准则函数定义为

多点地质统计学原理、方法及应用

式中:m_i(i=1,2,…,k)是类i中数据对象的均值,分别代表K个类。

K-means算法的工作原理:首先随机从数据集中选取K个点作为初始聚类中心,然后计算各个样本到聚类中的距离,把样本归到离它最近的那个聚类中心所在的类。计算新形成的每一个聚类的数据对象的平均值来得到新的聚类中心,如果相邻两次的聚类中心没有任何变化,说明样本调整结束,聚类准则函数已经收敛。本算法的一个特点是在每次迭代中都要考察每个样本的分类是否正确。若不正确,就要调整,在全部样本调整完后,再修改聚类中心,进入下一次迭代。如果在一次迭代算法中,所有的样本被正确分类,则不会有调整,聚类中心也不会有任何变化,这标志着已经收敛,因此算法结束。

基本步骤如下:

a.对于数据对象集,任意选取K个对象作为初始的类中心;

b.根据类中对象的平均值,将每个对象重新赋给最相似的类;

c.更新类的平均值,即计算每个类中对象的平均值;

d.重复b和c步骤;

e.直到不再发生变化。

图2-7是利用K-means方法做的一个数据事件的聚类分析结果。数据类定义为10个。数据事件来自于图2-8,采用的数据样板是8×8的数据样板。

K-means算法优点为当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,缺点主要有三个:

图2-7 K-means方法聚类结果

图2-8 用于聚类的训练图像,数据样板选择为8*8

1)在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的。很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适。这是K-means算法的一个不足。

2)在K-means算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效的聚类结果,这也成为K-means算法的一个主要问题。

3)从K-means算法框架可以看出,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的。所以需要对算法的时间复杂度进行分析、改进,提高算法应用范围。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://77.wendadaohang.com/zd/YvIppGNp3v8Y3p3YW3N.html

第1个回答 2021-01-20

相似回答

聚类(K-means、K-均值)算法的基础、原理、Python实现和应用答：1. K-means基础：洞察聚类与分类 K-means作为一种聚类算法，与分类和划分算法有着紧密的联系。它的目标是将数据划分为K个互不相交的组（或簇），每个簇内的数据点相似度较高，而不同簇之间的差异明显。它并非有监督的分类，而是基于数据本身的内在结构进行无监督的划分。2. K-means的智慧：步骤...

k均值聚类算法答：k均值聚类算法是：先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，这个过程将不断重复直到满足某个终止条件。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。...

聚类算法答：K-means聚类算法也称k均值聚类算法，是集简单和经典于一身的基于距离的聚类算法。它采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为类簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。2. 算法核心思想 K-means聚类算法是一种迭代求解的聚类...

K均值算法介绍答：K均值 (K-means) 算法是最常用的一种聚类算法。假设有如上的数据集，可以看到只有输入，没有输出。下面说明一下K均值算法的过程 K均值算法的代价函数为：优化目标就是使用上面的代价函数最小化所有参数。上述步骤中第3步集群分配，是通过找到离样本最近的聚类中心点来最小化代价函数； ...

k均值聚类算法的输入包括答：K均值聚类是一种常用的分类聚类算法，它可以根据输入数据的不同特征和分析特征之间的关系，将原始数据分类为若干个“簇”以达到分类聚类的目的。一、K均值聚类算法流程 1、初始化：确定聚类的簇数K，并为每个簇选择一个初始中心点。2，分配：将每个数据点分配到离它最近的中心点，同一个中心点的数据点...

什么是k均值聚类算法?答：一、指代不同 1、K均值聚类法：是一种迭代求解的聚类分析算法。2、系统聚类法：又叫分层聚类法，聚类分析的一种方法。二、步骤不同 1、K均值聚类法：步骤是随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。2、系统聚类法：...

K均值聚类的基本过程是什么答：这样就得到了k类，对新的每一类计算类中心，计算方法就是此类中包含的所有样本的均值。计算每个样本到k个新的类中心的距离，离谁近就归为哪一类。重复以上两步，即计算新的类中心，每个样本重新归类。知道分类没有变化了为止。以上就是k-means聚类的基本原理，基于以上原理，后来又有很多的改进算法，...

大家正在搜

K均值聚类算法的实验原理系统聚类与K均值聚类异同处 k均值聚类算法原理 K均值聚类的基本思想 K均值聚类法的优点 K均值聚类算法的MATLAB实现 K均值在文本聚类中的应用简述K均值聚类的优缺点简述K均值聚类算法的一般过程

k-均值聚类分析法是什么意思

K均值聚类的基本过程是什么

K均值聚类算法的介绍

K均值聚类算法的意义、目的、研究内容

K均值聚类算法的k均值算法

K均值聚类法和系统聚类法有什么区别，这两种聚类方法的适用条件...

k均值聚类算法原理