kmeans中的k的含义:聚类的个数。
K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。
K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。
因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心,初始地代表一个簇。
处理流程:
1、从 n个数据对象任意选择 k 个对象作为初始聚类中心。
2、根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分。
3、重新计算每个(有变化)聚类的均值(中心对象)。
4、循环2到3直到每个聚类不再发生变化为止。
k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。