根据变量属性选择聚类算法(K-means,Kmodes,K-prototype

如题所述

第1个回答 2022-07-22

将相似的样本划分为一类，分析各类间的差异。

样本的属性有定性和定量两种：

对于数据集，给定一个分类数K，划分法将数据集划分为K个组，每一个分组就代表一个分类。

大部分划分方法是基于距离的，以K-means算法为例，其大致原理是：

1.首先确定分类的数量K

2. 从数据集中随机的选择K个样本点作为初始类中心（质心）

3. 计算数据集中每一个样本点与初始类中心的距离，离那一个类中心近就划分给那个类中

4.重新计算K个类的类中心（质心），新的质心是该组所有样本的各属性的平均值，即means

5.如果新的类中与旧的类中心的距离小于设定的阈值，可以认为我们进行的聚类达到预期的结果，算法终止。

6.如果新的类中心和旧中心的距离很大，继续迭代3~5步骤。

Kmodes算法原理与Kmeans原理一样，计算的距离的方法不同。Kmodes计算的是字符间的距离。

距离的计算：假设有两个点：A，B，A=（a1,a2,a3,...an）,B=(b1,b2,b3,...bn)

欧式距离： (i=1,2,3,4..n)

汉明距离（也叫海明威距离）：通过比较两个向量每一位是否相同，若不同则汉明距离加1，这样得到汉明距离，向量相似度越高，得到的汉明距离越小。

余弦距离：两个向量间的余弦相似度。夹角越小，余弦值越接近1.

K-prototype算法提出了混合属性簇的原型，其原型就是数值属性原型用属性中所有属性取值的均值，分类属性原型是分类属性中取值频率最高的属性。合起来就是原型。

K-prototype聚类的准则就是使用一个合适的损失函数去度量数值型和分类型变量对原型的距离。假设X={X1,X2,....X3}为n个样本集合，Xi={X1,X2,...Xm}为样本i的m个属性。k为聚类个数。而这个损失函数可以定义为：

其中，它表示类别 l 的一个原型，也就是类别 l 的中心（质心），为切分矩阵Y的元素，其实就是在类别l中有么有这个样本，有则为1，没有为0。d是相似性度量，经常定义为平方欧式距离。为把X分为类别l的总损失。

当时，达到最小化，

其中为类别l中的样本个数。上面是对于数值型变量，当X中含有分类变量时，可以把相似度改为：

r,c分别为数值属性和分类属性的个数，是类别l中分类属性的权重。

将d(Xi,Ql)带入El中：这样就代表类别l的样本中所有数值属性的总损失，代表所有分类属性的总损失。

相似回答

聚类算法数据分析答：TSNE(n_components=2)总结来说，整个聚类算法数据分析的操作步骤如下：1. 构建低相关性变量数据集（通过给高相关性变量设置固定值）；2. 对非离散变量进行min-max归一化操作；3. 对包含虚拟变量的数据集采用K-Prototype聚类算法，对只包含非离散变量的数据集采用K-Means算法；4. 通过轮廓系数silhouette...

Kmeans聚类算法简介(有点枯燥)答：1. Kmeans聚类算法简介由于具有出色的速度和良好的可扩展性,Kmeans聚类算法算得上是最著名的聚类方法。Kmeans算法是一个重复移动类中心点的过程,把类的中心点,也称重心(centroids),移动到其包含成员的平均位置,然后重新划分其内部成员。k是算法计算出的超参数,表示类的数量;Kmeans可以自动分配样本到不同的类,但...

大数据十大经典算法之k-means答：初始聚类中心的选择。选用簇中位置最靠近中心的对象,这样可以避免孤立点的影响。K均值算法的变种:K众数(k-modes)算法,针对分类属性的度量和更新质心的问题而改进。EM(期望最大化)算法k-prototype算法这种算法不适合处理离散型属性,但是对于连续型具有较好的聚类效果。k均值算法用途:图像分割;衡量足球队的水平;下面给出...

一文总结聚类分析步骤!答：定类数据不能通过数字大小直接分析距离,因而需要使用K-prototype聚类算法。 (3)聚类分析时SSE是什么意思? 在进行Kmeans聚类分析时SPSSAU默认输出误差平方和SSE值,该值可用于测量各点与中心点的距离情况,理论上是希望越小越好,而且如果同样的数据,聚类类别越多则SSE值会越小(但聚类类别过多则不便于分析)。 SSE指标...

大家正在搜

kmeans聚类算法python kmeans聚类算法matlab kmeans聚类算法k的选择 kmeans聚类算法步骤 kmeans聚类算法应用 kmeans聚类算法原理 kmeans聚类算法代码 kmeans聚类算法例题 kmeans聚类算法存在的问题