K-means聚类分析案例（一）

如题所述

举报该问题

第1个回答 2022-06-26

之前的笔记：
聚类介绍：点这里
层次聚类分析案例（一）：世界银行样本数据集
层次聚类分析案例（二）：亚马逊雨林烧毁情况
层次聚类分析案例（三）：基因聚类

食品消费模式是医学和营养学领域关注的一大热点。食物消费与个人的整体健康、食物的营养价值、购买食品的经济性和消费环境有关。这项分析涉及25个欧洲国家肉类和其他食品之间的关系。观察肉类和其他食品的相关性是很有意思的。这些数据包括：红肉、白肉、蛋类、牛奶、鱼类、谷类、淀粉类食品、坚果（包括豆类和油籽）、水果和蔬菜。

准备工作

为了应用k均值聚类，我们使用欧洲25个国家的蛋白质消费量数据集。

第1步：收集和描述数据

该任务使用名为protein的数据集，该数据集以标准格式存储在CSV格式的文件中，其中包含25行数据和10个变量。数据获取路径

数值型变量如下：
RedMeat
WhiteMeat
Eggs
Milk
Fish
Cereals
Starch
Nuts
Fr&Veg
非数值型变量如下：
Country
具体实施步骤
以下为实现细节。

第2步：探索数据

让我们探索数据并理解变量间的关系。从导入名为Europenaprotein.csv的CSV文件开始，将该数据保存到protein数据框：

head（）函数返回了一个向量、矩阵、表、数据框或函数首或尾的部分。将protein数据框传入head（）函数。

结果如下：

第3步：聚类

开始在三个簇的基础上进行聚类。为了在初始阶段产生随机的簇数量，调用set.seed（）函数。set.seed（）函数能够产生随机数。

kmeans（）函数能够在数据矩阵上执行k均值聚类。protein数据矩阵被当作一个对象传入该函数，该对象必须是数值型矩阵。centers＝3代表初始化簇中心数量。因为簇的数量由一个数字指定，nstart＝10定义了随机被选择的中心数。

结果如下：

接下来，生成簇指派列表。order（）函数返回一个序列，以升序或者降序重新生成它的第一个参数。groupMeat数据框被当作一个数据框对象传入：

调用data.frame（）函数，显示了国家和这些国家所处的簇：

结果如下：

plot（）函数是一个绘制R对象的通用函数。参数类型指明了要被显示的图的种类。xlim参数的意思是参数应该被给定范围的边界，而不是一个范围。xlab和ylab提供了x轴和y轴各自的标题：

结果如下：

第4步：改进模型

接下来，在所有9个蛋白质组上进行聚类，并且7个簇已经被创建了。在散点图上不同颜色的点代表了吃白肉和红肉的国家。地理上临近的国家倾向于分到同一组。

center＝7代表初始的聚类中心数量：

7个不同的聚类形成了。25个国家都一一被分配到了某一个簇中。

结果如下：

clustplot（）函数创造了一个二变量的图，其中可以看到数据的可视化划分。所有观测值使用主成分以点的方式表示。在每个簇周围绘制椭圆形。protein数据框被当作对象传入：

结果如下：

另一个层次化形式展现的方法如下。这里使用agnes（）函数。通过设置diss＝FALSE，不相似度矩阵被用来计算原始数据。metric="euclidean"表明使用欧氏距离进行计算：

结果如下：

plot()画出图形：按回车可查看下一章图，共两张图。

结果如下：

cutree（）函数切割树到几个组中，通过设定期望的组数量或者切割的高度来进行划分：

结果如下：

结果如下：

相似回答

K-Means 聚类算法答：K-Means是一种基于自下而上的聚类分析方法,基本概念就是空间中有N个点,初始选择K个点作为中心聚类点,将N个点分别与K个点计算距离,选择自己最近的点作为自己的中心点,不断地更新中心聚集点。相关概念: K值:要得到的簇的个数质心:每个簇的均值向量,即向量各维取品军即可距离度量:常用欧几里得距离和余弦相似...

python代码如何应用系统聚类和K-means聚类法进行聚类分析? 然后选择变量...答：-Means聚类算法 k-means算法以k为参数，把n个对象分成k个簇，使簇内具有较高的相似度，而簇间的相似度较低。随机选择k个点作为初始的聚类中心。对于剩下的点，根据其与聚类中心的距离，将其归入最近的簇。对每个簇，计算所有点的均值作为新的聚类中心。重复2，3直到聚类中心不再发生改变 Figure 1 ...

聚类分析:k-means和层次聚类答：k-means的k就是最终聚集的簇数，这个要你事先自己指定。k-means在常见的机器学习算法中算是相当简单的，基本过程如下：k-means的聚类过程演示如下：k-means聚类分析的原理虽然简单，但缺点也比较明显：值得一提的是，计算距离的方式有很多种，不一定非得是笛卡尔距离；计算距离前要归一化。尽管k-means...

最常用的聚类算法——K-Means原理详解和实操应用(R&Python)答：探索K-Means聚类的奥秘：原理解析与实战演示 K-Means，这一经典的无监督学习算法，凭借其简单易用的特性，在数据挖掘和机器学习中占据着重要地位。它的核心理念是将数据划分为K个紧密且内部差异小的子集，每个子集之间则有明显区别，以最小化总误差平方和（SSE）为目标。然而，选择合适的聚类数K却是一...

SPSS | 手把手教你做聚类分析答：首先，我们得确保数据的纯净。在进行聚类分析前，异常值检查是关键步骤。SPSS的箱线图工具在此扮演了重要角色，没有发现任何异常值，裁判的评分范围在7到10分之间，为后续分析扫清了障碍。深入理解K-means聚类 K均值算法以其简单实用而闻名，它通过计算对象间的距离，将数据分成距离最近的簇。在SPSS中，...

基于RFM模型用户价值分析(K-Means聚类)答：RFM模型的定义：R为最近一次下单时间，F为购买频次，M为购买金额。提取所需要的字段信息：-- 完成数据预处理利用K-means算法对客户进行聚类结合业务，分析客户特征，分析客户价值 -- 在K=4、5的时候SSE曲线趋于平缓，再用轮廓系数看一下 -- 选择最高点K=4进行聚类 R：最近消费时间 F：消费频次 ...

关于k-means算法的聚类分析视频时间 00:51

大家正在搜

k–means聚类分析 kmeans聚类有什么用 kmeans聚类实际应用 kmeans聚类个数 kmeans聚类原理 K-means 简述K均值聚类算法的一般过程 K—means算法 gisK值聚类