聚类分析中的空间和距离概念

如题所述

第1个回答 2022-06-10

聚类分析的意义Cluster Analysis

在经济和社会学研究中，聚类分析是比较常用的多元统计分析方法，是将大量复杂多维的数据和变量进行分组分析的方法。

例如采集1个亿微信用户样本，他们的特征变量不太一样，例如年龄、收入、性格、学历、职业、兴趣、生活作息习惯等等进行初步的量化转化，作为输入变量进行假设分析。

那么这一个亿样本里面，哪些人是能够做为中产阶级，哪些人是可以作为文艺青年？

可以建立文艺青年分类指标，然后分析每个样本个体之间的接近或相似程度，分组建立关联函数。

从直观和简单的分组概念出发，对于庞大的数据，也可以进行客观的统计学分组划分。

这里就会用到聚类分析方法，首先是测量样本个体之间的差异或相似程度。

这里引入空间几何概念，即将每个样本当作一个点，分布在n维空间里，每个维度分别是年龄、收入、性格等。

如果两个变量越接近，我们定义为两个点之间的越相似或亲密，这里使用“距离”的概念进行定义。

如果变量是数值型的变量，而非函数变量。那么可以使用如下几个空间和距离进行量化样本之间的亲密程度。

欧式空间的欧式距离。Euclidean Distance in Euclidean Space.

定义为变量个体差值的平方和的平方根。

平方欧式距离 Squared Euclidean Distance

定义为变量个体差值的平方和，即欧式距离的平方和。

切比雪夫距离Chebychev Distance

定义为变量差值的绝对值得最大值

块距离Block Distance

定义为变量差值的绝对值的总合

明考斯基距离Minkowski Distance

定义为变量差值绝对值的p次方的总和的p次根

夹角余弦距离Cosine Distance

定义为变量乘积的平方的和，除以（单独每个变量自身平方的和，再相乘）

如果变量是计数的离散变量，那么距离就需要用以下方法定义

卡方距离Chi-Square Measure Distance

x，y变量之间的距离定义为x变量的第i个变量与期望值（这里也成为期望频数，例如一个人每天去咖啡馆的平均次数）的差值的平方，除以期望值之后进行汇总计算，再加上y变量的第i个变量与期望值（这里也成为期望频数，例如一个人每天去咖啡馆的平均次数）的差值的平方，除以期望值之后进行汇总计算。然后再开平方。

Phi方距离Phi-Square Measure Distance

和卡方距离的区别在于，是在最后一个开平方之前，先除以总频数n。即加入了总频数的数学考量。

如果变量是二项式数值，即0或1，有或无，是或非的选择，那么距离可以用以下方法定义

简单匹配系数Simple Matching

将2个选择变量进行矩阵组合，然后将一个变量为0，另一个变量为1的频数相加，作为分子，除以分母。分母为矩阵中所有频数的总和。

Jaccard系数

和简单匹配系数的区别在于，分母减去了2个变量都为0的频数，即去掉了同时为0的数据的影响。

有了距离以后，下一步是划分小组，或空间中的小球体，小集合

每个小组或小集合里面有n个样本个体，可以按照不同的原则进行最优分组。例如最近邻距离原则，组内平均链锁距离原则，重心距离，离差平方和距离方法等方法使得分组合理化和优化。

形象点说，就是科学合理的通过数据统计方法将真正的文艺青年分成一组，伪文青分成一组，另类文青分成一组。。。

如果应用于经济学领域，可以将100个国家按照发达指数、开放指数等做分类分层，按照聚类分析碎石图，可以划分层次，将这些国家分为3组、4组或更多组。

分组工具可以使用SPSS等统计分析软件的聚类分析模块来实现。

聚类分析先到这里，我们对空间和距离概念进一步引申

数学上，空间、距离等概念在应用和研究中，进行了进一步的抽象化。

我们常识上或直观上理解的多为欧几里得空间，也就是欧式空间，最常见的是三维欧式空间。即XYZ三个轴是相互垂直的关系，所有点可以通过三个轴对应映射关系进行三点定位。而欧式空间的距离，是两点之间的实际距离。

进一步引申，将三维空间抽象化之后，进行4维、5维乃至n维空间，即有n个相互垂直的坐标系，而每个点可以用n个轴上的映射进行n点定位，这个空间的两点之间的距离定义为两个点第i个坐标上映射的差值的平方和之后再开方。即我们前面提到的欧式空间距离概念。

明考斯基距离是欧式空间距离的进一步推广，如果p设定为2，则为欧式距离，如果p设定为无穷大，则为切比雪夫距离。

从以上数学定义推广过程，我们可以看出，对于数值型的空间概念，是基于欧式空间的引申推广而产生的不同定义，可以应用在合适的场合和情景下。

而距离基于线性结构八大定律之后，构成的向量空间概念，是进一步的抽象，而这个空间里，每个点到空间坐标轴原点的距离，定义为范数norm。如果向量空间定义了范数，则这个空间成为赋范向量空间。

然后进一步抽象：

赋范空间+线性结构⟶>线性赋范空间

如果在线性赋范空间上增加添加内积运算概念，即，使空间中向量在n个维度上映射的分别乘积的和，和向量之间的角度有关，则这个空间称为内积空间。

如果在这个内积空间里，所有的运算的极限运算，仍然在这个空间内，即收敛，那么这个空间就定义为希尔伯特空间Hilbert Space。

如果是基于线性赋范空间+收敛（完备性），则这个空间称为巴拿赫空间Banach Space。

回归到聚类分析，我们进一步将聚类概念进行抽象化

如果是将函数或向量进行聚类，那么函数或向量之间的距离概念，则可以通过以上范数的概念进行进一步分析，而线性赋范空间的概念，为我们为更抽象的点和集合的分组聚类提供了可供探索的工具。

聚类分析或聚类算法在机器学习、数据挖掘等人工智能领域应用较广，它的一个重点特点是通过机器或计算机将大量数据进行自动统计分类，不需要人工参与。

关于希尔伯特空间、巴拿赫空间的聚类问题，可以继续阅读相关文献。

深入阅读：

下面文献可以通过高校邮箱进行注册账号，阅读公开论文。

Clustering via Hilbert space

Clustering in Banach Spaces

相似回答

深入浅出介绍聚类分析答：欧式距离，也称欧几里得距离，是衡量多维空间的两个点之间的绝对距离，（1）二维平面，两点a(x1,y1)，b(x2,y2) 欧式距离的计算公式为：（2）三维空间，欧式距离的计算公式为：（3） n维空间，欧式距离的计算公式为：那么，体现在基因表达量的矩阵上，则如下：（1）首行为样本名；...

类间距离和类间散布矩阵概念及计算公式是什么?答：类间距离是指不同类别之间的相似度或差异程度的度量。在聚类分析中，我们通常希望将相似的样本归为一类，因此需要计算不同类别之间的距离。类间距离越小，表示两个类别越相似；类间距离越大，表示两个类别越不相似。常见的类间距离计算方法有欧氏距离、曼哈顿距离、余弦相似度等。类间散布矩阵是用来描述...

最终聚类中心之间的距离解读答：我们常识上或直观上理解的多为欧几里得空间，也就是欧式空间，最常见的是三维欧式空间。即XYZ三个轴是相互垂直的关系，所有点可以通过三个轴对应映射关系进行三点定位。而欧式空间的距离，是两点之间的实际距离。进一步引申，将三维空间抽象化之后，进行4维、5维乃至n维空间，即有n个相互垂直的坐标系，而...

多元统计分析第09讲(聚类分析:距离、相似系数、系统聚类)答：系统聚类的精髓在于合并距离最短的类，它包括数据预处理、距离计算、类合并和谱系图的生成。常见的方法如最短距离法、最长距离法、中间聚类等，每个方法都有其独特的递推公式。例如，当采用McQuitty相似分析法时，β值为0时，距离计算的策略有所不同。离差平方和法（WARD）通过增加类间离差平方和来定义...

什么是聚类分析?说说它在地理学中的应用。答：聚类分析的职能是建立一种分类方法，它是将一批样品或变量，按照它们在性质上的亲疏程度进行分类。距离的种类很多，其中欧式距离在聚类分析中用得最广，它的表达式如下：其中Xik表示第i个样品的第k个指标的观测值，Xjk表示第j个样品的第k个指标的观测值，dij为第i个样品与第j个样品之间的欧氏距离。若...

聚类分析中的测度主要有哪些?答：距离测度、相似测度和匹配测度。距离测度例如欧氏距离、绝对值距离、明氏距离、马氏距离等。相似测度有角度相似系数、相关系数、指数相似系数等。聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类...

数据分析之聚类分析答：（iii）二元：适用于0/1分类变量，SPSS提供多达27种测量方法，通常选用【平方欧式距离】即可。通过方法里的转换值项来进行标准化处理。由于参与聚类分析的变量是连续变量，所以，【测量】应选择【区间】项，方法为默认的【平方欧式距离】，标准化可以选择【Z得分】，选择按【变量项】，用以每个变量单独...

大家正在搜

判别分析与聚类分析有何异同聚类分析距离聚类分析欧氏距离最短距离聚类分析例题中间距离法聚类例题最短距离法聚类分析5个样品聚类分析最长距离法聚类分析的定义简述聚类的基本概念