(转)各种类型的数据的相异度（相似度）的度量

如题所述

举报该问题

其他回答

第1个回答 2022-06-04

1.对于标量

标量也就是无方向意义的数字，也叫标度变量。现在先考虑元素的所有特征属性都是标量的情况。例如，计算X={2,1,102}和Y={1,3,2}的相异度。一种很自然的想法是用两者的欧几里得距离来作为相异度，欧几里得距离的定义如下：

其意义就是两个元素在欧氏空间中的集合距离，因为其直观易懂且可解释性强，被广泛用于标识两个标量元素的相异度。将上面两个示例数据代入公式，可得两者的欧氏距离为：

除欧氏距离外，常用作度量标量相异度的还有曼哈顿距离和闵可夫斯基距离，两者定义如下：

欧氏距离和曼哈顿距离可以看做是闵可夫斯基距离在p=2和p=1下的特例。另外这三种距离都可以加权，这个很容易理解，不再赘述。

下面要说一下标量的规格化问题。上面这样计算相异度的方式有一点问题，就是 取值范围大的属性对距离的影响高于取值范围小的属性 。例如上述例子中第三个属性的取值跨度远大于前两个，这样不利于真实反映真实的相异度，为了解决这个问题，一般要对属性值进行规格化。所谓规格化就是将各个属性值按比例映射到相同的取值区间，这样是为了平衡各个属性对距离的影响。通常将各个属性均映射到[0,1]区间，映射公式为：

其中max(ai)和min(ai)表示所有元素项中第i个属性的最大值和最小值。例如，将示例中的元素规格化到[0,1]区间后，就变成了X’={1,0,1}，Y’={0,1,0}，重新计算欧氏距离约为1.732。

2.对于二元变量

所谓二元变量是只能取0和1两种值变量，有点类似布尔值，通常用来标识是或不是这种二值属性。对于二元变量，上一节提到的距离不能很好标识其相异度，我们需要一种更适合的标识。一种常用的方法是用元素相同序位同值属性的比例来标识其相异度。

设有X={1,0,0,0,1,0,1,1}，Y={0,0,0,1,1,1,1,1}，可以看到，两个元素第2、3、5、7和8个属性取值相同，而第1、4和6个取值不同，那么相异度可以标识为3/8=0.375。一般的，对于二元变量，相异度可用“取值不同的同位属性数/单个元素的属性位数”标识。

上面所说的相异度应该叫做对称二元相异度。现实中还有一种情况，就是我们只关心两者都取1的情况，而认为两者都取0的属性并不意味着两者更相似。例如在根据病情对病人聚类时，如果两个人都患有肺癌，我们认为两个人增强了相似度，但如果两个人都没患肺癌，并不觉得这加强了两人的相似性，在这种情况下，改用“取值不同的同位属性数/(单个元素的属性位数-同取0的位数)”来标识相异度，这叫做非对称二元相异度。如果用1减去非对称二元相异度，则得到非对称二元相似度，也叫Jaccard系数，是一个非常重要的概念。

3.对于分类变量

分类变量是二元变量的推广，类似于程序中的枚举变量，但各个值没有数字或序数意义，如颜色、民族等等，对于分类变量，用“取值不同的同位属性数/单个元素的全部属性数”来标识其相异度。

4.对于序数变量

序数变量是具有序数意义的分类变量，通常可以按照一定顺序意义排列，如冠军、亚军和季军。对于序数变量，一般为每个值分配一个数，叫做这个值的秩，然后以秩代替原值当做标量属性计算相异度。

5、向量

其中||X||表示X的欧几里得范数。

要注意，余弦度量度量的不是两者的相异度，而是相似度！

参考文献：
算法杂货铺——k均值聚类(K-means) - T2噬菌体 - 博客园 http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html
[各种类型的数据的相异度（相似度）的度量 #

各种类型的数据的相异度（相似度）的度量
]( http://blog.csdn.net/u010451580/article/details/53163634 )

相似回答

数据挖掘干货总结(四)--聚类算法答：– 硬聚类：每个对象只属于一个类 – 软聚类：每个对象以某个概率属于每个类 3. 用向量表示对象 – 每个对象用一个向量表示，可以视为高维空间的一个点 – 所有对象形成数据空间（矩阵）– 相似度计算：Cosine、点积、质心距离 4. 用矩阵列出对象之间的距离、相似度 5. 用字典保存上述矩阵（节省空...

WGCNA(转载)答：问36、看WGCNA说明是用相异矩阵D(D=1-TOM)去做聚类,然后动态剪切? 答:用TOM值来构建矩阵,TOM值就是两个样本的相似度,1-TOM值就是两个样本的差异度,相似度与差异度可以理解为一个东西,并不矛盾。问37、模块特征值和样本性状相关分析的具体方法是? 答:R包用的是计算相关系数的方法。问38、WGCNA里面一般...

灰色关联分析法是什么数学方法答：因此，灰色关联分析方法，是根据因素之间发展趋势的相似或相异程度，亦即“灰色关联度”，作为衡量因素间关联程度的一种方法[16]。灰色系统理论提出了对各子系统进行灰色关联度分析的概念，意图透过一定的方法，去寻求系统中各子系统（或因素）之间的数值关系。因此，灰色关联度分析对于一个系统发展变化态势...

变异什么意思答：数据的变异性（散布，离散度）可看作是对不同数值间的差异性的度量。直观来说，上面第一组数据组数值之间相差比较大，而第三组数据组中任意数值之间相等无差异。而当我们在比较“数值之间的差异”时，其实是在把组内的每个数值与一个“特定的数值”进行比较。这个“特定的数值”，通常情况下其实就是...

聚类分析聚类算法中包含哪些数据类型答：则两者之间越相似(相近)。许多聚类算法都是以相异度矩阵为基础的，如果数据是用数据矩阵形式表示，则往往要将其先转化为相异度矩阵。相异度d(i,j)的具体计算会因所使用的数据类型不同而不同，常用的数据类型包括：区间标度变量，二元变量，标称型、序数型和比例标度型变量，混合类型的变量。

量化投资的主要方法和前沿进展答：预测关心的是精度和不确定性,通常用预测方差来度量。聚类就是利用数据的相似性判断出数据的聚合程度,使得同一个类别中的数据尽可能相似,不同类别的数据尽可能相异。3.小波分析小波(Wavelet)这一术语,顾名思义,小波就是小的波形。所谓“小”是指它具有衰减性;而称之为“波”则是指它的波动性,其振幅正负相间的...

科学网—我所理解的统计思维 - 王伟的博文答：这些相异字中,有14,376个字从头到尾只出现过1次,有4,343个字只出现2次。出现几次的字都被计算出来。那些在总作品中, 出现频率较低的,就是莎士比亚的生僻字。依据这些数据,假设这首共429个字的“Taylor诗”为莎士比亚所写,他们估计会有几个字,在总作品中从未出现(也就是新字),只出现1次,2次, ……,...

大家正在搜

数据库数据类型有哪几种数据的三种类型数据的类型分为几种数据的类型数据库的类型数据库四种类型数据库有哪些类型数值型数据定类数据