Advertisement

马氏距离(Mahalanobis Distance)与欧式距离

阅读量:

在度量学习领域中,马氏距离被视为一种重要的衡量数据间相似程度的指标。它如同欧几里得距离、曼哈顿范数以及海明距离等一样,在评估数据间的相似性方面发挥着重要作用。特别适用于处理各维度之间存在非独立同分布关系的高维线性分布数据。


什么是马氏距离

马氏距离(Mahalanobis Distance)是一种衡量数据点之间差异程度的指标。它可被视为对欧氏空间中点与点之间差异的一种优化。通过消除各维度尺度不一致以及变量间相关性的影响,马氏距离能够更准确地反映数据间的实际差异。

单个数据点的马氏距离

数据点x, y之间的马氏距离

其中Σ表示多元随机变量的协方差阵, μ代表样本均值向量.当协方差阵为单位矩阵时, 即各维度之间相互独立且服从同一分布的情况下, 计算所得的马氏距离即为欧氏距离.

马氏距离实际意义

那么马氏距离就能能干什么?它比欧氏距离好在哪里?举几个栗子

欧式距离近就一定相似?

先举一个常见的统计指标案例:身高与体重这两个变量包含不同的度量单位(即不同的尺度),例如在衡量人体时采用毫米作为长度单位与在评估体重时使用千克作为质量单位。显而易见的是,在这种情况下相差10mm的身高与相差10kg的体重所代表的意义是截然不同的。然而,在传统的欧几里得距离计算方法下(即普通的欧氏距离),这两种差异会被视为相同的差异程度。

归一化后欧氏距离近就一定相似?

在这一过程中, 我们可以首先执行归一化处理, 以消除各维度之间尺度差异带来的影响。然而, 样本的分布情况同样会对分类结果产生重要影响。

举一个一维的例子来说明问题:假设我们有两个类别,并对它们进行了统一单位的处理。第一个类别具有均值为0、方差为0.1的分布;第二个类别则具有均值为5、方差也为5的分布。那么对于数值是2的情况来说:它属于第一类的可能性有多大?而属于第二类的可能性又是多少?从距离的角度来看,在统计意义上应该归于第一类;但直觉上来看,则可能归于第二类——因为从数据分布的位置来看,在数值2附近出现于第一类的可能性较低。

因此,在方差较小的维度中,即使数值差异微小也可能被视为异常值。如同上图所示,在原点附近A和B两点到中心的距离是一样的。然而由于样本总体主要沿横轴分布,在这种情况下B更可能是属于该样本的数据点,而A则可能被归类为异常值。

算上维度的方差就够了?

还有一个值得探讨的问题是:若各维之间并非相互独立且服从同一分布,则在该条件下(即各维之间并非相互独立且服从同一分布),不同类别的样本点反而可能更容易出现在彼此较近的位置。

可以看到样本基本上遵循f(x)=x这一线性分布模式,在坐标系中A和B相对于原点的距离仍然保持一致,在整体趋势上,A明显偏离了其他数据点,表现出明显的离群特征。

即便数据进行了标准化处理,其间的相互关系依然保持不变。为了从根本上解决这一问题,则需对主成分分析方法中的主成分实施标准化。

马氏距离的几何意义

上一部分弄通了,则马氏距离的概念就容易理解了。具体来说,在高维空间中计算两点之间的距离时,我们只需要将变量通过主成分分析进行旋转变换以消除各维之间相互独立的影响,并对各维数据进行标准化处理使分布趋于一致即可完成计算

根据主成分分析原理可知:因为每个主成分的方向即为对应的特征向量方向;而每个方向上的方差即为其对应的特征值;因此只需将数据沿着各特征向量的方向进行相应的旋转变换,并对各维度分别进行缩放对应特征值倍;即可得到如下的结论:

离群点就被成功分离,这时候的欧式距离就是马氏距离。

马氏距离的推导

首先需要将数据点进行旋转变换,并将其移动至主成分的位置。为了确保各维度之间呈线性独立状态,在此过程中设定新的坐标系。

又变换后维度间线性无关且每个维度自己的方差为特征值,所以满足:

马氏距离是旋转变换缩放之后的欧式距离,所以马氏距离的计算公式为:

这就是之前提到的马氏距离的公式

马氏距离的问题

  • 协方差矩阵必须满秩

在这一过程中涉及求逆矩阵的操作,在矩阵不满秩的情况下不可行。为了满足条件,在应用该方法之前应具备原始维度的特征值数量。如果无法满足条件,则可考虑先进行主成分分析(PCA)。经过上述处理后,在应用PCA时并不会丢失任何信息

  • 不能处理非线性流形(manifold)上的问题

仅限于线性空间的有效性,在处理流形时必须限定局部区域进行定义,并可用于构建K-近邻图

全部评论 (0)

还没有任何评论哟~