Advertisement

马氏距离与欧式距离

阅读量:

一、欧式距离

欧式距离就是在m维空间中两个点之间的真实距离。二维空间中的欧式距离就是两点之间的直线距离。大家对欧式距离比较熟悉,也就不多介绍了。

欧式距离缺点:

1.它不考虑总体分布对个体距离的影响, 将数据不同维度之间的统计差异、物理意义等同看待。比如现在有两套房子,我们把房子的价值按:大小、新旧、位置、家具来进行数据表达,A房子:大小200平方、使用10年、坐落市中心0、没有家具0。 B房子:大小50平方、使用10年、坐落市中心0、屋内有一张价值10万元的画。显然就房子价值来说A房子比B房子价值高,因为画很可能不是房子的附属物品,但是就计算欧式距离来说,二者的价格距离可能很近,这就是因为欧式距离忽略了不同属性之间的差异。

2.由1可以理解,欧氏距离受 变量的量纲影响。

二、马氏距离

马氏距离解决了上述欧式距离的两个缺点,列举两个图来说明问题:

假设A,B为两个在同一分布下的两个样本,A,B到中心u的距离在一个以u为圆心的圆上, A,B到中心的距离相同。

而在马氏距离下:考虑了总体样本分布后,A,B到样本中心u的距离在一个椭圆上, B立中心较远。

马氏距离公式:

对于一个均值为μ=(μ1,μ2,…,μp)T,协方差矩阵为Σ的多变量矢量x=(x1,x2,…,xp)T,其马氏距离为:
(点x到中心u之间的马氏距离)

马氏距离也可以定义为 两个服从同一分布并且其协方差矩阵为Σ的两个随机变量的差异程度:
(点x和y之间的马氏距离:在同一分布下)

如果协方差矩阵为 单位矩阵,马氏距离就简化为欧氏距离

缺点:

1.马氏距离的计算是建立在总体样本的基础上的,这一点可以从上述协方差矩阵的解释中可以得出,也就是说,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,比如下边这个例子:


2.在计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧式距离计算即可(通常情况下,样本数是很容易大于样本的维数的)

3.如果样本的维数非常大,那么计算它的协方差矩阵是十分耗时的!

全部评论 (0)

还没有任何评论哟~