Advertisement

欧氏距离_机器学习中的分类距离

阅读量:
c0c807ac7d3da0503f6d1d83df4fab11.png

作者 | 我的智慧生活

来源 | 咪付

在日常生活中常用作表示两点间的远近程度的距离指标,在人工智能机器学习领域中则被用作评估两个样本相似程度的标准

“物以类聚”

我们认识到"物以类聚"常用来比喻同类事物倾向于聚集在一起。在机器学习领域中, 距离源自"物以类聚"的思想。基于两个样本特征数据进行距离计算得出的结果, 距离值越小则代表两者的相似度越高;换言之, 计算出的距离值越小, 两者的归属类别就越接近;最后可知, 距离能够直接决定样本的归属类别。

例如,在下图中,对于机器学习来说存在着两种距离:

(1)一是人物的空间位置距离;

(2)二是人物的性格爱好距离。

8844ae15f00cf8b13d89b77bacc2eb9a.png

对于第一类距离而言,在这种情况下(即当比较对象为A和C时),它们之间的相似程度高于比较对象为A和B时的情形;而在第二种情况中(即当比较对象为A和B时,在其中一个人喜欢打球的情况下),它们之间的相似程度较低。通过以下公式可计算出两个实体间的爱好相似度:

为了量化评估个人对篮球运动的喜爱程度,我们采用了0-10分这一量化指标。该得分值越高,则表示参与者对篮球运动的热情越大。假设A、B、C三位球员的得分为:

70103793d8c34d059799857465b97e8b.png

可见,A与B两人成绩相近,A与B两人之间的分差低于A与C两人之间的分差,这个分差即是机器学习所需计算的距离,经过比较可知,A与B两者的距离较小,容易将两者归入同一类别,当然,在机器学习中通常涉及多个属性综合考虑和判断过程更为复杂

物理几何空间距离

机器学习中用于测量两个样本点之间差异的距离方法多种多样。其中最常用的方法是基于物理几何的空间距离进行评估。即为两点之间的实际物理间距。这类直观上可以感知的距离非常实用。

欧氏距离

(Euclidean Distance)

曼哈顿距离

(Manhattan Distance)

切比雪夫距离

(Chebyshev Distance)

闵氏距离

(Minkowski Distance)

夹角余弦

(Cosine)

这几类物理几何空间距离的应用非常多,尤其是欧氏距离。

曼哈顿距离

为了更好地直观理解机器学习中的各种距离概念,在介绍完曼哈顿距离的基本定义后,我们可以进一步深入探讨其在实际应用中的表现特征

我们知道曼哈顿是“世界的十字路口”,那里有非常多的十字交叉路口。

18c11a38b46390553c3b31f8893dd139.png

曼哈顿距离是指两个点在城市街道上行驶所需经过的距离总和,在城市规划中常被称为城市街区距离。文中通过下图具体展示了这一概念:从十字路口O到E所需的行驶路程为a加b公里(英尺),这正是曼哈顿距离的表现形式。

1f2dc5613fcad3943667f9ecbc1c7b9e.png

O与E两点之间的直接线路是我们日常生活中常常提及的两个地点之间的距离,在现实的城市街区中(即平面直角坐标系中),车辆无法从O点直接沿直线行驶到E点(即欧几里得空间中的连接两点的线段),如果没有超自然能力的话,在现实的城市中行驶就必须依赖于道路网形成的网格结构(也就是曼哈顿网格)。因此,在这样的限制下产生的曼哈顿距离正是源于这种现实路径限制的情况而得名。

一图看清“欧曼雪”

此外,在二维平面坐标系中对欧氏距离、曼哈顿距离以及切比雪夫距离(简称为"欧曼雪")之间的区别进行对比分析。

0f7376c022924150792800eec2f19d99.png

上图是由X和Y组成的二维平面坐标,现有A、B两个二维样本值,其投影坐标点分别为:

A(X1,Y1)、B(X2,Y2)

图中A、B两点之间连线段c即为A、B两个样本的欧氏距离。由此可见,欧氏距离即为两个样本值在其坐标空间上的点之间的直线距离。

如何计算A与B之间的欧氏距离?

从图中可以看出,A、B两点之间的直线段(c)与其横坐标差值线段:

a=X2-X1

纵坐标差值线段:

b=Y2-Y1

构成了一个直角三角形,根据勾股定理的关系可知:

c²=a²+b²

因此,我们可以根据坐标点A(X1,Y1)、B(X2,Y2),求得c值。即计算式为:

c²=a²+b²=(X2-X1)²+(Y2-Y1)²

A与B之间的曼哈顿距离又是怎样的距离呢?

在上图所示的情况下,曼哈顿距离是从点A直线移动至点C,并随后从点C直线移动至点B的总行程的距离。

a+b=|X1-X2|+|Y1-Y2|

让我们详细探讨一下切比雪夫距离,在上述二维平面坐标图中展示了一个具体的案例,在这一案例中,A点与B点之间的切比雪夫距离是通过比较参数a和b的大小来进行确定的,具体而言,当参数a大于参数b时,则该距离等于参数a的值.计算公式如下:

Max(|X1-X2|,|Y1-Y2|)

由此可看出,上述“欧曼雪”三种距离的实质分别如下:

- 欧氏距离 -

两个样本同一特征分量值差值的平方之和,再开平方根

- 曼哈顿距离 -

两个样本同一特征分量值差值的绝对值之和

- 切比雪夫距离 -

两个样本同一特征分量值差值的绝对值中的最大值

假设有三人A、B及C(即样本A号、样本B号及样本C号),我们需要以性格与爱好的两个维度来衡量他们之间的相似程度。他们的综合评价指标则表示为:A(性格1分与爱好1分)、B(性格2分与爱好2分)、C(性格3分及爱好3分)。

我们规定了上述性格、爱好的各个属性维度的评分区间,并将其设定为从零到十分。在此框架下,默认情况下这些属性维度均赋零分为基准点。以性格活泼程度为例,在这一维度上如果个体表现出极强的外向特质,则给予满分十分;相反地若缺乏这一特质则评分为零分;对于介于二者之间的状况则给予零到十分之间的相应分数。同样的逻辑适用于其他具体实例如运动爱好强度这一维度上的评分标准

针对性格活泼、爱好打球的两项特征,假设A、B、C三人的取值分别如下:

9f0c9ed9a9136bfd0175abf812a5059d.png

我们采用上述三个样本点分别为A(4,4)、B(9,5)以及C(6,1),将它们在二维坐标系中进行投影,并参考所给的二维坐标投影图来计算各对样本间的欧氏距离、曼哈顿距离以及切比雪夫距离。

a40927d5e626a82f7e13631b1263db5c.png
9ea2b046e6b70ebfe820b1cce238464c.png

观察上表计算结果发现

闵氏距离

通过上述实例的计算结果可以看出,在虽然欧氏空间中存在多种度量方式——如欧氏度量、曼哈顿度量以及切比雪夫度量等——的具体实现上各有不同;然而这些方法在衡量标准上存在一致性。此外,在这种分类下所采用的方法均可视为属于闵氏空间中的度量方式。

闵氏距离也被认为是闵可夫斯基距离的别称,在参数p的不同取值情况下,则形成了不同的度量类型。例如:
如曼哈顿距离(p=1);
欧氏空间中采用欧氏度量即欧氏距离(p=2);
当p趋向于无穷大时则采用切比雪夫度量即切比雪夫距离。

我们可知欧氏距离的本质是两个样本在相同特征维度上的数值差值平方之和后再开二次方根,在此过程中所涉及的幂指数就是闵氏距离中的变参数p赋值为2的情形。若将该幂指数(即二次方)替换成诸如1、3、4等其他次数,则可得到不同种类的闵氏距离。

因此,在此背景下,闵氏距离也可被视为欧氏距离的一种指数拓展形式,并具体对比了两者的主要特点。

ce5cba61093cc35e11b2ec8d739779e8.png

可以看出,在数学上M-距离不仅包含了常见的欧氏距离(Euclidean distance)、切比雪夫距离(Chebyshev distance)以及曼哈顿距离(Manhattan distance)等三种基本的距离指标;实际上它还是欧氏空间中的一种广义的距离表示方法(其指数参数范围已经被拓展到了任意整数)。

当然,在分析判断两个人之间的相似程度时,默认通常会考虑到性格与爱好的这两个基本特征属性。然而,在仅仅依据性格与爱好的两个方面来进行两人之间相似程度的预估时,则显得过于简化直接了当。实际上,在实际操作中我们还需综合考量更多的核心因素包括但不限于个人价值观的家庭背景等多维度信息从而得出更为准确的分类判定结果。如果在此基础上增加个人价值观这一关键因素作为评判标准则A与B两人的综合属性指标可分别表示为:A(性格特质1 爱好类型1 观念立场1) B(性格特质2 爱好类型2 观念立场2)。其中具体的数值设定假设为:A(4 4 3) B(9 5 6)。那么在计算不同类别间的距离时 则需综合考虑这一核心因素所带来的差异变化情况。例如:

曼哈顿距离计算为:

|4-9|+|4-5|+|3-6|=9;

切比雪夫距离计算为:

Max(|4-9|,|4-5|,|3-6|)=Max(5,1,3)=5;

欧氏距离计算为:

(4-9)²+(4-5)²+(3-6)² =5²+1²+3²=35,再开平方根所得。

对比上表中两维的计算式,可见,增加了|3-6|或(3-6)²这一项差值。

类比之下,在性格、爱好以及人生观这三个基本维度的基础上,还需补充考虑价值观和家庭背景这两个重要的因素。这样一来总共就形成了五个维度的综合特征。在计算各类型间差异度时,则需要相应地增加对价值观和家庭背景这两个维度差异的具体评估。

可以看出,在引入新的分量特性时(每当引入一个新的分量特性),其对应的空间维数也随之增加,并且在计算空间距离的过程中,则会相应地增加各个新增分量特性之间的差异数值。在人工智能与机器学习领域中,在提高分类准确性的需求下(为了提高分类准确性的需求),通常需要引入大量维度的数据(即需要通过大量维度的数据来进行数据建模),从而导致整体计算复杂度显著提升(整体计算复杂度显著提升)。例如,在实际应用中如人脸识别系统常使用512维特征向量来实现高精度识别(具体而言就是指该系统采用包含512个独立特性的数据向量化表示来进行人像识别操作)。

假设分别用两个特征向量:

A(X1, X2,....,X511, X512)

B(Y1, Y2,....,Y511, Y512)

来表示两个512维人脸特征数据,则该两个人脸样本之间的欧氏距离为:

( (Y1-X1) ²+(Y2-X2) ² +......+(Y511-X511) ² +(Y512-X512) ²)

通过计算得到512个分量值之间的平方差总和;然后取其平方根,则得到此二者的欧氏距离。这就是高维欧氏距离的计算过程。

夹角余弦

除了上述闵氏距离家族中的多种常见类型外,在实际应用中较为常用的一种距离指标即是所谓的夹角余弦指标。这种指标通过计算两向量间的夹角余弦值来衡量样本间的相似程度。当cosθ趋近于1时(其中θ代表两向量之间的夹角),此时两向量之间的夹角趋近于0度,则两者之间的相似程度就会越高。

为了更好地理解向量间夹角余弦的本质,在二维坐标系中选取了三个样本点A(4,4)、B(9,5)和C(6,1),它们在二维坐标系中的投影位置如图所示。这些点在二维坐标系中的投影位置如图所示。从原点O出发分别指向A(4,4)、B(9,5)和C(6,1)的线段OA OB OC即为这三个样本点对应的向量。其中 A与 B之间的向量夹角记为θ₁ A与 C之间的向量夹角记为θ₂ 根据三角形AOB各边长度即可求得θ₁的余弦值 同理根据三角形AOC各边长度即可求得θ₂的余弦值 θ₁与 θ₂的夹角示意图及计算公式如表所示

c06099bffebd793d596d012abcd5205b.png

夹角余弦计算公式(二维)

根据两个样本的坐标值计算

c65208e6e3733f834575ec0d7be4c1a7.png

余弦值取值范围为[-1,1]。余弦值越大,夹角越小。

A、B样本夹角余弦值

向量OA与OB之间的夹角余弦值

dab964f9685e9e6632a6b6c8e6d380b0.png

A、C样本夹角余弦值

向量OA与OC之间的夹角余弦值

b935810de41891672ac4828f2a9e915a.png

可以得出θ1

通过对比分析可知,在本研究中所观察到的夹角余弦相似度判断结果与采用欧氏距离等方法得出的结果呈现相反的结果原因在于两者在计算依据以及衡量标准上存在显著差异性

97d0c904ea24e2ed669d41c742ea8b23.png

我们可以用两个等边三角形的实例来认识两者的实质差别。假设存在两个等边三角形T1和T2,它们的边长分别为8个单位长度和4个单位长度。我们将这三个维度作为特征属性进行表征。它们在三维空间中的投影坐标点分别为T1(8, 8, 8)和T2(4, 4, 4)。从数值上看,尽管存在较大的差异但两者形状非常相似。从投影坐标点来看由于两者各维度上的差异值相同因此它们在三维空间中的方向完全一致。例如我们可以比较它们之间的欧氏距离以及夹角余弦值得出如下结论:

4f3d255d84fdc1bca61fa7ff5a316fe4.png
f973fd98030e4904db09285cbd0827a7.png

通过对比分析可以看出,在评判标准上有各自的特点的情况下可能导致不同的结论结果。具体来说,在不同的应用场景下应选择不同的方法。例如,在需要根据各个分量之间的差异程度进行衡量和比较时,则可以选择使用欧氏距离这一指标来进行计算;而在需要考虑整体特征向量方向关系进行比较的情形下,则更适合于使用余弦相似度这一方法来进行评估判断。而余弦相似度则更适合于综合性的评估判断情形下的应用情况;例如,在通过用户的各项行为指标评估用户的价值相似性时,则可以选择使用欧氏距离这一指标来进行计算;而在通过用户的各项评分数据来反映其兴趣偏好情况下,则更适合于使用余弦 Similarity 这一方法来进行比较;此外,在涉及文本语义理解与信息提取的任务场景下,则通常也会采用 Cosine Similarity 来计算两个文本之间的 Similarity 程度。

以上各类常见的物理几何空间距离不仅直观易懂且实用性较强 在样本各维度数据较为完整的场景下表现出良好的预测效能 但这些距离方法同样也存在明显的缺陷 如未能充分考虑各成分间的相互关联性以及对各成分的权重分配顺序存在一定的局限

在分析个性特征与行为模式的相关性时,默认情况下可能假设各维度之间存在独立性;然而,在实际应用中这种假设往往难以满足需求;因此在具体操作中应当结合研究对象的特点进行适当调整以获得更为准确的结果;在此基础上我们可以采用多种衡量指标来评估不同维度之间的关联程度;其中较为常用的方法包括基于概率统计的分布距离测量;具体而言有马氏距离法巴氏距离法杰卡德相似系数法以及皮尔逊相关系数法等;这些方法的计算过程通常需要运用统计学与概率论的相关理论因而相对而言具有较高的复杂度

然而,在物理几何空间与基于概率统计的距离分析中,其核心理念是一致的;即认为两者之间具有较高的相似性。

ab437c24e5751d1a34eddfdaed937488.png

通过扫描二维码进入CDA官方小程序吧!这里有丰富的新闻资讯和优质的学习资源哦~还有免费的试听课程等着你呢!千万别错过哦!

全部评论 (0)

还没有任何评论哟~