机器学习:距离度量
距离度量是数据分析、机器学习和模式识别中用于衡量不同数据点之间相似性或差异性的关键概念。距离度量的选择直接影响着模型的效果,尤其是在基于距离的学习算法(如 K 最近邻算法)中。以下是一些常见的距离度量方法的概述:
1. 欧几里得距离 (Euclidean Distance)
定义: 欧几里得距离是二维或多维空间中两点之间的直线距离,公式为:

其中 p 和 q 是两个数据点,n 是特征的数量。
特点:
常用且直观,适用于数值型数据 。
对于高维数据,可能受到“维度诅咒”的影响,即表现差的距离度量。
2. 曼哈顿距离 (Manhattan Distance)
定义: 曼哈顿距离是计算两点之间在各个维度上绝对差值之和 的距离,公式为:

特点:
也称为“城市街区距离”,因其模拟一条条街道的移动方式。
对于某些数据集或特征值较大时比欧几里得距离更具鲁棒性。
3. 切比雪夫距离 (Chebyshev Distance)
定义: 切比雪夫距离是基于最大差 异来衡量的距离,公式为:

特点:
适用于棋盘问题中,表示在水平、垂直方向上的最小步数。
有助于了解最坏情况下的距离。
4. 闵可夫斯基距离 (Minkowski Distance)
定义: 闵可夫斯基距离是一个通用的距离度量,可以看作是欧几里得距离和曼哈顿距离的推广。其公式为:

其中 m 是一个参数,决定了具体的距离类型:
当 m = 1时,变为曼哈顿距离;
当 m = 2时,变为欧几里得距离。
5. 余弦相似度 (Cosine Similarity)
定义: 余弦相似度用于衡量两个向量之间的夹角大小,主要用于文本数据处理中的相似性衡量 ,公式为:

特点:
其值在 -1 到 1 之间,值越接近 1 表示越相似。
常用于文本分析和信息检索。
6. 杰卡德相似性 (Jaccard Similarity)
定义: 杰卡德相似性用于衡量两个集合的相似性,计算公式为:

特点:
适用于二元数据(如特征存在与否),反映了两个集合的相似程度。
7. 汉明距离 (Hamming Distance)
定义: 汉明距离衡量两个等长字符串之间不同字符的数量,适用于分类和编码理论。
特点:
计算两个字符串或向量之间的位置上不同的元素总数,尤其常用于离散数据或二进制数据。
8. 总结
距离度量作为机器学习及数据分析的重要基础,选择合适的距离度量方法对于提高模型性能至关重要。在实际应用中,选择距离度量时应考虑数据的性质、特征类型和目标任务的要求。
