机器学习中的距离公式
1. 欧式距离 (Euclidean Distance)
公式:
[ d(p, q) = \sqrt{\sum_{i=1}^n (p_i - q_i)^2} ]
解释:
欧几里得距离是直线距离,在n维空间中计算两个点之间的直线距离。它是几何学中最常用的度量工具之一。
应用:
适用于数值型数据,常用于聚类分析和最近邻搜索。
2. 曼哈顿距离 (Manhattan Distance)
公式:
[ d(p, q) = \sum_{i=1}^n |p_i - q_i| ]
解释: 曼哈顿距离用于度量两个点在各维度上的绝对差值总和。它也被称为城市街区距离或称为L1范数。
应用:
适用于数值型数据,常用于图像处理和某些优化问题。
3. 切比雪夫距离 (Chebyshev Distance)
公式:
[ d(p, q) = \max_i |p_i - q_i| ]
解释:
切比雪夫距离是各维度上最大绝对差值的距离度量。
应用:
适用于需要考虑最大偏差的场景,如棋盘游戏中的国王移动。
4. 闵可夫斯基距离 (Minkowski Distance)
公式:
[ d(p, q) = \left( \sum_{i=1}^n |p_i - q_i|^p \right)^{\frac{1}{p}} ]
解释: 闵可夫斯基距离被视为欧式距离与曼哈顿距离的扩展形式,在参数 ( p ) 的影响下决定了不同空间中的测量方式。当指数取值为1时,则遵循曼哈顿空间的距离计算规则;而当指数取值为2时,则遵循经典的欧式空间测量方法。
应用:
5. 马哈拉诺比斯距离 (Mahalanobis Distance)
公式:
[ d(p, q) = \sqrt{(p - q)^T S^{-1} (p - q)} ]
在本研究中,在本研究中
应用:
适用于考虑特征之间相关性的场景,如多变量统计分析和异常检测。
6. 余弦距离 (Cosine Distance)
公式:
[ d(p, q) = 1 - \cos(\theta) = 1 - \frac{p \cdot q}{\|p\| \|q\|} ]
解释: 该方法用于计算两个向量之间的夹角,并其取值范围为 0 到 1;其计算结果即为该夹角的余弦值。
应用:
适用于高维稀疏数据和文本数据,如文档相似度计算。
7. 汉明距离 (Hamming Distance)
公式:
[ d(p, q) = \sum_{i=1}^n [p_i \ne q_i] ]
解释:
汉明距离计算两个等长字符串或二进制向量中不同字符的个数。
应用:
适用于字符串和二进制数据,常用于错误检测和纠错编码。
8. 杰卡德距离 (Jaccard Distance)
公式:
[ d(p, q) = 1 - \frac{|p \cap q|}{|p \cup q|} ]
解释:
杰卡德距离用于评估两个集合之间的差异性。杰卡德相似系数等于它们交集大小与并集大小的比例。
应用:
适用于集合数据,常用于分类和聚类分析。
9. 布雷-柯蒂斯距离 (Bray-Curtis Distance)
公式:
[ d(p, q) = \frac{\sum_{i=1}^n |p_i - q_i|}{\sum_{i=1}^n |p_i + q_i|} ]
解释:
布雷-柯蒂斯距离衡量两个样本在多维空间中的差异,结果在 [0,1] 之间。
应用:
适用于生态学和环境科学中的物种分布比较。
10. 洛伦兹距离 (Lorentzian Distance)
公式:
[ d(p, q) = \sum_{i=1}^n \log(1 + |p_i - q_i|) ]
说明: 洛伦兹距离作为一种数学工具,在一些统计学和信号处理领域中应用广泛。具体而言,在计算两个数据集之间的差异时(即计算差值),通过对这些差值取自然对数的方式(即对数值运算),可以有效降低由于极端值(异常数据)所带来的干扰影响。
应用:
适用于处理有噪声的数据,减小异常值对距离的影响。
11. 动态时间规整 (Dynamic Time Warping, DTW)
解释: DTW 被广泛应用于时间序列分析;通过非线性匹配算法确定最优对齐路径;用于评估两个时间序列间的相似程度。
应用:
适用于时间序列数据,如语音识别、手写识别和时间序列聚类。
12. Hausdorff距离 (Hausdorff Distance)
公式:
[ d(A, B) = \max\{\sup_{a \in A} \inf_{b \in B} d(a, b), \sup_{b \in B} \inf_{a \in A} d(b, a)\} ]
用以计算两个集合之间最大的差距(即 Hausdorff 距离),考虑到两个集合内的各点间的最远间距。
应用:
适用于计算机视觉和形状分析,衡量形状或图像之间的相似性。
13. 地理距离 (Geodesic Distance)
解释:
地理距离用于球面上两点之间的最短路径测量,考虑地球的曲率。
应用:
适用于地理信息系统 (GIS),计算地理位置之间的距离。
14. 加权欧氏距离 (Weighted Euclidean Distance)
公式:
[ d(p, q) = \sqrt{\sum_{i=1}^n w_i (p_i - q_i)^2} ]
解释: 在计算各维度之间的距离时,加权欧氏距离会为每个维度分配不同的权重系数;特别适用于各个维度重要性有所差异的情况。
应用:
适用于多特征数据分析,特别是在某些特征比其他特征更重要时。
15. 均方根距离 (Root Mean Square Distance)
公式:
[ d(p, q) = \sqrt{\frac{1}{n} \sum_{i=1}^n (p_i - q_i)^2} ]
解释:
均方根距离作为欧氏距离的一种变形,在计算各数值与其均值之间偏差平方后的平均值并开平方的基础上形成。它用以评估数据间差异程度的一种普遍指标。
应用:
适用于统计和工程学中的误差度量。
16. Pearson相关距离 (Pearson Correlation Distance)
公式:
[ d(p, q) = 1 - \frac{\text{cov}(p, q)}{\sigma_p \sigma_q} ]
解释: 该方法用于表示两个变量之间的线性关联程度。其计算结果通常位于-1到1之间。
应用:
适用于统计分析和数据挖掘中的相关性度量。
17. Canberr距离 (Canberra Distance)
公式:
[ d(p, q) = \sum_{i=1}^n \frac{|p_i - q_i|}{|p_i| + |q_i|} ]
解释: Canberra距离是一种加权的距离测度,在数值范围差异显著但尺度层次分明的数据中具有特殊适用性。
应用:
适用于环境科学和生态学中物种间相似性的测量。
18. 谐波距离 (Harmonic Mean Distance)
[d(p, q) = \frac{2 \sum_{i=1}^n p_i q_i}{\sum_{i=1}^n (p_i + q_i)}]
这种距离用于某些加权平均的计算中。
