Advertisement

交叉熵(Cross-Entropy)

阅读量:

交叉熵(Cross-Entropy)

交叉熵即为一个在机器学习领域频繁提及的术语。本文将深入探讨这一概念。

1.什么是信息量?

假设值也非常的低。

2.什么是熵?

那么什么是熵呢?通过上面的例子来说明,假设小明的成绩服从一个两点分布,其熵H等于1,这意味着小明的成绩不确定性较前两名同学更高得多,在成绩公布之前,很难准确预测他的考试结果.由此可见,熵实际上就是信息量的平均值,它是用来衡量随机变量的信息确定性度量.当变量X的不确定性越大时,其对应的条件熵H(X)也会越大;反之,当变量X越容易被预测时,H(X)则会越小.

假设有一个随机变量X,则其各种可能取值所对应的信息熵的期望值即为其熵。特别地,在X服从伯努利分布的情况下,其熵与成功概率p之间的关系如图所示:

这里写图片描述

可以看出,在两个可能情况出现概率相同的情况下(即此时没有任何已知信息),不确定性达到最大值。这一规律同样适用于具有多种可能情况的系统。从图形中可以看出,在p=0或1时(即变量X的状态已被唯一确定),其熵值等于零。根据对数函数的不同基底选择…当基底为2时…其单位称为"比特"(bit);若采用自然对数,则称作"奈特"(nats)。

3.什么是相对熵?

相对熵(relative entropy)也被称为KL散度(Kullback-Leibler divergence),衡量两个概率分布之间差距的一种指标。通常用符号D_{KL}(p||q)表示,在真实分布p的情况下,当使用q分布来进行编码时相比最优编码方案所增加的比特数量。

4. 什么是交叉熵?

交叉熵有时会让人混淆于相对熵的概念,然而两者之间存在密切的关系却也存在本质区别。假设我们有两个概率分布

5.参考链接:

维基百科关于cross-entropy的解释
交叉熵损失函数
UFLDL平台提供的logistic回归详细讲解
Kraft's 不等式
视觉信息分析教程

全部评论 (0)

还没有任何评论哟~