机器学习中熵、交叉熵、KL散度（相对熵）之间的关系

阅读量：

文章目录

- - 1 信息量
  - 2 熵
  - 3 相对熵（KL散度）
  - 4 交叉熵

1 信息量

信息的信息量大小和它的不确定性有很大的关系，如果一句话需要很多外部信息才能确定的话，那么这句话的信息就很大，例如你说‘明天可能是晴天’，那你需要去看天气预告等去预测明天是否晴天，有一定的不确定性，如果你说‘今天是周五，明天是周六’，那么这句话就没什么信息量，因为这是既定的事实，确定性很高。
因此我们就将事件x_0的信息量定义如下：
$I(x_0) = -log(p(x_0)) \qquad (1)$
其中概率p是介于0到1之间的数值，概率越大，信息量越小。

2 熵

信息量是对单次事件来说的，实际中一个事件有多种发生的可能，比如明天可能晴天、多云、下雨等天气。
熵表示随机事件不确定的度量，是对所有可能发生的事件的信息量的期望。
$H(x) = -\sum_{i=1}^{n}p(x_i)log(p(x_i)) \qquad (2)$
其中n表示事件可能发生的情况的总数。
如果对于二分类问题，二项分布或者0-1分布，那么n=2，熵的计算可以转化为：
$H(x) = -\sum_{i=1}^{n}p(x_i)log(p(x_i))$
$\qquad\qquad\qquad =-p(x)log(p(x))-(1-p(x))log(1-p(x)) \qquad (3)$
其中p(x)代表正例的概率，1-p(x)表示负例的概率。

3 相对熵（KL散度）

相对熵又称KL散度。用于衡量同一个随机变量x的两个分布p(x)和q(x)之间的差异，其中p(x)用于表示样本的实际分布，例如[1,0,0,0]表示样本属于第一类，q(x)用于表示样本的预测分布，例如[0.6,0.2,0.1,0.1]，很显然，使用p(x)表示样本比q(x)准确，q(x)是需要通过不断学习来拟合实际的分布p(x)。
KL散度的公式如下：
$D_{KL}(p||q) = \sum_{i=1}^{n}p(x_i)log(\frac{p(x_i)}{q(x_i)}) \qquad (4)$
KL散度的值越小表示两个分布越接近。

4 交叉熵

将KL散度公式进行分解变形得到：
$D_{KL}(p||q) = \sum_{i=1}^{n}p(x_i)log(\frac{p(x_i)}{q(x_i)})$
$\qquad\qquad= p(x)log(p(x)) - p(x)log(q(x))$
$\qquad\qquad= -(-p(x)log(p(x))) + [ - p(x)log(q(x))]$
$\qquad\qquad= -H(x) + [ - p(x)log(q(x))] \qquad (5)$
因此，三者之间满足：
KL散度 = -熵 + 交叉熵
机器学习中，常使用KL散度来评估预测值predict和实际值label之间的差别，但是从上面可以看出来前半部分-熵是一个常数，因此就直接将后半部分的交叉熵作为损失函数，结果是等效的。

全部评论 (0)

还没有任何评论哟~

机器学习中熵、交叉熵、KL散度（相对熵）之间的关系

文章目录 1信息量 2熵 3相对熵（KL散度） 4交叉熵 1信息量信息的信息量大小和它的不确定性有很大的关系，如果一句话需要很多外部信息才能确定的话，那么这句话的信息就很大，例如你说‘明天可能是晴天...

熵，交叉熵，相对熵（KL散度）

先插入一个链接可视化信息论，简单明了很容易看懂什么是信息熵信息熵是度量随机变量不确定度的指标，信息熵越大意味着随机变量不确定度越高，意味着系统的有序程度越低。

机器学习之十四：相对熵（KL散度）和交叉熵

样本间距离计算方法总结 1、熵的定义在讲解决策树的博文中曾经提到过熵的定义，熵是表示随机变量不确定性的度量，熵越大，则随机变量的不确定性越大。设X是一个离散随机变量，X的概率分布为：则随机变量X的...

信息熵，交叉熵，相对熵，KL散度

熵，信息熵在机器学习和深度学习中是十分重要的。那么，信息熵到底是什么呢？首先，信息熵是描述的一个事情的不确定性。比如：我说，太阳从东方升起。那么这个事件发生的概率几乎为1，那么这个事情的反应的信息量...

机器学习基础——香农熵、相对熵（KL散度）与交叉熵

1\.香农熵（Shannonentropy）信息熵（又叫香农熵）反映了一个系统的无序化（有序化）程度，一个系统越有序，信息熵就越低，反之就越高。如果一个随机变量X的可能取值为X=x1,x2,…,x...

熵，交叉熵，KL散度，条件熵

参考理解熵与交叉熵\九号的文章知乎 https://zhuanlan.zhihu.com/p/389293738 熵计算公式：Ha=−logpaHa=logpa 就是信息量，对于一个事件A，的一种情...

信息熵、KL散度(相对熵)、交叉熵通俗理解

什么是熵？熵在不同的领域有着不同的含义和应用，但核心思想是相似的，表示一个系统的无序程度。信息熵一个叫香农的美国数学家，将熵引入了信息论，并命名为“信息熵”（香农熵），信息熵用于量化信息的不确定...

信息熵，交叉熵，KL散度（机器学习笔记）

0引入读论文的时候遇到了如下损失函数： 2式第一部分为二元交叉熵，第二部分为“类KL散度”（其中λ是人为设置的参数），3式为2式第二部分具体表达式。我不是很了解交叉熵的概念，因此我查阅了一些资料，...

交叉熵、相对熵（KL散度）、JS散度和Wasserstein距离

1信息量任何事件都会承载着一定的信息量，包括已经发生的事件和未发生的事件，只是它们承载的信息量会有所不同。如昨天下雨这个已知事件，因为已经发生，既定事实，那么它的信息量就为0。如明天会下雨这个事件，...

深度学习中的熵、交叉熵、相对熵（KL散度）、极大释然估计之间的联系与区别

熵的最初来源于热力学。在热力学中，熵代表了系统的无序程度或混乱程度，也可以理解为系统的热力学状态的一种度量。后来被广泛引用于各个领域中，如信息学、统计学、AI等，甚至社会学当中。接下来将大家领略一下深...

是否确定退出登录?

机器学习中熵、交叉熵、KL散度（相对熵）之间的关系

文章目录

1 信息量

2 熵

3 相对熵（KL散度）

4 交叉熵

全部评论 (0)

相关文章推荐

机器学习中熵、交叉熵、KL散度（相对熵）之间的关系

熵，交叉熵，相对熵（KL散度）

机器学习之十四：相对熵（KL散度）和交叉熵

信息熵，交叉熵，相对熵，KL散度

机器学习基础——香农熵、相对熵（KL散度）与交叉熵

熵，交叉熵，KL散度，条件熵

信息熵、KL散度(相对熵)、交叉熵通俗理解

信息熵，交叉熵，KL散度（机器学习笔记）

交叉熵、相对熵（KL散度）、JS散度和Wasserstein距离

深度学习中的熵、交叉熵、相对熵（KL散度）、极大释然估计之间的联系与区别