机器学习基础——香农熵、相对熵（KL散度）与交叉熵

阅读量：

1. 香农熵（Shannon entropy）

信息熵（又称为香农熵）表征了一个系统的无序状态的程度，在该系统中随着其有序性增强而减少，在达到完全有序状态时达到最小值；相反地，在完全无序状态下则达到最大值

设随机变量X的所有可能取值为x₁,x₂,…,xₙ，则称随机变量X的信息熵H(X)定义为：

H(X)=?∑i=1np(xi)logp(xi)

2. 相对熵（relative entropy）

所谓的相对性，在两个随机变量之间体现得尤为明显。另一种称为互熵的指标是Kullback–Leibler散度（缩略为K-L散度）。当p(x)和q(x)分别表示X取值的概率分布时，则称p相对于q的相对熵为：

D(p||q)=∑i=1np(x)logp(x)q(x)

在某种程度上, 熵表征了两个随机变量之间的距离. KL散度作为两个概率分布P和Q之间差异的非对称性指标,其本质即在于衡量基于Q的编码方案对于从P中抽取样本所需多出的信息量.

通常情况下，在统计学中,P 代表真实的数据分布情况,Q 则表示理论上的数据分布模式,或者可被视为对P的一种近似估计

相对熵的性质，相对熵（KL散度）有两个主要的性质。如下

（1）尽管 KL 散度从直观上是个度量或距离函数，但它并不是一个真正的度量或者距离，因为它不具有对称性，即

D(p||q)≠D(q||p)

（2）相对熵的值为非负值，即

D(p||q)≥0

在证明之前，需要认识一个重要的不等式，叫做吉布斯不等式。内容如下

这里提供一个离散型 KL 散度的简单实现：

from functools import functools.reduce
import operator
import math
def kl(p, q):
return functools.reduce(operator.add, map(lambda x,y: x * math.logarithm(x / y), p,q))

3. 交叉熵（cross entropy）

H(p,q)=?∑xp(x)logq(x)

通俗理解

信息熵是指在最优编码方案下所能达到的最小平均码长是多少。
交叉熵是指在实际应用中（由于对概率分布的估计可能存在偏差），所使用的平均码长是多少。
交叉熵等于最优码长加上一个增益项。
相对熵是指衡量实际码长与最优码长之间差距的一种指标。

零、信息熵
1、熵的本质即为香农定义下的期望信息量；（参考了第一个答案）
其计算方式即为对每个事件概率与其对应的信息量乘积之总和；
那么为何香农定义的信息量取值为log(1/p)呢？
由于事件发生的概率越低，则其编码所需的二进制位数会相应增加；
为了实现尽可能高效的信息编码与存储，在多次重复试验中所取得的平均编码长度即为其理论下限；
这也是为什么我们采用log函数来进行度量化的原因所在：它能够将概率与所需编码长度之间的关系转化为可计算的形式；
通过这种方式我们得以量化了一个系统所能提供的最大不确定性或随机性水平；

本质含义：编码方案完美时，最短平均编码长度的是多少

本质含义

具体来说，在最优编码方案下时的最短平均编码长度是多少

3、交叉熵 ，则可这样理解：基于"估计"的编码方式所得到的平均编码长度（可能并非最短）
其中：

p 代表真实概率分布
q 是你所估计的概率分布（可能存在偏差）
当采用 q 进行编码时（即使用 log(1/q_i) 作为码长），所得出的平均码长为 ∑ p_i * log(1/q_i)，即为交叉熵
只有当估计的概率分布 q 完全准确时（即与真实分布 p 完全一致），所得到的平均码长才是最短的；此时交叉熵值等于信息熵

本质含义：编码方案不一定完美时，平均编码长度的是多少

在两个选项中,H(p)分别表示p的信息熵与相对熵. 离散型函数: = Entropy(P) + D_{KL}(P || Q). 该式表明了两个概念之间的关系.

=Entropy(P) + D_KL(P||Q)

作用：用来衡量当前估计的概率分布与真实目标分布之间的差异程度

本质含义：由于编码方案不一定完美，导致的平均编码长度的增大值

本质含义：因为编码方案未必完美无缺的原因之下会产生平均编码长度的增长量

发现：D_KL(P||Q) = ∑P(i) *logP(i) - ∑P(i) *logQ(i)
= - Entropy(P) + 交叉熵 H(p,q)

观察到KL散度D_KL(P||Q)的计算公式如下：
$D_{KL}(P||Q) = \sum P(i)\cdot \ln P(i) - \sum P(i)\cdot \ln Q(i)$
进一步化简可得：
$D_{KL}(P||Q) = -\text{熵}(P) + \text{交叉熵}(p,q)$

1）用于度量2个取值为正数的函数之间的差异性
2）当2个完全相同的分布时，其相对熵等于零；当分布之间差异越大时，相对熵也会越大；
3）概率密度函数若其函数值均大于0，则可以利用相对熵来评估两个随机变量之间的差异程度；
4）需要注意的是，相对熵具有不对称性特点，并不满足交换律

全部评论 (0)

还没有任何评论哟~

机器学习基础——香农熵、相对熵（KL散度）与交叉熵

1\.香农熵（Shannonentropy）信息熵（又叫香农熵）反映了一个系统的无序化（有序化）程度，一个系统越有序，信息熵就越低，反之就越高。如果一个随机变量X的可能取值为X=x1,x2,…,x...

机器学习基础1-熵，相对熵，交叉熵、香农熵

信息量 \sqrtx假设X是一个离散型随机变量，其取值集合为X，概率分布函数为px=PrX=x,x∈X，我们定义事件X=x0的信息量为：Ix0=logPx0可以理解为，一个事件发生的概率越大，则它所携...

熵，交叉熵，相对熵（KL散度）

先插入一个链接可视化信息论，简单明了很容易看懂什么是信息熵信息熵是度量随机变量不确定度的指标，信息熵越大意味着随机变量不确定度越高，意味着系统的有序程度越低。

信息熵，交叉熵，相对熵，KL散度

熵，信息熵在机器学习和深度学习中是十分重要的。那么，信息熵到底是什么呢？首先，信息熵是描述的一个事情的不确定性。比如：我说，太阳从东方升起。那么这个事件发生的概率几乎为1，那么这个事情的反应的信息量...

香农熵、交叉熵和相对熵

1、自信息、香农熵信息论的基本思想是一个不太可能得事件居然发生了，要比一个非常可能发生的事件发生，能提供更多的信息。定义一个事件发生的自信息为： Ix=\logPx Px为x事件发生的概率。如果l...

机器学习中熵、交叉熵、KL散度（相对熵）之间的关系

文章目录 1信息量 2熵 3相对熵（KL散度） 4交叉熵 1信息量信息的信息量大小和它的不确定性有很大的关系，如果一句话需要很多外部信息才能确定的话，那么这句话的信息就很大，例如你说‘明天可能是晴天...

机器学习之十四：相对熵（KL散度）和交叉熵

样本间距离计算方法总结 1、熵的定义在讲解决策树的博文中曾经提到过熵的定义，熵是表示随机变量不确定性的度量，熵越大，则随机变量的不确定性越大。设X是一个离散随机变量，X的概率分布为：则随机变量X的...

熵，交叉熵，KL散度，条件熵

参考理解熵与交叉熵\九号的文章知乎 https://zhuanlan.zhihu.com/p/389293738 熵计算公式：Ha=−logpaHa=logpa 就是信息量，对于一个事件A，的一种情...

信息熵、交叉熵与KL散度

信息量在信息论与编码中，信息量，也叫自信息（selfinformation），是指一个事件所能够带来信息的多少。一般地，这个事件发生的概率越小，其带来的信息量越大。从编码的角度来看，这个事件发生的概...

信息熵、KL散度(相对熵)、交叉熵通俗理解

什么是熵？熵在不同的领域有着不同的含义和应用，但核心思想是相似的，表示一个系统的无序程度。信息熵一个叫香农的美国数学家，将熵引入了信息论，并命名为“信息熵”（香农熵），信息熵用于量化信息的不确定...

是否确定退出登录?

机器学习基础——香农熵、相对熵（KL散度）与交叉熵

1. 香农熵（Shannon entropy）

2. 相对熵（relative entropy）

3. 交叉熵（cross entropy）

通俗理解

全部评论 (0)

相关文章推荐

机器学习基础——香农熵、相对熵（KL散度）与交叉熵

机器学习基础1-熵，相对熵，交叉熵、香农熵

熵，交叉熵，相对熵（KL散度）

信息熵，交叉熵，相对熵，KL散度

香农熵、交叉熵和相对熵

机器学习中熵、交叉熵、KL散度（相对熵）之间的关系

机器学习之十四：相对熵（KL散度）和交叉熵

熵，交叉熵，KL散度，条件熵

信息熵、交叉熵与KL散度

信息熵、KL散度(相对熵)、交叉熵通俗理解