Entropy（熵）、Cross_Entropy（交叉熵）、KL散度

阅读量：

1. 信息熵（Entropy）

获得1 bit 的信息可以将不确定性减少一半（也可以说不确定性降低了2倍）

例子：

假设天气情况完全随机，有晴天、雨天两种情况，则是晴天或雨天的概率各为0.5。那么只需要1 bit ( $^{log_{2}2}$ ) 的信息就可以消除这个不确定性（用0代表晴天，1代表雨天，或者反过来也行），此时，获取1bit信息，不确定性降低2倍也就是概率乘2，0.5*2=1，变成了确定事件，消除了不确定性。

假设天气情况完全随机，有4种情况，则是每种情况的概率各为0.25。那么需要2 bit ( $^{log_{2}4}$ ) 的信息来消除这个不确定性（用00，01，10，11代表四种天气情况），此时，获取2bit信息，不确定性降低2倍再降低2倍也就是概率乘2再乘2，0.2522=1，变成了确定事件，消除了不确定性。

假设天气情况完全随机，有8种情况，则是每种情况的概率各为0.125。那么需要3 bit ( $^{log_{2}8}$ ) 的信息来消除这个不确定性（用000，001，010，011，100，101，110，111代表八种天气情况），此时，获取3bit信息，不确定性降低8倍也就是概率乘8，0.125*8=1，变成了确定事件，消除了不确定性。

以上的情况为各种基本事件出现的概率相等，对于概率不等 的情况，如下：

例子：

假设在某一地区，有晴天和雨天两种情况，晴天的概率为0.75，雨天的概率为0.25；那么这个时候，我们知道不同的天气所获得的信息量就不同了，先给出知道是晴天所获得的信息量和知道是雨天所获得的信息量；

晴天： $^{log_{2}}$ = 0.41 bit

雨天： $^{log_{2}}$ = 2 bit

在这个例子中，我们本身就知道明天大概率会是晴天，这时气象站告诉我们，明天是晴天，那么我们的不确定性并不会下降太多；但是我们知道明天是雨天的概率是0.25，这时气象站报道明天是雨天，那么我们获取到的信息将会是2 bit。

在这种情况下，衡量不确定性的是事件概率的倒数 。思考如下，如果一个事件发生的概率越小，那么这个事件的不确定性就越大，消除这个不确定性所需要获取的信息就越多。类比，概率越小，概率的倒数越大，概率的倒数的以2为底的对数就越大。

平均而言，一天从气象台获取的信息量 为：
$^{log_{2}*0.25 + log_{2}*0.75}$ = 0.81 bit

也就是说，我们平均每天需要从气象台获取0.81bit的信息来消除我们对于天气的不确定性。刚刚我们计算的，就是熵，可以看出，熵很好的衡量了事件的不确定性 。Entropy（熵）的计算公式如下（就是刚才计算公式的化简）：
$H = -um {i}p{i}log_{2}$

其中， i 代表事件 i ， $p_{i}$ 代表该事件发生的概率。

2. 交叉熵（Cross-Entropy）

交叉熵计算公式如下：
$H = -um {i}p{i}log_{2}$

其中， p 代表事件真实的概率分布， q 代表我们预测的概率分布。如果我们预测的概率分布与真实的概率分布相同，那么 H(p,q)=H(p) ，如果不相等，那么交叉熵的量就会超过熵的量，超出的这部分就被称为相对熵 ，更常见的称呼为KL散度（KL Divergence） 。

附：二分类交叉熵公式:
H=-eft p*log+*log ight

其中，p为真实是正例的概率，q是预测是正例的概率。

3. KL散度

公式：交叉熵 = 熵 + KL散度
$D_{KL} = H-H$

在实际训练分类模型时，我们通常使用以e为底的对数，而不是以2为底的对数，这对训练模型并没有什么影响，因为这两者之间就是一个倍数的关系。
$log_{2}=rac{log_{e}}{log_{e}}$

举个栗子：

五分类问题，对于其中一个样本（ball）：

真实概率分布	0%	0%	100%	0%	0%
类别	apple	banana	ball	car	peach
预测概率分布	10%	0%	60%	0%	30%

H=1.0*log=0
H=0log+1.0log+0*log=0.51

一般直接写为：
H=1.0*log=0.51
$D_{KL} = H-H=0.51-0=0.51$

全部评论 (0)

还没有任何评论哟~

Entropy（熵）、Cross_Entropy（交叉熵）、KL散度

1\.信息熵（Entropy）获得1bit的信息可以将不确定性减少一半（也可以说不确定性降低了2倍）例子：假设天气情况完全随机，有晴天、雨天两种情况，则是晴天或雨天的概率各为0.5。

熵，交叉熵，相对熵（KL散度）

先插入一个链接可视化信息论，简单明了很容易看懂什么是信息熵信息熵是度量随机变量不确定度的指标，信息熵越大意味着随机变量不确定度越高，意味着系统的有序程度越低。

熵，交叉熵，KL散度，条件熵

参考理解熵与交叉熵\九号的文章知乎 https://zhuanlan.zhihu.com/p/389293738 熵计算公式：Ha=−logpaHa=logpa 就是信息量，对于一个事件A，的一种情...

信息熵、交叉熵与KL散度

信息量在信息论与编码中，信息量，也叫自信息（selfinformation），是指一个事件所能够带来信息的多少。一般地，这个事件发生的概率越小，其带来的信息量越大。从编码的角度来看，这个事件发生的概...

信息熵，交叉熵，相对熵，KL散度

熵，信息熵在机器学习和深度学习中是十分重要的。那么，信息熵到底是什么呢？首先，信息熵是描述的一个事情的不确定性。比如：我说，太阳从东方升起。那么这个事件发生的概率几乎为1，那么这个事情的反应的信息量...

KL散度和交叉熵

KL散度KullbackLeiblerKLdivergence是信息论中的一个重要概念，它可以用来衡量两个随机分布的差异，这篇文章会举一个例子用通俗易懂的方式来解释KL散度和与它密切联系的交叉熵cro...

交叉熵与KL散度

WelcomeToMyBlog 老遇到交叉熵作为损失函数的情况,于是总结一下 KL散度交叉熵从KL散度相对熵中引出,KL散度KullbackLeiblerDivergence公式为: KL散度是衡量...

交叉熵与KL散度

KL散度 KL散度（KullbackLeiblerdivergence，简称KLD），在消息系统中称为相对熵（relativeentropy），在连续时间序列中称为随机性（randomness），在统...

交叉熵和KL散度

好文推荐：链接交叉熵（CrossEntropy）函数和KL散度（KullbackLeiblerDivergence）函数都是用于度量概率分布之间的相似性或差异性的函数。它们在信息论和机器学习中都有着...

信息量，熵,联合熵，互信息，条件熵,相对熵（KL散度），交叉熵（cross entropy）

1.信息量含义：对信息的度量。概率越小，信息量越大。公式：hxi=log2pxi 或者hxi=log2\frac1pxi pxi为事件xi发生的概率大小，一般所用底数为2。根据以上公式可以看出，...

是否确定退出登录?

Entropy（熵）、Cross_Entropy（交叉熵）、KL散度

全部评论 (0)

相关文章推荐

Entropy（熵）、Cross_Entropy（交叉熵）、KL散度

熵，交叉熵，相对熵（KL散度）

熵，交叉熵，KL散度，条件熵

信息熵、交叉熵与KL散度

信息熵，交叉熵，相对熵，KL散度

KL散度和交叉熵

交叉熵与KL散度

交叉熵与KL散度

交叉熵和KL散度

信息量，熵,联合熵，互信息，条件熵,相对熵（KL散度），交叉熵（cross entropy）