Advertisement

Entropy(熵)、Cross_Entropy(交叉熵)、KL散度

阅读量:

1. 信息熵 (Entropy)

获得1 bit 的信息可以将不确定性减少一半(也可以说不确定性降低了2倍)

例子:

假设天气情况完全随机,有晴天、雨天两种情况,则是晴天或雨天的概率各为0.5。那么只需要1 bit (^{log_{2}2}) 的信息就可以消除这个不确定性(用0代表晴天,1代表雨天,或者反过来也行),此时,获取1bit信息,不确定性降低2倍也就是概率乘2,0.5*2=1,变成了确定事件,消除了不确定性。

假设天气情况完全随机,有4种情况,则是每种情况的概率各为0.25。那么需要2 bit (^{log_{2}4}) 的信息来消除这个不确定性(用00,01,10,11代表四种天气情况),此时,获取2bit信息,不确定性降低2倍再降低2倍也就是概率乘2再乘2,0.2522=1,变成了确定事件,消除了不确定性。

假设天气情况完全随机,有8种情况,则是每种情况的概率各为0.125。那么需要3 bit (^{log_{2}8}) 的信息来消除这个不确定性(用000,001,010,011,100,101,110,111代表八种天气情况),此时,获取3bit信息,不确定性降低8倍也就是概率乘8,0.125*8=1,变成了确定事件,消除了不确定性。

以上的情况为各种基本事件出现的概率相等,对于概率不等 的情况,如下:

例子:

假设在某一地区,有晴天和雨天两种情况,晴天的概率为0.75,雨天的概率为0.25;那么这个时候,我们知道不同的天气所获得的信息量就不同了,先给出 知道是晴天所获得的信息量 和 知道是雨天所获得的信息量;

晴天:^{log_{2}} = 0.41 bit

雨天:^{log_{2}} = 2 bit

在这个例子中,我们本身就知道明天大概率会是晴天,这时气象站告诉我们,明天是晴天,那么我们的不确定性并不会下降太多;但是我们知道明天是雨天的概率是0.25,这时气象站报道明天是雨天,那么我们获取到的信息将会是2 bit。

在这种情况下,衡量不确定性的是事件概率的倒数 。思考如下,如果一个事件发生的概率越小,那么这个事件的不确定性就越大,消除这个不确定性所需要获取的信息就越多。类比,概率越小,概率的倒数越大,概率的倒数的以2为底的对数就越大。

平均 而言,一天从气象台获取的信息量 为:
^{log_{2}*0.25 + log_{2}*0.75} = 0.81 bit

也就是说,我们平均每天需要从气象台获取0.81bit的信息来消除我们对于天气的不确定性。刚刚我们计算的,就是熵,可以看出,熵很好的衡量了事件的不确定性 。Entropy(熵)的计算公式如下(就是刚才计算公式的化简):
H = -um {i}p{i}log_{2}

其中, i 代表事件 ip_{i}代表该事件发生的概率。

2. 交叉熵(Cross-Entropy)

交叉熵计算公式如下:
H = -um {i}p{i}log_{2}

其中, p 代表事件真实的概率分布, q 代表我们预测的概率分布。如果我们预测的概率分布与真实的概率分布相同,那么 H(p,q)=H(p) ,如果不相等,那么交叉熵的量就会超过熵的量,超出的这部分就被称为相对熵 ,更常见的称呼为KL散度(KL Divergence)

附:二分类交叉熵公式:
H=-eft  p*log+*log ight

其中,p为真实是正例的概率,q是预测是正例的概率。

3. KL散度

公式: 交叉熵 = 熵 + KL散度
D_{KL} = H-H

在实际训练分类模型时,我们通常使用以e为底的对数,而不是以2为底的对数,这对训练模型并没有什么影响,因为这两者之间就是一个倍数的关系。
log_{2}=rac{log_{e}}{log_{e}}

举个栗子:

五分类问题,对于其中一个样本(ball):

真实概率分布 0% 0% 100% 0% 0%
类别 apple banana ball car peach
预测概率分布 10% 0% 60% 0% 30%

H=1.0*log=0
H=0log+1.0log+0*log=0.51

一般直接写为:
H=1.0*log=0.51
D_{KL} = H-H=0.51-0=0.51

全部评论 (0)

还没有任何评论哟~