信息熵、交叉熵、相对熵
直观详解
- 熵(entropy),热力学中用符号S表征物质状态的重要参数之一。
- 信息熵(Shannon entropy),表征信源不确定性的数量指标。
随着信息熵值的增大(或数值越高),系统逐渐趋向于无序状态(或呈现更高的随机性特征),此时系统的平均信息量(即信息熵)也随之增加。为了降低系统的不确定性(或消除不确定性),所需平均信息量也相应增加。
探讨如何将信息量进行存储以确定所需的空间/计算成本?其中,在表示为H(X)(即H(X) = -\sum p(x)\log p(x))时,在不确定性越高的情况下(即p(x)越分散),所需的H(X)值也会随之提升。
举例:表示天气情况的P=[p_1,p_2,p_3,p_4],通常做法表示为[00,01,10,11],共2bit
F(P_i) 代表事件 i 所需的存储容量。
P_i 即为事件 i 发生的可能性。
公式计算的是所有事件所需存储容量的总和。
概率越大,存储空间越小(哈夫曼编码)
取对数:消除乘除法、约束为正态分布/更稳定
所以,信息熵公式为
因此,对于不同天气概率时,信息熵如表所示。如Q,信息熵为1.75,需要存储空间1.75/天,与P的2相比,Q可以通过编码节省空间。类似于哈夫曼编码,Q中分别编码为[10,110,0,111],则存储空间为\frac{1}{4}*2+\frac{1}{8}*3+\frac{1}{2}*1+\frac{1}{8}*3=\frac{7}{4}=1.75
| 天气[阴晴雨雪] | 信息熵 |
|---|---|
| P=[\frac{1}{4},\frac{1}{4},\frac{1}{4},\frac{1}{4}] | H(P)=2 |
| Q=[\frac{1}{4},\frac{1}{8},\frac{1}{2},\frac{1}{8}] | H(Q)=1.75 |
| Z=[\frac{1}{8},\frac{1}{16},\frac{3}{4},\frac{1}{16}] | H(Z)=1.29 |
| W=[0,0,0,1 | H(W)=0 |
交叉熵被定义为衡量系统不确定性所需付出努力的一种指标,在信息论中被广泛应用于比较不同概率分布之间的差异程度。它通过计算真实分布与假设分布之间的差异来量化不确定性,并在此过程中体现数据压缩效率的相关性。具体而言,在给定的真实概率分布P和假设的概率分布Q下(即当P和Q相等时),交叉熵的计算结果等于信息论中的信息熵值。

交叉熵可以作为损失函数,衡量p和q的相似性
相对熵是一种用于衡量两个概率分布之间差异的重要指标,在机器学习和信息论中具有重要应用。它也被广泛称为Kullback-Leibler散度(简称KL散度)。其数值越小表示两个分布之间的差异程度越小,在实际应用中反映生成的概率分布Q与真实数据分布P的接近程度。估计更为精确地反映了两者的实际关系。当两者的分布完全一致时,则其Kullback-Leibler散度的值为零。
底数a,使用2进制编码用2,用正态分布用e,10是万金油。。。
