信息熵,交叉熵,相对熵,KL散度
在机器学习与深度学习领域中,** 熵 **(entropy)被视为一个核心概念. 那么, 信息系统的这一度量究竟如何定义呢?
首先,在信息熵理论中用于衡量一个事件不确定性程度的概念具有重要性。例如,在讨论太阳运行规律时,“太阳从东方升起”的现象其发生概率趋近于1,则该事件所携带的信息量相对较小;与此相反,“太阳从西方升起”的现象则蕴含着较大的信息量变化原因可能是地球自转方向发生逆转或是存在其他系统性变动因素导致日出时间提前至夜晚出现情况出现的可能性也需考虑进去进而可能导致全球气候模式发生显著调整从而影响生态系统的分布格局
那么,在太阳从东方升起这个事件的概率很高时(即其发生的可能性很高),其包含的信息相对较少。反过来,在太阳从西方升起时(即其发生的可能性很低),所包含的信息反而更多。因此,在系统中我们通常用作衡量系统不确定性大小的重要指标的就是所谓的信息熵。(即它常被用来作为一个系统的信息量的量化指标)。当一个事件发生的不确定性越大时(即其不确定性越大),它的信息熵也会越高。(因为这正是它所代表的意义)。
总结一下:消除熵=获取信息 (消除信息量)!
首先给出信息量 的公式:

可以看到当p(x)取得最大值1时,h(x)=0,即对于一个确定事件,其信息量为0.
信息熵就是信息量的期望 。公式如下:

交叉熵: 给定样本集的概率分布p和q中,** p代表真实概率分布**, 而 q表示基于训练数据估计得到的概率模型*. 当我们利用 q 对测试样本进行分类时, 其实是在计算基于预测模型的信息熵. 由于测试数据服从真实数据生成过程 p, 因此在计算期望时, 所采用的是真实分布在 q 下的信息量测量. 这种信息量的计算反映了模型 q 对真实数据 p 的拟合程度.

相对熵:****基于预测分布q对样本进行建模与基于真实分布p对样本进行建模的差异即为相对熵,也被称为KL散度。


有两种方式可以证明KL(p|q)>=0:
第一种方式可以利用Jensen's Inequality来证明:
当X为一随机变量且φ为一凸函数时,则满足于Jensen's不等式。

由此可得:


该种方法是一种直观的理解方式:当样本对应的分布与编码对应的分布一致时,则达到了最优编码状态;此时所有所需的比特数量必定最少;其他任何方法都将导致所需的比特数量增加;由此可知,在P和Q之间的KL散度必定非负。
KL散度除了基本的非负性 ,还有其它两个常见性质:
第一个是它的非对称性 ,即KL(p|q) 与KL(q|p)不相等。
另一个方面来说,尽管KL散度不具备三角不等式的性质。具体而言,在计算KL(p|q')与KL(q'|q)之和时,并不能直接推断其与KL(p|q)的关系。
机器学习的目标是使预测分布q 更趋近于真实分布p ,于是想到的就是最小化相对熵。在相对熵公式中,由于p(x)是固定的分布,则其第二项可视为常数值;这样一来,则转化为我们所熟知的最小化交叉熵的问题,并由此等价于进行最大似然估计。
fēi duì chèn xìng
[数] asymmetry
