machine learning学习笔记(一):信息熵,条件熵,交叉熵,KL散度,互信息
一、琴生不等式 Jensen

由数学归纳法证明

二、对损失函数 Logarithmic function

三、entropy 信息熵
信息熵代表x的不确定程度/混乱程度

设随机变量X遵循两点分布,则P(X)的概率值离0.5越近,则变量x的不确定性越大。例如,在一个箱子中装有两种颜色的小球(白球和红球),若白球的概率p=0.1,则我们有很高的信心认为随机摸出的小球将是红球。
纵坐标表示了随机变量X的信息熵H(X)(即Shannon熵)。其中X代表变量,在其概率分布确定的情况下(如均匀分布时),当X的概率值越接近0.5时,则变量x的不确定性越大。

信息熵<=log|X|
因为log函数是凹函数(concave)的,利用琴生不等式,

可以得到

四、条件熵Conditional entropy
即:在已知X=x的情况下,Y的不确定程度or混乱程度。
直接带入之前的信息熵公式

当然, 显然地讲, H(Y/X=x) 可能会超过 H(Y). X 很可能会成为一个干扰信息, 并导致 Y 的不确定性增加.

五、KL散度 Kullback-Leibler divergence
为了探究在种植10^5朵花的情况下,每朵花绽放的概率有多大这一问题,在统计学中常用的方法是通过从总体中随机采样1,000朵花来估计观测概率P。然而,在实际应用中我们需要拟合的真实分布被设定为Q。KL散度衡量的是观测概率P与真实分布Q之间的差异程度。
在信息论领域中,相对熵(relative entropy)也被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence),它衡量两个概率分布之间差异的一种非对称方法。在数学上,相对熵等于这两个概率分布的Shannon entropy之差。

Kullback-Leibler散度衡量信息损失

基于上述公式可知,Kullback-Leibler散度实际上是数据真实分布p与其近似分布q之间对数值差异所构成的一种期望值。若采用以2为底的对数值进行计算,则其结果代表了信息损失所占用的有效二进制位数。以下是以期望形式表示的具体计算式:

常见书写成:

交叉熵和KL散度的关系
交叉熵的定义:

其实交叉熵的定义是从KL散度的推导中获得来的

观察到的这一张幻灯片建议从KL关系的角度往上进行推导会更加合理;交叉熵源于公式的构成要素
直观上来看,在表征样本时使用P则能达到极高的精度。相比之下,在表征样本时使用Q则只能提供基本的信息,并不能达到与之相当的高度。这种情况下,则必须补充一些"信息增量"才能使其最终达到与之相当的表征效果。若我们的Q经过反复训练后同样能表征样本,则无需额外的信息增量。
在无监督学习下:
为了使KL散度降到最低水平,也就是说,我们需要让H(P,Q)达到极小值,即P和Q的交叉熵降到最低水平.

有监督下:

这两块推算我还没搞懂
六、互信息Mutual information

最初我对X存在一定的不确定性(其不确定性量化为H(X))。得知Y之后我对X的不确定性降低至H(X|Y),因此这种不确定性减少量即为X与Y之间的互信息I(X;Y)。

