信息论基础——熵、信息熵、互信息
信息论基础
写在前面
至于为什么在更新《统计学习方法》的时候要插一个信息论相关的内容。主要是考虑到从下一章决策树开始,熵成了一个无法避免的讨论对象。所以就想单独拿出一章来讲一讲熵相关的内容。
当然,这篇写的不及许多的生动,甚至有陈列公示之嫌,但还是希望看到的人有所收获。
熵
熵其实是一个随机变量不确定性的度量。或者也可以理解成是平均意义上对随机变量的编码长度。
具体计算如下:
H(X)=-\sum_{x \in \chi} p(x) \log p(x)
互信息
首先我们先看定义:
I(X ; Y)=\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}
看到这个式子大家或许一头雾水,但是如果我们对这个定义进行分解运算的话,结合上述熵的定义,我们会发现:
I(X;Y)=H(X) - H(X|Y)
互信息的实际意义就是在得知了Y的信息后,原来X的信息量减少了多少。
相对熵
相对熵量化两个分布之间的差异程度。
先看定义:
D(p \| q)=\sum_{x \in \mathcal{X}} p(x) \log \frac{p(x)}{q(x)}
根据运算,我们不难得出
H(q)=H(p)+D(p \| q)
所以相对熵实际上描述了两个分布之间的差异程度。
最后,我们结合之前互信息的内容,我们会发现
I(X ; Y)=\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}=D(p(x, y) \| p(x) p(y))
实际上,互信息描述了两个变量联合分布和两个边缘函数乘积的相对熵。这样的话,如果两个变量的相对熵是零的话,那么这两个变量就是相互独立的。
