熵、联合熵、条件熵、相对熵和互信息的定义
文章目录
-
熵的定义
-
- 对熵的理解
-
联合熵和条件熵
-
- 联合熵H(X,Y)
- 条件熵H(X|Y)
-
相对熵D(p||q)
-
互信息I(X,Y)
-
最大熵模型
熵的定义
H(X) = -\sum_{x\in X} p(x) \ln p(x)
对熵的理解
熵是随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化成定值,则熵为0。
注:均匀分布是“最不确定”的分布,即为熵最大的分布
联合熵和条件熵
联合熵H(X,Y)
两个随机变量X,Y的联合分布,可以形成联合熵
条件熵H(X|Y)
H(X|Y)= -\sum_{x,y}p(x,y) \log p(x|y)
推导公式为:
\begin{aligned} H(X,Y)-H(Y) &=-\sum_{x,y} p(x,y)\log p(x,y)+\sum_{y} p(y) \log p(y) \\ &= -\sum_{x,y} p(x,y)\log p(x,y)+ \sum_{y} (\sum_{x} p(x,y)) \log p(y) \\ &= -\sum_{x,y} p(x,y)\log p(x,y) + \sum_{x,y} p(x,y) \log p(y) \\ &= \sum_{x,y}p(x,y)\left( -\log p(x,y) + \log p(y)\right) \\ &= -\sum_{x,y}p(x,y) \log\frac {p(x,y)}{p(y)} \\ &= -\sum_{x,y}p(x,y) \log p(x|y) \end{aligned}
相对熵D(p||q)
设p(x)、q(x)是X取值中的两个概率分布,则p对q的相对熵为:
D(p||q) = \sum_x p(x) \log \frac{p(x)}{q(x)} = E_{p(x)}\log \frac {p(x)}{q(x)}
互信息I(X,Y)
定义:
\begin{aligned}I(X,Y) &= D\left( p(x,y) || p(x) p(y)\right) \\ &= \sum_{x,y}p(x,y) \log \frac{p(x,y)}{p(x)p(y)} \end{aligned}
对公式的一些推导:
\begin{aligned} H(X) - I(X|Y) &= -\sum_x p(x) \log p(x) - \sum_{x,y}p(x,y) \log \frac{p(x,y)}{p(x)p(y)} \\ &=-\sum_{x} \left( \sum_y p(x,y)\right) \log p(x) - \sum_{x,y}p(x,y) \log \frac{p(x,y)}{p(x)p(y)} \\ &= -\sum_{x,y} p(x,y) \log p(x) - \sum_{x,y}p(x,y) \log \frac{p(x,y)}{p(x)p(y)} \\ &= -\sum_{x,y}p(x,y)\log \frac{p(x,y)}{p(y)} \\ &= -\sum_{x,y}p(x,y)\log(x|y) \\ &= H(X|Y) \end{aligned}
得到的一些结论:
H(X|Y) = H(X,Y) - H(Y)
H(X|Y) = H(X) - I(X|Y)
H(X|Y) = H(X,Y) - H(X)
H(X|Y) = H(Y) - I(X|Y)
I(X|Y) = H(X) + H(Y) - H(X,Y)
最大熵模型
原则是:承认已知的事物,对未知的事物不做任何假设,没有任何偏见
知识 = 不确定度的补集
