Advertisement

熵、联合熵、条件熵、相对熵和互信息的定义

阅读量:

文章目录

  • 熵的定义

    • 对熵的理解
  • 联合熵和条件熵

    • 联合熵H(X,Y)
    • 条件熵H(X|Y)
  • 相对熵D(p||q)

  • 互信息I(X,Y)

  • 最大熵模型

熵的定义

H(X) = -\sum_{x\in X} p(x) \ln p(x)

对熵的理解

熵是随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化成定值,则熵为0。
注:均匀分布是“最不确定”的分布,即为熵最大的分布

联合熵和条件熵

联合熵H(X,Y)

两个随机变量X,Y的联合分布,可以形成联合熵

条件熵H(X|Y)

H(X|Y)= -\sum_{x,y}p(x,y) \log p(x|y)
推导公式为:
\begin{aligned} H(X,Y)-H(Y) &=-\sum_{x,y} p(x,y)\log p(x,y)+\sum_{y} p(y) \log p(y) \\ &= -\sum_{x,y} p(x,y)\log p(x,y)+ \sum_{y} (\sum_{x} p(x,y)) \log p(y) \\ &= -\sum_{x,y} p(x,y)\log p(x,y) + \sum_{x,y} p(x,y) \log p(y) \\ &= \sum_{x,y}p(x,y)\left( -\log p(x,y) + \log p(y)\right) \\ &= -\sum_{x,y}p(x,y) \log\frac {p(x,y)}{p(y)} \\ &= -\sum_{x,y}p(x,y) \log p(x|y) \end{aligned}

相对熵D(p||q)

p(x)q(x)是X取值中的两个概率分布,则p对q的相对熵为:
D(p||q) = \sum_x p(x) \log \frac{p(x)}{q(x)} = E_{p(x)}\log \frac {p(x)}{q(x)}

互信息I(X,Y)

定义:
\begin{aligned}I(X,Y) &= D\left( p(x,y) || p(x) p(y)\right) \\ &= \sum_{x,y}p(x,y) \log \frac{p(x,y)}{p(x)p(y)} \end{aligned}
对公式的一些推导:
\begin{aligned} H(X) - I(X|Y) &= -\sum_x p(x) \log p(x) - \sum_{x,y}p(x,y) \log \frac{p(x,y)}{p(x)p(y)} \\ &=-\sum_{x} \left( \sum_y p(x,y)\right) \log p(x) - \sum_{x,y}p(x,y) \log \frac{p(x,y)}{p(x)p(y)} \\ &= -\sum_{x,y} p(x,y) \log p(x) - \sum_{x,y}p(x,y) \log \frac{p(x,y)}{p(x)p(y)} \\ &= -\sum_{x,y}p(x,y)\log \frac{p(x,y)}{p(y)} \\ &= -\sum_{x,y}p(x,y)\log(x|y) \\ &= H(X|Y) \end{aligned}
得到的一些结论:
H(X|Y) = H(X,Y) - H(Y)
H(X|Y) = H(X) - I(X|Y)
H(X|Y) = H(X,Y) - H(X)
H(X|Y) = H(Y) - I(X|Y)
I(X|Y) = H(X) + H(Y) - H(X,Y)

最大熵模型

原则是:承认已知的事物,对未知的事物不做任何假设,没有任何偏见

知识 = 不确定度的补集

全部评论 (0)

还没有任何评论哟~