Advertisement

熵,联合熵,条件熵,相对熵,互信息的定义

阅读量:

预备基础概念

  • X : 随机变量
  • x : 随机变量X的具体取值
  • P(X) : 随机变量X的概率分布
  • P(X,Y) : 随机变量X,Y的联合概率分布
  • P(Y|X) : 已知随机变量X的情况下,随机变量Y的条件概率分布
  • P(X=x) => p(x) : 随机变量取某个值的概率
  • P(X=x,Y=y) => p(x,y) : 联合概率
  • P(X=x|Y=y) =>p(y|x) : 条件概率 、
  • 且有 p(x,y) = p(x)*p(y|x)
信息量

事件的不确定性
事件发生的概率越大,信息量越小,事件发生的概率越小,信息量越小;
正好符合-logP 函数

简单来讲,就是指所有信息量的期望
如果一个随机变量X的可能取值为X = {x_{1},x_{2},... ,x_{k}}
其概率分布为P(X= x_{i}) = p_{i} (i = 1,2,…,n)
则随机变量的熵定义为
H(X) = -\sum_{x}p(x)logp(x)
等价于
H(X) = \sum_{x}p(x)log\frac{1}{p(x)}

联合熵

两个随机变量X,Y的联合分布
H(X,Y) = \sum_{x,y}p(x,y)log\frac{1}{p(x,y)}

条件熵

在随机变量X发生的前提下,随机变量Y发生所带来的熵定义为Y的条件熵
主要用来衡量在已知随机变量X的条件下随机变量Y的不确定性
H(Y|X) = H(X,Y) = H(X) 表示(X,Y)发生所包含的熵减去X单独发生包含的熵
推导
H(Y|X) = H(X,Y) - H(X)
= -\sum_{x,y}p(x,y)logp(x,y)+\sum_{x}logp(x)
根据边缘分布概率等于联合分布概率的和得出
= -\sum_{x,y}p(x,y)logp(x,y) + \sum_{x}(\sum_{y}p(x,y))logp(x)
=-\sum_{x,y}p(x,y)logp(x,y)+\sum_{x,y}p(x,y)logp(x)
=-\sum_{x,y}(logp(x,y)-log(x)) -----------------> p(x,y) = p(x)-p(y|x)
=-\sum_{x,y}log\frac{p(x,y)}{p(x)}
=-\sum_{x,y}logp(y|x)

相对熵(互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度)

设p(x),q(x)是X中取值的两个概率分布,则p对q的相对熵为
D(p||q) = \sum_{x}p(x)log\frac{p(x)}{q(x)}=E_{p(x)}log\frac{p(x)}{q(x)}
在一定程度上,相对熵可以度量两个随机变量的"距离"且有D(p||q) \neq D(q||p)
D(p||q)\geq0

互信息(信息增益)

两个随机变量X,Y的互信息定义为X,Y的联合概率分布和各自独立分布乘积的熵
I(X,Y) = \sum_{x,y}log\frac{p(x,y)}{p(x)p(y)}
I(X,Y) = D(P(X,Y)||P(X)P(Y))
H(Y)-I(X,Y)
=-\sum_{y}p(y)logp(y)-\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}
=-\sum_{y}(\sum_{x}p(x,y))logp(y)-\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}
=-\sum_{x,y}p(x,y)logp(x,y)-\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}
=-\sum_{x,y}p(x,y)(log(x,y)+log\frac{p(x,y)}{p(y)})
=-\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)}
=-\sum_{x,y}p(x,y)log(p(y|x))
=H(Y|X)
综上推导得出
H(Y)-I(X,Y) = H(Y|X)
通过条件熵定义
H(Y|X) = H(X,Y)-H(X)
根据互信息定义展开得到
H(Y|X)=H(Y)-I(X,Y)
最终得到
I(X,Y) = H(X)+H(Y)-H(X,Y)

全部评论 (0)

还没有任何评论哟~