Advertisement

与信息熵相关的概念梳理(条件熵/互信息/相对熵/交叉熵)

阅读量:

香农信息量

信息量表示不确定性的大小。 信息量的单位是比特(bit)。

香农信息量=\log\frac{1}{p}=-\log p\quad(以2为底)

上式中,在p值较小时,则表示系统的不确定性程度增加,并且所包含的信息量也就越大。例如,在没有任何先验信息的情况下,采用二分法逐步猜测冠军队伍需要经过最多5次猜测,则系统的信息量即为\log \frac{1}{32}=5


信息熵(Entropy)

用于衡量信息量以及变量的不确定性程度。当系统越混乱时所提供的信息越多, 不确定性越高也就意味着系统所能提供的平均信息量越大。具体来说, 对于任意一个随机变量X, 它们的熵定义如下:
H(X) = -\sum_{x \in X} P(x)\log P(x)
其中, 当X中每个x的概率P(x)相等时, 此时系统的混乱程度达到最高点, 对应着最大的熵值和最高的信息容量

该概念源于热力学领域中的熵,并被用来衡量系统混乱程度或不确定性水平。随着熵值增大,系统趋向于趋于均匀状态,表现出更强的无序特征。(直观上容易理解,在实际应用中通常遇到的情况是:系统的资源或物质在空间或时间上呈现非均匀分布,并且遵循某种特定的模式或规律)


条件熵(Conditional Entropy)

以条件熵为例,在统计学中我们考虑两个随机变量X与Y之间的关系时

当Y与X完全无关(独立)时,H(X|Y)=H(X)

同样地,我们可以定义包含两个条件的条件熵
H(X|Y,Z)=-\sum_{x\in X,y\in Y,z\in Z}P(x,y,z)\log P(x|y,z)
进一步证明H(X|Y)\geq H(X|Y,Z)。换句话说,在这种情况下三元模型将优于二元模型。


互信息(Mutual Information)

用于衡量事件X与Y之间的关联程度。其取值范围介于0至min{H(X), H(Y)}之间,并满足以下条件:当事件X与Y完全相关时, 其取值等于H(X)(此时必然有H(X)=H(Y));而当事件X与Y之间不存在关联关系时, X与Y的互信息为零。其公式如下:


相对熵(Relative Enrtopy)

又被称作Kullback-Leibler散度(Kullback-Leibler Divergence)
在数学中,
KL(f(x)||g(x))=\sum_{x\in X}f(x)\cdot \log\frac{f(x)}{g(x)}
相对熵也被用于评估关联程度,
但它与变量间的信息不同,
它专门用于衡量两个均为正值的函数间的相似程度。

不必关心公式本身,只要记住下面三条结论就好:

  1. 如果两个函数一致,则它们的相对熵等于零。
  2. 相对熵越大,则两个函数之间的差异越大;反之亦然。
  3. 对于所有概率分布或概率密度函数(其取值均大于零),相对熵可以用来衡量两者之间的差异程度。

值得注意的是相对熵是非对称的性质

KL(f(x)||g(x)) \ne KL(g(x)||f(x))
为了克服这一局限性詹森与香农提出了一种新的相对熵计算方法
通过将原来的不等式两边取平均值
从而定义出
JS(f(x)||g(x)) = \frac{1}{2}[KL(f(x)||g(x)) + KL(g(x)||f(x))]


交叉熵(Cross-Entropy)

当我们观察到一个随机事件时,其真实概率分布被记为p(x),而基于观测数据得到的经验概率分布则表示为q(x).此时,我们定义交叉熵为:
H(p,q)= -\sum_i p(x)\log q(x)
其中,H(p,q)等于负的求和项,即对所有可能取值x,将p(x)的对数乘以相应的概率值进行加权求和.

用p的熵来衡量识别一个真实分布的信息量:H(p)=\sum p\log \frac{1}{p}

用q来估计真实分布为p的样本的信息量:H(p,q)=\sum p\log \frac{1}{q}

则估计多出来的冗余信息量D(p||q)=H(p,q)-H(p)=\sum p\log\frac{p}{q} (就是KL散度)

在机器学习中常用设定p代表真实标记的概率分布而q则表示训练完成后模型预测标记的概率分布不难发现以下公式成立:
H(p,q) = H(p) + D_{KL}(p||q)
根据信息论的基本原理交叉熵可以分解为两部分即数据的真实信息量与模型预测与真实分布之间差异的度量即信息熵与KL散度之和

鉴于基于真实分布的信息熵H^§保持恒定,在机器学习中我们采用交叉熵作为损失函数。

显然,H(p,q)\ge H(p)

全部评论 (0)

还没有任何评论哟~