《数学之美(第一版)》笔记 —— 第6章
发布时间
阅读量:
阅读量
第6章 信息的度量和作用
信息熵(Entropy)
背景:
- 信息量对应于不确定性的程度
- 基于bit这个概念可以用来衡量信息量(因此在计算中采用对数函数)
信息熵公式:

其中P(x)是x发生的可能性。变量的不确定性越大,熵也就越大。
信息熵的取值范围是从[0, \log_2(n)]出发:其中n表示分类的数量。(该推导过程简洁明了且易于理解,请读者务必仔细阅读)
信息熵的作用:
- 评估信息熵(不确定度)
- 大多数自然语言处理、信息与信号处理的应用都是减少或消解不确定因素的过程。
条件熵(Conditional Entropy)
- 背景:通过引入一些关联的信息来消除不确定性。
- 定义:我们假定除了已知Y的一些情况之外,在数学上联合概率分布(Joint Probability)被定义为Y与X共同发生的概率;而条件概率分布(Conditional Probability)则被定义为给定不同Y取值时X的概率分布。在此基础上,在给定Y的条件下计算X的条件熵时:
H(X|Y) = -\sum_{x,y} P(x,y)\log P(x|y)

可以证明:H(X)>=H(X|Y)(后文提到的互信息). 也就是说,二元模型比一元的好。
进一步扩展,可以扩展两个条件的条件熵:

可以证明:H(X|Y)>=H(X|Y,Z). 也就是说,三元模型比一元的好。
互信息(Mutual Information)
背景:对两个随机事件的相关性 的量化度量。
公式:


该方法旨在解决词汇歧义性问题。通过识别出在不同语义维度下具有最高互信息值的词汇项,并在基于目标语言上下文的分析中,比较各候选词汇项与译码空间的重合度高低。
相对熵(Kullback-Leibler Divergence)(KL散度)
度量:评估两个正值函数的一致性;另一种说法是计算它们之间分布的距离。(与互信息不同的是,在这里我们关注的是变量间的关联性)也可称为交叉熵。
公式:

重要的三条结论 :
对于两个一致的函数来说,在计算它们之间的相对熵时会得到零值。
相对熵数值越大,则表示这两个函数之间的差异程度越高;相反地,在相对熵数值较低的情况下,则表明这两个函数之间的差异较小。
在概率分布或概率密度函数的情况下(均为正值),我们可以通过计算来衡量两种随机分布之间的差异性。
一些特性
* 相对熵并不是对等的。没有对称关系。$KL(f(x)||g(x)) != KL(g(x)||f(x))$
相对熵(KL散度)和交叉熵之间的关系
來源:
交叉熵公式:

熵公式:

KL散度公式:

所以:

此处最核心的发现是:当 S(A) 保持恒定时,则有:
D_{KL}(A||B) = H(A,B)
这表明,在特定条件下,
KL\ 散度与交叉熵等价。
全部评论 (0)
还没有任何评论哟~
