【基本概念】信息熵 条件熵 联合熵 左右熵 互信息
最近用到信息论的知识表较多,自己也总结下。
1 信息熵(entropy)
定义式:

其中P(x)表示变量出现的概率值。从直观上看,一个变量的信息熵越大,则其包含的信息量越大,并且不确定性也越高。任何事物内部都存在着随机性这一特性,而消除这种不确定性则只能依靠外界注入信息。在自然语言处理以及信息与信号处理的领域中,则是一个通过减少不确定性来实现信息提取和信号解析的过程。
2 条件熵(conditional entropy)
知道的信息越多,随机事件的不确定性就越小。
定义式:

3 联合熵
设X Y为两个随机变量,对于给定条件Y=y下,X的条件熵定义为:

4 左右熵
一般用于统计方法的新词发现。
评估这对词语素间的左信息量和右信息量。当这对词语素的信息量(即左信息量与右信息量)之差达到最大值时,则表明这对词语素可能是一个新词。这是因为这种情况下表明这对词语素的不确定性大,则它们的信息量也高。例如,在"屌丝"这个词中我们希望左右信息均高即"屌丝"这个词语左边出现的情况多于右边出现的情况这样就能体现出"屌丝"这个词语左右搭配的丰富性具体来说左边可以是:"这屌丝臭屌丝穷屌丝"等右边则可以是:"屌丝的 屏号 屏号 屏号 屏号 屏号 屏号 屏号 屏号 屏号等这样就能体现出'层'与'叠'这两个汉字在不同语境下的丰富变化情况
5 互信息(mutual information)
两个事件之间的互信息被定义为:I(X;Y)=H(X)+H(Y)-H(X,Y),这也被称为用于衡量两个变量之间相互关联程度的指标
互信息理论是广泛应用于语言学模型分析的技术手段,在自然语言处理领域发挥着重要作用
定义式:

应用:
(1)可以通过信息熵来衡量一个变量的不确定性;在分析显著性特征时, 可以通过信息熵计算该区域的数值大小来判断其是否为显著性区域;
(2)计算两个变量之间的相关性,可以考虑条件熵;
