Advertisement

词信息处理基础(概率论、信息论基础)

阅读量:

文章目录

      • 一、概率论基础
        • 1.转移概率
    • 2. 条件概率

      • 二、信息论基础
        • 1.信息熵
    • 2. 联合熵

    • 3.条件熵

    • 4.互信息

    • 5. 交叉熵

      • 三、n元语法模型
      • 四、语法模型的性能评价

一、概率论基础

语言统计中常常会用到概率论知识,常用到的是概率、转移概率、条件概率 。概率的概念这里不再描述。

1.转移概率

转移概率是指从一个状态到另一个状态的概率,实际上是一种特殊的条件概率,即规定了邻接顺序的条件概率。
举例说明:
从“中国”转移到“人民”的概率为P(W_2=“人民”|W_1=“中国”),可估计为“中国人民”的出现次数除以“中国”的出现次数。
类似地,从名词转移到动词的概率是P(T_2=动词|T_1=名词),可估计为名词和动词相邻出现的次数除以名词出现的次数。

2. 条件概率

条件概率不限于先后发生的事件。
举例说明:
P(W_i=“设计”|T_i=“名词”)表示在在某词为名词的条件下,其词形是“设计”的概率,当事件和作为条件的事件是同时发生的,应该看作是条件概率而不是转移概率。求这个条件概率,可以用语料库中作为名词出现的“设计”的出现次数除以所有名词出现的次数。
P(W_i=名词|T_i=“设计”)表示某词词形为“设计”的条件下,其词性为名词的概率,这是可以用语料库中名词“设计”的出现次数除以以任何词性出现词形为“设计”的次数。
条件可以用下面公式求:
P(A|B)=N(AB)/N(B)
即用事件AB发生的次数除以事件B发生的次数
如果已知事件AB、B的概率,可以用:
P(A|B)=P(AB)/P(B)

二、信息论基础

1.信息熵

关于信息熵很多人会有一个模糊的概念,始终乱不清楚的内容,就算明白了也会很快忘掉:
事件发生的概率越低,说明不确定性越大,信息量就越大,信息熵就越大
信息熵是用来描述一个离散随机变量的不确定性的均值。计算公式如下:
H(X)=H(P)=-\sum{p(x)log_2p(x)}
它具备一下两个属性:

H(X)>=0
H(X)=0时,说明随机变量X是确定的,此时X没有信息可言。

2. 联合熵

(X,Y)是一对离散型随机变量,其联合概率分布函数为p(x,y),则联合熵:
H(X,Y)=-\sum{\sum{p(x,y)log_2p(x,y)}}
联合熵用来描述一对离散型随机变量平均所包含的信息量。

3.条件熵

随机变量X已知的情况下,随机变量Y的条件熵:
H(Y|X)=\sum{p(x)H(Y|X=x)}
=\sum{\sum{p(x,y)logp(y|x)}}
熵的连锁规则:
H(X,Y)=H(X)+H(Y|X)
H(X_1,X_2,...,X_n)=H(X_1)+H(X_2|X_1)+...+H(X_n|X_1,X_2,...,X_{n-1})

4.互信息

互信息是一种计算亮哥哥随机变量之间共有信息的度量。计算公式:
I(X,Y)=H(X)-H(X|Y)
\sum{\sum{p(x,y)log{\frac{p(x,y)}{p(x)p(y)}}}}
特点:

  1. 当两个随机变量相互独立时,互信息为0
  2. 当两个随机变量存在依赖关系时,互信息不为0
5. 交叉熵

交叉熵用来衡量估计概率分布与真实分布之间的差异情况。
如果一个随机变量X~P(x),q(x)时近似估计p(x)的概率分布,那么X和q(x)之间的交叉熵定义为:
H(X,q)=-\sum{p(x)logq(x)}

三、n元语法模型

一个语言模型通常构建为字符串s的概率分布p(s),其中p(s)为s在某种语言中出现的概率。
对于一个有n个基元(字、词、短语、句等语言单位)构成的句子s=w_1w_2w_3...w_d,假设每个妓院只与前面相邻的n-1个基元有关,这样:
p(s)=\prod{p(w_i|w_{i-n+1}...w_{i-1})}
那么二元语法模型其实就是一个一阶马尔可夫链,所有p(w_i|w_{i-1})就组成了马尔可夫一阶转移概率矩阵。

四、语法模型的性能评价

交叉熵时用来评价语法模型性能的常用度量。语言L与其估计模型(n元语法模型)q的交叉熵为:
H(L,q)=-lim_{x\to\infty}\frac{1}{n}\sum{p(x_{1n})logq(x_{1n})}
假设语言L是稳态遍历的随机过程,即N趋于无穷大时,p(x_{1n})为常量。这时:
H(L,q)=-lim_{n\to\infty}\frac{1}{n}logq(x_{1n})
只要样本包含的词语数n足够大:
H(L,q)\approx-\frac{1}{n}logq(x_{1n})
在设计q时,交叉熵越小,模型就越接近真实的概率分布p(x)

全部评论 (0)

还没有任何评论哟~