Advertisement

《数学之美(第一版)》笔记 ——第3章

阅读量:

第3章:统计语言模型

随着自然语言的产生和发展,它逐渐形成了基于上下文的信息表达与传递机制.因此,在计算机处理自然语言的过程中,建立能够反映这种上下文相关性的数学模型是一个基础问题.这个数学模型就是我们在自然语言处理中常说的统计语义模型(Statistical Language Model),它不仅是现代自然语言处理的核心技术之一,并且在诸多领域得到了广泛应用:例如机器翻译、语音识别、印刷体识别、手写字体识别、拼写错误校正、汉字输入以及文献检索等。

根据上下文语境分析可知,在自然语言处理领域中对贾里尼克的方法进行具体阐述时应避免重复表述其核心观点;因此可将其表述为:在自然语言处理领域中对贾里尼克的方法进行具体阐述时应避免重复表述其核心观点;贾里尼克的方法论主张是:对于一个给定的文字序列而言其合理性应当通过评估其可能性大小来进行判断

在这里插入图片描述
关于隐式马尔科夫模型:
在这里插入图片描述

计算过程(1元模型 1-gram model):

在这里插入图片描述
在这里插入图片描述

高阶语言模型

在这里插入图片描述

没有使用更高阶的模型的原因是:

复制代码
* 随着N的变大,时间复杂度是指数级别的。其中|V|为词汇量大小。  

O(|V|^{N})

复制代码
* 但N从1到2,再从2到3时,模型效果上升显著。而当模型从3到4时,效果不是很显著。

马尔科夫假设的局限性:无法解决长程的依赖性。

关于零概率问题和平滑方法

问题的出现:

当#(w_{i-1}, w_i)=0时,则条件概率P(w_i|w_{i-1})等于零。
当#(w_{i-1}, w_i)与#(w_{i-1})均仅出现一次时,则能否得出P(w_i|w_{i-1})=1的结论(可靠性问题)

古德-图灵估计:解决好统计样本不足时的概率估计问题。

以下解释一元组的条件概率估计:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

对于二元组

在这里插入图片描述

三元组

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~