Advertisement

NLP(CAS10年NLP课程note)

阅读量:

语言模型
幂律分布
齐夫定律(英语:Zipf’s law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。

词法分析与词性标注
概述
词是自然语言中能够独立运用的最小单位,
是自然语言处理的基本单位
自动词法分析就是利用计算机对自然语言
的形态 (morphology) 进行分析,判断词的结构
和类别等
词性或称词类(Part-of-Speech, POS)是词汇
最重要的特性,是连接词汇到句法的桥梁
不同语言的词法分析
曲折语(如,英语、德语、俄语等
黏着语(如:日语等)
分析语(孤立语)(如:汉语)
汉语自动分词
重要性
自动分词是汉语句子分析的基础
词语的分析具有广泛的应用(词频统计,词典编
纂,文章风格研究等
主要问题
汉语分词规范问题 (《信息处理用限定汉语分
词规范(GB13715)》 ) - 汉语中什么是词?两个不清的界限
单字词与词素,如:新华社25日讯
词与短语,如:花草,湖边,房顶,鸭蛋,小
鸟,担水,一层,翻过?
歧义切分字段处理
1、中国人为了实现自己的梦想 (交集型歧义)
中国/ 人为/ 了/ 实现/ 自己/ 的/ 梦想
中国人/ 为了/ 实现/ 自己/ 的/ 梦想
中/ 国人/ 为了/ 实现/ 自己/ 的/ 梦想
例如:“大学生”、“研究生物”、“从小学
起”、“为人民工作”、“中国产品质量”、
“部分居民生活水平”等等
链长 一个交集型切分歧义所拥有的交集串
的集合称为交集串链,它的个数称为链长。
(1) “为人民工作”
{人,民,工},歧义字段的链长为 3;
(2) “中国产品质量”
{国,产,品,质},歧义字段的链长为 4;
(3) “部分居民生活水平”
{分,居,民,生,活,水},链长为 6。
2、门把手弄坏了。 (组合型歧义) 门/ 把/ 手/ 弄/ 坏/ 了/ 。 门/ 把手/ 弄/ 坏/ 了/ 。
例如,“将来”、“现在”、“才能”、
“学生会”等,都是组合型歧义字段。
未登录词的识别
1、人名、地名、组织机构名等,例如:
盛中国,张建国,李爱国,蔡国庆,令计划;
高升,高山,夏天,温馨,武夷山,时光;
彭太发生,朱李月华;赛福鼎·艾则孜,爱新觉
罗·溥仪;平川三太郎,约翰·斯特朗
2、新出现的词汇、术语、个别俗语等,例如:
博客,非典,禽流感,恶搞,微信,给力,失联
汉语自动分词的基本原则
1、语义上无法由组合成分直接相加而得到的字串应该合并为一个分词单位。(合并原则)
例如:不管三七二十一(成语),或多或少(副词片语),十三点(定量结构),六月(定名结构),谈谈(重叠结构,表示尝试),辛辛苦苦(重叠结构,加强程度),进出口(合并结构)
2、语类无法由组合成分直接得到的字串应该合并为一个分词单位。 (合并原则)
(1)字串的语法功能不符合组合规律,如:好吃,
好喝,好听,好看等
(2)字串的内部结构不符合语法规律,如:游水等
汉语自动分词的辅助原则
操作性原则,富于弹性,不是绝对的
1. 有明显分隔符标记的应该切分之 (切分原则)
分隔标记指标点符号或一个词。如:
上、下课  上/ 下课
洗了个澡  洗/ 了/ 个/ 澡
2. 附着性语(词)素和前后词合并为一个分词单位
(合并原则)
例如:“吝”是一个附着语素,“不吝”、“吝于”
等合并成一个词;
“员”:检查员、邮递员、技术员等;
“化”:现代化、合理化、多变化、民营化等。
3. 使用频率高或共现率高的字串尽量合并为一个分词单位 (合并原则)
如:“进出”、“收放”(动词并列);“大笑”、 “改称”(动词偏正);“关门”、“洗衣”、 “卸货”(动宾结构);“春夏秋冬”、“轻重缓急”、“男女”(并列结构);“象牙”(名词偏正);“暂不”、“毫不”、“不再”、 “早已”(副词并列)等
4. 双音节加单音节的偏正式名词尽量合并为一个分词单位 (合并原则)
如:“线、权、车、点”等所构成的偏正式名词:
“国际线、分数线、贫困线”、“领导权、发言权、
知情权”、“垃圾车、交通车、午餐车”、“立足
点、共同点、着眼点”等。
5. 双音节结构的偏正式动词应尽量合并为一个分词单位 (合并原则)
本原则只适合少数偏正式动词,如:“紧追其后”、 “组建完成”等,不适合动宾及主谓式复合动词。
6. 内部结构复杂、合并起来过于冗长的词尽量切分(切分原则)
(1) 词组带接尾词
太空/ 计划/ 室、塑料/ 制品/ 业
(2) 动词带双音节结果补语
看/ 清楚、讨论/ 完毕
(3) 复杂结构:自来水/ 公司、中文/ 分词/ 规范/ 研 究/ 计划
(4) 正反问句:喜欢/ 不/ 喜欢、参加/ 不/ 参加
(5)动宾结构、述补结构的动词带词缀时
写信/ 给、取出/ 给、穿衣/ 去
(6) 词组或句子的专名,多见于书面语,戏剧名、歌曲名等
鲸鱼/ 的/ 生/ 与/ 死、那/ 一/ 年/ 我们/
都/ 很/ 酷
(7) 专名带普通名词
胡/ 先生、京沪/ 铁路
分词与词性标注
结果评价方法

两种测试
封闭测试 / 开放测试
专项测试 / 总体测试
评价指标
正确率Correcct ratio/Precision,P:测试结果中正确切分或标注的个数占系统所有输出结果的
比例。
假设系统输出N 个,其中,正确的结果
为n个,那么,P = n/N * 100%
召回率Recall ratio,R:测试结果中正确
结果的个数占标准答案总数的比例。
假设系统输出N 个结果,其中,正确的结果为 n个,而标准答案的个数为M 个,那么,
R = n/M * 100%
两种标记: ROOV 指集外词的召回率;
RIV 指集内词的召回率。
F-测度值F-Measure:正确率与找回率的综合值。
计算公式为:F-Measure = ( (β²+1)P R/β² _P +R ) * 100%
一般地,取 β =1
假设某个汉语分词系统在一测试集上输出 5260 个分词结果,而标准答案是 4510 个词语,根据这个答案,系统切分出来的结果中有 4120 个是正确的。那么:
P = 4120/5260 * 100% = 78.33%
R = 4120/4510 * 100% = 91.35%
F1 =( 2_P*R/P+R ) * 100% = 84.34%
自动分词基本算法
1. 最大匹配法 (Maximum Matching, MM)
-有词典切分,机械切分
 正向最大匹配算法 (Forward MM, FMM)
 逆向最大匹配算法 (Backward MM, BMM)
 双向最大匹配算法 (Bi-directional MM)
例:假设词典中最长单词的字数为 7。
输入字串:他是研究生物化学的一位科学家。
FMM 切分结果:他/ 是/ 研究生/ 物化/ 学/ 的/ 一/ 位 / 科学家/ 。
BMM 切分结果:他/ 是/ 研究/ 生物/ 化学/ 的/ 一/ 位/ 科学家/ 。
(1) 令 i=0, 当前指针pi 指向输入字串初始位置,执行以下操作:
(2) 计算当前指针 pi 到字串末端的字数n,如果n=1,转(4),结束算法。
否则,令 m=词典中最长单词的字数,如果n<m, 令 m=n;
(3) 从当前 pi 起取m个汉字作为词 wi,判断:
(a) 如果 wi 是词典中的词,则在wi 后添加一个切分标志,转©; (b) 如果 wi 不是词典中的词且 wi 的长度大于1,将wi从右端去掉一
个字,转(a)步;否则(wi 的长度等于1),则在wi 后添加一个
切分标志,将wi作为单字词添加到词典中,执行 ©步;
© 根据 wi 的长度修改指针 pi的位置,如果 pi指向字串末端, 转(4),
否则, i=i+1,返回 (2);
(4) 输出切分结果,结束分词程序。
readCorpus.py

import sys
output = {}
with open(‘语料库.txt’, mode=‘r’, encoding=‘UTF-8’) as f:
for line in f.readlines():
if line is not None:

去除每行的换行符

t_line = line.strip(’\n’)

按空格分开每个词

words = t_line.split(’ ‘)
for word in words:

按/分开标记和词

t_word = word.split(’/’)

左方括号去除

tf_word = t_word[0].split(’[’)
if len(tf_word) == 2:
f_word = tf_word[1]
else:
f_word = t_word[0]

若在输出字典中,则value+1

if f_word in output.keys():
output[f_word] = output[f_word]+1

不在输出字典中则新建

else:
output[f_word] = 1
big_word1 = t_line.split(’[’)
for i in range(1, len(big_word1)):
big_word2 = big_word1[i].split(’]’)[0]
words = big_word2.split(’ ‘)
big_word = “”
for word in words:

按/分开标记和词

t_word = word.split(’/’)
big_word = big_word + t_word[0]

若在输出字典中,则value+1

if big_word in output.keys():
output[big_word] = output[big_word]+1

不在输出字典中则新建

else:
output[big_word] = 1

f.close()

with open(‘output.txt’, mode=‘w’, encoding=‘UTF-8’) as f:
while output:
minNum = sys.maxsize
minName = “”
for key, values in output.items():
if values < minNum:
minNum = values
minName = key
f.write(minName+": “+str(minNum)+”\n")
del output[minName]
f.close()
优点:
• 程序简单易行,开发周期短;
• 仅需要很少的语言资源(词表),不需要任何
词法、句法、语义资源;
 弱点:
• 歧义消解的能力差;
• 切分正确率不高,一般在95%左右。
FMM.py

MAX_WORD = 19
word_list = []
with open(‘output.txt’, mode=‘r’, encoding=‘UTF-8’)as f:
for line in f.readlines():
if line is not None:
word = line.split(’:’)
word_list.append(word[0])
f.close()
#num = input(“输入句子个数:”)
#for i in range(int(num)):
while True:
try:
origin_sentence = input(“输入:\n”)
while len(origin_sentence) != 0:
len_word = MAX_WORD
while len_word > 0:

读取前最大词长度数据,在数组中则输出,并将其去除

if origin_sentence[0:len_word] in word_list:
print(origin_sentence[0:len_word]+’/’, end=’’)
origin_sentence = origin_sentence[len_word:]
break

不在字典中,则读取长度-1

else:
len_word = len_word - 1

为0则表示为单词,输出

if len_word == 0:
if origin_sentence[0] != ’ ‘:
print(origin_sentence[0]+’/’, end=’’)
origin_sentence = origin_sentence[1:]
print(’\n’)
except (KeyboardInterrupt, EOFError):
break

复制代码
    			BMM.py

MAX_WORD = 19
word_list = []
ans_word = []
with open(‘output.txt’, mode=‘r’, encoding=‘UTF-8’)as f:
for line in f.readlines():
if line is not None:
word = line.split(’:’)
word_list.append(word[0])
f.close()
#num = input(“输入句子个数:”)
#for i in range(int(num)):
while True:
ans_word = []
try:
origin_sentence = input(“输入:\n”)
while len(origin_sentence) != 0:
len_word = MAX_WORD
while len_word > 0:

从后读取最大词长度的数据,若该数据在字典中,则存入数组,并将其去除

if origin_sentence[-len_word:] in word_list:
ans_word.append(origin_sentence[-len_word:])
len_sentence = len(origin_sentence)
origin_sentence = origin_sentence[0:len_sentence-len_word]
break

不在词典中,则从后取词长度-1

else:
len_word = len_word - 1

单词直接存入数组

if len_word == 0:
if origin_sentence[-1:] != ’ ‘:
ans_word.append(origin_sentence[-1:])
len_sentence = len(origin_sentence)
origin_sentence = origin_sentence[0:len_sentence - 1]
for j in range(len(ans_word)-1, -1, -1):
print(ans_word[j] + ‘/’, end=’’)
print(’\n’)
except (KeyboardInterrupt, EOFError):
break

复制代码
最少分词法(最短路径法)
    		设待切分字串 S=c1 c2…cn,其中ci (i =1, 2, …, n)

为单个的字, n 为串的长度,n1。建立一个节点数为n+1的切分有向无环图G,各节点编号依次为V0, V1,V2,…,Vn。求最短路径:贪心法或简单扩展法。
优点: • 切分原则符合汉语自身规律;
• 需要的语言资源(词表)也不多。
弱点: • 对许多歧义字段难以区分,最短路径有多条时,选
择最终的输出结果缺乏应有的标准;
• 字串长度较大和选取的最短路径数增大时,长度相
同的路径数急剧增加,选择最终正确的结果困难越
来越越大
3.基于语言模型的分词方法
设对于待切分的句子S,W = w1w2……wk
(1<=k<=n) 是一种可能的切分。
W=argmax(P(W)*P(S|W))
优点: • 在训练语料规模足够大和覆盖领域足够多时,
可以获得较高的切分正确率。
 弱点: • 模型性能较多地依赖于训练语料的规模和质量,
训练语料的规模和覆盖领域不好把握; • 计算量较大
4. 基于HMM的分词方法
优点: 在训练语料规模足够大和覆盖领域足够多时,可
以获得较高的切分正确率。
 弱点: • 模型性能较多地依赖于训练语料的规模和质量,
训练语料的规模和覆盖领域不好把握;
• 模型实现复杂、计算量较大。
5.由字构词 (基于字标注)的分词方法Character-based tagging
将分词过程看作是字的分类问题。该方
法认为,每个字在构造一个特定的词语时都占据着
一个确定的构词位置(即词位)。假定每个字只有4个
词位:词首(B)、词中(M)、词尾(E)和单独成词(S),
那么,每个字归属一特定的词位
该方法的重要优势在于,它能够平衡地看待词表词
和未登录词的识别问题,文本中的词表词和未登录词
都是用统一的字标注过程来实现的。在学习构架上,
既可以不必专门强调词表词信息,也不用专门设计特
定的未登录词识别模块,因此,大大地简化了分词系
统的设计[黄昌宁,2006]
6.生成式方法与区分式方法的结合
大部分基于词的分词方法采用的是生成式模型,而基于字的分词方法采用区分式模型
生成式模型与判别式模型的比较:
生成(产生)式模型 (Generative Model)
假设 o 是观察值,q 是模型。如果对p(o|q)进行建模,就是生成式模型。其基本思想是:首先建立样本的概率密度模型,再利用模型进行推理预测。要求已知样本无穷多或者尽可能地多。该方法一般建立在统计学和 Bayes 理论的基础之上。
主要特点:从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度。
主要优点:实际上所带的信息要比判别式模型丰富,
研究单类问题比判别式模型灵活性强,模型可以通过增量学习得到,且能用于数据不完整(missing data)情况。
主要缺点:学习和计算过程比较复杂。
判别(区分)式模型 (Discriminative Model)
如果对条件概率(后验概率) p(q|o)进行建模,就是判别式
模型。基本思想是:有限样本条件下建立判别函数,不
考虑样本的产生模型,直接研究预测模型。表性理论为
统计学习理论。  主要特点:寻找不同类别之间的最优分类面,反映的
是异类数据之间的差异。  主要优点:判别式模型比生成式模型较容易学习。  主要缺点:黑盒操作,变量间的关系不清楚,不可视。
基于字的区分模型有利于处理集外词,而基于词
的生成模型更多地考虑了词汇之间以及词汇内部字与
字之间的依存关系。因此,可以将两者的优势结合起

结合方法1:将待切分字串的每个汉字用[c, t]i 替代, 以[c, t]I 作为基元,利用语言模型选取全局最优(生
成式模型)
实验结果: 利用第二届 SIGHAN Bakeoff 评测语料(2005) 4种语料:北大、台湾中研院、香港城大、微软
分词正确率§: (1) 基于词的 3-gram: P=89.8% (2) 基于字的 CRF: P=94.3% (3) 融合方法 3-gram: P=95.0%
K. Wang, C. Zong, and K. Su. Which is More Suitable for Chinese
Word Segmentation, the Generative Model or the Discriminative
One? In Proc. PACLIC-23. 3-5 Dec. 3-5, 2009, HK. pp. 827-834
该方法的优点:
(1)充分考虑了相邻字之间的依存关系进行建模;
(2)相对于区分模型,对集内词(IV)有较好的鲁棒性。
弱点:难以利用后续的上下文信息。
回顾-基于字的区分式模型的优点:
(1)相对于基于词的方法,对集外词(OOV)具有更好的
鲁棒性;(2)相对于生成模型,容易处理更多的特征
未登录词识别
命名实体(Named Entity, NE)
(专有名词)
人名(中国人名和外国译名)、地名、组织机
构名、数字、日期、货币数量
其他新词
专业术语、新的普通词汇等
关于中文姓名
台湾出版的《中国姓氏集》收集姓氏 5544 个,
其中,单姓 3410 个,复姓 1990 个,3字姓 144 个
中国目前仍使用的姓氏共 737 个,其中,单姓 729 个,复姓 8 个
根据我们收集的 300 万个人名统计,姓氏有974个,其中,单姓 952个,复姓 23 个,300万人名中出现汉字4064个。 [曹文洁,2002]
中文姓名识别的难点
名字用字范围广,分布松散,规律不很明显。
姓氏和名字都可以单独使用用于特指某一人。
许多姓氏用字和名字用字(词)可以作为普通用字或词被使用
例如,姓氏为普通词:于(介词),张(量词),江(名词)等;
名字为普通词:建国,国庆,胜利,文革,计划等,全名也是普通词汇,如:万里,温馨,高山,高升,高飞,周密,江山,夏天等
缺乏可利用的启发标记
例如: (1) 祝贺老总百战百胜。
(2) 林徽因此时已经离开了那里。
中文姓名识别方法
姓名库匹配,以姓氏作为触发信息,寻
找潜在的名字
计算潜在姓名的概率估值及相应姓氏的
姓名阈值(threshold value),根据姓名概
率评价函数和修饰规则对潜在的姓名进
行筛选
计算概率估计值
设姓名 Cname = Xm1m2,其中 X 表示姓,m1m2
分别表示名字首字和名字尾字。分别用下列公式
计算姓氏和名字的使用频率:
F(X) = X用作姓氏/X出现的总次数
F(m1) = m1作为名字首字出现的次数/m1出现的总次数
F(m2) = m2作为名字字尾出现的次数/m2出现的总次数
字串 Cname 可能为姓名的概率估值
复名:P(Cname) = F(X) * F (m1) * F(m2)
单名:P(Cname) = F(X) * F(m2)
词性标注
问题
词性(part-of-speech, POS)标注(tagging)的主要任务是消除词性兼类歧义。在任何一种自然语言中,词性兼类问题都普遍存在。
在汉语中
(1) 形同音不同,如:“好(hao3,形容词)、好
(hao4,动词)”这个人什么都好,就是好酗酒。
(2) 同形、同音,但意义毫不相干,如:“会(会
议,名词)、会(能够、动词)”
每次他都会在会上制造点新闻。
(3) 具有典型意义的兼类词,如:“典型(名词或形容
词)”、“教育(名词或动词)”
用那种方式教育孩子,简直是对教育事业的侮辱。
(4) 上述情况的组合,如:“行(xing2,动词/形容词;hang2,名词/量词)”
每当他走过那行白杨树时,他都感觉好像每一棵
树都在向他行注目礼
标注集的确定原则
不同语言中,词性划分基本上已经约定俗成。
自然语言处理中对词性标记要求相对细致。
一般原则
标准性: 普遍使用和认可的分类标准和符号集
兼容性: 与已有资源标记尽量一致,或可转换
可扩展性:扩充或修改
UPenn Treebank 的词性标注集确定原则
可恢复性(recoverability):从标注语料能恢复原
词汇或借助于句法信息能区分不同词类
一致性(consistency):功能相同的词应该属于同
一类
不明确性(indeterminacy):为了避免标注者在不明确的条件下任意决定标注类型,允许标注者给出多个标记(限于一些特殊情况)
Marcus et al., 1993
UPenn Treebank 的词性标注集
33 类
NN 名词、NR 专业名词、NT 时间名词、
VA可做谓语的形容词、VC “是”、VE
“有”作为主要动词、VV 其他动词、AD
副词、M 量词,等等
北大计算语言学研究所的词性标注集
26个基本词类代码,74个扩充代码,标记集中共
有106个代码
名词(n)、时间词(t)、处所词(s)、方位词(f)、数词(m)、量词
(q)、区别词(b)、代词®、动词(v)、形容词(a)、状态词(z)、
副词(d)、介词§、连词©、助词(u)、语气词(y)、叹词(e)、
拟声词(o)、成语(i)、习用语(l)、简称(j)、前接成分(h)、后接
成分(k)、语素(g)、非语素字(x)、标点符号(w)
词性标注方法
基于规则的词性标注方法
TAGGIT 词性标注系统 (Brown University)
86 种词性,3300 规则
手工编写词性歧义消除规则
机器自动学习规则
山西大学的词性标注系统 [刘开瑛,2000]
手工编写消歧规则
建立非兼类词典
建立兼类词典-词性可能出现的概率高低排列
构造兼类词识别规则
(1)并列鉴别规则;如:体现了人民的要求(N/V ?)和愿望(N,非兼类)。
(2)同境鉴别规则;如:一个优秀的企业必须具备一流的产品(名词,非兼类)、一流的管理(N/V ?)和一流的服务(N/V ?)。
(3)区别词鉴别规则(区别词只能直接修饰名词) 如:这次大型(鉴别词,非兼类) 调查(V/N ?)历时半年。
(4) 唯名形容词鉴别规则(有些形容词只能直接修饰名词)如:重大(唯名形容词)损失(N/V ?)
巨大(唯名形容词)影响(N/V ?)
根据词语的结构建立词性标注规则
(1) 词缀(前缀、后缀)规则
− 形容词:蓝茵茵,绿油油,金灿灿,…
− 数量词:一片片,一次次,一回回,… − 人名简称:李总,张工,刘老,…
− 其他:年轻化,知识化,…{化}篮球赛,足球赛,…{赛} …
(2) 重叠词规则
- 看看,瞧瞧,高高兴兴,热热闹闹,…
基于错误驱动的机器学习方法
初始词性赋值
对比正确标注的句子,自动学习结构转
换规则
利用转换规则调整初始赋值
E. Brill, 1992
基于统计模型的词性标注方法
规则和统计方法相结合的词性标注方法
基于 HMM 的词性标注方法
规则消歧,统计概率引导
或者统计方法赋初值,规则消歧
基于有限状态变换机的词性标注方法
基于神经网络的词性标注方法
分词与词性标注技术水平
2003年国家863评测部分结果
分词
最好成绩: P=93.44%,R=93.69%, F1=93.46%
最差成绩:P=91.42% ,R=89.27% , F1=90.33%
词性标注
最好成绩: P = 87.47%,R=87.52%, F1=87.50%
最差成绩:P = 68.65% ,R=68.99% , F1=68.82%
人名识别
最好成绩: P = 72.35%,R=78.07%, F1=68.33% (并非来自同一个系统)
最差成绩:P = 27.27% ,R=43.29% , F1=33.46%
机构名识别
最好成绩: P = 81.51%,R=77.38%, F1=68.56%
最差成绩:P = 4.65% ,R=10.60% , F1=6.52%
2005年SIGHAN 汉语分词评测结果(使用MSR语料)
评测方式 系统排名 性能指标
召回率 精确率 F1 Roov Riv
封闭测试 最好 0.962 0.966 0.964 0.717 0.968
最差 0.898 0.896 0.897 0.327 0.914
开放测试 最好 0.980 0.965 0.972 0.59 0.99
最差 0.788 0.818 0.803 0.37 0.8
Roov 表示集外词的召回率,Riv 表示集内词的召回率
2010年CIPS-SIGHAN 汉语分词评测情况
CIPS-中国中文信息学会(Chinese Information Processing Society of China)
CIPS-SIGHAN joint conference on Chinese
Language Processing (CLP2010)于2010年8 月28-29日在北京国际会议中心举行
说明
如果汉语自动分词与词性标注一体化进行,对于词性标注来
说,可以用“召回率”衡量词性标注系统的性能,但是,如
果不是分词与词性标注一体化进行,而是词性标注系统对已
经切分好的汉语词汇进行词性标注,那么,一般不采用“召
回率”指标衡量词性标注系统的性能
目前公开的分词系统
http://ictclas.nlpir.org/ 中科院计算所(ICTCLASS)
http://www.openpr.org.cn 中科院自动化所(Urheen)
http://www.fnlp.org/ 复旦大学
http://nlp.stanford.edu/software/tagger.shtml Stanford University
下一步分词与词性标注研究
分词技术存在的主要问题
分词模型过于依赖训练样本,而标注大规模训练样本费
时费力,且仅局限于个别领域,由此导致分词系统对新
词的识别能力差,往往在与训练样本差异较大的测试集
上性能大幅度下降
现有的训练样本主要在新闻领域,而实际应用千差万别:
网络新闻、微博/ 微信/ QQ 等对话文本、不同的专业领
域(中医药、生物、化学、能愿 ……)
领域差异与陌生语言现象对现有方法提出巨大挑战
李时珍(约1518~1593),字东璧,晚号濒湖山人,蕲州(今湖北蕲春)人。世业医,父言闻,有医名。幼习儒, 三次应乡试不中。自嘉靖三十一年(1552年)至万历六年(1578年),历时二十七载,三易其稿,著成《本草纲目》五十二卷,初刊于金陵。
分词准确率为:57.3%~94.8%
研究半监督学习、迁移学习等方法,解决领域的自
适应问题,提高系统的鲁棒性和准确率
类别 类别描述
事件报道 特定事件/具体事件
新闻内容 新闻消息/格式较规范
观点传播 观点词汇多/日常闲谈/观点评论
信息共享 分享的信息或者链接/为他人提供的建议
私人会话 帖子开头有“@某人”/日常闲谈
交易信息 帖子中出现金钱、比例词汇 根据对2011年微博内容的统计,大约75%的内容为个人心情和感受方面的
补充词汇
词典来源 词语数量
维基百科+常用在线词典(普通词汇) 1301320
微博用语词库 10330
网络用语大全 294
网络关键词以及词频数据 500000
人民日报微博词频统计 42315
百度百科对于网络用语的解释 1051
网络用语词典 541941(经过合并筛选)
网络情感词典+传统情感词典(情感词汇) 26207
词汇总数:1753925(经过合并筛选)
分词性能
分词方法 准确率(%) 召回率(%) F1值(%)
Stanford 80.40 76.52 78.41
Urheen 80.46 77.43 78.92
ICTCLAS(+微博处理) 82.62 83.52 83.07
CWS 80.12 73.24 76.52
CWS(+词典+符号处理) 90.52 90.73 90.62
CWS: Chinese word segmentation based on ME model
小结
汉语自动分词
 汉语分词中的主要问题
 基本原则和辅助原则
 几种基本方法:MM、最少分词法、统计法等
未登录词识别
 人名、地名、组织机构名、特殊符号等
词性标注
问题(兼类、标注集、规范) 方法(规则方法、统计方法、综合方法) 分词与词性标注结果评测
正确率、找回率、F-测度值 分词与词性标注下一步努力的方向

全部评论 (0)

还没有任何评论哟~