Advertisement

python中文命名实体识别工具包_中文命名实体识别工具(NER)比较

阅读量:

既然中文分词与词性标注已经完成得很好了,在这种情况下下一步很自然想到的就是需要用到命名实体识别(NER, Named-entity recognition)相关的技术与工具了。不过根据我目前了解到的情况,在开源领域中能够提供支持的中文命名实体识别工具数量有限。目前看来,在这些可用的支持中主要是那些经过验证和优化的自然语言处理开源平台。以下列举了一些具有代表性的工具:斯坦福大学NLP组开发的Stanza, 百度推出的Paddle Lac, 哈尔滨工业大学推出的LTP系统等。除此之外还有一些经过测试且功能各异的开源NLP基础库, 但这些如GitHub上的代码库虽功能各异但多用于研究而非商业应用场景下的直接应用需求。通常的做法是基于现有的词性标注结果提取相应的专有名词作为后续处理的基础数据来源

目前广泛使用的中文分词工具中,在可定量评估性能的工具中

代码

名称

帮助记忆的诠释

Ag

形语素

形容词性语素。 形容词代码为 a ,语素代码 g 前面置以 A。

a

形容词

取英语形容词 adjective 的第 1 个字母。

ad

副形词

直接作状语的形容词。 形容词代码 a 和副词代码 d 并在一起。

an

名形词

具有名词功能的形容词。 形容词代码 a 和名词代码 n 并在一起。

b

区别词

取汉字“别”的声母。

c

连词

取英语连词 conjunction 的第 1 个字母。

Dg

副语素

副词性语素。 副词代码为 d ,语素代码 g 前面置以 D。

d

副词

取 adverb 的第 2 个字母 ,因其第 1 个字母已用于形容词。

e

叹词

取英语叹词 exclamation 的第 1 个字母。

f

方位词

取汉字“方” 的声母。

g

语素

绝大多数语素均可充当合成词的基本单位,并取自汉字"根"这一声母。在实际标注过程中 ,必须确保准确无误地完成标记工作

标注其子类 ,所以从来没有用到过 g。

h

前接成分

取英语 head 的第 1 个字母。

i

成语

取英语成语 idiom 的第 1 个字母。

j

简称略语

取汉字“简”的声母。

k

后接成分

l

习用语

习用语尚未成为成语 ,有点“临时性”,取“临”的声母。

m

数词

取英语 numeral 的第 3 个字母 ,n ,u 已有他用。

Ng

名语素

名词性语素。 名词代码为 n ,语素代码 g 前面置以 N。

n

名词

取英语名词 noun 的第 1 个字母。

nr

人名

名词代码 n 和“人(ren) ”的声母并在一起。

ns

地名

名词代码 n 和处所词代码 s 并在一起。

nt

机构团体

“团”的声母为 t,名词代码 n 和 t 并在一起。

nx

非汉字串

nz

其他专名

“专”的声母的第 1 个字母为 z,名词代码 n 和 z 并在一起。

o

拟声词

取英语拟声词 onomatopoeia 的第 1 个字母。

p

介词

取英语介词 prepositional 的第 1 个字母。

q

量词

取英语 quantity 的第 1 个字母。

r

代词

取英语代词 pronoun 的第 2 个字母,因 p 已用于介词。

s

处所词

取英语 space 的第 1 个字母。

Tg

时语素

时间词性语素。时间词代码为 t,在语素的代码 g 前面置以 T。

t

时间词

取英语 time 的第 1 个字母。

u

助词

取英语助词 auxiliary 的第 2 个字母,因 a 已用于形容词。

Vg

动语素

动词性语素。动词代码为 v。在语素的代码 g 前面置以 V。

v

动词

取英语动词 verb 的第一个字母。

vd

副动词

直接作状语的动词。动词和副词的代码并在一起。

vn

名动词

指具有名词功能的动词。动词和名词的代码并在一起。

w

标点符号

x

非语素字

非语素字只是一个符号,字母 x 通常用于代表未知数、符号。

y

语气词

取汉字“语”的声母。

z

状态词

取汉字“状”的声母的前一个字母。

HanLP采用了基于2014年人民日报的分词数据模型,在此基础上补充了少量98年人民日报特有的专业术语。因此 HanLP 的词性标注集合集成了 ICTPOS3.0 汉语词性标记规范,并遵循现代汉语语料库的分词与词性标注标准。

特别注意百度词法分析工具Lac采用了集中的方式特别加了一组重点标记的专名类别标签:

集合列出了词性和专名类别的所有可能组合与对应关系。该表格包含24个小写字母代表的词性分类信息以及4个大写字母代表的具体实体类型信息。需要注意的是,在表格中标注了两种类型的分类标准:一种是PER/LOC/Org/TIME(全称),另一种是nr/ns/nt/t(简称)。被标记为第二种类型的小写字母nr/NS/nt/t的词汇项属于模型判定低置信度的对象实体名称或时间点标识符。因此开发者可以根据具体需求在这两大类指标间进行权衡比较。

哈工大LTP的命名实体标注集没有提取“时间”,具体参考如下:

NE识别模块的标注结果采用O-S-B-I-E标注形式,其含义为

标记

含义

O

这个词不是NE

S

这个词单独构成一个NE

B

这个词为一个NE的开始

I

这个词为一个NE的中间

E

这个词位一个NE的结尾

LTP中的NE 模块识别三种NE,分别如下:

标记

含义

Nh

人名

Ni

机构名

Ns

地名

鉴于此观察结果,在进行中文命名实体识别系统测试时

全部评论 (0)

还没有任何评论哟~