Advertisement

中文命名实体识别综述

阅读量:

本文回顾了基于神经网络的中文命名实体识别(NER)任务的研究进展,特别是基于晶格结构的模型。中文NER相较于英文NER更具挑战性,主要体现在实体边界难以确定和复杂语法结构上。调研了不同神经网络架构下的晶格结构模型,包括Lattice LSTM、WC-LSTM、基于图神经网络的方法以及改进的Transformer模型。此外,还介绍了常用的中文NER数据集及其评价标准,为新研究人员提供了对该领域最新进展的全面了解。

摘要

中文命名实体识别(NER)任务是信息抽取领域内的一个子任务,其任务目标是给定一段非结构文本后,从句子中识别和分类相关实体,例如人名、地名和机构名称。中文命名实体识别是一个自然语言处理(NLP)领域的基本任务,在信息检索、关系抽取和问答系统等下游NLP任务中具有重要地位。对现有基于神经网络的单词-字符晶格结构的中文NER模型进行了综述。首先,指出中文NER相较于英语NER具有显著难度,主要体现在实体边界难以确定以及复杂的语法结构等方面。其次,探讨了不同神经网络架构(RNN、CNN、GNN和Transformer)下中文NER模型的最新进展。由于单词序列信息能够为基于字符的序列学习提供更多实体边界信息,为了更明确地利用每个字符所对应的词汇信息,研究者们提出通过将单词信息整合到字符序列中,构建词-字符晶格结构。与基于单词或字符的独立方法相比,基于神经网络的词-字符晶格结构在中文NER任务中展现出显著的性能优势。最后,介绍了中文NER所使用的数据集及其评价标准。

关键词: 命名实体识别(NER); 晶格结构; 神经网络

随着新闻、公司档案、病历、政府文件、法院听证会和社交媒体等形式的信息呈现爆炸性增长,人们正逐渐陷入信息过载的困境。这些信息 majority 是非结构化文本,即自由格式文本,因此难以进行推理和解释分析。在自然语言处理领域,通过分析文本从而实现有价值信息提取的过程,被称为信息抽取(information extraction, IE)[1]。通过对结构不统一的非结构化文本进行信息抽取处理,可以得到结构化数据,这种数据便于人们进行高效检索及管理[2]。实体抽取作为信息抽取技术的核心任务,在学术界和产业界受到了极大的关注。

命名实体识别(named entity recognition,NER)[3] 是信息抽取领域中的一个重要子任务。其主要目标是从给定的非结构化文本中识别、分类和标注特定实体,例如个人、地点和组织名称。在学术研究领域以及实际应用层面,无论从理论价值还是实践意义来看,命名实体识别都具有重要的价值。近年来,随着大规模有监督学习数据集的不断涌现以及深度学习技术的快速发展,命名实体识别相关技术在多个顶级学术会议和期刊上受到了越来越多的关注。通过提升语义知识的丰富程度,阅读理解、自动问答以及机器翻译等 downstream任务的性能得到了进一步的提升[4 ,5 ,6]。

与英文NER相比,中文NER基于分词问题。中文命名实体识别(NER)作为自然语言处理(NLP)领域的核心任务,在信息检索[7]、关系抽取[8]以及问答系统[9]等多个下游任务中发挥着关键作用。相较于英文NER,中文NER更为复杂。这一复杂性主要源于中文文本实体边界难以明确以及其语法结构的多样性。在中文NER中,实体的边界即为单词的边界。分词过程所带来的错误传播问题,也使得中文NER面临显著挑战。

传统上,中文NER任务被划分为两个独立的子任务,即中文分词和单词序列标注[10]。该方法的主要缺陷是错误传播:中文词语边界分割错误会直接影响实体识别效果[1112]。另一方面,基于字符的模型能够避免词语分割错误,其性能优于基于词语的模型。由于单词序列信息为基于字符的序列学习提供了更多边界信息,为了更明确地利用每个字符所相关的词汇信息,此前已有研究[13]建议通过词-字符晶结构将单词信息整合到字符序列中。基于神经网络的单词-字符晶格结构在中文NER任务中的性能显著优于基于词语或基于字符的单独方法。

1****研究难点及挑战

本章总结了中文命名实体识别面临的系列技术难点与挑战。中文命名实体识别作为中文信息抽取的重要子任务,其核心目标是基于一段非结构文本,从句子中识别、分类相关实体,如人名、地名和机构名称等。与基于词或字符的独立方法相比,基于字符的序列学习方法通过利用单词序列信息,显著提升了模型性能。图1展示了基于Lattice LSTM[14]的中文命名实体识别模型结构图,该模型由Zhang等在ACL2018年会议中提出。他们提出了一种改进型的LSTM模型(Lattice LSTM),该模型通过将句子中所有单字符匹配到的词语编码为有向无环图(DAG),充分利用了丰富的词汇信息,从而在多个数据集上取得了较好的实验结果。与单一字符或词基模型相比,该模型表现出显著的性能提升。然而,有向无环图的路径选择机制有时会导致晶格模型退化为基于单词的模型。此外,由于该模型基于BiLSTM架构,不同字符匹配的词之间无法进行信息交互。针对这一问题,WC-LSTM[13]模型通过采用四种词嵌入策略(最短词信息、最长词信息、平均值、自注意力机制)来改进这一缺陷。具体而言,当某个字符未找到对应词时,采用标记进行填充,从而实现批处理处理。以最长词信息为例,模型会选择当前字符匹配到的最长词作为匹配词。然而,WC-LSTM模型仍然存在信息损失问题,无法充分挖掘词汇信息。

图1

1原始****Lattice LSTM

Fig.1 Original Lattice LSTM

图2

2最长策略

Fig.2 Longest strategy 2****研究现状及热点

本章将阐述命名实体识别任务的研究领域的现状概述,以及当前研究关注的焦点。

2.1 基于规则的方法

基于规则的命名实体识别(NER)系统依赖于人工制定的规则。可以基于特定领域的名词典和句法词汇模式来构建规则。比较知名的系统包括LaSIE-II[15]、NetOwl[16]、Facile[17]和SAR[18]。当词汇库极为完善时,基于规则的系统是一种有效的选择。但在某些特定领域,由于其特定的规则和词汇库的不完整性,这类系统往往表现出高识别准确率和较低的召回率,并且难以推广至其他领域。

2.2 基于无监督的方法

无监督学习的主要方法是聚类[19]。基于聚类的 NER 系统抽取相关实体是通过上下文相似度的聚类实现的。Collins等人[20]主要依靠少量的种子标注数据和7个特征,包括拼写(如大小写)、实体上下文、实体本身等,来进行实体识别。Nadeau等人[21]提出了一种基于无监督学习的地名词典构建和命名实体歧义解析的系统。该系统采用了简单而高效的启发式方法,结合了实体提取和歧义消除。

2.3 基于有监督的方法

在监督学习框架下,NER任务可被视为多分类或序列标注问题。基于标注数据集,精心设计的特征可有效表示每个训练样本。随后,通过机器学习算法训练模型,以从未知数据中识别出相似的模式。在监督学习的NER领域,已应用多种机器学习算法,包括隐马尔科夫模型(HMM,22)、决策树(23)、最大熵模型(24)、支持向量机(SVM,25)以及条件随机场(CRF,26)。

2.4 基于深度学习的方法

近年来,基于深度学习的NER模型占据主导地位并取得最新进展。相较于基于特征的方法,深度学习有助于自动识别隐藏的特征。对于英文NER而言,目前根据单词在句子中的表现形式,可以将基于神经网络的NER结构划分为词级和字级。

在该体系结构中,句子中的每个单词被递归神经网络作为输入处理。其中,Collobert等人[27]最先提出了基于词级的神经网络模型,该模型采用了卷积层替代BiLSTM层,其输出结果传递给CRF层进行预测。通过引入词典信息和SENNA嵌入技术,该模型在English CoNLL 2003数据集上实现了89.59%的F1值。此外,Yadav等人[28]提出了一个基于词级别的LSTM结构,如图3所示。值得注意的是,他们的模型在CoNLL 2003数据集上获得了84.26%的F1分数。

图3

3晶格LSTM结构

Fig.3 Lattice-LSTM structure

(2)字级别:在此模型中,句子被视为由字符组成的序列。该序列通过RNN(recurrent neural network)传递,用于预测每个字符的标签(如图4所示)。Ma等人[29]利用CNN(convolutional neural network)提取单词的字符级表示。早先,大多数GNN(graph neural networks)的处理对象是同质的图结构,通过模型学习这些图的节点表示。最近,Peters等人[30]提出了ELMo(embeddings from language models)单词表示形式,该表示形式基于具有字符卷积的两层双向语言模型计算得出。

图4

4 WC-LSTM结构

Fig.4 WC-LSTM structure

2.5 基于晶格结构的方法

与英语命名实体相比,中文命名实体难度大。主要是因为中文文本相关实体边界难以确定和中文语法结构复杂。传统上,中文NER的任务被分解为两个分离的子任务,即中文分词和单词序列标注[10]。此方法的主要缺点是错误传播:中文词语边界分割错误会对实体识别产生影响[11]。基于字符的NER的一个缺点是没有充分利用明确的单词和单词序列信息,哪怕这些信息可能是有用的。由于单词序列信息可以给基于字符的序列学习多边界信息,在中文NER任务上基于神经网络的词-字符晶格结构的性能要明显优于基于词或基于字符的方法。为了解决这个问题,Zhang和Yang[14]首先提出了一种LSTM模型的变种(Lattice-LSTM)模型,如 3 所示。该模型利用一个句子中所有被单个字符匹配到的词语,把这些词语编码为一个有向无环图(directed acyclic graph,DAG)。该模型利用一个句子中所有被单个字符匹配到的词语,把这些词语编码为一个有向无环图。得益于丰富词汇信息,Lattice-LSTM模型已在各种数据集上取得了不错的结果。然而,这个有向无环图结构有时无法选择正确的路径,这可能导致晶格模型退化为部分基于单词的模型。

为了解决该问题,Liu等人[13]提出了一种新的基于单词和字符的LSTM模型(WC-LSTM),该模型通过将单词信息整合到基于字符的模型中来解决该问题。如图4所示,该模型首先将一个中文句子表示为一系列字符-单词对,从而将单词信息整合到每个字符中,以确保模型不会退化为部分基于单词的模型。同时,Liu等人还设计了四种不同的词编码策略。这些策略可以将词信息编码为固定大小的向量,使得模型能够批处理并适应各种应用场景。

该研究团队提出了...模型(... with lexicon rethinking, R-CNN),该模型通过不同大小的卷积核对候选词进行编码(如图5所示)。该模型不仅能够并行处理整个句子以及所有潜在的单词,还引入了一种反思机制,用于解决候选词间的语义冲突。该机制能够通过高级语义信息调整候选词嵌入的权重,从而有效解决候选词间的语义冲突。

图5

5 R-CNN模型示意图

Fig.5 R-CNN schematic model

此外,Gui等人[32]构建了一个基于词典的图形神经网络(Lexicon-based Graph Neural Network for Chinese Named Entity Recognition, LGN),将中文NER任务转化为一个节点分类问题(如图_6_所示)。该网络通过图神经网络实现了字符与单词之间的更紧密连接,从而提升了字符与单词之间的交互效果。通过词汇知识将相关字符关联起来,以捕获本地特征。同时,设计了一个全局中继节点,用于捕获远程依赖和高级特征。LGN遵循基于邻域的聚合方案,通过递归聚合输入边和全局中继节点来计算节点表示。经过多次迭代聚合,该模型能够有效利用全局上下文信息进行歧义词的重复比较,从而获得更优的预测结果。类似地,Sui等人[33]针对词汇匹配问题,提出了一种基于字符的协同图形网络,包含编码层、图形层、融合层和解码层。Ding等人[34]为了解决地名录的冲突匹配问题,提出了一个多向图模型,该模型能够通过学习上下文信息有效地解决冲突匹配问题。此外,为了更好地训练模型,Ding等人[34]还公开分享了一个新的电子商务领域中文数据集。

图6

6 LGN的聚合

Fig.6 LGN aggregation

然而,NER对于句子结构的高度敏感性,使得这些方法仍然不得不依赖LSTM作为主要编码器,这种混合编码方案会导致模型结构变得更为复杂。

近期,Yan团队[35]在中文NER领域开发了一种优化的TENER编码器(transformer encoder for named entity recognition)。基于方向相对位置编码的运用,他们成功减少了模型参数数量,并优化了注意力分布,从而显著提升了基于Transformer的模型在NER任务中的性能。通过实验验证,该模型相较于基于BiLSTM的方案,在性能上实现了显著提升。

Ma等人[36]开发了一种简便的方法以实现Lattice- LSTM的核心思想,具体而言,他们将所有匹配词整合进基于字符的NER架构中。该模型在提取词汇表信息的同时,还创新性地引入了新的编码策略。这一创新策略最大限度地保持了词汇表匹配信息。因此,该模型不仅显著提升了推理效率,而且在模型结构上相较于Lattice-LSTM具有明显优势,即无需复杂的架构设计,实现更加便捷,并且通过灵活调整字符表示层,能够快速适应各种合适的神经NER模型。

Li等人[37]基于平面晶格结构,以便Transformer通过位置编码捕获词信息。该模型命名为FLAT,基于Chinese NER和flat-lattice transformer的结合。通过全连接的自注意力机制模拟序列中的长距离依赖关系。为了保持位置信息,Transformer对序列中的每个标记引入了位置表示。Transformer的自注意力机制使角色能够直接与任何潜在的词互动,包括自我匹配的词。

Zhao等人[38] 开发了一种动态的跨自晶格注意网络方法。该方法的灵感源自计算机视觉中的VQA(视觉问答)任务。如图7所示,他们将字符和单词序列视为两种不同的模态。为了建模词-字晶格结构上的信息交互,首先设计了一个跨晶格注意力模块,该模块旨在捕获两个输入特征空间之间的细粒度相关性。接着,进一步构建了一个动态的自晶格注意模块,该模块能够动态融合单词特征,并且能够直接连接任意两个字符,不论它们之间的距离如何。给定词和字的向量表示以及对齐的晶格结构,模型首先通过跨晶格注意力模块生成具有词信息的字符特征。随后,动态的自晶格注意力模块结合字符和单词特征,最终生成自我注意的字符特征。通过这种方式,本文所提出的网络能够充分捕获词-字晶格结构上的信息交互,从而为中文NER预测任务提供了丰富的表示形式。

图7

7跨自晶格模型注意网络方法

Fig.7 Cross- and self-lattice attention network

众所周知,汉字源自古代的象形文字,其结构蕴含了丰富的文字信息。Wu等人[39]为了便于汉字的结构信息分析,提出了一种新颖的基于多元数据嵌入的Cross-Transformer模型。如图8所示,Wu等人[39]在FLAT模型基础上引入了radical-stream模块,该模块能够整合中文结构信息,例如偏旁部首。该方法利用的中文结构信息同样有效解决了同音字干扰下的中文分词问题。

图8

8多元数据嵌入的Cross-Transformer模型

Fig.8 Multi/meta data embedding based Cross-Transformer,该模型基于多元数据的交叉嵌入机制,具有显著的效果。3****基于数据集的评价标准,该研究采用了多维度的评估指标,以确保结果的可靠性和有效性。

本章将会介绍部分常用的中文NER数据集以及评价标准。

3.1 常见数据集

高质量标注数据集在模型学习和评估过程中扮演着关键角色。本节对广泛使用的数据集进行了总结。表1列出了几种广泛使用的数据集,包括它们的数据来源以及实体类型(亦即标签类型)。

1常见NER数据集

Table 1 Common NER datasets

数据集名称 年份 来源 实体类型数量 网址
OntoNotes 2007—2012 Magazine,news,Web等 18 https://catalog.ldc.upenn.edu/LDC2013T19
Resume 2018 SinaFinance text 8 https://github.com/jiesutd/LatticeLSTM
Weibo 2015 social media 4 https://github.com/quincyliang/nlp-public-dataset/tree/master/ner-data/weibo
MSRA 2006 news 3 https://docs.qq.com/sheet/DVnpkTnF6VW9UeXdh?c=A1A0A0&tab=BB08J2
E-commerce 2019 e-commerce 2 https://github.com/PhantomGrapes/MultiDigraphNER

新窗口打开|下载** CSV**

该数据集涵盖的领域广泛,分为5个版本(1.0至5.0)。该数据集支持8种实体类型识别。Resume数据集来源于新浪财经,包含多家中国股市上市公司的高管个人简历。我们随机抽取了1027份简历摘要,并通过YEDDA工具实现了8种命名实体类型的自动标注。MSRA和Weibo数据集分别来源于新闻报道和社交媒体(如微博)。两个数据集分别支持3种和4种实体类型识别。E-commerce领域数据集是通过人工标注电商相关文本构建的,支持两种实体类型识别。

3.2 评价标准

该任务通常采用 F 1值来评价模型的性能:

F1=precision×recallprecision+recall

(1)

其中,precision被定义为模型输出正确实体的比例,而recall被定义为模型在数据集中找到正确实体的比例。在该任务中,普遍认为,仅当实体的类型和边界均被正确预测时,该实体才被判定为识别正确。

4****总结

本文旨在综述基于神经网络的中文NER(命名实体识别)中词-字符晶格结构的最新研究,以助新研究者对该领域有全面的了解。本次研究涵盖了中文NER的发展背景、传统方法概述、当前研究的现状及热点问题。首先,对比了中文NER与英文NER,发现中文NER的难度较高。这主要源于中文文本实体边界难以明确以及中文语法结构较为复杂。其次,研究了不同神经网络架构(如RNN、CNN、GNN和Transformer)下最具代表性的中文NER模型。最后,介绍了中文NER所使用的数据集及其评价标准。

全部评论 (0)

还没有任何评论哟~