Advertisement

命名实体识别_命名实体识别研究进展概述

阅读量:
65e3d30a010e6c7311b55ac480058870.png

Future丨Intelligence丨Nutrition丨Energy

让阅读成为习惯,让灵魂拥有温度

点击关注PKUFineLab

514c4dbbd17c7050561c0fa18c8f0202.gif

一起进步

命名实体识别研究进展概述

命名实体识别任务旨在通过自然语言处理技术从文本中识别出具有特定意义的关键信息。这些关键信息可能包括人名、地名及组织名称等重要元素。在自然语言处理领域(缩写为NLP)中,这一任务通常被视为首要步骤,并其产物被广泛应用于后续的NLP分析工作。例如,在实体链接、关系抽取以及语义解析等多个环节中都需要依赖于命名实体识别的结果质量。举个例子来说,在分析句子"南京市长江大桥于1968年12月29日建成通车"时,在错误识别人名和职务的情况下(将"南京市长"误判为人名),会导致后续基于此错误信息进行的文本分析出现偏差或失效现象。因此,在实际应用中确保命名实体识别任务能够准确无误地提取出真实的信息就显得尤为重要了。

命名实体识别任务通常被视为一种语言序列标注(Language Sequence Labeling)技术。传统的序列标注方法主要采用线性模型(Linear Model),如隐马尔可夫模型(Hidden Markov Models, HMM)和条件随机场(Conditional Random Fields, CRF)。这些方法通常依赖于领域特定知识(Task-specific knowledge)以及人工提取特征(Hand-crafted features)。近年来,在计算资源逐步增强以及深度学习算法不断进步的情况下,基于分布式表示学习的方法与非线性神经网络的引入使得命名实体识别任务得以构建端到端(E2E)模型。这种转变使得在无需领域特定知识与人工特征提取的前提下实现了显著的效果提升。针对当前命名实体识别领域面临的各类挑战问题,在近期研究工作中相应地对模型架构进行了精细化优化,并提出了若干创新思路。以下将首先阐述当前命名实体识别的主要工作流程与典型方法,在此基础上探讨一些新颖的研究方向,并分享个人的一些心得体会。

基本套路

当前阶段主流的命名实体识别的主要策略或方法可归纳为"三板斧":包括逐字符表示、双向LSTM编码以及CRF解码这三个部分。有代表性的研究是2016年发表在ACL期刊上的工作[1]。

首先,在对句子中的单词进行向量表示的过程中

8b96bf7ba72c4d983f035f79c415cbc0.png

图1 用于提取单词的字符级表示的CNN

采用向量表示将单词'playing'的每个字符嵌入到CNN中作为输入信号. 通过卷积层和池化层的处理, 我们能够提取到该单词逐个字符表示的信息. 利用这种方式分析, 研究者认为可以从这些特征中学习到单词的前缀. 后缀等语法特性.

随后所述内容采用双向LSTM模型作为编码层,并提取每个单词在其所在句子中的上下文特性。

fde567463f07a06e4537a4124e58ccb6.png

图2 双向LSTM和CRF组成的模型框架

将每个单词的词嵌入向量与字符级别的表示向量连接后形成编码层输入特征。随后利用双向LSTM模型分别计算出每个单词的前向和后向隐藏状态。随后将这两个方向上的隐藏状态进行融合处理后,并将其结果作为解码层——CRF模型进行预测输入。

就目前而言,文章选择CRF作为解码层的原因是由于其能有效考虑相邻标签之间的相互影响,并非单独地将每个单词映射到标签上。具体而言,在词性标注任务中,“形容词”后面通常会接一个“名词”而非“动词”。此外,在利用BIOES(Begin, Inside, Other, End & Single)模式进行实体识别时,“I-ORG”不可能紧跟“I-PER”,这有助于生成更合理的标签序列。

新的探索

在深度学习的发展过程中,在命名实体识别领域也取得了一系列新的进展,在这一过程中涉及如何解决标注数据规模与模型参数量不匹配这一关键挑战,并探讨了如何处理文本中命名实体之间的嵌套关系这一难题;此外还关注着如何实现模型的有效并行化以提高处理效率;同时本章节将重点阐述前两个核心问题及其相关研究进展

标注数据不足

随着模型变得越来越复杂精细,在注释数据成本高昂的情况下难以实现人工标注数据数量的有效扩展。为此,一个常用的方法就是采用远程监督策略获取大量无标签样本;然而由于现有知识库规模相对有限,并不能涵盖所有关键实体;因此在实际应用中会遇到许多关键实体并未包含在现有的知识库中;从而使得这些不在知识库中的实体被错误地标记为非实体;这正是传统上所说的'有限覆盖问题'(简称LCP);另一种方法则是通过优化模型结构来限制参数数量;这样可以在较少的人工注标样本下仍能实现有效的学习效果

813cc9f772ab26309cfc8e89bbdd2484.gif

有限覆盖问题

为了缓解有限覆盖问题对模型训练的影响, Shang J等人于2018年提出了两种解决方案. 首先, 基于最先进的短语挖掘技术, 在文本中提取了"高质量短语". 其次, 在远程监督标注过程中, 将那些未被现有知识库涵盖的"高质量短语"标记为"Unknow". 这种标注策略不仅增加了实体类别和非实体类别, 同时还引入了"Unknown"类别. 当标签范围扩展后, 上一章所介绍的基本工作流程中的CRF解码层需要进行相应调整, 如图3所示.

860506f2af662173be67cbf9f39f2493.png

图3 扩展的CRF解码层

采用基于BIOES序列标注模式进行实体识别,在每个单词都被标记为"位置-实体类型"的形式下(如图3所示),因此,在图3中每一列代表了5倍于实体类别数量的各种可能标签。传统的人工数据标注方法依赖于CRF解码层从所有路径中选择最可能的一条路径来进行标注(即每列仅选一个最可能的标签)。然而,在引入"Unknow"类别后认为,在图3所示的情况下(如'prostaglandin'与'synthesis'对应的两列),CRF解码层需要识别出所有可能相关的路径集合来进行标注。

以解决有限覆盖问题为目标,并带来了负面的影响。该文提出了一种新的方法——"Tie or Break"序列标注模式。与常规的标准 BIO2 标记模式不同,"Tie or Break"不再直接给文本中的每个单词贴标签,而是标记了文本中相邻单词之间的关系。其规则如下,以下分述其具体实现规则如下:

在同一个实体中出现的两个相邻单词之间的关联被标记为"tie";

相邻的两个单词如果其中任何一个位于 Unknown 类型下的高质量短语中,则这两个单词之间的关联被标记为 Unknown。

  1. 其它情况,标注为“Break”。

这种标注模式有两种优势:首先,在文本中某些短语经过远程监督与知识库中的实体部分匹配或者误匹配时(注意这里的"误匹配"是指不正确的配对),这些短语内部单词之间的Tie关系依然保持正确无误;其次,在进行远程监督标注时(注意这里的"进行"比"被"更为主动),文本中的一些单词很容易被错误地标记为假正例(注意这里的"假正例"是指不真实的正确分类)。若采用"Break or Tie"序列标注模式,则无论某个单词是否为真实的单一词项或是被错误标记为假正例的情况下(注意这里的顺序做了调整),它都与相邻的两个单词间的关系都被判定为'Break'(注意这里的顺序做了调整),从而降低了假正例对模型的影响。针对这一新型的标注标准...

6308bf7b8e4ca7ddf622353cd1e40175.png

图4 基于“Tie or Break”标注模式的AutoNER

自下往上观察时

813cc9f772ab26309cfc8e89bbdd2484.gif

领域敏感特征

为了使模型能够在标注数据量较少的情况下完成训练, 2018年Liu L等人发表在AAAI上的工作[3]提出了一种可行的方法论.文章中引入了一种名为LM-LSTM-CRF的新模型架构, 其名称本身就表明该方法在编码层与解码层的设计上与第一章讨论的主要方法具有相似之处.文章的核心贡献集中体现在针对单词级别的特征表示上, 具体而言则是对字符级别的特征选择进行了深入探讨.文章指出, 单词字符级别的特征虽然已在现有研究中被证明具有有效性, 但在大规模预训练过程中获得后会包含大量与领域无关的信息, 这些无用信息需要通过更大规模的数据集、更复杂的模型架构以及较长的训练时间才能有效去除.而本文则采用了多任务学习策略提取共享特征的方式, 并结合语言模型(Neural Language Model)能够学习到领域特定特征的特点, 在从文本中提取仅包含领域相关特征方面取得了显著成果, 这一创新思路使得序列标注任务能够仅使用少量参数就达到较好的性能水平.具体实现效果如图5所示

36e41a82e3a3841b6ec7f0d96e632723.png

图5 LM-LSTM-CRF模型结构

图文中采用双向LSTM架构提取字符级别的特征信息;这些隐藏层向量分别承担两个重要角色:一个是序列标注主项(主要功能),另一个是语言建模辅助项(次要功能)。关于序列标注的具体机制此处不做详细讨论;在该模型架构中,默认的任务目标是基于已知输入序列预测后续下一个词;具体而言,在这种架构下,“Pierre”一词的处理逻辑是基于其前一个时间步的隐藏状态输出;值得注意的是,在这种架构设计下,默认情况下这两个子任务被明确区分开来:一个是基于词嵌入的高阶表示学习(highway layer),另一个则是基于特定损失函数优化(loss function optimization)。

命名实体嵌套

实体嵌套即指一句话中某一复合名词或复合结构中出现的小分子成分完全包含于大分子成分之中的情形。例如,在“南京市长”这一复合名词中,“名词成分‘南京’就位于大分子成分‘市长’之中。而传统的命名实体识别方法主要处理非嵌套型实体(Flat entities),即文本中的各种实物流畅不交叉互包含。为了解决嵌入式命名实体识别问题,在过去几年里学者们进行了诸多探索与尝试;本文旨在简述当前研究进展并提供参考

本研究基于Ju M等人在2018年发表于NAACL上的第一项工作[4]。该研究提出了一种层次结构模型。其基本思路是通过反复迭代的方式逐步识别文本中的实体信息。具体而言,则将之前介绍的LSTM与CRF结合使用作为基础的平坦命名实体识别模块(Flat NER Module),并通过递归叠加的方式不断扩展这一基础模块。通过递归叠加的方式持续扩展这一基础模块,在从内向外逐步分析嵌套层次的实体信息(先解析内部实体信息再推导外部层次)。当遇到无法进一步提取的新实体时则停止这一过程

4715dca534629c1384c662ea687102a3.png

图6 层模型

从下往上,在第一个flat NER层中,该模型将每个token在经过双向LSTM处理后的隐藏表示输入至CRF中进行处理。该过程用于识别嵌套最内层实体(most inner entities)。具体而言,在识别嵌套最内层实体时,作者建议将构成该嵌套最内层实体的所有单词的隐藏表示进行求和并取平均值,并将其视为一个整体单位(即一个整体单位),取代这些被识别为嵌套最内层实体的单词序列。这种操作后的新序列会被传递至下一个flat NER层进行处理。重复上述步骤直至某个flat NER层将所有输入的token标记为‘非实体’为止。作者认为这种方法不仅能够有效识别嵌套式实体结构,并且能够考虑到inner entities与其outer entities之间的相互作用关系。

接下来的研究重点是Sohrab M G等人于2018年发表在EMNLP上的相关工作[5]。该研究的核心关注点在于解码层部分,在编码层中采用了与前文相似的方式处理单词的字符级表示以及双向LSTM编码机制。图7展示了在解码层中采用的方法:遍历所有可能的片段生成候选实体,并利用隐藏层向量对这些候选实体进行表征;最后通过Softmax进行分类处理以获得最终结果。尽管实验结果显示有一定的效果[6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16], 但这种方法存在一定的局限性:一方面它忽略了标签间的关联性, 另一方面当序列长度较长时, 穷举法会导致大量负样本出现, 导致正负样本类别分布失衡, 进而影响模型的整体性能表现

7fc81bc295a6f9c6031bf24c5c0ede72.png

图7 枚举模型

在此, 我们同样关注的是 2018 年发表于 EMNLP 的一篇论文 [6]. 与前两篇工作的主要贡献不同的是, 在这里我们主要贡献了通过将文本进行适当的转换后能够实现对嵌套实体以顺序访问方式进行平坦化处理.

随后见图8, 作者采用了一种新的方法将嵌入式实体建模为一棵句法成分树, 这使得文本中的多个嵌入式实体构成了一片森林. 在其中, 树的叶节点对应文本中的tokens, 而内部节点则代表特定的实体类别, 这种关系则以父-子关系的形式呈现.

bc8b732e851160c87eaac53d50be8b9d.png

图8 用句法成分树标注的嵌套实体

在采用bottom-up策略构建语法成分树的过程中

85258407cd9260ea30032d2ce447a27f.png

图9 句法成分森林的构建过程

构建动作的执行结果取决于系统的当前状态,在这个状态下系统所处的信息主要包括栈的状态信息以及尚未处理的文字序列内容和所有已执行的动作记录。基于此系统状态设计算法能够根据当前状态下应采取的具体操作并据此生成相应的操作指令从而实现模型训练的目的

具体来说,在文章中首先明确阐述了三类核心操作:SHIFT、REDUCE-X和UNARY-X这三个操作单元(其中X代表预定义的实体类别)。SHIFT操作是将当前文本序列中的单词压入栈中;REDUCE-X操作则是取出栈顶两个元素并赋予它们共同父节点X后将其重新压入栈中;UNARY-X操作则会取出栈顶元素并赋予其父节点X后再将其更新为新的树结构单元。完成这些基本操作后即可获得模型最终输出结果(即label),而其输入端——系统的状态则被划分为三个部分来表示:

该数据结构采用向量化方法结合stack LSTM模型进行建模,在传统LSTM架构中增加了用于指示当前操作位置的栈顶指针。通过当前栈顶指针所指示的操作单元(即该单元)的隐藏层输出特征来反映数据结构状态。

  1. 文本序列余下部分通过逆序LSTM建模,在此过程中,初始状态由第一个单词的隐藏层输出决定。

  2. 历史上的构建行为则由一种向前传播的长短期记忆网络模型进行学习,在分析最新的动作时, 其隐藏层输出反映了当前状态特征

将这三种状态的向量表示拼接起来表示系统状态,作为Softmax的输入。

总结

科研有时会采用新技术来解决旧有的难题,在这一过程中新技术的应用也会衍生出新的挑战,在命名实体识别领域给我留下了深刻的体会。一方面得益于深度学习的进步命名为实体识别模型取得了显著成效对细节之处也进行了精细化的建模;另一方面深度学习技术的应用也面临着一些困境例如标注数据与参数量不成比例的问题以及精细模型难以实现高效并行化的挑战等问题等

围绕命名实体识别领域的研究现状展开探讨时

fdaa28ddfc456b7b6d783fa93fa71aee.png

参考文献

[1] Ma X, Hovy E H. 基于双向LSTM-CNNs-CRF的端到端序列标注技术[J]. 会议名称:2016年: 页码范围为1064-1074.

[1] Ma X, Hovy E H. 基于双向LSTM-CNNs-CRF的端到端序列标注技术[J]. 会议名称:2016年: 页码范围为1064-1074.

[2] Shang J, Liu L, Ren X, et al. Learning Named Entity Tagger using Domain-Specific Dictionary[J]. arXiv preprint arXIV:1809.03599, 2018.

Enhance sequence tagging with a task-sensitive neural language model system at the Thirty-Second AAAI Conference on Artificial Intelligence in 2018.

[4] Ju M, Miwa M, Ananiadou S. A neural layered model for nested named entity recognition[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2018, 1: 1446-1459.

[5] Sohrab M G, Miwa M. Comprehensive Deep Learning Framework for Hierarchical Named Entity Disambiguation[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018: 2843-2849.

Wang B等人的研究提出了一种基于神经过渡模型的嵌入式提及识别方法。该研究发表于2018年的《arXiv预印本》上,并在第18卷第10期刊物中进行了详细描述。

[7] 张杨. 中文NER采用LSTM网络模型[J]. 计算机学会会议, 2018: 1554-1564.

[8] Strubell E, Verga P, Belanger D, et al. Efficient and Precise Entity Identification through the Application of Iterated Dilated Convolutions[J]. empirical methods in natural language processing, 2017: 2670-2680.

4880832dd69eb10cb26ca9370d37c543.png
f5715a5d679d237c29f5b11ae8fcb35c.png

作者简介及往期文章

张程博

博士研究生二年级、软件工程专业

研究方向:日志增强技术,知识图谱构建及应用

作者往期文章汇总:

  1. 浅谈程序语言处理

  2. 语义网:这二十年的’老古董’究竟是什么

  3. 表示学习之跨语言表示学习

4880832dd69eb10cb26ca9370d37c543.png
f5715a5d679d237c29f5b11ae8fcb35c.png
18426465a8047ce4ac6c88cdd2b163c6.png

扫 描 关 注

PKUFineLab

转载请联系:

colordown@pku.edu.cn

Where there is a will there is a way.

全部评论 (0)

还没有任何评论哟~