Advertisement

论文笔记 A Unified MRC Framework for Named Entity Recognition | ACL2020

阅读量:

论文题目:A Unified MRC Framework for Named Entity Recognition

论文的研究者群体包括Xiaoya Li♣、Jingrong Feng♣、Yuxian Meng♣、Qinghong Han♣、Fei Wu♠以及Jiwei Li♣

♠ Department of Computer Science and Technology, Zhejiang University

Shannon.AI

论文链接:https://arxiv.org/pdf/1910.11476.pdf

代码链接:https://github.com/ShannonAI/mrc-for-flat-nested-ner


该论文发表于ACL2020会议,并开发了一种同时解决嵌合体与非嵌合体命名实体识别任务的综合方案。

一般而言,基于命名实体类型是否嵌套这一标准将**命名实体识别(NER)任务划分为嵌套NER(Nested NER)与非嵌套NER(Flat NER)。这些模型通常是专门针对这两个任务进行开发设计的。在序列标注框架中,默认情况下每个token通常仅被赋予单一标签;然而这在处理嵌套结构时显得不够理想

该研究者构建了一个综合处理nested和flat命名实体识别问题的系统架构,在这一过程中,并非将NER归类为序列标注技术而是转而将其归类为机器阅读理解(简称MRC)问题

如需提取PER标签的实体,请将其转化为将'which person is mentioned in the text'这一问题转化为答案跨度的形式。若需同时处理不同类别实体的情况,则只需分别针对每个类别独立地给出答案即可。这使得嵌套NER方案中的实体覆盖问题得以解决。此外,在该方案下通过整合大量领域知识提升了信息抽取效率,在嵌套NER场景以及非嵌套场景中均取得了显著性能提升的效果。

作者分别在嵌入式实体识别(Nested Entity Recognition)与非嵌入式实体识别(Nested Entity Recognition)的数据集上进行了实验研究,并验证了所提出方法的有效性。结果显示所提出的方法具有显著的效果,在嵌入式的实体识别任务中表现优异:选用了ACE-04、ACE-05、GENIA和KBP-17这四个数据集,在相比目前广泛认可的最佳模型(简称SOTA)的基础上取得了更高的成绩:如+1.28%、+2.55%等提升幅度。针对非嵌入式的实体识别任务进行研究时,则采用了两个英文的数据集:CoNLL 2003和OntoNotes 5.0;以及两个中文的数据集:MSRA和OntoNotes 4.0;其表现同样令人满意:取得了如+0.24%、+1.95%等明显提升的结果。

Introduction

NER旨在从给定文本中定位实体跨度并对其进行语义分类。该任务主要分为两个子任务:一个是嵌套实体识别(Nested NER),另一个是非嵌套实体识别(Non-Nested NER)。

嵌入NER体现为实例间的跨层级关系特征,在文本结构分析中具有重要价值。如图所示的例子说明了这一现象的具体表现形式。其中PEBP2被归类为PROTEIN类别中的核心概念标记,在其描述过程中与相关属性信息形成直接关联。而PEBP2 site则属于DNA类别中的具体实例描述部分,在此层次上与上层概念形成直接引用关系。两者之间的交叉引用关系形成了一个完整的知识连接网络结构,在自然语言处理体系中具有重要的应用价值

flat的NER常被建模为序列标注问题,每个token仅分配单一标签,这使得该方案无法直接处理嵌套式的NER情况,因为当某个token参与多个实体识别时,它将被赋予多个标签.多数嵌套式的NER处理方法采用管道式的架构设计,其存在错误传播的现象以及依赖大量人工特征的不足之处.

该研究者因当前问答式NLP任务的发展趋势而受到启发,并提出了一个统一的方法来处理嵌套型与非嵌套型命名实体识别(NER)问题,并将其转化为机器阅读理解任务。该方法将每个实体类型表征为一个自然语言查询,并基于此对给定文本进行分析以提取对应实体信息。 例如,在给定文本‘[Washington] was born into slavery on the farm of James Burroughs’时,则需将其转化为一个问题:‘文中提到了哪一位人物?’

该模型基于给定的问题从文章中识别答案范围。此任务可被建模为两个分类问题:预测答案跨度的起始位置及结束位置。

NER as MRC

Task Formalization

我们从以下几个方面展开讨论:给定一个输入序列 X = {x₁, x₂, ..., xₙ} ,其中n表示序列的总长度;我们需要在这一系列数据中识别出每一个实体,并将其标记为y∈Y;其中Y是一个预先确定好的标签列表(例如PER、LOC等),包含了所有可能的分类标记类型。

Dataset Construction

为了将标记为tagging-style的NER数据集转换为(Question, Answer, Context)三元组集合,并对每个标签类型y∈Y进行处理。对于每个标签类型y∈Y来说,都会对应一个与之相关的自然语言问题_q_y_= {q₁, q₂, ..., q_m}。其中m表示查询生成的长度。此外,在标注过程中产生的实体_x_start,end_= {x_start, x_start+1, ..., x_end-1, x_end}是原始文本X中的一个子串,并且满足start ≤ end的关系。每个实体都会被赋予一个对应的标签y∈Y。通过基于标签y生成相应的自然语言问题_q_y_ ,我们就可以构建出所需的(Question, Answer, Context)三元组 (q_y, x_start,end, X),其中下标"start,end"表示序列中从"start"到"end"的所有连续tokens构成的子串

Query Generation

构建问题的过程至关重要,因为这些编码了标签的先验知识会对最终结果产生显著影响。在构建查询的过程中存在多种方法可供选择。例如,Li et al. (2019) 开发了一种基于模板步骤构建查询的方法来提取实体间的语义关系。本研究中,研究者将 annotation guideline notes 作为构建查询方案的重要参考依据, annotation guideline notes 是数据构建者提供的用于指导数据注释的标准说明文档,这些说明文档能够尽可能详细地描述 tag 类别,以便注释者能够在任意文本中准确地标注概念或提及而不产生歧义。表 1 展示了几种不同实体类别如何被转换为对应的问题查询的例子。

Model Details

Model Backbone

请详细描述一段给定的问题_qy_, 并基于BERT构建一个简单的任务示例, 其中输入序列包括[CLS], q1, q2,...,qm,[SEP],x1,x2,...,xn的形式, 并将这个问题请求解并生成相应的上下文表达矩阵E∈R^{n×d}, 其中d是 Bert模型最后一层输出向量的空间维度, 并且在生成最终表示时我们会排除原始查询部分的信息

Span Selection

在MRC中,跨度选择有两种策略:

  1. 采用多类别分类器对起始与终止位置进行识别,在本系统中n代表文本的总长度。该方法的一个显著缺点在于仅能生成单一的连续区间(这一限制源于在所有tokens上应用了softmax函数)。
  2. 该系统采用两个二元分类器进行协同工作:第一个负责判断每个token是否为起始标记;第二个则用于识别终止标记。这种设计使得系统不仅能够同时识别多个起始位置与终止位置,并且还有潜力通过qy提取出全部相关信息。

我们采用第二种策略,下边会描述细节部分。

Start Index Prediction

给定BERT输出的表达矩阵E,模型先预测每个token是开始索引的概率:

d×2维的空间变换矩阵T是用来学习的空间权重参数。对于任意查询,在Pstart矩阵中每一行对应于每个索引的位置概率分布情况。例如某一行数值为[0.8, 0.2]的情况,则表明该索引作为实体起始位置的概率值为0.2。

End Index Prediction

结束索引预测的过程同样是这样的一个过程,在此过程中我们采用另一个矩阵Tend以获得n×2维的概率矩阵Pend

Start-End Matching

由于上下文X可能存在多个同类实体,在start-index位置上有多个起始索引,在end-index位置上有多个结束索引。仅靠将起始索引与最近的终止索引用这种方式配对的效果并不理想。这是因为可能会导致资源冲突或重叠问题。因此我们需要开发一种算法来实现这些起始位置与其相应终止位置的有效配对。

我们采用 argmax 函数来计算 Pstart 和 Pend 每一轮的值。经过计算后,预测结果可能对应于起始位置或结束位置的索引。具体而言,这些索引分别标记为 Istart 和 Iend。

其中i代表矩阵中的第i行。对于任意指定的起始索引istart属于集合Istart和终止索引iend属于集合Iend, 我们构建了一个二进制分类模型, 用于计算该对是否应被配对的可能性。

其中,m∈R1×2d是要学习的权重。

Train and Test

在训练过程中, X与长度为n的两个标签序列Y_start和Y_end进行配对,并将每个token xi标记为其所在实体的真实起始位置或终止位置.从而针对起始位置预测和终止位置预测分别设置了两种不同的损失函数.

可将 Ystart,end 用于表示一个开始索引是否应与每一个结束索引匹配的真实标签。其开始-结束索引匹配损失计算方式如下:

最小化整体训练目标如下:

α、β、γ均为介于0到1之间的超参数;用于调节整体训练目标的影响程度。这三类损失采用端到端的方式进行联合优化,在BERT层共用参数;在测试环节中,
首先分别基于Istart和Iend选取起始与结束索引;
然后通过指针网络将提取出来的起始与结束位置进行配准,
从而最终获取所需答案。

Experiments

Experiments on Nested NER

Datasets

针对嵌套NER问题,在标准化的数据集中进行了实验研究

Baselines

Hyper-Graph,Seg-Graph,ARN,KBP17-Best,Seq2Seq-BERT,Path-BERT,Merge-BERT,DYGIE

Results

该表展示了nested NER数据集上的实验结果,在对比之前的SOTA模型的基础上,在四个数据集上分别实现了1.28%、2.55%、5.44%和6.37%的性能提升

Experiments on Flat NER

Datasets

在 flat NER 的实验中,在英文数据集中(即 CoNLL2003 和 OntoNotes 5.0)以及中文数据集中(包括 OntoNotes 4.0 和 MSRA)均进行了评估研究。四组具体包含4个、18个、18个及3个实体类别的不同数据集被用于实验测试;其中后两组中文数据集全部来源于新闻领域文本分析任务的研究工作。通过在各自验证集的数据中优化参数设置来实现超参数的有效配置,并采用 span-level micro-averaged precision, recall 和 F1 等指标对模型性能进行全面评估

Baselines

英文数据集的baselines:BiLSTM-CRF,ELMo,CVT,Bert-Tagger

中文数据集的baselines:Lattice-LSTM,Bert-Tagger,Glyce-BERT

Results and Discussions

表3详细列出了flat NER任务的相关结果。相较于改进后的BERT tagging模型,在CoNLL2003数据集上的F1值提升幅度为0.24%,而在OntoNotes5.0数据集上则取得了更大的提升幅度。其中,在ontonotes数据集中实现更高的性能优势的原因在于ontonotes包含了更多种类的实体(共有18种类型与仅4种类型相比),其中一些实体类别面临严重数据稀疏的问题。因为问答系统对要提取的实体类型进行了关键先验信息的编码,在mrc方法中这种特性使得其对tag稀疏性问题具有更强的鲁棒性表现,在ontonotes上带来了显著的优势效果。该方法在中文领域同样达到了最佳水平,并且与改进后的bert tagging模型相比,在中文msra测试中实现了f1值提升。

Abaltion studies

Improvement from MRC or from BERT

对于flat NER问题而言,目前尚不明确是MRC还是BERT的部分起到了关键作用。在信息查询过程中,MRC通过整合先验知识增强了实体识别的效果。尽管BERT展现出卓越的性能表现能力,在模型设计上也面临着诸多挑战。

为了区分大规模BERT预训练带来的影响, 我们进行了对比分析, 比较了LSTM-CRF tagging模型与其他基于MRC的模型, 如QAnet和BiDAF, 这些模型均未采用大规模预训练技术。表4列出了实验结果, 显示出基于MRC的方法(如QAnet和BiDAF)的表现不低于BERT-Tagger, 这进一步验证了MRC的优势明显, 其性能高出1.95%。

How to Construct Queries

构建查询对最终结果的影响具有显著的重要性。作者研究了不同方法及其影响,并探讨了这些方法带来的各种效果

Position index of labels: 使用tag的索引构建查询,即 “one”,“two”,“three”

Keyword:基于描述标签的关键字构建查询,请问标签ORG的问题查询应为 “organization”

Keyword:基于描述标签的关键字构建查询,请问标签ORG的问题查询应为 “organization”

Rule-based template generation:根据模板生成相关问题为例。例如标签ORG的查询即为 "what is the organization mentioned in the text"?

  • Wikipedia: Utilizing its Wikipedia entry to construct queries, for instance, a label like ORG would be queried as "an organization is an entity composed of multiple people, such as an institution or an association."
    • Synonyms: Queries are based on exact terms extracted from the Oxford dictionary. For example, a label like ORG would correspond to "-organization" or "association."
    • Keyword+Synonyms: This approach combines keywords with their synonyms for comprehensive search. For instance, a label like ORG might be associated with "-organization" or "机构."
    • Annotation guideline notes: The method employed by the author involves querying for organizations encompassing various entities such as companies, agencies, and institutions.

Table5 在英文数据集OntoNotes5.0上展示了研究结果,在除 Position Index of Labels 外的所有设置中,BERT-MRC的表现普遍优于BERT-Tagger. 使用 Annotation Guideline Notes 进行训练的模型取得了最高的F1分数. 作者进行了详细说明: Position Index Dataset 利用tag索引构建查询,因而未包含具有意义的信息,导致其表现较差;而Wikipedia 的表现优于Annotation Guideline Notes,这是因为其定义更为通用,可能无法精确描述这些类别以适应数据注释需求.

Zero-shot Evaluation on Unseen Labels

评估一个特定的数据集上的训练后的模型的能力,并将其迁移到另一个不同的数据集的能力被称为零射学习能力

值得注意的是,在经过评估后发现BERT-Tagger并未具备零样本学习能力,并且仅达到约31.87%的准确率。这与我们所预期的一致,并且这是由于该模型无法对未曾见过的标签进行预测所带来的结果。在MRC架构下设计的问题类型可预先整合部分领域知识,并且在回答特定查询时能够体现出更大的泛化潜力。尽管如此,在面对未知领域的问题时仍能产生令人满意的答案。

Size of Training Data

由于自然语言查询预编码了关键的先验知识,在本研究中我们预期所提出的框架即使面对少量(例如50%)训练数据集时仍能表现出色。The experimental results shown in Figure 3 further validate this perspective.The variant of the BERT-MRC model, even with just half (50%) of the training data, achieved comparable performance to the BERT-tagger in terms of both accuracy and efficiency.As demonstrated in Figure 4,the proposed framework consistently outperformed traditional methods across various datasets and query types.This consistency suggests that our approach effectively leverages semantic information while maintaining computational efficiency for real-world applications

Conclusion

作者将NER任务重新形式化为MRC问答任务。这种形式具有两个关键优点:

  1. 该系统擅长处理涉及覆盖式或嵌套式的实体识别问题;
  2. 通过查询机制编码为所需提取的实体类别提供重要先验知识。

该研究提出的方法在nested和flat数据集中均达到了最佳性能水平,并验证了该方法的有效性。

全部评论 (0)

还没有任何评论哟~