论文浅尝 | Continual Learning for Named Entity Recognition

笔记整理:李淑怡,天津大学硕士
动机
通常情况下,在真实任务中会引入新的实体类型。因此必须重新训练命名实体识别模型。当受到存储或安全问题限制时,则会使新实体类型重新标注原始数据的成本变得很高。然而现有的持续学习方法往往面临灾难性遗忘的问题(catastrophic forgetting)。为此作者提出采用蒸馏学习的方法以保留先前所学的知识,并使旧模型指导新模型渐进地学习新的实体类型。在CoNLL-03数据集和OntoNotes数据集上的实验表明该方法允许模型逐渐掌握新的实体类别并保持先前的学习成果
亮点
本文的亮点主要包括:
1.该方法仅需标注新增实体并利用知识蒸馏技术继承原有模型的知识,在原有模型基础上引导新模型学习新增实体类型从而有效避免灾难性遗忘现象。2.实验结果显示该方法能在不遗忘原有知识的前提下实现新实体类型的高效学习。
概念及模型
该方法使用Teacher-Student的知识蒸馏框架,分为两个阶段:
采用教师型策略训练基础模型:基于现有数据集 建立一个命名实体识别系统 ,其中神经网络的输出层应用softmax函数进行概率计算。其中,在神经网络结构中将最后一层设计为全连接层,并通过激活函数激活后与softmax函数结合使用。
其中, 一个温度参数,通常设置为1。
建立名为Student的新模型。当引入一种新的实体类型时,请注意我们的目标是学习一个新的能够标记所有标注过的句子段落的模型。为了使Student继承教师网络的知识基础,并将其与学生网络的距离设定为优化目标的一部分(即采用KL散度),从而有效防止知识退化现象的发生。在包含标注过的新增实体类型以及未标注的传统实体信息的数据集上进行微调训练,在该数据集中分别使用了带有标签的新实体实例以及未带标签的传统实例。论文中提出了一种基于 teacher-student 对的知识蒸馏方法
AddNER Model

在该方法中,新模型通过对原模型进行复制并新增一个输出层结构,以期识别出新的实体类型.主要包含带有标签y的数据集用于训练,为了避免信息过载的问题,我们采用了知识蒸馏技术.这一过程通过将每句话都映射到教师模型的知识库中来进行实现,具体而言,就是通过教师网络为学生网络生成软目标.在此基础上,学生的损失函数不仅需要考虑对新实体类型预测值与真实标签之间的交叉熵损失,还需要融合教师网络输出的概率分布与学生网络输出概率分布之间的KL散度作为额外项.最终的学生损失函数形式为:
αβ
其中,α和β是平衡两个损失的贡献的超参数。
由于 AddNER 拥有多个输出层,在整合这些输出结果时遇到了挑战。针对这一问题, 研究者为此设计了一种启发式算法
• 若各层预测结果均为O,则系统判定输出结果也为O。
• 当某一层的预测标记是B(实体起始),而其他各层均为O时,则判定整体输出结果应设为B。
• 若存在多层标记为B的情况,则应选择具有最高概率的那个层次作为最终判定依据。
• 在处理I层次(实体内部)的情况时,请确认其前一个字符是否已被标记为B或I。若不具备上述条件,则该层次应设为O,并需重新运用此启发式方法以确定最终的结果。
ExtendNER Model

在该方法中,该方法中的新模型通过复制并扩展原模型的输出层从而新增了维度以识别新型实体类型。类似地,在训练过程中为了在不遗忘已有知识的前提下学习新型实体类别新模型仍需同时计算两种损失函数即当y'O时计算两者的KL散度否则当y≠O时则根据具体情况进行相应的损失计算最后将所有单个损失相加即可得到总的目标函数表达式
αβ
最终的标签经Viterbi算法获得。
理论分析
实验
作者使用了两个公开数据集进行实验,并将结果展示于表1与表2中。其中包含CoNLL-03数据集及OntoNotes数据集的具体表现数值

就该任务而言,随后作者提出四个问题并进行了实验分析和深入讨论:
•迁移学习是否可以在原有的模型基础上学习新的实体类型?
该实验通过迁移学习框架比较了固定与可训练码本的效果。在该基准数据集(CoNLL-03)上分别计算得出,在固定码本情况下获得的平均F1值为57.49分,在可训练码本情况下则为56.21分。对比结果表明,在另一个基准数据集(OntoNotes)上的表现明显不如前者。由此可知,在持续学习环境下使用基于转移学习的方法难以有效提升命名实体识别系统的性能。
•在持续学习的环境下,AddNER和ExtendNER模型之间有区别吗?
在研究中,作者进行了关于使用知识蒸馏技术对两种Student模型进行比较分析。实验结果表明这两个方法对最终结果的影响不大。鉴于此,在后续讨论中仅采用ExtendNER Model作为主要分析对象。
当新增的数据集仅进行有限的标注时,在利用知识蒸馏技术的情况下能否使Student网络模型有效地完成学习任务?
图3详细描绘了各模型在该任务中的F1得分分布情况。结果显示,在与硬标签方法及无监督学习方法相比,所提出的方法表现出显著的优势。然而,在完全监督学习方法的性能超越其前提下,在一定程度上能够在减少标注数据的前提下维持较好的性能水平。

学生模型在学习新的实体类型时是否能继承以前所学的相关知识?
为了解决这一问题 作者逐一追踪了模型在学习不同实体类别时的表现。从图4可以看出 总体情况是其F1值基本稳定或稳步提升。当引入新的实体类别时 该方法不仅能够学会标注这些新类别还能够维持原有知识的记忆。

总结
本文开发了一个基于持续学习机制的名字实体识别系统。该系统探讨了如何在教师学生框架下通过知识蒸馏抑制持续学习过程中因时间推移而遗忘先前获得知识的风险。实验结果验证了该方法的有效性。作者表示,在未来研究中或许值得探索整合一个CRF层以更好地考虑标签间的全局依赖关系的可能性。
OpenKG
中文开放获取的知识图谱系统(简称OpenKG)致力于推动基于中文的知识图谱数据实现开放化、互联互通以及众包共享,并致力于推动相关知识图谱算法、工具与平台实现开源化与共享化。

点击阅读原文 ,进入 OpenKG 网站。
