Advertisement

命名实体识别

阅读量:

1. 简介

命名实体识别(NER)用于从文本中识别特殊对象及其语义类别,在其识别之前这些类别已经明确标注为例如人名、地名、组织机构等。

命名实体识别不仅涉及信息提取工作,并且广泛应用于现代自然语言处理技术的各类系统中。它不仅支持数据抽取功能,并且成为问答系统的核心功能之一。此外,在机器翻译技术中也扮演着重要角色,并为专业的知识库构建和维护提供了可靠支持。

学术上NER涵盖的主要类别包括实体类、时间类以及数字类三大类;其具体划分主要包含人名、地名、组织机构名等基础类别以及时间点的表示、日期记录、货币单位的使用和百分比数值的应用七个细分领域。

在实际应用中,NER模型一般情况下能够识别为人名(names)、地名(locations)、组织机构名称(organizations)、日期和时间信息(dates and times)。此外,在某些系统中还会提供专有名词的结果(例如缩写形式),这在处理会议名称或产品命名时尤为常见。这些数字类型的数据可以通过正则表达式进行处理。此外,在特定领域场景中可能会识别到如书籍名称或歌曲名称这样的实体。

NER属于自然语言处理领域的基础性核心任务。在自然语言处理流程中,NER即为一种未登录词识别技术,其主要特征表现为:数量最多的是OOV(Out-of-Vocabulary)词汇,在识别难度上也是最大的挑战,在分词效果上具有决定性的影响。

在新闻报道等特定文本类型以及限定于人名、地名、组织机构名等主要实体类别上,命名实体识别技术已经显示出较好的效果;然而,在与信息检索相关领域相比,在评估指标方面存在不足,并且容易导致模型过度拟合训练数据;此外,在该任务领域中虽然注重提高召回率是其显著特点之一,但为了适应信息检索的需求,则应更加关注准确率;就目前而言,在区分各类不同类型的命名实体时构建出性能优越的通用识别系统仍然面临着较大的技术挑战。

2. 技术概览

NER的学习过程通常被视为一种序列标注任务。当网络接收时(即接收一段文本),该系统会识别并标记出各个命名实体及其对应的位置信息。

如下图所示,

在这里插入图片描述

其中,在位置9、10处的实体属于类别Location

整体来看,NER识别的方式有四种,

基于规则的方式

NER系统基于预设的明确规则运行。构建这些规则通常依赖于句法规律、语法规则以及领域特定的知识储备。在词典资源有限的情况下,基于规则的方法仍能展现出良好的性能水平。受限于领域特定的独特性及词典资源的不完整性,“该方法”的优势在于高准确性但召回率较低;然而,在跨领域应用方面存在较大的局限性:这种方法在通用性上存在不足,在新领域的应用中需要重新设计相关参数,并且不同领域的词典也可能具有显著差异。

无监督方式

基于无监督学习的技术,如聚类算法能够通过语义相似性从数据群组中提取命名实体。该方法主要依赖于构建在海量数据基础上的语言资源库、语言模型以及统计信息,并通过这些资源库来推断和识别命名实体的不同类别。然而其准确率通常较为有限。

基于特征的有监督方式

必须标注数据,并且通常会结合精心设计的特征。常用的模型包括HMM、决策树、最大熵模型以及CRF等。常见的特征包括词级别的各种属性(如大小写、形态以及词性等)。此外,在文档及语料中的相关属性(如局部语法结构和共现现象)也是重要的考虑因素。

基于深度学习的有监督方式

必须标注数据;无需人工设计特征;利用深度网络自动提取;完全可以通过端到端的方式实现。

当前领域普遍采用多种方法进行研究与应用。其中,在数据样本较少的情况下,通常会选择传统规则-based方法;而对于大部分场景,则主要采用基于机器学习或深度学习的方法。具体而言,在数据较为充足时(即样本数量较多的情况下),模型通常能取得较好的性能表现;而偶尔还会结合一些传统规则进行辅助优化以提升效果

3. 性能评估

精准配准(Exact-match Evaluation) 和 放宽配准(Relaxed-match Evaluation) 被用于测定两种不同的评估方法。

首先为了计算 F1, 定义一下 TP, FP, FN

  • 真正正向(TP):实体被NER识别为该类型,并与 ground truth 完全匹配
  • 假正正向(FP):实体被NER错误标记为该类型,并与 ground truth 不符
  • 假负值(FN):实体未被NER标记为该类型却存在 ground truth 的情况

每个实体计算一遍,然后计算recall、precision和f1

有了每个实体类别的p指标后, 有两种办法把它们综合在一起:

  • Macro averaged F-score: 通过每个类型的具体数值进行计算并汇总得出结果, 实际上等同于对各类别进行同等重视.
    • Micro averaged F-score: 综合所有实体在各个类别上的表现进行汇总计算, 相当于对待每一个实例一视同仁.

4. 基于深度学习识别

往往来说深度学习的模型识别效果更好,

  • NER 益受深度学习(DL)强大的非线性特性影响,在传统基于线性的机器学习模型(如线性 HMM 和 线性链 CRF)中无法与之抗衡。
  • 深度学习系统能够自动生成对模型有帮助的关键特征,在深度学习框架下无需进行繁琐的手工特征工程。
  • 深度学习体系提供了一个完整的系统架构设计方案,在这一架构下我们可以构建出更为复杂的命名实体识别(NER)系统。

4.1 识别架构

总体上可分为三个阶段进行信息处理流程。其中第一阶段主要关注输入信息的表现形式;第二阶段的核心任务则是将自然语言信息转化为计算机可处理的形式;第三阶段则专注于通过模型对生成的内容进行分类和识别。

  • 输入的分布式表示 (Distributed representations for input): 基于字符或单词嵌入的向量,并加入词性标签(POS)和 gazetter 等人工特征。
  • 语义编码(context encoder): 通过多种网络结构(如CNN、RNN、LM和Transformer)获取语义依赖。
  • 标签解码(tag decoder): 预测输入序列对应的标签,并采用包括softmax、CRF、RNN和指针网络(Point Network)在内的常见方法。

如下图所示:

在这里插入图片描述
4.1.1 输入的分布式表示

分布式表示基于将词转换为低维空间中的密集实数值向量进行建模,在这种表示方法中,每一个维度代表隐藏的特征维度。通常情况下,NER系统的输入会采用以下三种形式:词级(word-level)、字符级(char-level)以及混合(hybrid)形式。

word-level

在单词级别上进行处理是一种较为有效的技术手段,在现有的方法中比较常用且效果显著的是 Word2Vec 和 Glove 这两种模型,在这些模型的基础上还出现了其他创新性的解决方案如 fastText、Senna 等相关算法

character-level

在词级别之外, 还有一种基于单个字的向量表示方法. 现有基于字符的标识系统特别适合提取并利用子单词(如前缀和后缀)的信息. 相比于其他方法, 字符级表示能够有效缓解未登录词(OOV)带来的挑战. 因此, 字符级表示不仅能够处理未曾见过的新单词,还能通过共享基础语素来提升整体表现.

Hybrid Representation

除了基于字符和单词的表示之外 一些研究还引入了诸如 gazetteers 和 lexical similarity 这类信息 并将其整合到 word 的表示中 尽管如此添加这些人工特征可能会提高模型的表现能力 但这种做法可能会影响其在新环境下的泛化能力。

4.1.2 语义编码

这部分相当于主体网络模型部分,在经过第一部分输入后的分布式表示基础上,对深层语义进行表示。

基于CNN的网络结构

每个词经过向量嵌入映射为相应的向量表示。随后卷积层能够提取局部特征。卷积操作后的输出维度受输入句子长度的影响。为了生成统一维度表示,在卷积后引入了池化操作可以选择最大池化或平均池化进行选择。tag decoder 通过该序列的向量表示估计其对应标签的概率分布(如图所示)。

在这里插入图片描述

论文(基于多种关系与实体联合抽取的混合神经网络)的研究表明,在RNN模型中后期时间步所携带的信息对整体语义的影响显著高于前期阶段的信息。然而,在完整的句子结构中,则可能存在关键特征分布在不同的位置上。基于此本研究提出了BLSTM-Recurrent模型,并采用双重机制:BLSTM用于提取长程依赖关系的能力;而CNN则用于捕捉高层次语义信息。随后提取出的关键特征会被传递至Sigmoid分类器进行处理。最后阶段,在另一个LSTM网络中整合了BLSTM生成的整体语义表征与Sigmoid分类器提取的关系嵌入向量来进行实体识别任务

本研究提出了一种基于迭代膨胀卷积神经网络(Iterated Dilated Convolutional Neural Networks, ID-CNNs),该模型在处理长文本和结构化预测任务方面展现出显著的优势,在性能上超越了传统卷积神经网络(CNN)。ID-CNNs通过并行实现固定深度卷积操作,在处理长文本时实现了并行处理能力。下图详细展示了该网络模块的具体结构:通过叠加四个宽度为3的一系列膨胀卷积层构建而成。针对膨胀卷积技术而言,在输入特征维度随着深度增加呈现指数级增长的趋势下,每一层操作并未带来分辨率上的损失。实验结果表明,在与传统方法(如Bi-LSTM-CRF)相比时,本方法快了14-20倍的同时仍能维持相当高的识别精度。

该模块结构图展示了膨胀型卷积神经网络(CNN)的核心组件架构。其中,最大膨胀深度设置为4,宽度设定为3。在该模块中对最后一个神经元产生显著影响的所有前馈连接来源均被采用突出显示。

在这里插入图片描述

基于RNN的网络结构

该模型结合了多种变体如LSTM和GRU展示了其优越性. 在具体实现中 前馈型RNN通过层间传递能够有效捕捉时间维度上的历史信息 后馈型RNN则通过反向传播机制增强了对后续输入数据的关注 因此 综合这两种机制设计出的双向型RNN不仅能够充分利用时间轴上的前后信息 还是现代深度语义编码体系中的核心架构模式. 基于这样的框架 构建了一个典型的基于RNN的语义编码模型框架 如下图所示

在这里插入图片描述

黄等(Bidirectional LSTM-CRF模型用于序列标注)起源于...模型最初应用于解决POS、分词和NER等问题。随后出现了一系列相关研究均基于该结构进行语义信息编码。

论文(Named entity recognition with parallel recurrent neural networks)在同一个输入序列上采用了多组独立的双向LSTM组件。该方法借助于各组LSTM之间引入了正则化机制,从而增强了LSTM单元间的多样性。通过优化计算负载分配到多组LSTM中,他们发现模型的参数总数显著减少。

神经语言模型

语言模型用于描述序列的概率生成过程. 给定一个长度为N的序列(t_1, t_2, \ldots, t_N), 其联合概率可表示为
P(t_1:t_N) = \prod_{k=1}^{N}p(t_k|\text{上下文})
类似地, 反向序列的概率也可表示为
P(t_N:t_1) = \prod_{k=1}^Np(t_k|\text{上下文})
其中\text{上下文}代表相关的输入信息. 在神经语言模型中, 通过RNN在每个时间步t_k处的输出层得到条件概率p(t_k|\text{上下文}). 每个位置上, 可以同时获得前馈方向和反向方向的信息特征(即前向和后向表示), 并将它们进行融合作为最终t_k的位置表示. 这种基于双向RNN的语言模型已被广泛应用于多种序列标注任务中.

论文(Semi-supervised multitask learning for sequence labeling) 构建了一个序列标注模型,在该模型中学习过程不仅需要预测当前词语的标记信息,并且还需要识别与之相关的前后词语信息。具体而言,在每一个时间点上(即每一个时间步长),学习过程需要同时推断当前词语的标记以及其后续词语的信息(即下一时刻可能被关注到的相关信息)。而逆向传播过程中(即反向传播时),网络不仅识别出当前词语的标记信息,还能推断出其前后相关联的词语(即上下文相关的信息)。这种设计使得网络能够更加全面地理解和处理序列数据中的上下文关联性问题。

该论文开发出了一种新型的序列标注器TagLM;该标注器通过融合预训练语言模型输出的特征向量与基于双向Transformer架构的语言模型输出特征实现了精准的实体识别任务。

下面展示了LM-LSTM-CRF的网络结构,

在这里插入图片描述

其中字符级信息由双向LSTM进行编码生成。
中间位置预设了词向量层。
虚线右侧连接上下文编码器输出形成语言模型部分。
这三个模块的信息融合形成综合特征表示。
该综合特征被BLSTM和CRF联合处理以输出标记序列。

Transformer

在实际应用中采用的是左侧Transformer架构。研究表明,在多种序列生成任务上该方法表现出色且能够高效并行处理计算效率显著提升

4.1.3 标签解码

Tag 属于NER 的最后一层,并接收语义表示以输出标注序列。常见的解码方式包括MLP结合softmax、CRF、RNN以及指针网络(Pointer Network)。下图给出了它们的结构示意图。

在这里插入图片描述

MLP+softmax

BLSTM模型在输出层之后连接了一个全连接层用于实现数据维度的缩减,并紧接着应用softmax函数以输出各类别标签的概率预测结果。

CRF

自从CRF(条件随机场)被引入到神经网络领域后用于后续的解码过程,几乎成为了这一领域的标准配置.主要原因在于CRF能够有效地利用全局信息来进行标记.

论文(Segment-level sequence modeling using gated recursive semi-markov conditional random fields) 认为, 虽然CRF尽管有效, 但其在段落级别的信息提取上存在局限性, 这主要是由于词级编码表示无法完整刻画段落的内在属性. 为此, 提出了基于门控机制的一类递归半马尔科夫条件随机场模型. 该模型直接建模处理段落级别的特征而非词级特征, 并通过门控递归卷积神经网络自动提取和学习段落级特征.

本研究开发了一种名为混合半马尔科夫CRF的模型。该系统基于段落而非单独的单词构建其基础单元,并利用单词级别的特征来计算段落分数。这种方法能够整合单词级别的信息与段落级别的数据。

RNN

论文(Deep active learning for named entity recognition)

指针网络

该模型利用递归神经网络(RNN)架构来推导输出序列的概率分布。其中每个元素对应输入序列中的一个特定位置,并由离散的token表示。该模型通过将softmax概率分布定义为“指针”机制,动态映射输入序列到可变大小的词汇表中。

4.1.4 总结

在语义编码过程中... RNN... 其中LSTM是最主要的应用方向... 而GRU的应用相对较少。
解码过程中... CRF被广泛应用... BiLSTM与CRF结合构成的主要模型架构。
在向量嵌入方面... Word2vec、GloVe和SENNA等方法得到了较为广泛的使用。
字符级别的LSTM数量上略高于CNN。
额外特征方面... POS相关技术更为成熟。然而,在NLP任务中探索如何将这些技术整合到深度学习框架仍存在诸多挑战与未解决的问题。目前的研究大多集中在新闻文章和网络文档等通用领域的数据集上进行实验测试。这种方法虽然能提供一定的参考价值但可能无法充分反映特定领域资源的重要性。

4.2 深度学习的应用

这些技术手段包括多任务导向的学习、跨领域知识迁移的过程、基于深度的主动式数据采集策略、强化反馈机制下的智能优化过程以及对抗样本生成与识别的优化流程等,在 Named Entity Recognition (NER) 中的应用主要体现在对复杂信息处理能力的提升上。

4.2.1 深度多任务学习

多任务学习是一种方法,可以通过同时学习一组相关任务来实现目标。 在比较中发现,在单独训练每个特定的任务时所使用的算法,在综合考虑各组相关联的任务后进行训练时所得到的结果更为显著。

这篇论文从零开始学习自然语言处理技术

该论文构建了一个多任务联合架构,在零样本条件下实现了多种语言间的语义对齐与信息提取,并开发了一种新型的序列标签器系统来处理跨语言的多目标学习问题。

该研究发现,在半监督多任务学习框架下实施序列标签建模时,
引入无监督语言建模作为优化目标有助于提升该模型的性能。

除了结合其他序列标记任务外,在多任务学习框架下可实现实体识别与关系抽取。例如:基于创新标签方案的联合实体识别与关系抽取[1];以及基于混合神经网络实现多实体识别及多重关系抽取[2]。

将NER建模为两个相关联的任务:实体分割与实体类别预测。例如,在论文 multitask approach for named entity recognition in social media 和 论文(Multi-task domain adaptation for sequence tagging.) 中有具体实现方法。

4.2.2 深度迁移学习

迁移学习主要通过整合源领域的知识,在目标域上应用机器学习技术。在自然语言处理领域中,迁移学习常被称作领域适应技术。针对NER任务而言,传统的做法主要是采用自监督学习方法进行训练。相比之下,近年来已有大量研究采用深度学习模型来实现NER任务的跨领域识别。

4.2.3 深度主动学习

主动 learning 的核心理念在于,在允许 machine learning 算法自主选择训练数据时其 performance 会显著下降. 深度 learning 一般而言需要大量 training data 并且获得这些 data 的 cost 较高. 由此可知 在整合 deep learning 和 active learning 后能有效减少 data annotation 的工作量.

主动学习的训练会被分成多轮。然而,在深度学习领域中应用传统主动学习方案会非常昂贵:因为在每一轮之后都需要使用新标注的数据来对分类器进行全面重新训练。鉴于从零开始重新训练在深度学习中并不现实,《Deep active learning for named entity recognition》论文建议对每批新标注数据进行NER的增量式训练。具体而言,在每一轮之前会将新标注样本与现有样本混合,并在新一轮查询前仅更新神经网络权重少数几个 epoch 。在每一轮开始时,主动学习算法会选择待标注的句子数量为预设预算范围内的数目。接收到选定标记后的样本后,在扩展的数据集上进行训练以更新模型参数。该序列标记模型由三个组件构成:基于字符级CNN的字符编码器、基于词级CNN的词编码器以及基于LSTM标签解码器的标签预测模块。值得注意的是,在选择待标注样本时采用不确定性采样策略:即未标注示例将根据当前模型对其标签预测不确定性进行排序筛选出待标注候选样本集合中的最优示例集合并分别计算其预测概率分布的最大置信度值作为筛选依据。研究者实现了三种不同的排序方法:最低置信度(LC)、最大归一化对数概率(MNLP)以及贝叶斯主动学习异议(Bayesian Active Learning by Disagreement)(BALD)。实验结果表明仅使用英语数据集中的24.9% 和中文数据集中的30.1% 的原始训练数据即可构建性能达到完整数据集上训练的最佳深度学习模型99%水平的学习系统同时通过仅使用12.0% 和16.9% 的原始训练数据就能使深度主动学习模型超越基于完整数据集的传统浅层模型构建出性能更好的系统

4.2.4 深度强化学习

强化学习(RL)作为一种基于行为主义心理学理论的方法,在机器学习领域占据重要地位,并且成为研究agents如何进行复杂决策的关键方向之一。这一研究方向主要关注agents如何通过与环境交互并最大化积累奖励来进行行动决策的问题。其基本理念在于agents通过与环境持续互动,并从中获取反馈信息来逐步提升自身行为策略的能力。

论文(Improving information extraction by acquiring external evidence with reinforcement learning) 将信息提取任务视为马尔科夫决策过程(MDP),并将实体预测任务动态整合其中,并提供了一种自动生成的选择下一个查询的方法。模型流程包括从发出搜索查询开始,在新来源中提取信息、识别所得特征,并在此基础上不断重复上述步骤直至收集足够的证据(evidence)

4.2.5 深度对抗学习

抗 adversarial learning is a learning method based on adversarial samples. The expected model becomes more robust through this approach and can effectively reduce test errors under undisturbed conditions. Adversarial networks adopt two game-based forms to generate training data: the generator network produces candidate instances, while the discriminator network evaluates these candidates. Typically, the generator network learns the mapping from latent variable space to target space by capturing specific data distributions, whereas the discriminator network distinguishes between data generated by the generator model and real data.

该研究开发了一种名为DATNet的双重对抗迁移网络(Dual Adversarial Transfer Network),旨在解决命名实体识别(NER)中的资源匮乏问题。研究者通过向原始数据添加轻微扰动生成对抗样本,并对分类器进行基于真实样例与人工生成对抗样例的联合训练以提升其泛化能力。实验结果显示, 系统有效率地从大规模数据集向小规模数据集迁移知识。

5. 展望与挑战

5.1 挑战

数据标注

主要问题是数据标注的准确性和统一性问题. 例如, '帝国州' 和 '帝国州建筑物' 被同时标记为 '位置', 这将导致实体边界的混乱.

除此之外 , 实体间的嵌套(nested)关系同样是一种普遍现象 . 在GENIA语料库中发现约17 % 的命名实体作为子实体存在于其他命名主体之中 . 研究显示,在ACE语料集中约30 % 的句子包含了嵌套式的命名主体 . 因此需要开发一种有效的标注规范以有效识别并分类这些复杂场景下的信息 .

非正式文本和新实体

前面归纳出的评测结果大多都是遵循基于正式文档(新闻报道)的标准,在WUT-17这类非形式性文本中,F值仅略微超过0.4。非形式性文本(如推文、用户评论、论坛帖子)中的NER因其篇幅较短且信息干扰显著而显得较为棘手。

由于语言模型在训练阶段主要基于现有数据构建语义理解能力,在实际应用中遇到未曾见过的新实体时会面临困难。然而深度学习虽然能够一定程度上处理一些未曾见过的新实体,在面对海量 daily-generated entities时仍然面临着巨大的挑战。

5.2 展望

细粒度的 NER 以及边界检测

基于深度学习的非正式文本 NER

将迁移学习进一步应用到 NER 中

实体连接和 NER 的联合模型: 实体链接(EL), 也称为命名实体消岐或标准化

模型扩展性

通过优化算法设计降低了复杂度的同时也减少了资源消耗;这些技术也被认为是降低训练所需资源的一种策略。

References

全部评论 (0)

还没有任何评论哟~