Advertisement

End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF 阅读笔记

阅读量:
论文原文 End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF
论文信息 ACL2016
论文解读 Zhang & Hytn Chen
更新时间 2020-03-22

命名实体识别简介

识别语料中的命名实体包括人名、地名以及组织机构名称等。
即为该领域的研究核心。
通常分为三大类别与七个小类。
主要关注两点:一是实体边界的准确性;二是实体类型的一致性。
主要错误类型包括两种情况:
一种是文本描述正确但被判定为非命名实体;
另一种则是由于边界错误导致无法准确判定其真实属性。
说到中文命名实体识别领域,
它面临着以下主要挑战:
其一在于缺乏像英文那样的空格分隔词语界限,
使得词与词之间的区分更加模糊;
其二在于某些词语在脱离上下文语境的情况下难以明确判断是否构成命名实体,
即便能判定也是基于特定语境条件;
其三在于存在大量嵌套现象,
如"复旦大学附属华山医院"这一组织机构名称内还包含着"复旦大学"与"华山医院"等同样具有组织机构名称特性的子名称;
其四在于普遍存在的简化表达现象,
如"中科大"、“华建(华东建筑集团)"
甚至是一些简化表达形成的候选术语如"中建八局"

NER发展历史

该技术通过人工编写的规则对文本进行匹配以识别名称术语,并将其应用于实际场景中如书籍、文章等文本中的名称术语识别工作。
例如文本中的名称术语。
如前面提到。
该方法属于机器学习技术范畴下的NER研究。
它通过大量标注数据训练出有效的标记模型。
从而对句子每个位置进行标记。
而针对这一问题提出了特征模板加条件随机场方案。
它的一个主要特点是能在单个样本上实现高效的学习与推理。
然而它还存在一些局限性如在逐词标记时缺乏上下文信息依赖。
针对这一问题出现了BiLSTM-CRF的方法。

序列标注中的条件随机场

条件随机场目标就是根据一些已观察到的证据(训练样本)来对感兴趣的未知变量进行估计和推测,是概率图模型 的一种。利用已知变量推测未知变量的分布称为推断,生成式模型先学习联合分布P(X,Y)再求解条件概率分布P(Y|X),而判别式模型直接通过训练样本计算条件概率分布P(Y|X)。CRF就是一种典型的判别式模型。
假设有两个线性链表示的随机变量X和Y,如果在给定X的情况下,Y当前时刻的状态仅与前后状态有关,即
P\left(\mathrm{y}_{\mathrm{i}} | X, y_{1}, y_{2}, \cdots y_{i-1}, y_{i+1}, \cdots y_{n}\right)=P\left(y_{i} | X, y_{i-1}, y_{i+1}\right)
当X取值为x时,Y取值为y的概率为:
\begin{array}{l} P(\mathrm{y} | x)=\frac{1}{Z(x)} \exp \left(\sum_{i, k} v_{k} t_{k}\left(y_{i-1}, y_{i}, x, i\right)+\sum_{i /} u_{i} s_{i}\left(y_{i}, x, i\right)\right) \\ Z(x)=\sum_{y} \exp \left(\sum_{i k} v_{k} t_{k}\left(y_{i-1}, y_{i}, x, i\right)+\sum_{i, j} u_{i} s_{i}\left(y_{i}, x, i\right)\right) \end{array}
这里的t_k是状态转移函数,s_l是状态特征函数,v_ku_l是对应的权值,在给定x的情况下,计算概率最大y序列可以用维特比算法。

CRF和LSTM用于序列标注工作

LSTM:作为RNN系列的一种神经网络模型,在序列建模任务中具有捕捉长距离上下文关系的能力,并通过其非线性特性实现了对复杂模式的学习。然而,在输出层存在较强的标签依赖关系时,则无法有效施加约束或建模这些依赖关系。
CRF:为了弥补这种局限性,在序列标签建模中引入了状态转移概率的概念。与LSTM不同的是CRF无法捕捉长距离上下文信息但它能够有效地建模相邻状态之间的转移概率从而从整体上考虑序列局部特征的加权组合并优化整个序列而非单个时刻的状态。
LSTM输出层的维度等于标签空间的数量假设输出矩阵为P其中元素P_{i,j}表示词i被映射到标签j时所对应的非归一化概率值。
而CRF层则通过引入转移矩阵A的方式实现对状态转移关系的学习其中元素A_{i,j}表示从标签i转移到标签j的概率值这种机制使得CRF能够继承前一状态的信息。
对于输入序列X与其对应的输出标签序列y我们定义一个得分为:
s(X, y)=\sum_{i=0}^{n} A_{y_{i}, y_{i+1}}+\sum_{i=0}^{n} P_{i, y_{i}}
这个得分由两部分组成一是各位置标签间的转移概率贡献二是各位置基于LSTM输出的概率贡献最终目标就是选择具有最高得分的那个标签序列作为最终预测结果。

论文提出的模型

传统的模型如LSTM/CNN无法有效地建模标签间的相互依存关系。相比之下,BiLSTM-CRF并未采用CNN来提取字符级别的表征信息。对于英语来说,词形特征同样不可或缺,现有方法在提取字符级别的特性仍然依赖于人工定义的词性或预处理阶段,而非构建一个端到端的学习体系。

在这里插入图片描述

各部分功能如下。

CNN用于捕获单词的形态学信息

基于字符级别的处理下

在这里插入图片描述

BiLSTM用于捕获句子的上下文信息

通过将单词的字符表示与词表示进行融合得到其最终表示 BiLSTM基于序列的学习机制建模词语之间的相互作用关系从而生成了每个位置上融合了上下文语义信息的向量表达值得注意的是这种方法不仅能够捕捉到字符级别的特征信息还能够捕捉到词语级别的语义信息在多个自然语言处理任务中均展现了良好的性能水平

CRF用于捕获标签之间的依赖关系

如果记输入为z,预测的标签序列为y,那么条件概率:
p(\boldsymbol{y} | \mathbf{z} ; \mathbf{W}, \mathbf{b})=\frac{\prod_{i=1}^{n} \psi_{i}\left(y_{i-1}, y_{i}, \mathbf{z}\right)}{\sum_{y^{\prime} \in \mathcal{Y}(\mathbf{z})} \prod_{i=1}^{n} \psi_{i}\left(y_{i-1}^{\prime}, y_{i}^{\prime}, \mathbf{z}\right)}
根据最大对数似然来训练模型,这里的\psi是势函数,与前面讲到的打分函数score在本质上相同。为什么呢,首先势函数表达式如下
\psi_{i}\left(y^{\prime}, y, \mathbf{z}\right)=\exp \left(\mathbf{W}_{y^{\prime}, y}^{T} \mathbf{z}_{i}+\mathbf{b}_{y^{\prime}, y}\right)
上式指数中的第一项就是score中的P项,第二项就是score中的A项。条件概率本质上其实就对应着下式
P(y | x)=\frac{\exp (\text {socre}(x, y))}{\sum_{y}, \exp \left(\operatorname{socre}\left(x, y^{\prime}\right)\right)}

总结

在实验部分中进行了详细的列举,在此不再赘述。值得注意的是文章中的探索性实验部分。首先证明了CRF对于效果提升具有重要性。随后探究了词向量,并展示了其有效性:

  • 模型基于GloVe词向量方法表现出色。
    相比序列标注任务而言,在依赖预训练词向量方面更为突出。
    word2vec模型的效果相对逊色的原因在于其在训练过程中区分大小写字母,并未充分考虑常见标点符号及数字信息。

探讨了OOV单词在结果中的表现。研究表明,CRF模型能够有效地减轻OOV单词带来的负面影响。这种效果主要得益于结构化的联合解码机制能够弥补部分由于语义缺失而导致的局限性。

在这里插入图片描述

这里的OTTVOOEVOOBV分别代表三种不同的情况:OTTV指代训练集中未包含的特定类型词汇;而OOEV则指代不在预训练词典中的特殊标记;最后一种情况OOBV则是同时缺少对应信息的情形

全部评论 (0)

还没有任何评论哟~