End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF 阅读笔记

阅读量：

论文原文	End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF
论文信息	ACL2016
论文解读	Zhang & Hytn Chen
更新时间	2020-03-22

命名实体识别简介

识别语料中的命名实体包括人名、地名以及组织机构名称等。
即为该领域的研究核心。
通常分为三大类别与七个小类。
主要关注两点：一是实体边界的准确性；二是实体类型的一致性。
主要错误类型包括两种情况：
一种是文本描述正确但被判定为非命名实体；
另一种则是由于边界错误导致无法准确判定其真实属性。
说到中文命名实体识别领域，
它面临着以下主要挑战：
其一在于缺乏像英文那样的空格分隔词语界限，
使得词与词之间的区分更加模糊；
其二在于某些词语在脱离上下文语境的情况下难以明确判断是否构成命名实体，
即便能判定也是基于特定语境条件；
其三在于存在大量嵌套现象，
如"复旦大学附属华山医院"这一组织机构名称内还包含着"复旦大学"与"华山医院"等同样具有组织机构名称特性的子名称；
其四在于普遍存在的简化表达现象，
如"中科大"、“华建（华东建筑集团）"
甚至是一些简化表达形成的候选术语如"中建八局"

NER发展历史

该技术通过人工编写的规则对文本进行匹配以识别名称术语，并将其应用于实际场景中如书籍、文章等文本中的名称术语识别工作。
例如文本中的名称术语。
如前面提到。
该方法属于机器学习技术范畴下的NER研究。
它通过大量标注数据训练出有效的标记模型。
从而对句子每个位置进行标记。
而针对这一问题提出了特征模板加条件随机场方案。
它的一个主要特点是能在单个样本上实现高效的学习与推理。
然而它还存在一些局限性如在逐词标记时缺乏上下文信息依赖。
针对这一问题出现了BiLSTM-CRF的方法。

序列标注中的条件随机场

条件随机场目标就是根据一些已观察到的证据（训练样本）来对感兴趣的未知变量进行估计和推测，是概率图模型 的一种。利用已知变量推测未知变量的分布称为推断，生成式模型先学习联合分布 $P(X,Y)$ 再求解条件概率分布 $P(Y|X)$ ，而判别式模型直接通过训练样本计算条件概率分布 $P(Y|X)$ 。CRF就是一种典型的判别式模型。
假设有两个线性链表示的随机变量X和Y，如果在给定X的情况下，Y当前时刻的状态仅与前后状态有关，即
$P\left(\mathrm{y}_{\mathrm{i}} | X, y_{1}, y_{2}, \cdots y_{i-1}, y_{i+1}, \cdots y_{n}\right)=P\left(y_{i} | X, y_{i-1}, y_{i+1}\right)$
当X取值为x时，Y取值为y的概率为：
$\begin{array}{l} P(\mathrm{y} | x)=\frac{1}{Z(x)} \exp \left(\sum_{i, k} v_{k} t_{k}\left(y_{i-1}, y_{i}, x, i\right)+\sum_{i /} u_{i} s_{i}\left(y_{i}, x, i\right)\right) \\ Z(x)=\sum_{y} \exp \left(\sum_{i k} v_{k} t_{k}\left(y_{i-1}, y_{i}, x, i\right)+\sum_{i, j} u_{i} s_{i}\left(y_{i}, x, i\right)\right) \end{array}$
这里的 $t_k$ 是状态转移函数， $s_l$ 是状态特征函数， $v_k$ 和 $u_l$ 是对应的权值，在给定x的情况下，计算概率最大y序列可以用维特比算法。

CRF和LSTM用于序列标注工作

LSTM：作为RNN系列的一种神经网络模型，在序列建模任务中具有捕捉长距离上下文关系的能力，并通过其非线性特性实现了对复杂模式的学习。然而，在输出层存在较强的标签依赖关系时，则无法有效施加约束或建模这些依赖关系。
CRF：为了弥补这种局限性，在序列标签建模中引入了状态转移概率的概念。与LSTM不同的是CRF无法捕捉长距离上下文信息但它能够有效地建模相邻状态之间的转移概率从而从整体上考虑序列局部特征的加权组合并优化整个序列而非单个时刻的状态。
LSTM输出层的维度等于标签空间的数量假设输出矩阵为P其中元素 $P_{i,j}$ 表示词i被映射到标签j时所对应的非归一化概率值。
而CRF层则通过引入转移矩阵A的方式实现对状态转移关系的学习其中元素 $A_{i,j}$ 表示从标签i转移到标签j的概率值这种机制使得CRF能够继承前一状态的信息。
对于输入序列X与其对应的输出标签序列y我们定义一个得分为：
$s(X, y)=\sum_{i=0}^{n} A_{y_{i}, y_{i+1}}+\sum_{i=0}^{n} P_{i, y_{i}}$
这个得分由两部分组成一是各位置标签间的转移概率贡献二是各位置基于LSTM输出的概率贡献最终目标就是选择具有最高得分的那个标签序列作为最终预测结果。

论文提出的模型

传统的模型如LSTM/CNN无法有效地建模标签间的相互依存关系。相比之下,BiLSTM-CRF并未采用CNN来提取字符级别的表征信息。对于英语来说,词形特征同样不可或缺,现有方法在提取字符级别的特性仍然依赖于人工定义的词性或预处理阶段,而非构建一个端到端的学习体系。

各部分功能如下。

CNN用于捕获单词的形态学信息

基于字符级别的处理下

BiLSTM用于捕获句子的上下文信息

通过将单词的字符表示与词表示进行融合得到其最终表示 BiLSTM基于序列的学习机制建模词语之间的相互作用关系从而生成了每个位置上融合了上下文语义信息的向量表达值得注意的是这种方法不仅能够捕捉到字符级别的特征信息还能够捕捉到词语级别的语义信息在多个自然语言处理任务中均展现了良好的性能水平

CRF用于捕获标签之间的依赖关系

如果记输入为z，预测的标签序列为y，那么条件概率：
$p(\boldsymbol{y} | \mathbf{z} ; \mathbf{W}, \mathbf{b})=\frac{\prod_{i=1}^{n} \psi_{i}\left(y_{i-1}, y_{i}, \mathbf{z}\right)}{\sum_{y^{\prime} \in \mathcal{Y}(\mathbf{z})} \prod_{i=1}^{n} \psi_{i}\left(y_{i-1}^{\prime}, y_{i}^{\prime}, \mathbf{z}\right)}$
根据最大对数似然来训练模型，这里的 $\psi$ 是势函数，与前面讲到的打分函数score在本质上相同。为什么呢，首先势函数表达式如下
$\psi_{i}\left(y^{\prime}, y, \mathbf{z}\right)=\exp \left(\mathbf{W}_{y^{\prime}, y}^{T} \mathbf{z}_{i}+\mathbf{b}_{y^{\prime}, y}\right)$
上式指数中的第一项就是score中的P项，第二项就是score中的A项。条件概率本质上其实就对应着下式
$P(y | x)=\frac{\exp (\text {socre}(x, y))}{\sum_{y}, \exp \left(\operatorname{socre}\left(x, y^{\prime}\right)\right)}$

总结

在实验部分中进行了详细的列举，在此不再赘述。值得注意的是文章中的探索性实验部分。首先证明了CRF对于效果提升具有重要性。随后探究了词向量，并展示了其有效性：

模型基于GloVe词向量方法表现出色。
相比序列标注任务而言，在依赖预训练词向量方面更为突出。
word2vec模型的效果相对逊色的原因在于其在训练过程中区分大小写字母，并未充分考虑常见标点符号及数字信息。

探讨了OOV单词在结果中的表现。研究表明，CRF模型能够有效地减轻OOV单词带来的负面影响。这种效果主要得益于结构化的联合解码机制能够弥补部分由于语义缺失而导致的局限性。

这里的 $OTTV$ 、 $OOEV$ 和 $OOBV$ 分别代表三种不同的情况： $OTTV$ 指代训练集中未包含的特定类型词汇；而 $OOEV$ 则指代不在预训练词典中的特殊标记；最后一种情况 $OOBV$ 则是同时缺少对应信息的情形

全部评论 (0)

还没有任何评论哟~

End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF 阅读笔记

论文原文EndtoendSequenceLabelingviaBidirectionalLSTMCNNsCRF 论文信息ACL2016 论文解读Zhang&HytnChen 更新时间20200322 ...

End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF

EndtoendSequenceLabelingviaBidirectionalLSTMCNNsCRF 虽然说是16年的老文了但是依旧值得一读第五周代码当年非常新颖的神经网络结构使用双向LST...

[论文笔记]End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF

引言本文是论文EndtoendSequenceLabelingviaBidirectionalLSTMCNNsCRF的阅读笔记。本论文提出了一个受益于单词级word和字符级character表示的...

论文笔记：[ACL2016]End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF

文章：MaX,HovyE.EndtoendSequenceLabelingviaBidirectionalLSTMCNNsCRF[J].2016.发表在ACL2016上。我认为这是一篇写的非常清楚的文...

【论文阅读笔记|ACL2021】TEXT2EVENT: Controllable Sequence-to-Structure Generationfor End-to-end Event Extra

论文题目：TEXT2EVENT:ControllableSequencetoStructureGenerationforEndtoendEventExtraction 论文来源：ACL2021 论文链...

文献阅读笔记 GC-Net (END-TO-END LEARNING.....)

文献阅读笔记：EndtoEndLearningofGeometryandContextforDeepStereoRegression 本文提出一种新颖的深度学习体系结构，用于从矫正的立体图像对中回归视...

阅读笔记--Guiding Attention in End-to-End Driving Models

作者：DiegoPorres1,YiXiao1,GabrielVillalonga1,AlexandreLevy1,AntonioM.Ĺopez1,2 出版时间：arXiv:2405.00242v1...

【理解】end-to-end And sequence-to-sequence

1.endtoend 如何理解端到端endtoend？ITPUB博客？ITPUB博客什么是endtoend神经网络？知乎端到端：输入和输出之间不需要其他的操作 2\.sequencetoseque...

【论文阅读笔记】End-to-End Object Detection with Transformers

代码地址：<https://github.com/facebookresearch/detr 论文小结本文是Transformer结构应用于目标检测（OD）任务的开山之作。方法名DETE，取自Det...

End-to-end recovery of human shape and pose阅读笔记

本文讲了如何从单张RGB图片重建人体的mesh，这个方法为HumanMeshRecovery（HMR）。关于从图片或视频重建人体的meshes可以分为两类方法：两阶段法，直接估计法。

是否确定退出登录?

End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF 阅读笔记

命名实体识别简介

NER发展历史

序列标注中的条件随机场

CRF和LSTM用于序列标注工作

论文提出的模型

CNN用于捕获单词的形态学信息

BiLSTM用于捕获句子的上下文信息

CRF用于捕获标签之间的依赖关系

总结

全部评论 (0)

相关文章推荐

End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF 阅读笔记

End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF

[论文笔记]End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF

论文笔记：[ACL2016]End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF

【论文阅读笔记|ACL2021】TEXT2EVENT: Controllable Sequence-to-Structure Generationfor End-to-end Event Extra

文献阅读笔记 GC-Net (END-TO-END LEARNING.....)

阅读笔记--Guiding Attention in End-to-End Driving Models

【理解】end-to-end And sequence-to-sequence

【论文阅读笔记】End-to-End Object Detection with Transformers

End-to-end recovery of human shape and pose阅读笔记