Advertisement

论文阅读笔记-FGN: Fusion Glyph Network for Chinese Named Entity Recognition

阅读量:

论文地址:paper:https://arxiv.org/ftp/arxiv/papers/2001/2001.05272.pdf

github地址:[github](https://github.com/AidenHuen/FGN-NER github):https://github.com/AidenHuen/FGN-NER>

摘要

作为汉字的一种形态表现形式,在人类文化中蕴含着丰富的象征意义与历史价值。

1.Introduction

在自然语言处理领域中,命名实体识别(NER)主要归类为一种序列标记问题,并主要采用统计方法或神经网络技术来实现其求解。从学术研究的角度来看,在自然语言处理领域中,命名为体识别(NER)普遍被认为是序列标记者的一种典型应用,并主要依赖于统计方法和神经网络技术来实现解决方案。在中文命名为体识别领域中,在中文命名为体识别领域中,在中文命名为体识别领域中,在中文命名为体识别领域中,在中文命名为体识
别领域中,

[1]Yanan, L., Yue, Z., Dong-Hong, J.: Multi-prototype Chinese character embedding. In: Conference on Language Resources and Evaluation, pp. 855-85 9(2016).

[2]Yuxian, M., Wei, W., Fei, W., 等人: Glyce:基于Glyph向量的汉字表示方法. 在《神经信息处理系统进展》中报道了这一成果,在第X卷中出版的第2742-2753页(2019年).
若干学者对相关问题展开了进一步的研究[3,4].

[3]Haibo et al., Comparative investigation into the impact of word segmentation on name tagging across Chinese and Japanese languages. In: Proceedings of the International Conference on Language Resources and Evaluation, pp. 2532–2536 (2014).

[4]张新亮, 骆 homogeneous, 竹洪, 周 tiejun.: 中国命名实体识别基于序列标签的方法. 依据字符或基于单词?. 高级智能计算理论与应用, 634–640 (2010).

进行了详细比较的是字符型方法与词型方法之间的对比分析,
研究表明字符型方法成功规避了词语分割阶段可能出现的问题,
其表现更为优异。
在采用基于字符方法处理NER任务时,
可能对中文NER模型的整体性能产生重大影响。

目前分布式表示学习已成为广泛采用的汉字表征手段自BERT[5]提出以来在各NLP分支领域中其表现均居于领先地位然而这些方法忽视了字符或汉字内部的构成要素例如汉字的形体结构值得注意的是尽管这一局限性但相关研究仍致力于探索更高效的表征方式其中以英语领域最为成熟通过卷积神经网络对单词拼写进行编码的方法已应用于序列标签任务这种方法由于中文并非字母语言而具有特定语构特点并不适合直接应用于中文命名实体识别任务为此学者们提出了将汉字分解为若干偏旁部首进行表意研究并取得了显著成效基于部件的字符嵌入研究证实了其在中文语境下的有效性

The study titled "Radical-Enhanced Chinese Character Embedding" was presented at the Proceedings of the International Conference on Neural Information Processing, spanning pages 279–286 in 2014.

除此之外

田字格作为中国书法的传统符号具有独特的文化价值

[11] Arijit, S., Chan, S. Using ideographic characters for the NER task. Preprint on arXiv with ID 1909.09922, The field of Computer Science (2019).

开发出了一种基于汉字形态学的命名实体识别(NER)系统命名为GlyNN该系统仅对单个汉字的轮廓信息进行编码并利用BiLSTM-CRF作为序列标记器以实现高效的命名实体识别功能此外在GlyNN中还特别关注了非汉字字符的表现与现有的方法(如Glyce)相比引入BERT后在多项NER基准测试上表现出色所需使用的形态学资源量显著减少并采用了较浅层的设计我们发现这表明在现代汉语中实体类型和数量远超古代水平

这些研究仅将字形特征与分布式表示独立地进行编码,并未考虑两者间的相互作用机制。这忽视了字形特征与其上下文之间的互动关系,在多模态深度学习领域已得到深入探讨[12, 13, 14]。然而,汉字的意义并非完全清晰;我们质疑单独对每个汉字进行编码是否为最优方案。事实上,在自然语言处理任务中(如名词 chunking),相邻字符所构成的局部结构特征在NER任务中可能起到关键作用。例如,在"杨树"、"柏树"及"松树"等树木名称中都包含相同的竖体木旁,在决策树算法中却没有这种模式可循;汉语中还有更多类似的模式(如其他植物名称),通过分析相邻字符所构成的局部结构特征可能有助于提升这类任务的表现水平

基于此,本研究提出了一种名为FGN的方法专门针对中文 Named Entity Recognition(NER)任务设计的融合字形网络。该方法的主要创新包括:(1) 提出了一种新型的卷积神经网络(CNN)架构用于字形编码,并命名为CGS-CNN(Character图形序列CNN)。该架构不仅能够捕捉到相邻字符之间的深层语义关联信息,在这种过程中实现了对邻近字符之间潜在关系的有效建模。(2) 通过同步滑动窗口机制与 Slice-Attention模块有效整合词性和字符级别的特征,并在此基础上开发了一种创新性的融合策略。实验结果表明该方法显著提升了中文NER任务的表现水平,在四个基准数据集上的评估指标均优于现有最先进的基准模型(第4.2节)。此外,在第4.3节中我们对FGN中的各个组件参数设置及其对模型性能的影响进行了系统性分析并给出了深入讨论

2.Related Work

我们的研究涉及用于NER的神经网络,并具有紧密关联。Ronan等人[15]开发了一种基于卷积神经网络和条件随机场结合的模型,并展示了其在各种基准NER测试集上的卓越性能。

LSTM-CRF技术(参考文献16)主要采用于现代后续 Named Entity Recognition (NER)系统中作为关键组成模块,在该模型架构中占据核心地位的技术单元。为了提升词语级别的表示能力,请参考文献6中的研究者 Ma 和 Hovy 提出了一种基于 LSTM、CNN 和 CRF 结构融合的新方法用于序列标注任务

该研究采用全自动序列标签器技术(基于双向LSTM-CNNs-CRF模型)完成了标注过程。

[Huang Z, Xu W, Yu K.提出了一种基于双向LSTM-CRF模型的序列标签方法,并在arXiv上发表文章编号为arXiv: 1508.01991的研究成果。(2015)

该架构利用CNN模型进行编码。具体而言,在对每个英语单词进行拼写的时侯, 本研究采用了基于卷积神经网络(CNN)的方式对其进行编码, 从而能够有效增强语义理解能力。此外, 一种关键的表示学习方法[17], 其融合了LSTM、CNN和CRF模型实现英语命名实体识别任务。在中文领域, Dong等人[18]研究了将汉字的部件组织成序列, 并运用LSTM网络捕获这些部件的信息来实现中文命名实体识别。最后, Zhang等人[19]提出了基于双键元组的Lattice-LSTM模型, 在整合词库匹配信息的同时有效提升了命名实体识别的效果。

[19] �ictorius, Z., Jie, Y.: Chinese Named Entity Recognition Using Lattice LSTM. In: Proceedings of the Annual Meeting of the Association for Computational Linguistics (AACL), pp. 1554-1564 (2018) 也是我们后续值得参考的文章。
匹配的相关词汇库中,在Lattice-LSTM框架上提出了一种基于单词-字符级别的长短期记忆网络(WC-LSTM)模型[20]。

Wei, L., Tongge, X., Qinghua, X.: 基于单词-字符长短期记忆单元的编码策略用于中文命名实体识别研究,在《美国计算机语言学协会西北部地区会议记录》中发表(第2379至2389页)(1919)

基于该基础之上, 研究者提出了一种方法, 即将词汇的相关信息嵌入到一个词汇的起始位置和终止位置符号中, 旨在减轻词汇干扰. 通过嵌入在单词前后特定符号来减少分裂错误的可能性.

我们的研究也涉及一些多模态领域的相关工作。目前,在NLP领域中视觉知识的应用已日益广泛。我们将依据视觉知识的来源将相关研究分为两类:基于字形的学习与多模态深度学习。前者相对稀缺的情况下我们将输入句子转化为三维编码的图形序列这一发现表明我们是首个成功运用三维卷积[21]对字符进行三维编码的人而三维卷积技术主要用于编码视频信息这一特点使它成为文本处理的重要工具之一。后者则属于当前NLP领域的前沿方向之一。Zhang等人[12]开发了一种适用于推文NER分析的自适应共同关注网络该网络能够动态平衡推文中图像与文本表示之间的融合比例这种技术在参考BERT模型的基础上设计了一种改进型multi-modal BERT[13]以实现目标情感分类任务模型并引入了多个自我注意层[9]以便在连接BERT表示与视觉特征时捕捉二者间的互动关系这一创新思路给我们留下了深刻的印象。此外Mai等人[14]提出了一个结合局部视角与全局视角的新一代融合网络该方法采用滑动窗口的方式分割并处理多模态向量并通过外积函数整合各分割区域间的特征这一方法提供了独特的视角与创新的技术路径我们可以从中汲取宝贵的经验并在此基础上进一步完善我们的研究工作

3 Model

在本节中, 我们将深入探讨FGN的技术细节。如图所示, FGN主要包含三个主要部分: 表征阶段、融合环节以及标记过程。其中, 表征阶段负责识别关键特征; 融合环节将不同特征进行结合; 标记过程赋予识别结果相应的标签.

3.1 Representation Stage

我们在这里探讨了汉字的表征学习问题,并涉及基于BERT的语言模型生成的语言学特性分析以及基于CGS-CNN的空间结构表征研究。其中一项研究涵盖了基于BERT的语言模型生成的语言学特性分析,并对基于CGS-CNN的空间结构表征进行深入探讨。这些研究将采用细致入微的方式展开后续分析工作

BERT.

BERT是一种多层Transformer模型,在词元或字符层面生成分布式表示。我们被预先训练好的中文BERT用来编码每个句子中的字符。与常规的微调方法不同,则是首先利用CRF层作为标记器对BERT进行微调,并将其整合到FGN中(HOW TO)。在第4.3节中展示的实验结果表明这种策略非常有效。

CGS-CNN 图2描述了CGS-CNN的结构。我们只选择简单的中文字体来生成字形向量,因为过去的工作[11]表明,只使用一种中文字体就能达到与七种字体相媲美的性能。CGS-CNN的输入格式是字符图谱序列我们首先将句子转换为图形序列,其中的字符被替换成50×50的灰度图形然后,我们提供两个3×3×3的三维卷积层来编码图形序列,并以8个通道输出每个50×50的图形。三维卷积可以从空间和时间两个维度上提取特征,这意味着每个字形向量可以从邻近的图形中获得额外的字形信息。 使用填充对图形序列的维度进行填充,我们可以在通过三维卷积后保持图形序列的长度不变,这对基于字符的标签来说是必要的。然后,三维卷积的输出可以通过几组二维卷积和二维最大集合,将每个图形压缩成2×2的田字格结构,有 64个通道。为了过滤噪音和空白像素,我们将2×2结构压平,并采用1D最大池化法来处理。
采用1D最大集合法来提取每个字符的字形向量。字形向量的大小向量的大小被设定为64,这比Tianzige-CNN输出的大小(1024维)
与Glyce不同的是,它将图像分类任务设定为学习字形表示。我们在领域数据集中训练整个NER模型时学习CGS-CNN的参数

3.2 Fusion stage

采用滑动窗口来移动BERT和字形表示。在滑动窗口中,在分析每个切片对时都会使用外积运算以捕捉局部交互特征。随后应用切片注意机制平衡各切片对的重要程度,并整合这些特征以生成综合化的表征描述。

Out-of-sync Sliding Window.

不同步的滑动窗口

如上所述,在文献[14]中已将滑动窗口应用于多模态情感计算。其原因在于,在直接运用外积融合向量时会导致向量规模呈指数级增长这一问题进而引起后续网络在空间与时间复杂度上的挑战。然而,在当前的方法中存在一个局限性:所有多模态表示都必须保持相同的规模这一前提条件往往无法满足现实需求因为BERT字符级别的表示比字形级别的表达更为丰富且需要更高的维度来捕捉这些信息为此我们在该方法中引入了一种同步外延的滑动窗口机制以解决这一问题

考虑一个汉字

其中𝑛为一正整数值,在此研究中用于表征两矢量所包含之片数量;而𝑘𝑐与𝑠𝑐则分别表示字符向量窗口宽度及跨越范围;同样地,𝑘𝑔及𝑠𝑔则对应于字形向量窗口宽度及跨越范围。我们的策略旨在满足这一条件作为滑动窗口超参数的有效约束;从而使𝑑𝐶、𝑘𝐶与𝑠𝐶分别为𝑑g、kg与sg的整数值倍率。

为了得到切片对,我们首先计算每一步滑动窗口的左边界指数:

其中变量符号𝑝(𝑖)𝑐与𝑝(𝑖)𝑔分别标识滑动窗口在边界处的指数参数。字符序列及其形态特征向量在第i步所对应的边界位置。随后,在数学表达式中,请参考以下公式段落来获取各个片段的具体计算方法。

记𝑐_𝑠(i)与𝑔_𝑠(i)分别表示两个向量的第i片。记𝑐_v在位置(p(i)*c +1)处的值为该位置第一维的数据。通过外积方法,在局部视角下融合两个切片信息以生成交互式张量的具体过程可通过以下公式实现:

还有一些公式推导就不写了 不太重要

Slice-Attention

outer product为字符级别的表示提供了交互信息的同时也带来了更多的噪声这一现象源于许多特征之间存在不可变的相关性参照注意力机制我们提出了一种名为"切片-注意力"的方法该方法能够自适应地量化每个切片对的重要性并通过将这些重要性度量值进行融合来实现单个字符的表征其中切片对重要性的度量则可采用:

其中,
a_i代表第i个切片对的重要性值,
\sigma为Sigmoid函数。

3.3 Tagging stage

在标记开始前,在字符级别上将各个向量进行连接操作。其最终表示被定义为由字符级别的向量所构成的一个有序序列X = \{x_1, x_2, ..., x_\tau\} ,其中\tau代表该序列的总长度。随后通过双层循环神经网络(BiLSTM)构建一个序列编码模块,在此基础之上配置一个用于命名实体识别的CRF模型(Conditional Random Field),该模型将负责识别并标注这些命名实体。

该文中的BiLSTM单元由三个独立设计的门构成,用于调控输入序列中各时刻信息的流动方向与强度关系,从而实现信息的有效传递与融合

后面也就是介绍bilstm 就不多写了

4 Experiments

在第4.1节及第4.2节内段落阐述了所使用数据集的相关信息以及具体实验的设置。其中详细讨论的主要研究结果均位于第4.2节部分之中,在此部分我们也对所提出的FGN方法进行了比较分析。通过系统地采用该方法,在各个数据集上运行十次以评估其表现特征包括但不限于准确率(P)、召回率(R)以及F1-分数(F1)。而在第4.3小节内容内则深入探讨了该方法体系中的关键组成模块并对其各自性能表现进行了多维度验证与评估指标统计。

4.1 Experimental Settings

该研究采用了多轮实验以评估四个通用性的 Named Entity Recognition 数据集:包括 OntoNotes 4(编号为[22])、MSRA([23])、Weibo([24])以及 Resume([19])。所有这些数据集均采用了 BMES 标签方案进行标注。其中 OntoNotes 4 和 MSRA 属于新闻领域;而微博的数据则源自中国主要社交媒体平台微博。这三个 数据集中仅涉及传统类型的命名实体如地点、个人名称以及组织机构。

超参数设置

我们采用了字符表示和字形表示方案,并结合了丢弃机制来提升模型性能。在CGS-CNN模型中设置了0.2的丢弃率作为初始值,在激进的自我注意模块中将其提高至0.5以增强稳定性。对于LSTM结构,在隐藏层大小上进行了优化设置为764,在丢弃率方面则定值为0.5以防止过拟合。为了提高模型鲁棒性,在实验中采用了基于中国BERT(Chinese BERT)的技术框架,并基于谷歌2.0预训练模型构建而来。该模型通过将每个字符映射到764维向量实现特征提取,并从《新华字典》中收集了共计8630个图形数据集进行训练。我们将这些图形数据经过图像增强处理后输入网络进行特征学习。根据第3.2节所述内容,在字符向量窗口大小设计上进行了优化研究:字符向量窗口大小与字形向量整体系数呈整数倍关系,在实验中将前者设定为96并赋予其较大的跨度(步长8),而后者则采用12并步长1的设计方案以适应不同层次的任务需求。在优化器选择方面采用了AdamW算法进行参数优化,在微调BERT模型以及NER任务训练过程中采用了不同的学习率策略:微调阶段采用较低的学习率为1e-5进行参数更新迭代;而在训练阶段则采用了较高的学习率为0.002以加快收敛速度并提升模型性能表现

4.2 Main Result

表1和表2显示了FGN的一些详细统计数据,与其他SOTA模型在四个NER数据集上进行了比较。与其他SOTA模型在四个NER数据集上的比较。这里,FGN代表所提出的字形 模型;Lattice LSTM[19]和WC-LSTM[20]是没有BERT的SOTA模型, 结合了单词嵌入和字符嵌入。BERT-LMCRF代表BERT模型,BiLSTM-CRF作为NER标记器。
Glyce [2] 是前面提到的基于SOTA BERT的字形网络。GlyNN[11]是另一个基于SOTA BERT的字形网络。 特别是,我们选择GlyNN的平均F1进行比较,因为我们也采用平均F1作为衡量标准。对于其他基线,我们选择他们在试验中显示的结果,因为他们没有说明他们是否使用平均F1。可以看出,FGN在所有四个数据集中的表现都优于其他SOTA模型。
与BERT-LMCRF相比 与BERT-LMCRF相比,FGN的F1获得了明显的提升,分别为3.13%、2.88%、1.01%和 0.84%,在微博、OntoNote 4、MSRA和Resume上分别获得明显的提升。
此外,FGN的表现超过了一些基于SOTA字形的NER模型,如Glyce和GlyNN。然而,FGN 在Resume和MSRA数据集上没有取得明显的改善,因为BERTLMCRF已经能够识别这两个数据集上的大部分实体。
事实上,在数据集微博和OntoNote4对于NER来说更加困难,因为实体的类型和实体的提及更加多样化。提及的实体更加多样化。
例如,微博和OntoNote4中的一些有趣的和特殊的实体 词,如 "铼德"(公司名称)和 "啊滋"(公司名称),这些词在微博和OntoNote4中都很有趣。(公司名称)和 "啊滋猫"(奶茶店 店),只有FGN能够成功识别。我们猜测其原因是 铼 "字含有表示 "金属 "的偏旁 "钅",而 "滋 "字 含有表示 "水 "的基点 "氵"。这些基点与他们公司的产品有关。
事实上,这种现象在各种中国实体中很常见包括公司、人名和地点,这些都深受中国人命名文化的影响。
将上下文信息与上述 字形信息相结合,FGN可以捕捉到额外的特征来识别一些特殊的 在某些情况下,FGN可以捕捉到额外的特征来识别一些特殊的命名实体。

4.3 Ablation Study

这里我们探讨FGN中各种设置与组件的作用。所涉及的组件主要包括:CNN结构、命名实体标记器以及融合方法等技术模块。该数据集被用来作为这些分析的基础。

Effect of CNN structure.

根据表3的数据可以看出,在保持FGN其他参数不变的前提下(如表3所示),我们对比分析了不同CNN架构的表现(即各种CNN结构)。其中2D CNN仅包含二维卷积层与二维池化层,并未引入三维卷积操作;而Tianzige-CNN的概念由Glyce首次提出。从表中数据可以看出,在捕捉天字形特征时(如前所述),传统的最大池化相较于平均池化在捕捉关键特征方面表现出色。此外,在计算过程中(如CGS-CNN模型中),通过引入三维卷积操作可以显著提升F1值(较传统二维卷积方法提升了1.14%)。值得注意的是,在捕捉天字形结构的特征时(如前所述),最大池化相较于平均池化在捕捉关键特征方面表现出色。

Effect of Named Entity Tagger.

我们采用了广泛认可的序列标记器,在该框架中替代了BiLSTM-CRF模型进行性能评估与分析。
表4列出了所选标记器的性能数据。
研究结果表明,在NER任务上基于LSTM和CRF的方法表现比Transformer[9]编码器更优。**实际上,在当前序列标注领域中,默认采用SOTA(现最好)NER方法[11, 19, 20

Effect of Fusion Method.

我们探讨了融合阶段不同配置的性能表现(见表5)。在表格中,“concatenated representations”表示未进行融合时字形特征与BERT表示法的集成。非freeze变体代表带有可训练BERT的FGN。“avg pool”和“max pool”代表FGN中的Slice-Attention分别被平均池化或最大池化取代。此外,在实验中我们将窗口大小重新设置为(196, 16)、(48, 4),滑动窗口步长设定为(24, 2),同时采用字形表示方法来测试FGN的表现。

与直接连接字形和BERT预训练向量相比,在F1指标上FGN实现了0.82%的优势提升这一结果验证了我们所提出的融合策略的有效性

5 Conclusion

在本文中 我们开发了一种专为中文命名实体识别(NER)设计的新架构FGN。该架构基于创新性地结合了CGS-CNN这一新型卷积神经网络(CNN)结构 来有效提取汉字形态特征以及捕捉字符与邻接图形之间的相互作用关系。

通过在四个标准NER数据集上的实验验证 该基于LSTM-CRF的FGN标记器成功实现了对BERT与CGS-CNN输出表示的有效融合 并在此四个数据集上取得了最新的基准性能记录(SOTA)。

全部评论 (0)

还没有任何评论哟~