F-Score Driven Max Margin Neural Network for Named Entity Recognition in Chinese Social Media 论文翻译
基于F-Score的最大边际神经网络模型在中文社交媒体命名实体识别任务中的应用
摘要
本研究主要聚焦于中国社交媒体平台上的命名实体识别问题。针对海量未标注文本及标注数据有限的情况,我们提出了一种基于双层 LSTM 神经网络的半监督学习方案。通过整合传统神经网络技术,在模型中结合了转移概率与深度学习方法,并设计了一个能够直接优化 F 得分的新框架以弥补命名实体识别中的标记精度与 F 得分之间的差距问题。鉴于 F 得分驱动的方法存在不稳定性问题,并且标签精度所包含的信息具有重要价值,在此基础之上提出了一个同时优化 F 得分与标签精确度的新策略。我们的集成模型较之前最新的研究成果实现了实质性的提升效果
1 介绍
随着互联网技术的快速发展,在信息交流领域中社交媒体扮演着越来越重要的角色。
为解决这一问题, 一种策略是从大量未标注文本中提取词汇嵌入信息. 为了充分利用未标注文本资源, Peng 和 Dredze (2015) 对中文文本嵌入的不同类型进行了系统分析, 并通过实证研究验证了位置字符嵌入的有效性. 在汉语实体识别任务中, 分词具有重要价值, 因此另一种方法是开发了一个集成系统, 该系统通过联合训练分词与实体识别的学习机制来生成特征表示 (Peng 和 Dredze, 2016). 然而, 上述两种方法均建立在CRF框架之上. 我们提出了一种基于B-LSTM神经网络的新型半监督学习模型, 利用大量未标注文本提供的语料信息, 在有限标注数据集上进行学习. 为了缩小标签精度与F分数之间的差距, 我们开发了一种新型优化策略, 跳脱传统标签精度训练方式. 同时我们还提出了一个综合优化框架, 目标在于提升F分数与标签精度的同时保持较高的标签准确性. 具体而言, 我们的贡献主要体现在以下几个方面:
我们开发了一种专注于直接优化FScore的技术(...),这种技术不旨在提高分类器对标签的准确度()。另外一种方法则通过整合FScore与标签一致性这两个关键指标来进行系统优化()。
通过将转换几率与基于BLSTM的最大边缘神经网络融合,我们构建了神经网络的结构化输出。
•我们评估了两种方法在神经网络中使用未标记文本的词汇嵌入。
2模型
我们开发了一个基于B-LSTM神经网络的半监督学习框架,并通过融合转移几率构建层次化的输出模式。在该框架中,我们致力于研发一种系统性优化F分数的方法。此外,在模型训练过程中,我们还成功研发出一套综合性的策略来提升F分数的同时也实现了标签准确率的最大化。
2.1转移概率
B-LSTM神经网络基于过去输入特征的学习能力使其实现了显著的效果(Hammerton, 2003; Hochreiter and Schmidhuber, 1997; Chen et al., 2015; Graves et al., 2006)。然而,B-LSTM不具备学习句子级的标签信息的能力,Huang等人(2015)则通过采用通用报告格式的应用实现了对这种信息的提取。为了整合转换概率至我们的模型以便提取相应的标签信息,我们在B-LSTM的基础上构建了一个最大边缘神经网络(MMNN)(Pei等人,2014)。最后,我们关注的是标签位置t的预测结果如下:





该触发函数基于NER任务的主要评估指标——F-Score。然而需要注意的是,在分类过程中即使分类的准确率较高也不一定意味着相应的F值会同样较高。举个例子来说,在每个命名实体的最后一位字符都被标记为O的情况下尽管分类器具有很高的准确性但其精确率召回率以及整体的F值却可能达到零。具体而言经过调整后的标签序列与预测结果之间的关系会被用于计算新的触发函数从而对训练样本中的F值进行优化这一改进使得模型在处理命名实体识别任务时能够更好地平衡各类指标从而提升整体性能表现

**F-Score与标签精度相关的触发函数:**有时F-Score可能会表现出不稳定性。例如,在一个句子中没有任何命名实体的情况下(即没有任何识别出的实体名称),无论预测的标签序列如何变化,F-Score都将始终保持在零值。为了更好地利用标签精度所提供的有价值的信息,我们在此基础上引入了一个集成触发函数,具体如后文所示

其中β是调整标签准确度和F值权重的一个因素。
由于F-Score基于整个标签序列,在这种情况下我们采用beam搜索以找到具有最高句子水平分数的k标签序列;接着通过触发函数将这些k标签进行重新排列,并最终选出最优解。
2.3分词表示
分词作为中文文本处理的核心技术,在其重要性方面具有突出地位。研究表明,在社交媒体平台上进行汉语网络学习时,Peng与Dredze的研究成果(分别于2015年及2016年发表)均揭示了分词技术的重要性。进一步提出了一种基于神经网络模型的分词方法,并探讨了其在信息提取方面的应用潜力。
字符与位置嵌入融合分词信息 : 我们引入了每个字符的位置标记以增强模型表现力的方法称为字符与位置嵌入结合分词信息技术。该方法旨在区分词语中相同字的不同位置从而提高模型对语义的理解能力。为了实现这一目标我们首先需要将输入文本进行分词处理并从中提取包含位置信息的特征向量进而优化模型参数使其能够更好地捕捉到这些特征带来的语义变化。
字嵌入与词语划分特征:在神经网络体系中, 分词可被视为离散属性. 这些离散属性自然地被整合到神经网络架构里 (Collobert等人, 2011). 我们采用 MSRA 2006 语料库预训练的 LSTM 模型中的字符嵌入作为分词特性的初始设置.
3 实验与分析
3.1数据集

我们采用了优化版的标记语料库[1]作为实验的基础框架,并基于该框架实现了NER任务的Peng和Dredze(2016)方法。具体数据信息详见表1。此外,在实验过程中,我们采用了与Peng和Dredze(2016)在新浪微博上的服务相同的未标注文本。为了确保结果的一致性,在分词时采用了基于中文的分词系统Jieba,并将文本划分为词语形式。
3.2参数估计
采用基于Mikolov团队(2013年)提出的word2vec模型以及跳过gram架构进行词向量的预训练。未实施负采样策略或其他默认配置设置。例如Mao等人。(2008),我们采用bigram特征进行后续分析。

我们采用滑动窗口技术(由Collobert团队在2011年提出)从单词级别的特征向量中生成更高阶的表征。我们对bigram特征求取作为神经网络处理中的离散形式进行建模。通过带L2正则化的随机梯度下降算法优化得到我们的模型。
对于模型中的参数设置如下:嵌入窗口大小为5,在特征嵌入窗口大小、隐藏向量窗口大小以及 margin discount方面分别设置了100值;其中 margin discount值定为 ;L2正则化系数设定为 。在优化算法方面采用的是起始学习率设置为 ,并以衰减因子设定为 的策略逐步降低学习速率。对于集成模型部分,则采用了 β= 的设置方式;整个网络架构经过 层搭建后完成了训练工作,并基于最佳预测方法进行了验证
3.3结果与分析
我们进行了系统性评估以比较两种融合分词信息的方法。具体结果可在表2中查阅。通过分析发现,在神经网络模型中采用位置特征嵌入能够展现出更优的效果。这一现象可能源于位置字符嵌入方法能够在无标签数据中学习分词模式的能力更强。

在接下来的四个实验设置中, 我们采用了基于位置字符嵌入的方法. 其中, 第一个实验设置采用的是基准BLSTM神经网络. 为了整合传统CRF等分类器 (Chieu and Ng, 2002; Mccallum et al., 2001), 我们在B-LSTM多层神经网络 (MMNN)的基础上引入了转移概率. 在第三个实验设置中, 我们提出了一个基于F-Score驱动的训练策略. 在第四个实验设置中, 为了进一步提升性能, 我们提出了一种综合训练方法. 实验结果表明, 在图1(a)中展示了各模型在测试集上的性能对比情况. 图表显示, 相较于其他方法, 我们的模型不仅取得了更好的分类精度, 还显著降低了计算开销.

表3呈现了测试集中的NER评估结果,并列出了微观F1分数(总体水平)以及词汇外实体(OOV)。该研究于2016年发表于《计算机应用研究》,探讨了社交媒体数据处理中的关键问题。对比分析B-LSTM架构与增强型B-LSTM架构(加入多层神经网络层)的表现后发现,在内耗计算方面两者的差异较为显著。进一步研究表明,在与未增强版本相比,B-LSTM+MMNN架构通过引入F-Score驱动机制显著提升了命名实体识别的整体准确性,同时在提及识别过程中也展现出一定的优化效果。综合训练模式则在兼顾标签准确率与F-Score表现的基础上实现了对现有技术体系的重大突破,首次在中文社交媒体领域构建出一个性能最优的NER系统框架.基于上述分析,本研究提出了一种新的集成学习方法,其在名称识别与关联提及识别任务上均展现出超越现有方案的优势
为了更深入地了解β这一因素对结果的影响,在图1(c)中通过采用不同数值的β值展示了集成模型的结果。观察图1(c)后可知,在平衡F值与准确度之间选择合适的参数是一个关键问题。该整合模型可能有助于减少中国社交媒体上的噪音信息。
4 结论和今后的工作
研究结果也为未来工作提供了指引。我们发现,在表3所示的各种模型中,所有模型的召回率明显低于精确度(Pink等人, 2014)。因此, 我们需要开发一些解决方案来解决这一问题。
