Advertisement

【论文笔记】Capturing LongerContextforDocument-level Neural MachineTranslation:AMulti-resolutionalApproach

阅读量:

Title

文章标题 一种为文档级神经机器翻译捕获更长的上下文多分辨方法
文章的作者 Zewei Sun, Mingxuan Wang, Hao Zhou, Chengqi Zhao, Shujian Huang, Jiajun Chen, Lei Li
单位 南京大学 字节跳动
出版日期 18 Otc 2020
相关链接 论文https://arxiv.org/abs/2010.08961 代码GitHub

Summary

本文开发出了一个多层文档级别的机器翻译系统:MR Doc2Doc(multi-level),作为实现该系统的关键技术手段。

技巧:

  1. 多分辨率策略采用分层结构划分文档,并将其划分为k=1、2、4、8等不同粒度的片段作为独立的学习样本。(通过多层次结构处理让模型从多个视角感知上下文关系)
  2. 为了进一步提升模型泛化能力,在主任务数据集上引入辅助级别(auxiliary)级别的语料以丰富模型训练内容,并与主任务数据集整合形成完整的训练语料库。(这也可以视为一种扩展性策略)

优点**在于无需调整模型结构, 采用基于序列的处理方法来处理DNMT, 该模型能够实现逐句翻译与整体翻译功能。不足在于, 模型训练所涉计算量与序列长度呈平方增长趋势, 这导致内存消耗成为一个瓶颈问题;

Research Objective

文献级神经机器翻译(DNMT)(有时也称为Document-level NMT或doc-lev NMT)包含多种改进方案。主要的研究方向集中在优化模型架构上(涵盖层次化注意力机制),并附加上下文信息提取模块或用于检索的查询层(如context extraction modules or retrieval layers),同时探索基于类缓存机制的记忆网络(memory networks)。

近年来关于架构优化的研究已取得较多成果。我们致力于聚焦于训练范式的探索与优化。未引入额外复杂性以提升性能。采用基于序列到序列的学习策略来处理该任务。在这样的训练模式中充分利用文档中的完整信息,在源端和目标端分别捕捉更长的语义关联。

Doc2Doc VS Doc2sent

作者先是简明扼�地概述了Doc2Sent;传统的做法通常是逐词翻译文档,并将DNMT概念化为分阶段的文档到句子(Doc2Sent)问题。

在这里插入图片描述

源端的上下文信息被定义为S(i),其内容由模型架构决定,并且一般仅涉及两到三句话的信息量。现有研究主要聚焦于S(i)这一模块,并通过层次注意力机制或附加编码器来辅助处理其中的关键特征和复杂关系。相比之下,在目标侧环境中所关注的信息被定义为T(i),其处理仅涉及少量相关工作,并常通过主题建模技术并结合约100个词的词汇库来进行表征

详细阐述本文中将基于端到端架构的Doc2Doc模型用于解决文档翻译问题,并通过设计相应的损失函数形式来优化模型性能。

在这里插入图片描述

其中Dx是源端完整的上下文,而y<i是目标端全部历史上下文。

作者diss了Doc2Sent,并例举了Doc2Doc相比于Doc2Sent的四大优势

Doc2Sent Doc2Doc
没有利用全部的源端上下文 能够利用全部源端上下文
没有利用全部的目标端上下文 将整个文档作为一个序列,利用全部目标端历史上下文
对训练场景有限制:训练数据必须是连续的句子 可以吸收各种序列,包括句子和文档
不可避免地引入了额外的模型模块,从而引入额外的参数 不改变模型结构、不引入额外的参数

MR Doc2Doc VS SR Doc2Doc

尽管看起来更将整个文档输入模型中进行试验

尽管看起来更将整个文档输入模型中进行试验

然而,在作者的研究中发现:当采用多分辨率训练策略时(即混合片段较短的文档表示为MR Doc2Doc),该模型在所有数据集上均表现优异,并且其性能优于传统的Doc2Sent模型(注:这里的问题在于对比对象不准确)。具体而言,在每份文档中将内容划分为多个片段后并行处理后(其中k∈{1,2,4,8,…}),通过这种方式可以显著提高模型训练效率与效果)

Experiment

数据集

在这里插入图片描述

模型

模型使用基础版Transformer

该系统架构采用了六个编码器和解码器层,并基于512维维度构建模型;其中前馈层采用2,769维维度以提升计算深度;系统支持八个注意力头以优化上下文捕捉能力;实验设置中选择了一个较大的批次大小(即batch size是32,768个令牌),并利用多块GPU资源(如NVIDIA A10-4)进行加速运算;最后采用了Adam优化器(即Adam优化器...)等

具体参考论文:《Attention Is All You Need》

评估方法

分别计算以下两个指标:sentence-level BLEU score(缩写为s-BLEU)document-level BLEU score(缩写为d-BLEU)
对于document-level BLEU score(缩写为d-BLEU),具体来说就是将多个生成的短句拼接起来作为评估对象;或者直接使用完整的自动生成文档来进行评估。然而,在实际应用中通常难以将自动生成的内容拆分成独立的小段落进行处理;因此我们主要关注并展示了基于Doc2Doc模型实现的方法。

实验结果

在这里插入图片描述

此处使用破折号表示未提供内容。通过开发集的数据,在模型和基准系统中选择最优超参数配置(特别关注于早停功能)。

结果显示:尽管SR Doc2Doc在翻译质量方面表现欠佳(尤其是在TED平台上)令人失望甚至告负于法),但MR Doc2Dog取得了显著成效并证实了该方法的有效性。就较低部分而言,在适当补充句子级语料库后可显著提高SR Doc2Dog的效果并进一步优化MR Doc2Dog的结果以达到最优效果。

Results Analysis

MR Doc2Doc提升了性能

额外的句子预料有所帮助

增添额外的句子级语料库同样可被视为一种多层次训练体系。值得注意的是作者采用了域外数据(实验结果显示主要使用TED ZH-EN作为域外样本集,并定义域外数据为指其他语言来源的文本对例如基于维基百科的EN-DE以及WMT中的ZH-EN语料库)来补充模型训练数据。

表明:学习外语有助于学母语??

MR Doc2Doc具有强上下文敏感性

为考察Doc2Doc是否真正有效地运用了文档中的上下文信息, 作者特意采用了错误的上下文进行推理. 假设模型未能意识到对话间的依赖关系, 则其性能差异不应显著.

验证方式非常有趣。具体来说:
Local Shuffle:重新排列每个文档内部的句子顺序,并将其标记为"局部打乱"。
Global Shuffle:将所有文档的句子进行全局交换处理,并标记为"全局无序"。
研究结果表明:这种设计思路确实有效实现了作者预期的效果——通过误导性的上下文安排使得Doc2Doc模型的BLEU评分出现了明显下降。进一步分析发现:相比于局部洗牌的效果(仍保留一定的话题信息),全局洗牌带来的负面影响更为显著——这表明越混乱的上下文所造成的负面影响越大。值得注意的是,在局部洗牌方法中虽然也进行了打乱处理(如话题信息或时态等大体方向),但仍保留了较明显的结构特征。

得证。

兼容句子翻译

将文档随机分割成不同长度的较短段落,对模型进行评估,发现:

  • 在句子级别的预处理模块训练下建立起来的模型,在面对较长输入序列时其翻译表现会呈现出显著降低的趋势(易于理解,在这种情况下模型实际上未曾接触过如此长的数据片段)。
  • 在文档级别的预处理模块训练下建立起来的模型,则表现出与之相反的优势——其表现非常好。
  • MR Doc2Doc 模型通过灵活地处理不同长度和复杂度的内容实现了对任意长度序列的实际翻译能力(这使得我们无需为单独设计每种类型的复杂系统而感到困扰)。

通过实验验证了提升语篇连贯性的优点,并不相关于我的兴趣点仅作简要提及。
此外,作者提出了自建数据集PDC(已公开于GitHub)以及评价指标TCP(考虑了时态一致性、名词的存在以及代词的翻译)。

Future work

MR Doc2Doc效果这么好,但也有不足:

效率成为制约因素
Transformer架构中的自注意力机制计算复杂度随着输入序列长度的平方呈二次方增长,在实际应用中可能会导致计算资源紧张的情况出现。当输入文档进入模型处理时,内存占用可能成为一个瓶颈问题。这将直接影响到模型的整体训练效率。

在近期的研究中, 一些学者对DNMT的研究提出了挑战.Kim等人(2019)指出, 在相同的条件下, 采用良好正则化措施或预先进行过训练的句子级模型能够超越文档级模型.他们在审阅译文后发现, 大多数突破并非源于共同指针选择或词汇偏好, 而是"不可解释性".类似地,Jwalapuram等人(2020)通过综合评估发现, 当前基于语境的理解模型未能显著提升跨语言和跨现象语篇相关翻译的一致性.此外,Litara等.(Li et al.2020)指出, 增加额外的上下文编码器更像是引入了噪声而非实质内容,BLEU指标显示其改进主要源于稳健的学习过程而非对上下文信息的作用.
这些结论充分表明文档级翻译所面临的挑战.

Conclusion

  • 在修改模型架构时遵循传统方法不同的是作者并未采用增加额外参数的方式而是采取了一种创新的训练技巧具体表现为通过训练多分辨率级别的句子材料来实现
  • 该研究为学术界提供了新的文档级数据集PDC并首次系统性地提出了三个重要的评价指标TC CP PT这些指标被简称为TCP从而在模型评估领域具有重要参考价值

阅读后难以长期记忆,请做好笔记以备复习。
若阅读量有限,则笔记质量有待提升,请逐步优化。
Thu, 14th April, 2021

全部评论 (0)

还没有任何评论哟~