论文笔记:Towards Zero Unknown Word in Neural Machine Translation
摘要:
NMT基于计算复杂度考虑后才采用这一策略,因而都依赖于一个受限词表,这导致许多单词无法出现在词汇表中成为OOV词,因为它们在翻译过程中难以处理并破坏了句子结构,使它们增加了句子的歧义性。为了克服这一挑战,进而提出了一种新的替换-翻译-恢复方法。
1).在替换阶段,集外词由单语数据中学到的相似的集内词替换。
2).在翻译和恢复阶段,将会使用替换集外词后的双语语料模型进行翻译。
3).最后替换单词的翻译结果将会被替换前的单词代替。
1.introduction
普遍采用的方法是限定源语言和目标语言的词典大小为3万至8万个常见词汇,并将所有罕见单词标记为UNKNOWN标识符;存在明显局限性的是:
当源端词或其翻译均为OOV时
将rare words转换为无意义的unk会增加句子歧义,从而导致一些结构相同而部分单词不同的OOV(Out-of-Vocabulary)句子产生相同的翻译结果
举例:

为了应对这一挑战,我们开发了一种基于余词相似度的创新替换策略。
具体做法:
在训练过程中, 首先由双语语料生成词对齐实例, 在源端和目标端包含 rare word 的配对中, 每个将被替换成具有相同意义的 in-vocabulary words。这些替换关系是基于一个规模庞大的单语语料库建立起来的相似度模型。
2).然后我们使用替换了OOV词的双语语料来训练NMT模型
在测试阶段中输入的句子中的rare words会被具有相似意义的in-vocabulary words替代,并且在后续处理阶段中将被恢复为原来的OOV words.
2.NMT以及未登录词的影响
2.1 NMT


根据上式中Z的计算,
为了全面考虑每个in-vocabulary word及其对应的non-linear transformation, 我们必须对所有这些元素进行求和运算。这将导致计算复杂度与词典规模呈正比增长。鉴于训练复杂度的限制因素, 仅仅依赖词典大小控制难以满足需求, 因此我们必须寻找其他方法来处理未登录词汇问题。
2.2 未登录词的影响
在NMT模型中无法捕捉到这些罕见词的准确翻译……原因在于所有的rarewords都被替换成unk标识
2).rare词汇的存在加剧了句子的歧义性,并因此为剩余in-vocabulary的词项提供了更大的翻译挑战。
3.用相似词代替未登录词

训练阶段:
在训练过程中,在开始时我们基于单语语料库掌握相似性模型的原理,并用于衡量单词之间的相似程度。
我们需通过双语资料学习句子单位级别的对应关系,并可由此获取词汇间的翻译对照表。在实验过程中我们采用统计方法筛选出每个单词最高概率对应的翻译结果这样就能将罕见词的对齐关系替换成其相近词汇以提高模型训练效率
3).最后,我们通过最新的双语语料学习NMT模型。
测试阶段,
1)、存在rare words的测试句子首先会被相似的in-vocabulary代替。
2)、替换后的句子将会从训练好的NMT模型中得到翻译结果。
3)、最后一步是利用词汇翻译模型来纳入这些rare words 的译码工作,并以实现最终译码目标。
3.1 替换词的情况
文章中只替换one to one mapping以及rare words对齐到null的情况。
包括:
当源端与目标端的单词均为unk时,在这种情况下需同时对源端与目标端进行相似词替换操作
其中仅当源端单词为unk时,在对源端单词进行相似词替换的情况下(即仅在源端进行),目标端的单词不发生变化。
3)相同类型的词:源端-side和target-side的单词均为存在于词表中的单词,在此情况下无需进行替换操作。
4)common to unk:只有目标端单词为unk,此时只对目标端做替换
5)在unk到null或null到unk的情况下:源端和目标端的单词并未与任何其他单词对齐,在这种情况下,我们直接从句子中删除了那些未登录的词。
3.2 相似性模型

如上所述,针对任何一个rare word, 我们评估该单词与其他近义词间的余弦相似度以识别其最接近的同义词并将其替代。
然而因为word vectors和词汇翻译表都是通过数据训练得到的这种替换方法可能会影响原始翻译结果的一些不准确之处

例如,在新疆地震灾害发生后,中国红十字会积极组织资源,并采取有效措施为受灾群众提供必要的援助与支持。其中一种常见的捐赠形式是'筹募'行为。
另外:

未登录词"discord"由lexical translation model给出的近义词是"divorce"

为了解决该问题,请问您是否愿意为此提出一种方法?为此提出一种基于相似度模型的方法,在给定的一系列候选词汇中挑选出与当前语境最为契合的一个。
将待替换的单词前后各移动两个相邻词汇的位置,在考虑上下文关系的基础上计算每个候选替换词与原文之间的语义相近程度和位置接近程度,在获得较高分数的替换词即为符合语境意义的相似替代词。具体步骤如下:通过以下方式评估候选替换词的质量:
1).首先,找到源端rare word的topN相似词。
2).其次,将每个源端候选词和他的翻译加入候选列表中。
最后一步是借助双向语言模型对这些候选单词进行排序,并挑选出排名最高的作为替换原始翻译词对的依据。
另外:
作为一种重新排列候选词对的候选方案,在这种情况下我们还可以综合考量双语词组的相关程度

该计算方式下,仅当候选词对在源端与目标端均具备相应相似度时才能被视为候选词
3.3 恢复rare words的翻译
基于词汇翻译表设置的限制条件旨在降低由于对齐错误导致的问题。
当一个目标单词ej与一个被替换后的源端单词ci对齐时,在translation table中将能够查找到该翻译对,并且我们将使用原始的源端单词替代ej;否则,在输出端将不再保留ej。
作者在中英翻译对任务上做了实验,bleu值有了很大的提升。
目前还存在两种情况的未登录词暂未被解决:
第一种是复杂对齐情况下的未登录词问题,

这些"文号"应该是基于短语替换而非单独的词语;然而确定候选短语仍是一个挑战。
想法:分词,分成词和短语,针对词和短语分别采用两种替换方式?
另一种 未被处理过的登录项与其相关的相似度模型有关。鉴于速度与效率考量,在单语语料库中出现频率低于5次的词汇我们尚未为其训练向量。因此,在单语语料库中未出现或仅出现极少次数的词汇无法找到其相似词。然而通过调查发现,这些 rare words 属于某些命名实体类别,则可依据其类别标签而非相似词汇进行替换。
