Advertisement

Neural Machine Translation by Jointly Learning to Align and Translate

阅读量:

引言

Dzmitry Bahdanau及其团队于2016年在arXiv平台发布的一篇论文成为自然语言处理领域的重要研究工作(来源:arXiv:1409.0473v7 [cs.CL] 19 May 2016)。这篇论文首次成功将注意力机制应用于机器翻译领域,在当时引起了广泛关注与讨论。传统的神经网络机器翻译方法与统计机器翻译存在显著差异:前者通过一个庞大的神经网络直接生成最终的翻译结果(而不是由多个组件分阶段完成),而后者则是通过编码器-解码器架构分别处理源语句与目标语句的内容。
传统编码器-解码器模型虽然有效但存在两个主要缺陷:其一是在处理不同长度的句子时存在适应性不足的问题——编码器需要将长短不一的输入序列压缩为固定长度的向量表示;其二是词对齐问题较为突出——源语句与目标语句之间并不存在一一对应的词关系。
针对上述问题提出创新解决方案的是基于注意力机制的模型——该模型采用了一种更加灵活的数据处理方式:具体而言,在编码器阶段将源语句分解为多个词向量表示;而在解码器阶段则根据这些词向量表示生成目标语句的内容;这种基于注意力机制的设计不仅能够有效缓解固定向量长度带来的信息损失问题,并且能够更好地解决词对齐难题。
这种改进型模型在实验验证中取得了显著效果:较传统编码器-解码器模型在处理长文本时性能表现更为稳定,在有限的数据集下也能实现良好的平滑效果提升;此外,在特定任务场景下还展现了更高的准确率水平(具体数值见实验结果部分)。这一研究工作不仅推动了机器翻译技术的进步,在后续的研究中也衍生出一系列基于注意力机制的变种模型(如自 attention、多头注意力等),为现代深度学习的发展奠定了重要基础。

模型

网络结构

在这里插入图片描述

该模型采用双向递归神经网络(RNN)架构,在传统RNN架构通过递归机制来捕捉序列中的全局信息时,其行为与马尔可夫模型具有相似之处。然而,在这种情况下仅依赖前向方向提取的信息较为有限,在实际应用中通常需要引入反向传播的方向(reverse RNN)来补充前向方向的信息以获得完整的上下文理解。为了捕捉到完整的上下文信息,在这种情况下需要引入反向传播的方向(reverse RNN)来补充前向方向的信息以获得完整的上下文理解。在这种情况下需要引入反向传播的方向(reverse RNN)以捕获完整的上下文信息;在此情形下通常会采用将这两个方向提取的信息进行整合的方式进行处理;虽然相加虽然是一种可行的方式(addition of both directions),但可能会导致某些关键特征被忽略;因此在具体实现时应根据具体需求选择合适的整合方式以确保最优的表现效果;

Encoder

编码方向在常规神经网络翻译模型中并无不同;文章中提及的注意力机制应属于解码器注意力;其核心在于仅限于在每个时间步t中记录隐藏层h的状态

在这里插入图片描述

Decoder

在解码器中通常情况下,目标函数被定义为计算目标词y_t在基于上下文c以及所有前面生成的词\{y_1, ..., y_{t-1}\}情况下的最大化的条件概率的具体方法。

在这里插入图片描述

其中,在上一个时间步中,目标词被标记为y_{i-1}。其对应的s_i表示当前时刻隐藏层的输出状态。具体而言,在本研究中尤其关注的是变量c_i。首先,在编码器模块中生成了包含所有位置信息的一个隐藏层向量矩阵;其次,在前一个时间步中产生的s_{i-1}也被纳入考虑。

在这里插入图片描述

其中值得注意的是,在本文中作者采用了感知机方案来处理函数a的相关选择问题

在这里插入图片描述

经过归一化处理后的权重a_{ij}代表了各个值的概率,在decoder模块中通过将各权重a_{ij}与encoder内部相应的隐藏层进行加权求和运算,可以得到decoder模块中的输入向量c_i

实验

研究者在进行英语转法语的翻译任务的相关实验时,对多个候选模型进行了比较分析,并对其BLEU分数评估结果为

在这里插入图片描述

本研究中将RNNsearch定义为所提出的新型神经网络架构而将RNNenc设定为经典的编码器-解码器结构基于实验数据我们发现当输入文本长度显著增长时传统的基于循环神经网络的机器翻译方法其解码效率明显降低而通过引入注意力机制后的模型在各项指标上均优于传统方法

结果

定量结果

在这里插入图片描述

moses是一种基于统计的机器翻译技术,在学习过程中运用了丰富的语言学形态学知识。相比之下,在神经网络机器翻译方法中主要采用了仅 encoder 和 decoder 处理过程的设计。

定性分析

非常有趣的一点是,在使用了Attention机制之后,可以通过分析过程观察到是什么源词发挥了作用:

在这里插入图片描述

总结

在NLP领域中 Attention 被视为开创性的里程碑 一种基于自动权重机制的方法 它通过引入软连接机制 将相关联的部分进行有效结合 这一特点使得其与人类注意力系统存在主要区别在于 它并非通过简单的忽略来避免关注不需要的位置 而是通过精确地计算所有位置信息 来实现更为复杂的关联处理 这种做法带来了额外的计算负担 但同时也提供了一种直观地展示了源词在生成目标词时起到关键作用的方式

引用

1、Neural Machine Translation by Jointly Learning to Align and Translate

全部评论 (0)

还没有任何评论哟~