论文笔记《Neural Machine Translation by Jointly Learning to Align and Translate》
中文题名:基于联合学习对齐和翻译的神经机器翻译
目录
摘要
背景:神经机器翻译
任务定义
编码器-解码器框架(基线)
编码器(基线)
解码器(基线)
模型效果
存在的问题
学习对齐和翻译
RNNenc vs RNNsearch
RNNsearch的编码器
RNNsearch的解码器
注意力思想
注意力机制
RNNsearch模型的解码器的计算步骤
RNNsearch模型
实例
实验设置和结果
实验设置
评估标准——Bleu
模型效果
实验结果分析
未来工作
摘要
- 神机妙算:机器翻译系统的任务核心在于精确传达语言内容。
- 传统神经机器翻译采用的编码器-解码器架构存在主要缺陷:信息冗余或注意力范围受限。
- 本研究提出了一种新型神经机器翻译系统:具备自主搜索能力,并能有效关联预测目标词。
- 所述创新模型展现出显著提升性能:准确率提升明显。
背景:神经机器翻译
任务定义

该模型采用1到K编码的字向量的源语言句子作为输入:

并输出由1到K编码的字向量的目标语言句子:

任务目标:评估函数

编码器-解码器框架(基线)

模型名称:RNNenc

编码器(基线)

:表示一个输入句子的序列

:表示编码器的隐层状态

:表示由句子序列的隐层状态生成的上下文向量
编码器读取输入句子序列x,生成一个上下文向量c
解码器(基线)

:表示一个生成句子的序列

:表示解码器的隐层状态
解码器是用来在给定上下文向量c和所有之前的预测词

时预测下一个词

同样地, 解码器也可以认为按照顺序条件概率的方式对联合概率进行分解, 以此赋予翻译y的概率值.

使用RNN,每个条件概率被建模为:

其中,g是非线性的,可能为多层的,用来输出

概率的函数
模型效果

在机器翻译领域中,在英法双语翻译场景中使用Seq2Seq模型其性能达到了当前技术最先进水平,并且展现出比传统的词袋模型更好的应用前景。
存在的问题

- 必须准确掌握整个文本序列的核心意义
- 任何长度超标的文本都被压缩为统一维度的数据表示
- 不像人类在翻译时通常会逐词分析的习惯,在机器处理中忽略了单个单词的具体内容
学习对齐和翻译
提出一种新的神经机器翻译模型:RNNsearch

编码模块:通过双向循环神经网络实现信息处理功能,在隐藏状态中分别对当前单词的前向信息和后向信息进行编码。
解码器:提出注意力机制,对输入的隐藏状态求权重
RNNenc vs RNNsearch
RNNenc:
- 将整个输入语句编码城一个固定长度的向量
- 使用单向循环神经网络
RNNsearch:
- 在编码过程中将原始文本转化为变长向量序列。
- 在解码过程中自适应地选择这些向量的子集。
- 采用双向循环神经网络模型进行处理。
RNNsearch的编码器
前向RNN:
输入:

输出:

后向RNN:
输入:

输出:

连接:
RNNsearch的解码器
目标端词

的条件概率:


表示i时刻的隐层状态:

与RNNenc模型的不同点:

注意力思想
思想:集中关注的上下文

注意力机制

计算上下文向量

:

权值(注意力分数)

:

对齐模型:

,用来对位置j周围的输入和位置i处的输出的匹配程度进行评分。
RNNsearch模型的解码器的计算步骤

- 计算注意力分数(对齐模型)

- 计算带有注意力分数的上下文信息

- 生成新的隐层状态输出

- 计算新的目标语言输出

RNNsearch模型

实例

实验设置和结果
实验设置
实验模型:RNNsearch和RNNenc
实验任务:从英语(源语言)到法语(目标语言)的翻译
数据集:WMT’14数据集
对比实验:分别取最大长度为30和最大长度为50的句子长度进行实验
评估标准——Bleu
一种文本评估算法,用来评估机器翻译跟专业人工翻译之间的对应关系。

模型效果


在测试集中产出与句长相关的译文时计算得到其BLEU分数的结果显示,在整个测试集上计算得到了相关数据其中包含有未知单词的句子RNNsearch模型在处理较长文本时展现出较高的性能水平
实验结果分析

x轴代表了源语言中的单个词汇,y轴代表了目标语言中的单个词汇,图表展示了第j个源语句单位与第i个目标语句单位之间的注意力权重分布

,越接近于0则越白,越接近于1则越黑。
未来工作

不同类型的注意力机制在计算时会产生不同的结果。
采用单向LSTM模型与计算出的注意力分数所得结果具有相似性。
我们能够提出其他形式的注意力分数计算方法。
