【论文阅读】Neural Machine Translation By Jointly Learning To Align and Translate
Neural Machine Translation By Jointly Learning To Align and Translate
二作与三作来自Montreal University, a globally renowned institution, with Yoshua Bengio as the final author.
该文章的引用量: 1478
github 传送门 : https://github.com/lisa-groundhog/GroundHog
该研究在现有神经网络编码-解码型RNN架构的基础上构建了端到端机器翻译模型,并通过机制发展出了一种自适应选择编码信息的方式,在预测阶段能够动态识别并利用原句相关信息作为解码依据。实验结果表明,在英法对照数据集测试中,该模型的性能超越了传统基于短语分割的机器翻译方法。
饮水思源,RNN encode-decode的模型架构是由文献[1]
[1] Neural Machine Translation By Jointly Learning To Align and Translate
第二和第三作者为 Universite de Montreal 知名学府蒙特利尔大学的最后一位学者 Yoshua Bengio
该文章的引用量: 1478
这篇文章基于神经网络编码-解码RNN架构构建端到端机器翻译模型,在预测下一个单词时能够自动选择与前文相关的部分作为解码来源。这也正是提出注意力机制的基础内容。通过评测,在英法语数据集上的性能表现超过了传统基于短语的机器翻译系统的水平。
drinking the spring water, the architecture of the RNN encode-decode model draws from literature [1], [2], and [3], which are all authored by scholars in the field of machine translation. The term "encode-decode" underscores that the model's name is particularly indicative.
本文的核心在于基于现有的编码-解码架构,在机器翻译领域实现了两种关键的技术:一是调序平移过程二是短语转换能力的具体体现。具体而言,在实现这一目标的过程中,“调序”是指使源语言和目标语言的短语实现对应关系,“平移”则是指不同语言之间的短语转换能力的实现。“调序”的核心原理在于通过关注机制预测下一个词时参考相关来源词汇。”模型架构中加入了关注机制(虽然文章中并未提及具体的'注意力'概念),其核心原理在于通过关注机制预测下一个词时参考相关来源词汇。”

BiRNN在语音识别及机器翻译的任务上均展现出良好的效果,在此情形下,h隐层通过将前后向生成的隐层特征进行连接,并包含了这两种方向的信息
Data语料: ACL WMT ’14 [4]
模型细节方面包括隐藏单元数量共计约有3万词左右。其余的词语则标记为特定编码。编码器和解码器均为1024维向量维度。小批量大小设为80批次。完成训练所需时间为5天。优化算法采用小批量随机梯度下降(SGD),并使用 beamsrch算法寻找最优翻译。参考文献[3]中采用了该方法。
对比的方法包括 RNN-编码解码器(RNNencdec),由 Cho 等人于 2014a 年提出(相关代码托管于 GitHub:https://github.com/lisa-groundhog/GroundHog),我们提出了一种称为 RNN-search 的新方法。此外,在现有最佳水平的基础上(如 Moses 的开源工具),文章讨论了基于词典的机器翻译方法(不依赖任何神经网络组件)。需要注意的是,在讨论基于词典的方法时,默认假设其不依赖任何神经网络组件。关于这种类比是否恰当的问题,请进一步探讨。

深入分析端到端模型在性能上超越了phrase-based模型以及统计神经机器翻译模型的能力

这篇文章是第一篇纯以神经网络为模型的机器翻译文章?[2] 呢?不是吗?
留下的挑战,关键问题: 如何解决集外词呢?
[1] Cho等人提出了一种基于RNN编码器-解码器架构的phrase-level表示学习方法,在Empiricial Methods in Natural Language Processing(EMNLP)2014会议上进行了详细讨论。
[2] 在第八届统计翻译研讨会中探讨了神经机器翻译体系的特性及其编码器-解码器方法。
[3] Sutskever等人提出了一种基于神经网络的序列到序列学习框架,在Advances in Neural Information Processing Systems(NIPS)2014会议上展示了其有效性。
http://www.statmt.org/wmt14/translation-task.html
