Advertisement

[论文翻译]Sequence to Sequence Learning with Neural Networks

阅读量:

本文提出了一种基于深层LSTM模型的序列到序列学习方法用于机器翻译任务(英语到法语),并展示了其在长句子上的表现优于传统短语对齐系统(SMT)。主要贡献包括:
模型设计:采用多层LSTM结构直接处理输入和输出序列(无需词典),并引入反转输入句子以减少长期依赖问题。
实验结果:

  • 在WMT’14基准测试集上获得34.81 BLEU得分。
  • 通过反转输入句子使性能提升3.2分(达到36.5)。
  • 使用SMT系统重新评估后仍保持较高得分(35.6)。
    优势分析:
  • LSTM模型能够有效捕捉长句子中的短期依赖关系。
  • 反转输入句子显著改善了训练效果和翻译质量。
    结论:该方法展示了在大规模序列到序列任务上的有效性,并为后续研究提供了新的思路。
    该研究首次在大型机器翻译任务中使用纯神经网络直接翻译超越基于短语对齐系统的系统表现。

引言

这份文本是对该领域的研究方向...神经网络模型...的经典之作...的个人转译。在翻译过程中, 不可避免地存在某些未能准确传达原意的地方, 如若发现任何不妥之处, 请赐教或提出宝贵的建议。

摘要

深度神经网络(DNN)是一种功能强大的模型,在处理许多复杂的学习任务时展现出色表现。然而其对标注数据的需求较高限制了其在序列到序列映射任务中的适用性。本文提出了一种通用的端到端序列学习模型仅需最小化对序列结构的假设即可实现目标。该模型采用多层LSTM架构将输入序列(编码)映射至固定的向量空间随后通过解码器生成目标序列。我们将该模型应用于英语至法语翻译任务训练数据源自WMT’14测试集上BLEU得分达到34.8分但受词典外单词影响得分略受影响。值得注意的是LSTM架构在处理长句子时并无明显劣势对比基于短语规划的SMT系统在同一数据集上分别获得33.3分及35.6分表现接近最优水平。通过学习合理的短语和句子结构LSTM展现出较强的语言表达能力最终研究发现对原始语句进行逆序处理可显著提升模型性能这可能是因为逆序操作引入了更多短距离依赖关系从而有助于优化语言建模过程。

从直观角度来看,在自然语言处理中将输入语句进行反转能够使相关的单词与目标词的位置更加接近。例如,在原始句子I\ am\ learning\ NLP与反转后的句子\text{我在学习自然语言处理}中可以看到,在反向操作后原本分散的位置变得更加集中:\text{NLP}\ learning\ am\ I这样的结构安排使得'I'及其对应的中文'I'在句子中的位置更加接近

1 简介

深度神经网络是一种极具表现力的模型,在多种具有挑战性的学习任务中展现出色。其中包含语音识别、视觉目标识别(如视觉物体识别)等任务。其独特优势在于可以在有限步骤内实现并行计算。例如,在排序问题中,仅需两层隐藏即可处理任意长度的数据序列。因此尽管神经网络与传统统计模型相关联,但其能够执行复杂的计算任务。并且当具备足够标注数据时,默认情况下大型DNN能够通过反向传播算法学习所需的所有参数。从而只要存在一组合适的参数(例如人类易于处理的任务),反向传播就能找到这些关键参数来解决问题。

虽然深度神经网络(DNN)在性能上表现出色且具有高度的灵活性,但它们仅能有效地处理那些输入与目标输出能够被编码到固定维度向量中的任务。这是一个不容忽视的限制,因为许多关键的任务只能通过使用长度未知的序列来最好地进行表达。例如,在语音识别和机器翻译等顺序问题中,输入与输出之间的对应关系是动态变化的,传统的基于固定维度向量的方法难以捕捉这种变化。此外,问答系统本质上也是一种将输入单词序列映射到输出单词序列的问题,这也同样面临着变量长度序列处理的需求。因此,在处理这类问题时,领域独立的、基于序列到序列映射的方法将展现出显著的优势。

序列问题为DNN带来了挑战性要求。由于DNN要求输入与输出维度必须事先确定且固定,在此前提下难以适应复杂的动态系统建模需求。在本文中我们探讨了一种基于 LSTM 结构直接实现的方法,并将其应用于通用序列到序列建模任务上取得显著效果。其核心思路在于通过一个 LSTM 架构依次处理输入序列中的每一个时间步,并逐步生成相应的编码信息;随后利用另一个 LSTM 网络从这些编码中生成解码器所需的输出信息(如图 1 所示)。值得注意的是,在这种设计中,并非所有 RNN 都需要额外指定输入内容;相反地,在线处理时滞较大的信息需求成为其主要特点之一。具体而言,在此框架内,在线处理时滞较大的信息需求成为其主要特点之一。

在这里插入图片描述

图1:该模型接收输入序列“ABC”并生成输出语句“WXYZ”,当输出语句终止符“”出现时,则停止输出过程。由此可见,LSTM网络处理反转后的输入序列从而能够有效建立多个短期依赖关系。

针对通用序列到序列问题,人们已经进行了大量相关尝试来应用神经网络技术。我们的研究与Kalchbrenner和Blunsom的研究具有相似之处,在这方面他们率先提出了将整个输入序列映射至向量的方法。我们对Cho等人所做的工作也有所涉猎,并发现尽管他们的方法仅限于对基于短语系统的输出进行再评估。Graves提出了一种全新的注意力机制模型,并在此基础上Bahdanau等提出了比其更为简洁有效的变体,并成功应用于机器翻译领域中。基于连接主义理论的传统分类方法也是一种广泛采用的技术,在该方法中,神经网络被用来建立序列间的映射关系。然而,在此方法中,默认情况下要求输入与输出之间存在对齐。

我们提出了一种模型,在该任务中集成五个深度LSTM单元,并构建了一个基于束搜索机制的自左向右解码器来直接生成翻译结果。该系统获得了BLEU分数值为34.81的结果,在当前的大规模神经网络直接翻译系统中尚属最高水平评测分数记录者之一。与之相比,在线性规划系统(SMT)上得到的结果仅为33.30分作为一个对比基准。然而,在基于80,000词典大小的应用也取得了这一成绩;这些不在词汇表中的特殊词汇对最终评测分数有一定的负面影响;这仅是在小规模词汇表情况下取得的成绩;这表明这种模型仍有较大的优化潜力和提升空间。

在此基础上, 我们采用LSTM架构对相同的任务进行了重新评估. 实验结果表明: 在SMT基准下,LSTM模型获得了36.5 BLEU分数(相较于该基准提升了3.2分); 并且其性能接近当前该任务领域的最优表现值

值得注意的是,LSTM模型在此实验中的表现并未受到长序列输入数据的影响因素所困扰

对此我们推测: 这种现象的发生可能与以下因素有关: 我们采用了倒置技术对原始输入序列进行了处理; 而目标输出序列并未进行类似的倒置处理

这使得原始输入序列与目标输出序列之间建立了大量短距离依赖关系

这一发现表明: 利用随机梯度下降算法可以有效地帮助LSTM模型学习到处理长序列信息的能力

而这种简单的倒置处理技术正是我们这项研究工作的重要创新点之一

该 LSTMP 模型具有一项显著特征在于其能够有效编码较长输入序列到固定长度向量中。鉴于翻译通常涉及对原语言文本进行解码这一目标促使 LSTMP 网络试图捕获句子间的语义关联。由于具有相似语义的句子之间的距离相对较小定性的评估结果验证了这一观点并表明我们的模型不仅能够识别词语间的顺序关系还具有不受主谓 voice 影响的能力。

2 模型

RNN可以被视为对处理序列数据而言的前馈神经网络的一种自然延伸。对于输入序列(x_1,x_2,\cdots,x_T), RNN能够基于递归机制逐步生成对应的输出序列(y_1,y_2,\cdots,y_T)

h_t = sigm(W^{hx}x_t +W^{hh}h_{t-1})\\ y_t = W^{yh}h_t

只要明确了解输入序列与输出序列的对齐方式, RNN就能够轻而易举地实现序列到序列的映射. 然而, 当输入与输出序列长度不一且具有复杂的非单调性关系时, 目前仍难以掌握如何将一个RNN应用于这一情况.

应对通用序列学习问题最基本的方法是将输入序列转换为固定长度的向量,并通过另一个RNN生成输出序列。尽管理论上可行……因为RNN能够捕捉所有关联信息……然而,LSTM模型是著名解决长期依赖挑战的方案,因此,LSTM可能成为合适的解决方案.

通过LSTM模型来估计条件概率P(y_1,\dots,y_{T^\prime}|x_1,\dots,x_T)。其中输入序列为(x_1, x_2, \dots, x_T)而输出序列为y_1, y_2, \dots, y_{T^\prime}且长度与输入序列可能不一致。其基本流程如下:LSTM网络从最后一个隐层状态获取输入序列(x_1, x_2, \dots, x_T)的固定长度向量表示v;随后运用标准的LSTM语言模型公式计算各时刻t=1,...,{T'}处的概率分布;特别地,在此设定下该LSTM网络的初始隐层状态即为所提取的向量表示v

p(y_1,\cdots,y_{T^\prime}|x_1,\cdots,x_T) = \prod_{t=1}^{T^\prime} p(y_t|v,y_1,\cdots,y_{t-1}) \tag{1}

在该等式中,在每一个时间点t处对应的条件概率p(y_t|v,y_1,\cdots,y_{t-1})都是一个概率分布。这个分布值是通过Softmax函数计算得到的,在整个词汇表中的单词出现概率。这个LSTM公式的构建源自Graves的相关研究工作。需要注意的是,在模型处理过程中要求每一个语句都必须以特定符号<EOS>结束这一操作符的存在。这一设定使得模型能够推断出句子长度的概率分布情况。总体而言如图1所示:该方案表明,在输入阶段LSTM网络将"A", "B", "C"以及<EOS>这四个元素输入后会生成相应的向量表示;而在输出阶段则会基于这些向量预测"W", "X", "Y"以及"Z"这几个元素,并特别关注最后一个<EOS>标记所对应的概率值。

我们实际的模型和上面描述的有三点重要的不同:

  1. 我们采用了两个不同的LSTM模型:一个用于识别输入序列;另一个用于识别输出序列。这种方法虽然会增加模型参数数量(但这种额外的成本微乎其微),然而却能够自然地支持多语言对齐训练。
  2. 我们通过实验实验证明深层LSTM在性能上显著优于浅层LSTM;因此决定采用四层 LSTM 结构。
  3. 我们发现颠倒输入序列顺序具有显著优势:具体而言,在训练过程中我们没有采用原始顺序 a, b, c 与目标序列 \alpha, \beta, \gamma(即原始翻译关系)对应;而是将逆序输入 c, b, a 传递给 LSTM 来完成与 \alpha, \beta, \gamma 的映射关系(即直接进行反向编码)。这样使得 a 紧邻 \alpha, b 相对于 \beta} 更接近等等。我们的实验表明这确实能够让 SGD(随机梯度下降算法)更容易地建立输入与输出之间的联系。(此外)我们还发现这种简单的数据预处理方法能够显著提升 LSTM 的性能表现。

3 实验

采用两种不同的策略将我们的方法应用于WMT’14英语至法语任务。其中一种策略是直接进行序列翻译而不依赖SMT系统;另一种策略则是重新评估SMT系统的最佳候选列表作为比较基准。随后我们将展示这些翻译策略对应的准确率数据;同时还将提供参考译本,并对生成的句子表示进行可视化分析。

3.1 数据细节

基于WMT’14英语至法语数据集,在包含约1.2亿句子的子集中进行模型训练,并包含了约3.48亿法语词和约3.04亿英语词,并参考了H. Schwenk的研究。我们选择了该翻译任务及其特定训练集的原因在于它是公开可用并带有标记化的训练与测试数据集合以及基准SMT系统中的最优项目列表。由于大多数神经语言模型依赖于每个词汇的向量表示,因此我们采用了两种语言各自固定的词汇表进行处理。我们从源语言选择了前16万最常用词汇,在目标语言中选择了前8万最常用 vocabularys)。对于未识别的 vocabularys,则将其标记为UNK

3.2 解码和评估

我们的核心实验涉及在大量句子对上训练大型深层LSTM模型。基于给定的源语句S,在多个样本中进行优化调整以提高正确性,在这种情况下构建了一个高效的优化框架,并设计了一个新的损失函数来进行参数更新和优化求解过程以达到最佳性能目标;为了实现这一目标,在算法设计阶段采用了基于深度学习的方法并结合先进的数值计算技术以确保系统的稳定性和高效性;最终所设计的目标函数形式如下所示:

该系统采用高效的线性束搜索方法进行翻译,在每一步骤中将当前候选词表中的所有候选词加入到各局部假设中,并在每一步骤后生成新的候选词表以进行后续推导。基于模型预测结果的概率值排序后选取前B个候选词表作为后续推导的基础,在每一轮迭代过程中都会根据模型输出的概率值对各局部最优进行筛选和更新。一旦遇到结束标记<EOS>时,该局部最优会被立即移除并加入完成状态集合中,并被记录为最终输出结果。与之相对应的是一个较为简单的线性解码器架构,在每一轮迭代过程中都会根据模型输出的概率值对各局部最优进行筛选和更新,并在每一轮迭代过程中都会根据模型输出的概率值对各局部最优进行筛选和更新。
需要注意的是,在这种情况下即使仅使用单条路径(贪心搜索)也能获得令人满意的翻译质量,在这种情况下即使仅使用单条路径(贪心搜索)也能获得令人满意的翻译质量。

我们通过LSTM方法对基准系统提供的1000份最佳列表进行了评估。对于生成的候选列表中的每个条目进行排序后得到的最佳候选列表。通过使用该模型为每个候选单词序列计算其对应的条件概率。将所有候选单词序列的概率值取对数后相加,并与该模型自身生成的结果取平均值。

3.3 反转原语句

尽管LSTM能够解决长时距依赖性问题,在将输入句子反向处理而目标句子不被反向的情况下(即仅对输入进行操作),其测试困惑度较原来降低了1.1个单位(从5.8降至4.7),同时在BLEU分数方面表现出了显著提升(由25.9增至30.6)。

然而我们对于这一现象的全面解释尚不充分但倾向于认为它源于从对照数据集中引入了大量短时间依赖性。一般情况下当我们建立一个原始句子与目标句子之间的关联时原始句子中的每个词通常都与其对应的词在目标句子中相距较远这种做法会导致产生了一个较大的"最小时间滞后"(minimal time lag)。然而通过颠倒原始句子的顺序原始句子与目标句子之间各对应词之间的平均距离并未发生变化但值得注意的是原始句子前几个词与目标语言前几个词之间的距离显著缩短从而使"最小时间滞后"大幅降低因此反向传播能够更加容易地建立起原始句子与目标句子之间的联系从而总体上显著提升了模型性能。

我们最初的假设是认为反转后的输入序列主要体现在目标子句前部位置会得到更高的置信度预测结果,在后续位置则会得到较低置信度的结果。然而,在进行反向处理后训练得到的LSTM模型在处理长序列数据时展现出更好的性能表现能力(Performance),这种改进效果主要归因于反向处理带来的额外计算资源支持。这一发现表明反向处理策略能够显著提升LSTM模型在内存利用率方面的性能(Performance)水平。

3.4 训练细节

我们成功实现了四层深度的LSTM网络架构。该网络架构由四个连续的LSTM层组成,在每个层中都采用了1千个神经单元以及1千维的单词嵌入表示,并配合一个容量为16万的输入词典以及8万规模的输出词典进行训练。

基于此

  • 本研究采用了均匀分布,在区间[-0.08, 0.08]内对所有LSTM参数进行初始化。
  • 本研究采用随机梯度下降算法,并设置恒定的学习率值为0.7。每隔5个epoch进行一次调整,在后续的半周期更新中将学习率减半处理。整个训练过程持续了7.5个完整的epoch周期。
  • 在计算过程中,我们将连续的128个语句组合成一个批量进行梯度计算,并对每个批量中的总梯度值进行平均处理。
  • 尽管LSTM架构本身能够有效避免梯度消失问题的发生风险。
  • 考虑到不同句子长度的差异性。
  • 不同的句子有不同的长度。大多数句子都很短(例如,在20到30之间),但存在极少数非常长(超过100词)的情况。
  • 针对这种现象,在小批量训练过程中会有大量无效运算发生。
  • 针对这一问题提出了解决方案:通过限制所有输入句子的最大长度来实现速度提升效果

3.5 并行化

使用GPU加速,这一节就不翻译了,感兴趣的可以看原文。

3.6 实验结果

结果列于表1和2。我们的最佳结果是通过一组LSTM获得的。它们的随机初始化和小批量的随机顺序不同。 虽然LSTM的翻译并没有超越最佳的WMT’14系统,这是第一次在大型MT任务上使用纯神经网络翻译系统结果超过基于短语的SMT基准系统,尽管我们的模型无法处理超字典单词,但结果仍然是可观的。

表1:基于WMT’14英语到法语测试集(ntst14)评估的LSTM模型效果对比。实验结果表明,在相同训练周期内,并行计算能力更强的五个LSTM模型(每组包含两个子模型)相比单一LSTM模型(参数数量为12倍),在参数规模扩大情况下并未显著增加资源消耗。

如果采用WMT'14 1000清单进行重新评分,则我们的LSTM模型得分比最佳成绩低了0.5分。

在这里插入图片描述

表2: 在WMT’14英语到法语测试集(ntst14)上使用神经网络和SMT系统的结果

3.7 在长语句上的表现

经过一番观察后,我们注意到LSTM网络在处理较长文本时展现出色性能。从图3可以看出模型对英文语料的学习效果如何。表1列举了几个具有代表性的英文句子及其对应的中译例。

在这里插入图片描述

表3: 一些LSTM产生了长语句翻译

3.8 模型分析

在这里插入图片描述

如图2所示,在经过LSTM对文本中的词语进行处理后完成主成分分析(降至二维空间)的结果展示。这些词语在意义上相互关联。然而,在这些词语中其顺序关系难以捕捉,并且这种序列特征难以被词袋模型捕捉到。

在这里插入图片描述

图3: 左图展示了我们的系统性能与句子长度之间的关系。x轴表示按照长度排序的测试语句,并以实际序列长度进行标记。得分在句子长度小于35个单词时呈现递增趋势,在极少数情况下会出现较长测试语句导致得分下降的情况。右图则呈现了LSTM在处理包含越来越罕见单词的句子时的表现情况,并以平均词频等级排序的测试句子作为横坐标

我们模型的一个显著特性是它能够将单词序列映射为固定维度的向量。图2展示了学习到的一些单词表示。该图清晰地表明这种表示对词语顺序具有高度敏感性,在使用被动语态替代主动语态时则表现得相差不大。

4 相关工作

这节也不翻译了

5 总结

在本文中, 我们展示了深度LSTM模型. 该模型的词汇量相对有限, 并且基本不依赖于对问题结构的深入假设. 然而, 它却能够超越基于SMT且拥有无限词汇量的标准系统. 简单的基于LSTM方法的成功案例表明, 只要提供足够的训练数据, 在其他许多序列学习问题上, 它们也应能达到良好的效果.

基于实验结果表明,在将原始句子逆序排列的情况下(即颠倒单词顺序)所获得的效果提升程度令人瞩目。进一步分析发现,在处理自然语言数据时识别能够捕捉最多局部上下文关系的问题编码至关重要。即使缺乏实证支持,在原始句子逆序的情况下训练标准RNN仍应相对容易。

该算法在处理长句子方面的能力令人 impressions也值得称赞。起初我们认为受内存限制导致 LSTM 无法有效处理长句子,并且类似的模型在这一领域同样表现不足。然而,在反转数据集上训练 LSTM 实现了对长句子的有效解析。

最为核心的是,在众多方法中,简洁、直接且未经深入优化的方法表现优于现有的SMT系统。这些发现表明,未来的研究工作可能进一步提升翻译系统的准确性。实验结果表明,在应对具有挑战性的序列到序列任务时,该方法展现出良好的性能。

全部评论 (0)

还没有任何评论哟~