Advertisement

[论文翻译]NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

阅读量:

神经机器翻译是最近提出的应对机器翻译难题的方法。传统的基于短语的编码器-解码器模型使用定长向量压缩输入序列到固定长度的表示,并在此基础上进行翻译生成。然而,这种结构在处理长语句时表现出色有限。本文提出了一种新的架构,在解码过程中允许模型动态选择输入序列中的相关部分以生成每个目标词。通过引入注意力机制和软对齐方式(Soft Alignment),新方法无需编码整个输入序列到定长向量,并能更灵活地处理不同长度的源和目标短语。实验表明,在英法翻译任务中,该方法显著优于传统编码器-解码器模型,并与基于短语的统计机器翻译系统性能相当。定性分析显示,新方法能够更自然地对齐源句与译文中的单词位置关系,并保持良好的平滑度和准确性(摘自原文)。

摘要

神经网络机器翻译是一种近期提出的解决方案。它与传统的基于统计的机器翻译不同之处在于其目标是构建一个单一的神经网络架构。通过这种架构设计的目标是实现对齐源语言和译文之间最优化的关系(即提升表现)。目前提出的主要神经机器翻译模型多属于编码器-解码器架构的一种延伸形式。其中编码器将输入序列映射到固定长度的向量空间中;而解码器则根据该向量生成目标语言句子。在本文研究中我们发现采用固定长度向量作为基础参数设置存在一定的局限性因此提出了一个新的方法:一种自适应机制使模型能够自动识别并关联相关源语句的部分信息从而无需显式分割即可完成任务学习过程。基于这一改进方法我们在英法双语翻译任务中取得了与当前最先进的短语式系统相当甚至稍高的性能水平(具体数据见下文)。此外通过定性分析我们发现所提出的方法在软对齐策略上表现出的结果与其直觉预期一致。

对齐指的是将源句子中的单词与目标句子中的单词匹配。

1 简介

近年来成为热门技术的神经机器翻译(NMT)是一种广泛应用于现代机器翻译领域的智能方法。与传统的基于短语模型不同——通常由多个可调节组件构成——神经机器翻译旨在构建和训练一个单一、大规模的人工神经网络体系。这种体系能够接收输入语句并生成相应的正确译文。

许多现代神经机器翻译系统主要采用基于编码装置与解码装置的设计模式。在这种架构下,每个输入语言都有对应的独立编/译模块,而有时候也会根据具体需求选择特定的语言对(例如中英互译)来配置对应的编/译模块进行处理,并通过对比不同编/译方案下的输出效果来优化系统性能。信息输入端通过编码装置将其转化为固定长度的向量表示,接收端则利用这些预处理后的数据信息生成目标语言文本。整个系统通常由多组针对不同语言对(如中英、英法等)的设计组成,并通过综合优化实现最大化准确度的目标

该编码器-解码器体系的主要缺陷在于神经网络必须将源语句中的关键信息浓缩为固定长度的向量。这一限制使得该模型在处理较长的上下文时表现出局限性。通过实验研究发现,在处理较长文本时,基础型编码器-解码器体系的效果显著下降。

为解决此问题,我们开发出一种编码器-解码器架构的增强版本,既能实现对齐任务也能进行翻译操作。每当系统生成一个目标单词时,它通过软 attention机制识别出源文本中与当前上下文最相关的关键词位置集合。随后系统利用这些关键词位置的语境向量以及之前所有生成的目标词汇信息来推断下一个目标词汇。

所谓的对齐是表示单词对应关系的信息,比如英文"Love"对应中文"爱"。

与传统的编码器-解码器架构相比,在本方法中我们未将输入序列一次性编码为固定长度的向量表示。相反地,我们将输入转化为一系列动态变化的向量,并根据需要在解码阶段选择相应的子集进行处理.这种设计使得神经网络翻译模型能够有效避免对不同长度的源语句进行统一压缩,从而能够更好地捕捉和处理具有不同复杂度的信息.

本研究展示了所提出的联合对齐与机器翻译方法相较于传统编码器-解码架构的显著提升。这种优势尤其体现在处理较长文本上,并且适用于所有长度的文本处理任务。针对英法双语翻译任务,在实验中我们发现仅使用单一模型即可达到与基于短语分割的传统机器翻译系统相当的效果。此外,通过定性分析发现该模型能够识别出语言上合理的源文本片段及其对应的译文片段之间的软式对齐关系。

2 背景:神经机器翻译

从数学角度来看,在处理机器翻译问题时, 我们可以把这视为一种确定能够使给定源语句x, 生成目标语句y, 满足该条件的概率的最大化问题. 神经机器翻译的方法是通过训练参数化的模型, 利用并行训练数据集对齐的过程. 当基于这种分布的翻译模型被训练完成后, 在面对一个源语句时, 我们可以通过搜索满足最大值的目标语言句子来实现相应的译文.

近来涌现出众多的学者均致力于探索一种基于神经网络的学习该条件分布的方法

虽然采用了全新方法,在实际应用中展现出良好的效果。然而,在英法双语翻译任务中,在LSTM单元基础上构建的循环神经网络模型在性能上与最先进的短语型机器翻译系统不相上下。通过在现有翻译体系中引入神经网络组件,并对关键环节进行优化处理——例如评估短语配对的价值和重新排列候选译文——最终实现了超越前人记录的最佳水平。

2.1 RNN 编码器-解码器

在本节中,我们将简述该层次的核心架构。该架构被称为 RNN 编解码器 (RNN Encoder-Decoder),其中参数化模型由 Cho 等人与 Sutskever 等人共同开发。在此基础上,我们提出了一个创新性设计。

在该编码器-解码器架构中, 该编码器通过读取并转换输入序列x=(x_1,x_2,\cdots,x_{T_x})为其对应的向量表示c. 通常采用递归神经网络(RNN)来实现这一过程:

h_t = f(x_t,h_{t-1}) \tag{1}

其中c = q(\{h_1,\cdots,h_{T_x}\})是一个由时刻t=1,2,\dots,T_x}的隐藏状态组成的集合所生成的向量。其中h_t \in R^n}表示时刻t}处的状态变量,在该模型中各时刻的状态变量都被假设为连续变化的。例如,在Sutskever等人的研究中他们采用了LSTM网络结构来分别建模f}函数和q(\{h_1,\cdots,h_{T_x}\})=h_{T_x}}.

解码器主要负责预测下一个单词y_{t^\prime},在给定上下文向量c以及所有先前的预测单词\{y_1,\cdots,y_{t^\prime -1}\}后。具体而言,在翻译过程中,解码器通过将联合概率分解为有序的条件概率来定义目标语言的概率分布:

p(y) = \prod_{t=1}^T p(y_t|\{y_1,\cdots,y_{t-1}\},c) \tag{2}

其中序列y=(y_1,\cdots,y_{T_y})取值范围从t=1t=T_y。由RNN模型生成的各时刻的条件概率可表示为:

p(y_t|\{y_1,\cdots,y_{t-1}\},c) = g(y_{t-1},s_t,c) \tag{3}

The function g, being nonlinear and possibly multi-layered, outputs the probability of y_t. Additionally, the hidden state s_t, which is central to RNN operations, represents key information. Other configurations like hybrid RNN models and inverse CNNs offer alternatives for improved results.

3 学习对齐和翻译

在本节中,我们对一种创新性结构进行了详细阐述.该创新性结构由两部分组成:其中编码器部分采用了双向RNN架构,其优势在于能够有效捕捉长距离依赖关系;而用于解码生成翻译时采用模拟源语句搜索策略,从而实现了更加精准的机器翻译效果(参考文献3.1).

3.1 解码器:概述

在新的模型结构中,我们定义了等式(2)中的每个条件概率为:

p(y_i|y_1,\cdots,y_{i-1},x) = g(y_{i-1},s_i,c_i) \tag{4}

其中s_i是RNN时刻i的隐藏状态,计算如下:
s_i = f(s_{i-1},y_{i-1},c_i)

值得注意的是,在现有编码器-解码器架构的基础上(如公式(2)所示),这里的条件概率模型采用了每个目标词y_i`各自独特的上下文向量c_i`来计算(如公式(4))。

在这里插入图片描述

上下文向量c_i由编码器将整个输入序列映射为的序列(h_1,\cdots,h_{T_x})组成。每个h_i都携带了重点关注围绕着输入序列第i个单词附近的部分单词的整体信息。在后续章节中我们将对这些符号的计算方式进行详细说明。

上下文向量c_i就通过这些h_i的加权和计算:

c_i = \sum_{j=1}^{T_x} \alpha_{ij}h_j \tag{5}

每个符号h_i所对应的权重\alpha_{ij}由以下公式确定:

\alpha_{ij} = \frac{exp(e_{ij})}{\sum_{k=1}^{T_x} exp(e_{ik})} \tag{6}

其中

其中

我们将模型a以前馈神经网络的形式进行参数配置,并将其与其他所有模块协同训练。相较于传统的机器翻译架构,在本研究中并非将它们视为隐变量(latent variable),而是通过软机制来实现这些参数的优化过程。这些优化过程不仅能够更新对齐相关的参数,并且能够同时用于改进整个翻译系统的性能。

我们可以将其视为一种计算期望记号的技术。这种技术建立在所有可能的对齐基础上。我们定义\alpha_{ij}能够表示目标词y_i与源单词x_j对齐或转换的概率。即第i个上下文向量c_i即是由所有具有概率\alpha_{ij}的记号所构成的期望值向量。

概率α_{ij}及其相关变量e_{ij}表明了符号h_j在影响下一个状态s_i及其生成输出y_i过程中的关键作用。直观上,在解码器中实现了这一种注意力机制的作用。具体而言,在这种新方法中,在解码阶段需要特别关注源语句哪些部分的信息对后续生成具有重要影响。通过引入注意力机制到解码器中,在不改变传统方法对编码长度限制的前提下(即依然保持信息完整),使得相关信息能够通过符号序列进行传播,并且能够被解码器有选择地获取以完成后续处理任务。

为了解释这种对齐机制的具体实现过程,在论文附录中进行了详细说明

对齐模型负责为每个长度分别为T_xT_y的语句对处理相应的矩阵相乘操作。传统算法的时间复杂度为每轮迭代仅需进行两次矩阵相加操作(即时间复杂度为T_x + T_y),而经过优化后的时间复杂度提升到了单轮计算需要处理的矩阵相乘次数(即时间复杂度变为T_x \times T_y ),这使得整体计算效率提升了数量级。为了降低计算规模,在保证准确性的同时我们通过设计一个单层感知机来实现这一高效算法:
a(s_{i-1,h_j}) = v_a^T \cdot \tanh (W_a s_{i-1} + U_a h_j) = e(i,j),
其中各符号均为权重矩阵或向量形式:具体来说,W_a \in R^{n \times n},\quad U_a \in R^{n \times 2n},\quad v_a \in R^n, 而n表示隐层节点数目. 在这一设计中, 由于矩阵乘法操作中h_j与i无关, 我们可以在前向传播过程中提前完成相关运算以显著提升运算速度。

其中U_a \in ^{n \times 2n} 因为作者把双向RNN的输入和输出拼接了(concatenate)起来。经过tanh得到的结果与v_a做点积得到一个实数。完了连贯性,下面会介绍如何把得到的实数转换成权重。 这里还要注意的是,其实前文有提到,这里再重复一遍,s_{i-1}是当前(解码器)输入的前一个时刻的隐藏状态。当i=1时,s_o = h_{T_x}

h_j是编码器第j时刻的输出。 因此,为了针对每个编码器的输出计算一个权重,势必会遍历所有的编码其的输出,分别求出对应的数值(共T_x次)。而解码器每次输入计算的权重只能用于预测下一个输出,总共有多少个输出,就得计算多少次(共T_y次),最终共需计算T_x \times T_y次。

在编码器中,要把对齐矩阵得到的数值转换成权重(即进行了Softmax函数处理),这就是说完成了Softmax操作

计算当前输入的上下文向量c_i的过程是将这些权重与编码器相应的输出进行加权求和

其中h_j就是编码器的第j个输出。

3.2 编码器:用于记号序列的双向RNN

传统的RNN架构基于如下的数学表达式(1)所示的方式处理输入序列x。然而,在我们提出的模型中,旨在使每个词嵌入不仅捕获了前一个词的信息,并且能够整合后续词语所带来的上下文信息。为此,我们采用了双向递归神经网络(BiRNN)结构实现这一目标,在语音识别领域已有诸多成功的应用实例。

BiRNN包含两个方向的递归神经网络:一个是其前向方向递归神经网络\overset{\rightarrow}{f}从输入序列的第一个元素x_1开始,并依次处理到x_{T_x};另一个是其反向方向递归神经网络\overset{\leftarrow}{f}从输入序列的最后一个元素x_{T_x}开始,并依次向前处理到x_1。其前向方向递归神经网络\overset{\rightarrow}{f}通过计算得到隐藏状态序列(\overset{\rightarrow}{h}_1,\cdots,\overset{\rightarrow}{h}_{T_x});其反向方向递归神经网络\overset{\leftarrow}{f}通过计算得到隐藏状态序列(\overset{\leftarrow}{h}_1,\cdots,\overset{\leftarrow}{h}_{T_x})

对于每个单词x_j及其前后方向的隐藏状态\overset{\rightarrow}{h}_j\overset{\leftarrow}{h}_j进行结合处理后,在数学上定义一个新的表示形式h_j = [\overrightarrow{h}_j^T; \overleftarrow{h}_j^T]^T. 这种通过这种方式构建的符号h_j能够综合考虑前后信息并形成统一的整体表征. 在RNN模型中, 由于其特殊的时序处理能力, 这种由当前上下文决定的状态信息将被后续解码器模块使用, 并结合相关公式(5)-(6)来计算最终的状态向量

该模型的图形化描述见图1。

4 实验设置

4.1 数据

4.2 模型

我们对两种模型进行了训练。其中第一种为传统的RNN编码器-解码器(标记为RNNencdec),第二种是我们自研的新型模型(标记为RNNsearch)。每个模型进行了两次不同阶段的训练:初次使用不超过30个单词的短句(生成了RNNencdec-30和RNNsearch-30版本)。随后进行的是长度较长、包含50个单词以上的序列处理(最终得到了RNNencdec-50和RNNsearch-50两个版本)。

该编码器与解码器在RNNencdec架构中共享1, 256个隐层单元;其编码器由双向循环神经网络构成,在前向路径与反向路径上各自拥有1,256个隐层单元;而对应的解码器同样配置了1,256个隐层单元;就这两种架构而言,在计算每个目标词的概率分布时我们采用了包含一个maxout全连接层的多层次结构。

我们采用小批量随机梯度下降法并结合Adadelta优化器来训练每个模型,并设置其批量大小为80。整个训练过程完成所需的时间约为5天。

当模型训练完成后, 我们采用束搜索算法以识别具有最高条件概率的最佳候选翻译语句. Sutskever等研究者则借助于该方法, 在其神经网络机器翻译系统中生成相应的翻译输出.

5 结果

5.1 定量结果

在这里插入图片描述

(表1)

在表格1中记录了翻译结果的BLEU分数。从实验结果来看,在所有情况下RNNsearch的表现均优于传统型RNN编码器解码器。值得注意的是,在得分上与基于短语的传统翻译系统Moses不相上下。这标志着一项重要进展:与仅依赖单一语言资源库(包含4.18亿个单词)的传统模型相比,在训练过程中采用了更大规模数据集(包括两种模型的数据)的情况下取得相同成绩。

在这里插入图片描述

我们将提出的方法归因于解决使用基础编码器-解码器架构中的固定长度上下文向量所带来的局限性。鉴于这一限制可能导致该架构在处理较长句子时的效果欠佳,在图2中我们通过实验结果表明该种架构(即RNNencdec)随着文本长度的增长而显著下降的表现效果。相比之下,在图3所示的RNNsearch-30和RNNsearch-50模型上这种现象并未出现得如此明显——值得注意的是,在超过50个单词的情况下这些模型的表现并未出现显著下降。特别地,RNNsearch-30不仅未出现明显的性能下降,反而其性能甚至略高于采用固定长度上下文向量的传统架构(即RNNencdec)中的较佳版本(RNNencdec-50)这一结果显示了我们所提出的模型在传统编码器-解码器架构方面所具有的显著优势

5.2 定性分析

5.2.1 对齐

我们的方法提供了一种直观的方式用于识别源语言句子及其生成翻译中的单词之间的软对齐关系。这种对齐关系可通过可视化表示为权重矩阵α_ij的形式(如图3所示)。在每个图表中展示的是权重矩阵α_ij的每一行数据。通过观察这些权重分布情况,我们可以识别出在生成目标词时哪些来源句子的位置被判定为更为重要。

在这里插入图片描述

(图3)

如图3所示,在图示中可以看出英法单词之间呈现大致单调的一一对应关系。值得注意的是,在某些情况下存在非单调且相对重要的对应关系。观察矩阵主对角线位置上可见较大的权重值,在某些情况下则会发现一些不重要的非单调配对关系。此外,在法语中与之对应的名词和形容词的位置安排并不一致。例如,在图3(a)中模型成功地实现了短语'欧洲经济区(European Economic Area)'到'经济区(zone economique europ ´ een)'之间的准确转换过程。具体而言,RNNsearch系统成功地将'zone'与'Area'进行了精确配对,同时跳过了两个英文单词'European'和'Economic',然后通过每次回头一个英文单词的方式完成了整个目标短语'zone economique europ ´ eenne'的转换过程

在硬对齐方法中,虽然存在一定的局限性(如需考虑后续词项以决定词性转换),但软对齐的优势显而易见。从图3(d)可以看出,在源短语[the man]被翻译为[l’ homme]的情况下(注:此处应为[l’ hommage]?),硬对齐方法会导致将[the]映射至[l’]并将其余词项如[man]映射至[homme]。然而这种做法在实际翻译中并无显著价值(注:原文可能存在打字错误)。我们的软对齐策略则通过模型同时关注[the]与[man]实现了对齐过程的有效性(注:此处可能需要重新审视术语准确性)。如图3所示,在该示例中我们观察到模型成功地将[the]映射至[l’]这一现象并非孤立存在(注:原文提到“能在图3中所有短语例子中看到相似的行为”,此处可能需要更清晰的表达)。值得注意的是软对齐方法不仅简化了实现过程(注:原文可能存在表述问题),而且在处理源短语与目标短语长度不一的问题上具有天然的优势(注:此处建议重新审视逻辑关系)。也就是说,在无需人为强制某些词项映射至([NULL])或由([NULL])进行映射的情况下(注:原文可能存在术语使用不当之处),软对齐方法能够更自然地适应不同的语言特征。

5.2.2 长语句

从图2直观显示可以看出,在处理长文本时RNNsearch显著优于传统的RNNencdec方法这是因为其优势源于无需精确地将每个长句子映射为固定长度的向量而只需精确编码输入句子中某些关键词及其周边的词语

举个例子,考虑测试集中的这条语句:

在这里插入图片描述

RNNencdec-50翻译这条语句为:

在这里插入图片描述

RNNencdec-50在准确地将源语句进行翻译的过程中,成功地处理了大部分场景。然而,在具体执行过程中,在某些关键点上其表现略显不足。例如,在这种情况下,该模型误将'...身份'理解为'...健康状况'。

改写说明

在这里插入图片描述

从分析来看,在定性观察的基础上证实了我们的假设:相对于传统的RNNencdec架构,在处理长文本时RNNsearch方法表现出显著优势。

6 相关工作

7 总结

现有神经机器翻译体系中的主流方法是基于编码器-解码器架构的设计理念,在这一框架下,通过编码器将输入序列映射为固定长度的向量表示,并由解码器将其转化为目标语言的输出文本序列。现有方法在处理较长文本时存在一定的局限性

在本文中, 我们构建了一种新的架构以应对(长语句翻译)问题。我们的编码器-解码器模型能够进行(软)搜索输入单词集合或被编码器计算出标记的相应单词。该方法使得模型无需对整个输入序列进行定长向量编码, 并专注于生成下一个目标词的相关信息。这种改进使神经机器翻译系统能够在较长文本中获得良好的翻译效果。与传统机器翻译系统的不同之处在于, 本系统的各个组件包括对齐机制均为统一训练的目标, 从而能够提升译文的质量并增大正确概率。

我们开发了一种名为RNNsearch的新模型,在英法双语翻译任务中进行了评估。通过实验对比发现,RNNsearch显著优于传统编码器-解码器架构,无论输入句子长度如何变化,且对输入文本的长度具有更强的适应能力。通过定性分析考察了RNNsearch生成的软对齐情况,研究发现该模型能够在源语言文本中标识并对应每个目标语言词汇或其符号表示,从而实现高质量的翻译输出。

相较于现有技术而言,在进行一系列深入研究后发现, 我们的模型在机器翻译效果上与现有的短语统计机器翻译方法相当具有竞争力, 这一发现尤为令人瞩目. 然而, 由于目前仅有的神经机器翻译方法是在最近才被提出, 因此这一发现颇显珍贵. 我们认为, 本研究中所提出的架构设计展现出了一种具有前景的方向性进展, 其潜在的应用前景值得进一步探索和开发.

未来的一个挑战将是如何更有效地处理未知或稀有单词。这需要使模型得到更广泛应用,并与现有技术的性能水平相匹配。

参考

A NEURAL-NETWORK-BASED METHOD FOR MACHINE-BASED TRANSLATION IS PRESENTED IN THIS PAPER, WHICH INCORPORATES joint learning of alignment and translation processes.

全部评论 (0)

还没有任何评论哟~