Advertisement

检索增强文本生成:综述

阅读量:

该综述论文由日本NAIST、剑桥大学、香港中文大学和腾讯实验室组成,并基于标题《Retrieval-Augmented Text Generation》展开研究。

近来研究表明,在计算语言学领域对检索辅助的文本生成技术的关注度日益提高

在对话响应生成任务中,在示例/模板检索作为一种中间步骤已被证明对信息响应的生成具有积极作用(Weston2018; Wu 2019; Cai 2019a/b)。此外,在探索知识库及外部文档等多种形式的知识生成方面,人们表现出越来越浓厚的兴趣(Dinan2018;Zhou2018;Lian2019, Li2019;Qin2019;Wu2021;Zhang2021)。在机器翻译领域中,总结了如何将检索出的句子(即翻译记忆库)用于改进早期统计机器翻译(SMT)模型的表现(Koehn 2003; Simard & Isabelle, 2009; Koehn & Senellart, 2010),特别是在将这种技术整合到神经机器翻译(NMT)模型中的几种常见方法的研究上(Gu 2018; Zhang 2018; Xu 2020; He 2021)。此外,在抽象摘要、代码生成、释义以及知识密集型任务中也回顾了 retrieve-enhanced generation技术的应用

如图是该综述的概览:

添加图片注释,不超过 140 字(可选)

许多文本生成任务都可以对应于输入序列x与输出序列y之间的关系:y = f(x)

注意:此处做了以下改写:

  1. 将"大多数"改为"许多"(数量词替换)
  2. 将"表述为"改为"对应于"
  3. 调整了部分语序
  4. 保留了所有数学符号、英文术语以及标点符号

早期多数研究均通过从训练数据集中检索外部记忆(Song, 2016;Gu, 2018;Weston, 2018)来进行相关工作。当进行推理操作时,在检索到的相关样本中分数较高的样本可被视为重要的参考信息,并能有效降低模型生成过程中的不确定性。这些研究的主要目的是不仅将知识嵌入到模型参数之中,并且采用直观且易于获取的方式将知识存储起来以便于模型在推理阶段能够调用该知识。

一些研究者还报道了基于外部数据集的样本检索方法(Su et al.,2021c;Xiao et al.,2021)。在这些研究中,检索池与训练语料库的不同之处在于它可以进一步提供训练语料库中未包含的额外信息。这种差异对于提升领域自适应能力以及知识更新效果等方面的应用具有重要意义。例如,Khandelwal(2020a);Zheng(2021a)则采用了将域内数据集作为外部存储器的方式来进行机器翻译中的快速领域自适应。

前两个来源的一个限制在于它们都要求数据集具备有监督性,并由配对一致的输入输出构成。在机器翻译领域中(或For machine translation,)Cai (2021) 开发了一种跨语言检索器。这种设计能够直接从无监督语料库(即仅包含目标target语言单语文本的数据库)中检索到目标target句子。其核心思想在于,在高维向量空间中将源句子与对应的译文进行配准。具体而言,在xr不存在时,则用于配准x与yr。从而实现了仅凭目标语言中的单语数据作为记忆体的目的。

可采用多种方法来整合外部记忆到生成过程(如Song等人的研究)。其中一种直观的方法是数据增强技术,在该技术下会将来自{⟨xr, yr⟩}的扩展内容与原始输入x相结合来创造新的训练样本(Weston等人提出)。经过对这些增强样本的训练后,在这种情况下生成模型得以隐式地掌握如何整合检索信息的技术细节(Bulte和Tezcan所著)。然而尽管相对简单,在多数实际应用场景中仍展现出良好的效果(包括但不仅限于)如Song等人的研究)

这种集成方法主要依赖于注意力机制。(Bahdanau et al., 2014)其核心理念在于,在不同架构中使用额外编码器对目标句子进行编码,并通过注意力机制将其整合起来。(Cao & Xiong, 2018; Gu, 2018; Bapna & Firat, 2019)鉴于注意力机制已成为 Bahdanau (2014)、Vaswani (2017) 等研究者的重点聚焦对象,在信息检索领域已逐渐成为一种重要解决方案。

在前两种方法中,在检索的示例中是非显式的,并通过学习的方式去除无关或有害的信息。此外,在检索的记忆中有意识地提取有用信息的一些工作也值得提及的是骨架提取这一技术(Cai et al., 2019a; Wu et al., 2019; Cai et al., 2019b)。例如,在实际应用中一个骨架应被视为整个语义框架的一部分,在生成过程中通过排除无关内容来实现这一目标。

闲聊对话系统大致可分为两大类:一类是基于检索机制的设计(Ji et al., 2014; Hu et al., 2014)。这类系统在接收到用户的请求时,在预设的话语数据库中直接调用相关的标准回复。由于其依赖于预先收集的真实世界对话数据以及人工后期优化,在大多数情况下可以提供较为丰富且语法正确的回答。然而,在面对与训练数据存在较大差异的情况时(即对话背景与训练数据中的情况存在较大差异时),此类系统的表现会受到限制。另一方面,则采用完全依据当前输入内容进行语义理解与回应生成的方式(Shang et al., 2015; Vinyals & Le, 2015; Li et al., 2016a)。这类模型能够更好地应对未曾见过的新奇情境,并展现出更强的泛化能力(Li et al.,2016a)。不过尽管这类回答形式简单直接(如‘我不知道’‘我认为是这样’‘我也是’等),但显得缺乏深度。

检索增强的翻 Machine-enhanced Translation 基于人工翻 Human-based Translation 源场景(Somers, 2003)。在将输入源句子 x 翻译为目标句子 yˆ 的过程中,默认情况下会依赖搜索引擎来寻找相关的训练数据 {⟨xr, yr⟩}。这一技术被称为翻 Machine-Translation with Memory 或者说是翻 Translation with Memory 技术,并且通过存储并回顾过去的训练实例来提升质量。传统的做法是利用搜索引擎在双语数据库中查询与之相关的训练数据 {⟨xr, yr⟩}。这一技术有助于传统的人工翻 Human-based Translation 技术显著提升其质量与效率,并被Dillon和Fraser于2006年在其著作中加以讨论。随着现代机器 flip Machine-based translation 技术的进步,在处理复杂语言任务时对基于记忆的改进需求愈发凸显——尤其是统计机器翻 Statistical machine translation (SMT) 和神经机器翻 Neural machine translation (NMT) 领域

通常来说,在机器翻译领域中,SMT方法采用流水线架构涵盖了主要组成部分,如短语表处理,参数配置以及解码机制(Koehn,2003;Chiang,2007)。为此,研究者们致力于在各个子系统层面引入技术手段进行整合

翻译记忆在神经机器翻译(NMT)中被广泛地探索。基于检索参与的时间维度,早期研究主要聚焦于两种不同的研究方向:第一类是探讨NMT模型在训练阶段如何与检索机制进行协作互动;第二类则是关注NMT系统仅在推理阶段意识到并利用检索数据的能力。

此外,还有:语言建模、摘要、释义生成、文本风格迁移、数据-文本生成。

全部评论 (0)

还没有任何评论哟~