Advertisement

论文阅读:End-to-End Training of Neural Retrievers for Open-Domain Question Answering

阅读量:

基于全程训练的神经检索模型用于广泛域问答系统

来源:ACL 2021

下载地址:https://arxiv.org/pdf/2101.00408.pdf

代码地址:https: //github.com/NVIDIA/Megatron-LM

本文主要贡献:

  • 我们的研究表明,在使用 ICT 对检索器进行无监督预训练后进行监督微调,并与基于自然问题和 TriviaQA 数据集的最佳现有方法相比,在前 20 名检索准确度上相较于现有方法取得了显著提升。
  • 实验证明,在小规模的监督数据集情况下,在小规模情况下实验证明了基于遮蔽显着跨度设计的检索器预训练模型的有效性。
  • 我们的端到端训练方法展现了卓越的表现,在检索准确性方面超越了许多现有的相关研究。
  • 在答案提取方面表现优于近期相关研究中的多种模型,并且相较于同类方法提升了约3分。
  • 我们成功地将端到端训练扩展到了大型模型,并展示了持续稳定的性能提升。

Abstract

在本研究中深入探讨了检索器预训练工作。 首先提出了一种基于反向填充 masked tokens 任务与 masking significant spans 的无监督预训练方法,并通过问题-上下文对实施监督微调。评估 OpenQA 模型中用于阅读器与检索器组件的端到端训练方案,并观察其如何获取检索到文档的方式是否存在差异

Introduction

当前主流的OpenQA方法一般均分为两个主要环节。在第一步中,在给定一个问题的情况下, 检索器模块能够识别出与之最相关的文档, 并对其进行排序. 在第二步中, 在将这些相关文档作为输入提供给阅读器模块后, 默认情况下阅读器模块能够理解和解析这些信息并提取出问题的答案, 如图一.

在这里插入图片描述

图 1:说明 OpenQA 方法的示例。

然而,在处理具有挑战性的规模下(如包含数百上千万份文档的情况),缺乏系统评估在检索任务中采用两种训练方式(有监督与无 supervision)之间的相对优势。例如,在证据包含数百上千万份文档的情况下.目前仍不清楚无 supervision方法是否能进一步提升强 supervision方法的效果及其适用条件.本研究的核心目标在于系统探讨检索器训练策略及其效果.

我们开发了一种系统性的方法来构建检索器:首先实施无监督预训练过程,在此基础上进行监督微调优化。我们的研究重点围绕几个关键因素展开——包括但不仅限于相关性评分机制的缩放策略以及优化训练时长等参数设置——并通过实验验证了这些改进措施的有效性。除了开发传统阅读器与联合阅读器-检索器组件两种主要架构之外,在本研究中我们还深入探讨了端到端监督学习的具体实现方式。在第一种架构下(即传统阅读器模式),系统会对每个检索到的文档分别进行分析;而在第二种架构下(即联合阅读器-检索器组件模式),则会将所有检索到的文档一次性作为整体输入处理。

基于端到端的学习策略,在提升检索准确率和答案提取效率方面达到了当前最优水平,并超越了现有的最佳模型。

Neural Retriever

Background

基于数据源中的文档集合 Z = {z1,…,zm} 和查询项 q

检索系统主要包含两个核心组件:一个是问题编码模块(fQ),另一个是上下文编码模块(fZ)。该种架构一般被称作双头架构。

给定来自 Z 的问题 (q) 和上下文文档 (zi) 的双编码器模型的训练方法:首先,我们计算问题和上下文之间的相关性分数。 我们将相关性分数定义为问题和上下文表示之间的点积

其中 fQ(q) ∈ Rd 和 fZ(z) ∈ Rd 分别表示问题和上下文编码器,其参数化为 φ = [φQ,φZ]。

采用BERT类型的Transformer网络架构对fQ和fZ进行模型构建,并将序列第一个标记(即[CLS]标记)对应的隐藏状态定义为编码器的输出结果。上下文文档zi与问题q的相关性可通过概率度量进行评估。

在这里插入图片描述

其中 τ 是缩放因子。

当模型隐藏大小 (d) 较大时,在优化过程中更大的缩放因子会起到更好的作用。将其命名为相关性分数缩放策略更为合适。为了训练检索系统,在公式中计算的最大化对数似然被采用作为一种优化目标。在实际应用中发现,在面对海量文档(数量达数十万)的情况下进行归一化项计算会产生较高的计算开销和资源消耗问题。为了应对这一挑战,在训练阶段我们会采用批处理的方式,并利用每个批次中的平均上下文信息来模拟分母部分的需求,并且这种方法已经在实际应用中取得了良好的效果(Chen et al., 2020)。

Training

在现有方法中, 我们通过基于BERT 的权重配置来初始化问题编码器和上下文编码器的参数 (Shoeybi et al., 2019)。

Supervised Training

在监督学习环境中,在每个问题和答案旁边都会标明具体的内容标签和分类信息,并且通常也会提供与问题和答案相关的上下文信息。当不考虑这些上下文信息时,则会采用远程监督的方法(如Mintz等人于2009年提出的技术)来获取相关文档资料。具体而言,在BM25算法(Robertson和Zaragoza, 2009)的帮助下筛选出包含问题答案作为背景材料的相关文档。此外,在补充训练数据时还会选择一些仅依赖主题相关但不涉及具体问题和答案的内容作为额外的负样本。

Unsupervised Training

Inverse Cloze Task(ICT)

在此配置下,默认情况下我们忽略人工标注的上下文关联;与之相对地,在这种设置下检索器采用无监督学习策略。具体而言,在数据处理阶段我们首先从每个段落中随机抽取若干句子作为查询候选,并将剩余的句子作为提供背景信息的上下文内容。

Masked Salient Spans Training

(Guu et al., 2020) 研究显示 ICT 初始化检索器通过其训练阶段得以进一步优化,在此阶段内读者能够预测出未被屏蔽的重要跨度,并基于检索到的结果进行命名实体识别。在此研究中我们采用了与上述相同的策略。值得注意的是,在之前的文献中 Guu 等人(2020)采用了 BERT 基于阅读器的方法与此处使用的基于 T5 的生成语言模型存在显著差异

所提方法基于无监督预训练及有监督微调

为了优化检索器性能的提升过程, 我们提出了一种用于检索器无 supervision 预 training 的新方法, 并结合有 supervision 微调策略. 在这一创新框架下, 我们首先采用 ICT 方法进行权值预 training, 并分别采用显着跨度掩蔽技术和权值初始化优化策略. 在完成上述权值 pre training 后, 我们通过有 supervision 学习进一步优化检索器性能.

End-to-End Retriever and Reader Training

两个监督式训练方案从特定任务的数据中实施全连接训练来构建阅读器和检索器组件。方案一中,阅读器会单独处理每一个检索结果,而方案二则将所有检索结果作为一个整体输入给阅读器进行处理。这些设计有效地帮助模型在回答基于问题的任务时提升性能并优化搜索能力

Background and notation

在端到端训练体系中,可学习组件由检索模块(φ)与生成模块(θ)参数构成。我们采用双编码器架构,并遵循前述方法对其进行系统性优化。生成模块设计基于序列到序列建模框架,并采用预训练T5模型作为基础构建。在实际应用中,该模型接收问题(q)及其参考回答(a),均为纯文本形式输入。具体而言,在处理给定问题时:首先由检索模块从证据库(Z)中提取k份相关上下文文档集合(K),随后通过预定义规则对这些文档进行筛选与排序;接着将筛选后的文档集合与查询信息共同 fed 到生成模块中进行文本摘要;最终输出经过多轮反馈优化的候选回答。

在这里插入图片描述

然后,阅读器通过问题和多个上下文文档(zi)作为输入来预测答案,并将其可能性定义为其预测能力的度量指标

在这里插入图片描述

其中 N 是答案token的数量。 图 2 显示了说明端到端训练过程的框图。

在这里插入图片描述

图 2:检索器和阅读器组件的端到端监督训练的示意图。

Approach 1:Individual Top-k

在该方法中,在每个查询语句及其所有检索结果中的文档上计算阅读器的可能性。边缘可能性被定义为个体可能性的加权平均值。

在这里插入图片描述

其中 p(zi|q,Z,φ) 通过 Eq2 进行计算。然而,在 K 而不是 Z 的范围内进行了归一化处理。最终损失值被定义为负的边际对数似然值。

在这里插入图片描述

值得注意的是,在对比现有方法时发现,在更新检索器的参数时(包括查询与上下文编码器),我们的方法采用了类似的方案。其主要差异体现在两个方面:一是我们采用 T5 模型作为阅读模块而非 RAG 的 BART 模型(Lewis 等人, 2020b)。二是相较于 RAG 则仅更新查询编码器。

Approach 2:Joint Top-k

在该方法中,概率值被计算为阅读器根据查询内容、所有搜索结果以及对应的评分来计算...

在这里插入图片描述

T5 Reader 由独立构建而成,
从而实现了对输入和输出的高度定制化,
我们将其视为一个可扩展的知识图谱,
并在模型架构中进行了相应的优化设计。
在这个过程中,
我们不仅考虑了知识抽取的需求,
还特别关注了如何提升系统的推理能力。
在这个过程中,
我们不仅考虑了知识抽取的需求,
还特别关注了如何提升系统的推理能力。

在这里插入图片描述

其中 Q是由解码器输入计算出的查询向量,K是根据编码器输出生成的关键向量,λ是一个可训练的学习参数

Experimental Setup

OpenQA Datasets:Neural Questions(NQ),TriviaQA,Evidence

本研究基于两个常用的QA数据集开展实验。具体细节将在下文部分详细说明。具体统计数据将展示在表1中。

在这里插入图片描述

表 1展示了OpenQA数据集的统计分析结果。其中训练集被用来进行端到端模型的训练工作。经过筛选后,在这些案例中只包含那些证据检索结果与真实文档一致的情况。

Model Details

我们采用了基线型与大尺寸模型进行实验。基线型(Base)架构包含12层网络、768维隐藏层以及12个注意力头结构。其中BERT-base版本拥有1.1亿个可训练参数,而T5-base版本则包含超过2.2亿个可训练参数。大规模模型(Large)则具备24层网络结构、1024维隐藏层以及较丰富的注意力头数目——即16个——这样的设计使得其具备更强的学习能力与捕捉复杂模式的能力。BERT-large架构总共拥有3.3亿个可训练参数,在性能上表现优异;相比之下,T5-large版本则包含了多达7.7亿个可训练参数,展现出显著的扩展潜力与强大的生成能力

Results:Retriever Training

我们比较了训练检索器的不同方法,使用 top-k 度量 (k ∈ {1, 5, 20, 100}) 评估检索准确性。

Effect of Relevance Score Scaling,Longer Training,and Hard Negatives

我们致力于确定检索器监督训练的理想配置参数。为此研究者通常会选择 DPR 模型作为基准 并在此基础上展开研究工作 在 NQ 数据集上进行了多轮实验测试 然后对其进行逐步优化 随后对其进行逐步优化 其中[CLS]位置嵌入被纳入考虑之中 经过40个完整的训练周期 得到了表2所示的数据结果 如表2所示的数据结果表明 利用上述方法能够获得较为理想的性能指标 经过进一步优化 各种指标均得到了显著提升 通过引入相关性分数的缩放因子以及延长至80轮迭代的训练过程 我们观察到 top-5 和 top-20 的准确度分别提升了1.5%到2%之间 这些实验结果进一步表明 原始采用的DPR模型在监督学习阶段表现尚有提升空间

在这里插入图片描述

表 2:在 NQ 测试集上评估时,不同因素对检索器监督训练的影响。

除了通过分数缩放这一手段外, 我们在每个问题-上下文对中增加了数量1个额外的硬负样本(等同于DPR方法), 并使模型经过持续训练达到80个epoch. 实验结果与DPR一致, 在性能指标上取得了显著提升. 这些实验结果表明, 相关性分数缩放、延长训练周期以及引入难度较高的反例对于提升监督检索器的准确性具有关键作用. 这些有监督学习的效果可作为强基线模型提供参考. 这种有监督的学习方案为我们后续的研究工作提供了重要的参考依据.

Effect of Retriever Initialization

零样本检索器在其权重采用 BERT 或 ICT 或显著的跨模态预训练初始化过程时的性能表现(表 3)

在这里插入图片描述

表 3:在 NQ 和 TriviaQA 测试集上评估时,无监督预训练对检索准确性的影响。

无监督语言模型在信息检索任务中的效果欠佳(Lee et al., 2019),并不令人意外的是BERT同样未能显著提升检索准确性。我们特别注意到ICT初始化策略在提供非平凡的零样本精度方面表现出色,并通过覆盖显著跨度的掩蔽训练进一步提升了8个点以上的准确度。此外,两种无监督方法均展现了极强的能力,在引导检索器从头开始学习方面取得了卓越的效果。

我们注意到,在本研究中提出的一种新型检索方法——基于信息技术(ICT)结合显着跨度掩蔽技术——相较于现有的监督学习方法,在检索性能上实现了显著提升(2-3%),并且这种提升效果在两个独立的数据集上均得到了验证。值得注意的是,在经过微调学习过程后,在 ICT 预训练阶段学到的关键判别属性并未出现灾难性遗忘现象。此外,在无标签数据条件下利用大规模文本集合进行检索器预训练的优势明显优于依赖人工标注上下文对的传统数据增强方法;这主要体现在其对模型泛化能力的提升方面。最后通过对比实验发现无论从准确度还是召回率指标来看本方法都较现有技术具有明显优势

Effect of Amount of Training Data

我们探讨了当检索器采用BERT、ICT或显着跨度进行预训练,并结合不同规模的监督学习数据集时对准确性的影响。具体而言,在NQ学习数据集中取1%至2%、5%以及10%-50%的数据用于检索器培训,并在图3中展示了前20个准确度值的变化趋势。研究发现,在低负载情况下,采用遮蔽式显着跨度预训练方法较 ICT 能够获得显著的优势,并能持续带来巨大的性能提升;而当学习数据比例增至40%以上以达到较高负载水平时,则显示出 ICT 相比之下更具竞争力。进一步分析表明,在中等负载条件下(约30%-40%),显式显着跨度预训练方法表现出了更好的效果

在这里插入图片描述

图 3:在 NQ 测试集上评估时,训练数据量对检索准确性的影响。

Effect of End-to-End Training

对于端到端的训练体系中,在检索器权重初始化方面采用了经典的ICT预训练方案与监督微调策略的结合方法。研究者将读者在检索过程中获得的有效信息量视为一个超参数,并通过开发集评估来确定其最优取值范围。根据表4的数据可以看出,在个体Top-k指标下,在仅更新查询编码器的情况下通常能够获得较高的检索精度表现。值得注意的是,在同时更新上下文编码器时的表现更加突出,在top-5指标上的准确率达到了75%,较之前的最佳DPR检索器提升了8个百分点以上的差距。此外还需要指出的是更大规模的模型架构进一步优化了系统性能基础这使得我们获得了目前为止最为先进的实验结果

在这里插入图片描述

表4:基于问答对的端到端训练对检索准确性的影响。其中Q和C分别代表查询编码器和上下文编码器在训练过程中的更新情况。

从 Joint Top-k 的角度来看,在查询编码器的更新上确实能显著提升 top-1 的表现(分数),然而这并未为更高顺序的 top-k 带来显著的准确度提升。在当前研究中未对 Joint Top-k 的上下文编码器进行更新,因为初始实验未能体现出这种改进效果。

这些结果表明,在检索器已达到良好初始化状态下,在使用Individual Top−k方法时其目标函数被特意设计以显著提升了检索精度;相比之下,在使用Joint Top−k方法时并未带来任何提升。

Intuition for Retriever Score Scaling

为了探讨 τ 对检索精度的影响, 我们展开了不同 τ 值的消融特性分析, 其结果如表 5 所示.

在这里插入图片描述

表 5 在基于NQ测试数据集进行评估时 分数比例因子(τ)对检索准确度的影响 第一列代表通过乘根号d来得到τ的比例因子(m) 即公式2中的τ等于m乘根号d

Results:Answer Extraction

用于训练答案提取模型的过程中

Individual Top-k Approach

我们对比了表6中的数据与OpenQA平台最近发布的一些相关方法,并对它们的表现进行了全面评估。 在NQ的基础设置下, 我们的模型在各项指标上均超越了REALM和DPR各至少4分. 在较大的规模设置下, 我们对比了RAG模型(Lewis et al., 2020c),发现我们在NQ任务上的表现比该模型高至少3.5分, 在TriviaQA任务上则领先了至少2.8分. 这些改进得益于采用了更为精确的初始检索机制、更强的理解能力以及在整个训练过程中不断优化查询策略和上下文表示方法.

在这里插入图片描述

本研究采用IndividualTop-k方法进行答案提取。本研究根据阅读器模型的规模对base配置和large配置进行分组。

优化上下文编码器有助于提升base配置和large配置的效果(如图四)。让我们惊喜地发现个体Top-K方法的表现对top-K文档的数量极其敏感,并且随着top-K文档数量的增加而显著下降。

在这里插入图片描述

图 4:增加 top-k 文档对 Individual Top-k 方法答案生成的影响。

Joint Top-k Approach

我们将我们的研究结果与 Fusion-inDecoder 方法(由 Izacard 和 Grave 于 2020 年提出)进行对比分析。该方法同样采用了联合编码器-解码器注意力机制,并由两个关键组件构成:其中,DPR 作为检索模块(类似于检索系统),而 T5 作为读取模块(类似于阅读系统)。这些组件均采用了开源权重进行预训练初始化以实现良好的基础学习效果。值得注意的是,在微调策略上存在显著差异:我们的模型不仅进行了参数微调(Parameter-wise Fine-tuning),还对整个架构进行了优化设计;而传统的 Fusion-inDecoder 方法仅实现了阅读器参数(Query Transformer)的微调策略(Parameter-wise Fine-tuning)。通过表7中的实验结果可以看出,在base配置下(Base Setting),我们采用的方法在NQ基准测试中展示了 Joint Topk 指标较之传统 Fusion-inDecoder 方法提升了1个百分点(1 Percentage Point),这充分体现了端到端训练的重要性。而在large规模配置下,在TriviaQA基准测试中取得了显著性能提升效果(Significant Performance Enhancement),具体数值表现见表7详细数据统计。

在这里插入图片描述

表 7:使用联合 Topk 方法提取答案的结果。

研究图 5 中的数据表明,在检索更多文档时 EM 分数呈现上升趋势。这一发现凸显了联合 Top-k 方法在信息整合方面的优势。此外的数据还显示了相似性较高注意力对基础配置答案提取能力的影响。当 top-k 取值为 5、10 和 25 时,采用基于检索相似性的编码器-解码器注意力机制能持续提升性能。对比实验结果显示,在 top-k=5 和 10 的情况下(如表 4 所示),我们始终观察到显著提升(比较表 4 中的橙色曲线与蓝色曲线)。然而在 top-k=50 的情况下这种提升效果相对较弱。这提示我们在处理大量文档时应谨慎评估端到端模型的效果,并认识到这也解释了表 4 中联合 Top-k 性能提升幅度较小的原因

在这里插入图片描述

图 5:增加 top-k 文档对联合 Top-k 方法的答案生成的影响。

Conclusion

我们开发了一种新的双编码器架构来提升 OpenQA 任务中的检索精度。该架构通过系统性研究 ICT 以及掩蔽显著跨度任务的重要性作为预训练阶段的基础知识来进行监督式的训练。随后我们提出了两种新型的学习策略分别应用于 OpenQA 的阅读器和检索器组件其中一种策略让阅读者单独关注每个检索到的结果另一个则促使阅读者综合所有相关结果来进行分析。其中一种策略让阅读者单独关注每个检索到的结果另一个则促使阅读者综合所有相关结果来进行分析。总体而言这些改进方案有助于实现 OpenQA 检索与答案提取领域的最佳性能

全部评论 (0)

还没有任何评论哟~