Advertisement

Latent Retrieval for Weakly Supervised Open Domain Question Answering

阅读量:

Abstract

开放领域问答系统近期的研究工作主要基于支撑证据的强监督学习,并假定采用了一个封闭式信息检索(IR)系统用于提取候选支撑证据

我们持保留意见认为这两种方法均未达到最佳效果,主要原因是gold evidence并非无处不在,并且QA和IR之间存在本质区别,并且两者的特性本质上有所不同。

我们首次论证了 retriever与reader可能在问答对中实现协同学习 ,且无需依赖现有的IR系统。在这样的场景中,基于维基百科的知识检索过程可被视为一种潜在变量。

虽然直接从头开始学习并不现实

我们在 5 种数据集上进行测试,并发现:

  • 当提问者已知答案时,在该数据集上传统信息检索系统表现优异;如BM25等方法尤为突出。
  • 在真实寻求答案的数据集中学习的retriever至关重要;其精确匹配性能比BM25高出了19个百分点。

Introduction

现有的方法依赖于一个 IR 系统来执行繁重的任务 即使该 IR 系统无法在下游任务上进行微调。这些方法都借助于 IR 系统来缩减搜索范围并降低歧义程度。然而 QA 与 IR 存在本质区别 通常 QA 中的问题非常模糊 并需更多的语言理解能力 因为用户是在显式地寻找未知的信息 。与其受限于 IR 的召回上限 而不如直接利用问答数据进行检索学习。

本文介绍了一个名为 Open Retrieval Question Answering 系统 (ORQA) 的新方法。该系统通过从开放知识库中检索相关信息并同时利用问答对的监督信号进行学习。完全端到端的学习面临一个主要难点:即在开放知识库中检索相关信息被识别为一个潜在变量,并且自底向上构建模型是不切实际的。IR 提供了作为起点的有效解决方案但存在局限性

本文的核心观点在于:如果我们采用无监督任务 Inverse Cloze Task (ICT) 来预训练 retriever,则能够实现端到端学习的可能性。在该方法中,每个句子被视作一个pseudo-question(即伪问题),其上下文则充当pseudo-evidence(即伪证据)。针对特定pseudo-question(即特定问题),ICT旨在识别与之匹配的pseudo-evidence(即相关证据)。通过完成这一预训练阶段(即pre-training stage of ICT),我们能够为后续任务建立一个robust foundation for subsequent tasks.

我们在 5 种数据集上测试了 ORQA,其中 2 种是提问者已经知道答案:

  • SQuAD
  • TriviaQA

这两种类似于传统信息检索(IR)的任务,在现代化模型中已经展现出卓越的表现;除了这三种之外,则是提问者无法预知答案的情形:这些情况下则呈现出独特的行为特征。

  • Natural Questions
  • WebQuestions
  • CuratedTrec

在这种情况下学到的检索非常关键,exact match 相对于 BM25 有 6~19 个点的提升。

Overview

Task

在这里插入图片描述

表1 比较了阅读理解任务与其他多种 QA 任务所涉及的前提假设。其中 heuristic 被定义为仅基于 IR 系统返回的封闭语义集合,并且其召回性能被视为系统性能的上限。在 ORQA 中,则将 retrieval 运用于端到端学习过程中。

评估标准是通过简化的标准化处理(如 lowercase操作)后的精确匹配

Formal Definitions

非结构性文本内容被划分为 B 个分块。推导结果对应于一个有序对 (b, s),其中每个b满足条件并代表 evidence block 的索引。对于每个b中的文本 spans, 它们的起始和结束位置分别由\text{START}(s)\}\text{END}(s)\}给出。

该模型构建了一个评估函数 S(b,s,q), 用于衡量针对查询 q 来说, 候选答案 (b,s) 的优劣程度。一般情况下, 这个评估函数可由两部分组成: 检索相关性 S_{retr}(b,q) 和语义理解度 S_{read}(b,s,q):

在这里插入图片描述

在预测阶段,模型输出最高得分的答案字符串:

在这里插入图片描述

其中 \text{TEXT}(b,s) 确定性的将 (b,s) 映射为答案文本。

Existing Pipelined Models

基于检索技术构建的开放领域问答系统的现有架构中,封闭式信息检索(IR)系统首先识别候选证据集的一个闭合集合.例如,在DrQA系统中,检索模块的得分计算公式如下:

在这里插入图片描述

主要沿用 DrQA 的方法,在获取候选答案时采用了 TF-IDF 技术;主要关注点则集中在对阅读理解和 re-ranking 两个方面。阅读理解模块 S_{read}(b,s,q) 基于 gold answer derivations 数据集(例如 SQuAD)构建模型,在该过程中 evidence text 被作为输入信息提供

Open-Retrieval Question Answering(ORQA)

我们开发出了一种全连接的端到端模型,并将该模型命名为Open-Retrieval Question Answering(ORQA)。该系统能够实现通过集成检索器与阅读器实现协同学习能力,并支持从开放数据集中获取任意文本内容而非受限于基于封闭信息检索系统的固定响应集合。ORQA的工作流程如下:首先通过检索模块获取相关文档内容;接着利用阅读器模块对获取的信息进行深度理解;最后由回答生成模块完成最终问题解答。如图1所示:

在这里插入图片描述

所有的打分组件都是基于 BERT:

在这里插入图片描述

BERT模型接受单个或两个文本做为输入(即x_1x_2),生成表示输入tokens或CLS pooling token的向量。

Retriever component

为了使 retrieval 能够进行学习,我们通过计算其对应的稠密向量的内积来定义 retrieval 的得分。

在这里插入图片描述

其中 W_qW_b 是将 BERT 输出映射到 128 维向量的矩阵。

Reader component

该系统由BERT 基于其定义的阅读理解模型组成的一个变体:

在这里插入图片描述

此处使用一个 MLP 是为了让 span 的 start 和 end 表示之间能够交互。

Inference & Learning Challenges

上面的描述虽然简单,但是训练和推断中还有很多挑战:

  • 一个diverse的 evidence 语料意味着一个extensive的搜索空间 (包含超过13 million evidence block)
    • 如何在这个空间中进行检索是一个completely latent的问题,在这种情况下,默认使用的teacher-forcing方法就无法适用
    • 因为存在大量的spurious ambiguity的情况,在这种情况下隐变量方法难以直接应用(例如表2所示,在维基百科中很多无关的内容段落都包含同一关键词)
在这里插入图片描述

我们通过谨慎地应用无监督预训练来预设 retriever 以期解决这个问题。预训练 retriever 通过其预先学习的能力提升了系统的性能和鲁棒性。

  • 针对维基百科中的全部知识块进行预编码处理后,在微调过程中能够动态高效地获取到top-k级别的相关信息。
    • 在检索过程中将结果偏向于避免虚假歧义因素的影响,并优先获取支持性证据。

Inverse Cloze Task

从直觉上看,在问题中讨论 entities, events, relations 的有益 evidence 通常会包含超出问题范围的独特信息(答案)。在无监督学习中,question-evidence pair 的一个近似是 sentence-context pair:这是因为句子的前后文通常与其在语义上相关联,并且能够用于推导出句子中所缺乏的具体信息。

基于这一直觉,在标准的逆Cloze任务中(ICT),我们采用了 Inverse Cloze Task 来预训练检索模块。传统的遮蔽任务旨在根据上下文预测缺失的部分,在传统的遮蔽任务中(如 图2 所示),目标是根据上下文预测缺失的部分;而正好相反的是 ICT,在 ICT 中给定的是一个完整的句子,请预测其缺失的部分。

在这里插入图片描述

我们使用判别式目标函数:

在这里插入图片描述

其中 q 作为一个随机生成的句子被引入系统中用作 pseudo-question 的角色,在其周围被提供相关上下文信息以辅助后续推理过程。对于每一个输入样本 \mathbf{x} ,系统会根据预设策略从 Batches 中选择若干候选样本进行负采样操作以增强模型训练的效果。

ICT 一个重要优势在于它不仅学习了词匹配特征,而是由于 pseudo-questions 在 evidence 中未被包含。例如,在图2中 pseudo-questions 并未显式提及 'Zebras' ,然而 retriever 必须具备识别相关上下文的能力。通过从非明确表述中推断语义,证实了该系统与传统 IR 方法在核心功能上存在差异。

不过,在希望避免检索系统过度依赖字面匹配的前提下,“retriever”仍然应当具备一定的字面匹配能力。这是因为,“lexical overlap”始终是一个极具价值的特性,在检索过程中能够提供重要的帮助。因此,在训练过程中,“retriever”的训练策略被设定为“限定90%的情况下移除相关句子”,这种策略既有助于模型掌握语义表达能力,又能在一定程度上维持对字面信息的学习能力。

ICT 预训练完成了两大目标:

  • 面对预训练阶段与微调阶段所涉及的问题类型间存在的不一致(discrepancy),我们期待零样本检索性能(zero-shot retrieval performance)能够足够强以启动隐变量学习。
  • 由于预训练证据块与下游证据块间不存在问题类型的一致性(aligned),因此我们可以假设块编码器 \text{BERT}_B(b) 在无需微调的情况下展现出良好的性能水平;而只有问题编码器需依赖下游数据进行微调。

这两个特征对于推断的计算可行性和整个模型的端到端学习非常关键。

Inference

由于现有的固定 block 编码器已经能够生成有意义的表示,在后续处理阶段我们可以通过预处理阶段计算每个block的表示,并将这些表示高效地组织到内积检索系统中(例如利用局部敏感哈希技术)。

基于典型的 beam search 算法,在该流程中我们只需提取前k个 evidence block,并对这些块上的高计算成本的阅读器评分进行评估。

Learning

在这里插入图片描述

其中 \text{TOP}(k) 表示基于 S_{retr} 检索出的前 k 个 evidence block.

在给定标准答案a的情况下,我们提升了beam中所有正确答案的marginal log-likelihood。

在这里插入图片描述

其中 a=\text{TEXT}(s) 表示 span s 与答案 a 完全匹配。

为了激发更具进取心的学习者,我们引入了一个早期更新机制,并基于一个更大的证据块集合 c 进行考量。然而,在这一过程中,我们仅更新检索模块的得分。

在这里插入图片描述

其中 a\in\text{TEXT}(b) 表示答案 a 出现在 evidence block b 中.

最终的损失为:

在这里插入图片描述

如果未找到对应答案的情况出现,则会将该对应样本排除在外。理论上而言,在随机初始化的情况下,我们预期所有样本都会被舍弃出去;然而,在应用ICT预训练后经验表明,在实际处理中只有约10%以下的样本会被舍弃处理。

我们计划对除了 evidence block 编码器之外的所有参数进行 tuning。由于 question coder 的 learnability enables the model to retrieve any evidence block, this approach distinguishes it from black-box IR.仅限于黑盒 IR, 只能允许通过增加 retrieval 数量来提高 recall.

Experimental Setup

Open Domain QA Datasets

在这里插入图片描述

Dataset Biases

在这里插入图片描述
  • 在 Natural Questions,WebQuestions,CuratedTrec 中,提问者事先并不知道答案,这恰好反映了真实的 information-seeking question 的分布。不过在这种情况下,标注者需要另外寻找答案,这需要一些自动化工具的帮助,这又引入了 bias towards result from the tool.
  • 在 TriviaQA 和 SQuAD 中,不需要自动化工具,因为提问者在写问题的时候已经知道答案了,不过这引入了另外一个更加严重的问题,即问题中包含了很多 hint,这些 hint 很少出现在真实的问题里。这个问题对 SQuAD 来说尤为严重,因为当标注者写答案的时候,evidence 中的特定片段会被同时提供给它们,这造成了大量的 lexical overlap.

Main Results

在与其他 retriever 的比较中,我们的方法采用的是替换了 retrieval score S_{retr}(b,q), 而未更改阅读理解模块。

Baselines

BM25 :也被视为一种无监督检索技术。由于在BM25训练过程中缺乏可微分性,在微调阶段所使用的证据块被视为静态。借鉴了BERTserini的思想,在最终评分中综合考量了BM25与阅读理解模型各自得分为基础分,并通过学习算法确定其加权系数以优化整体表现。其检索机制依赖于Lucene库的支持。

Language Models

Results

在这里插入图片描述
  • BM25 是一个强大的检索系统,在表面匹配方面表现突出;尽管语言模型生成的向量未能捕捉到这一关键特征。
  • 在提问者缺乏答案的数据集上,ICT 被 BM25 在约 6 至 19 个点上超越。
  • 当提问者已知答案时,在处理这类数据集的表现类似于传统信息检索方法;此时将维度压缩至 128 的向量同样无法像 BM25 那样精准。

Analysis

Strongly supervised comparison

在这里插入图片描述

我们的BM25基准版本检索五个证据块大幅超越基于BERTserini的五个文档检索系统,并且同时接近基于BERTserini的29-paragraphs检索系统。

Masking Rate in the Inverse Cloze Task

在这里插入图片描述
  • 持续丢弃伪查询将使得模型难以掌握n-gram重叠信号的特征表现形式。
    进而使得整体性能出现10个点的下降。
  • 如果始终保留伪查询则会限制模型仅依靠自身知识进行推断的能力。
    从而使其在问答场景中难以灵活应用相关知识。
    这种做法不仅会使整体性能出现6个点的下降在实际测试中其表现几乎等同于BM25方法的表现水平。

Example Predictions

在这里插入图片描述
  • ORQA在处理具有显著重叠但不同语义的证据时表现更为有效(如第一个例子所示)。
  • 考虑到128维向量的限制,在精确匹配细节方面ORQA的表现不如BM25。
  • 建议采用混合方法作为未来研究的一个重要方向。

ICT 可以看作 skip-gram 的泛化

Conclusion

  • ORQA 是首个将 retriever 和 reader 实现端到端联合学习的开放领域问答系统。
  • 基于 Inverse Cloze Task (ICT)对 retriever 模型进行 pre-training 能够有效达成这一目标。
  • 当 question 对应于 information need 时, 学习并被训练以实现 retrieval 成为了至关重要的一环(提问者在此情况下通常不具备直接访问答案的能力)。

全部评论 (0)

还没有任何评论哟~