Advertisement

Answering Complex Open-Domain Questions with Multi-Hop Dense Retrieval翻译笔记(回答复杂开放领域问题的多跳密集检索)

阅读量:

文章目录

  • 论文标题:针对复杂多维度领域的高不确定性问题提供解答的多层次密集检索方法

    • 摘要:
      本研究提出了一种基于多层次密集检索的技术框架,在高度不确定性和多样性信息环境中有效实现大规模数据处理与分析

    • 1 简介:
      复杂开放领域中的问题通常涉及多个维度和层次的信息特征,在这种环境下如何高效地进行信息提取与知识获取一直是学术界关注的重点

    • 2 方法:

      • 2.1问题定义:
        在高度不确定性和多样性信息特征的环境下进行精准信息提取具有较高的挑战性
      • 2.2 多级密集检索:
        通过多层次密集检索技术实现对大规模数据集的有效处理与优化匹配
    • 3 实验部分

      • 3.1 实验:检索

        • 3.1.1 直接
        • 3.1.2重新排序
        • 3.1.3 分析
      • 3.2 实验:HOTPOTQA

        • 3.2.1 结果
      • 3.3 实验:多证据发热

  • 4 相关领域的研究现状

    • 5 总结与展望
    • A 定性研究分析框架
      • A.1 桥梁问题中的典型错误案例分析
    • A.2 不同问题分解方法的具体应用实例
    • A.3 不同阅读器模型的特点对比
  • B 模型细节

      • B.1 最佳模型超参数设置
      • B.2 阅读器模型的具体设计
        • B.2.1 抽取式信息提取机制
          • B.2.2 解码器模块的信息整合策略
          • B.2.3 多轮检索增强机制
    • C 无需检索的方法

    • D 一个统一的问答检索系统


在这里插入图片描述

论文标题:回答复杂开放领域问题的多跳密集检索

论文链接:https://arxiv.org/abs/2009.12756
arXiv:2009.12756v2 [cs.CL] 19 Feb 2021

摘要

我们开发了一种高效便捷的多步密集检索系统,旨在解决复杂开放领域的查询问题。该系统在两个多步数据集HotpotQA和multi-evidence FEVER上展现出卓越的性能。相较于现有研究中的相关方法而言,在无需依赖特定文档库信息的前提下(如跨文档超链接或人工标注实体)实现了对该系统的构建,并可广泛应用于任意非结构化文本库中。我们的系统通过优化处理策略实现了对搜索效率与检索精度的有效平衡,在推理速度方面较现有的最先进HotpotQA系统提升了至少十倍。

1 简介

开放领域问答是一个极具难度的任务,在信息处理方面它要求从海量文档中精准抽取特定问题的答案。现有的解决方案多采用两阶段策略:针对一个问题而言,在线检索系统会首先运行查询生成一个包含k个候选文档的列表;随后阅读器则从中筛选出最相关的答案。尽管如此,在线检索系统仍主要依赖传统的基于词项的信息检索技术;这些技术仅关注词汇层面的匹配而非语义理解;这使得它们在处理复杂问题时显得力不从心。近期研究则转向更高效的密集型检索方法:这类方法通过预训练编码器将问题和文档映射到高维空间中进行处理;并利用快速的最大内积搜索算法来实现高效查询。这些新型方法已在传统信息检索基准测试中取得了显著进步

然而,在现有技术中仅适用于较为简单的场景;其答案往往仅能从单一文本片段中推导得出。与此不同,在处理复杂问题时通常需要整合多源信息,并可能涉及逻辑推理或多跳查询的方式进行分析(如图1所示)。尽管如此,在这种情况下单纯依靠一次检索仍显不足;相反,则需采用迭代机制来递归获取新信息,并根据已有知识不断优化后续推理过程。鉴于其实用价值与研究意义,“多步推理”相关的工作近年来倍受关注(Talmor & Berant, 2018; Yang 等, 2018; Welbl 等, 2018),而这也是自然语言处理领域持续探索的方向之一(Qi 等, 2019; Nie 等, 2019; Min 等, 2019; Zhao 等, 2020; Asai 等, 2020; Perez 等, 2020)。

回答多跳开放领域问题的核心挑战在于每次检索跳转所形成的搜索空间呈几何级数扩展。现有的多数研究致力于构建文档图以解决这一问题。这些方法主要依赖于实体链接或基于维基百科级别现有的超链接结构(Nie等, 2019;Asai等, 2020)。然而,在这种图中找到最佳路径的问题依然存在,在这种设置下每个段落中的超链接数量限制了搜索范围。尽管如此,在新领域中这种方法的有效性可能受到限制,在这些领域中实体链接性能可能下降甚至不如维基百科那样稳定,并且可用超链接的数量可能远少于维基百科级别的丰富度。此外,在采用数据依赖剪枝启发式策略以提高效率的同时仍面临显著的效率挑战。目前最先进的系统如Asai等人所述(2020年)仍需调用数百次大规模预训练模型以完成一次问答任务

基于多轮查询场景设计了一种简洁高效的递归架构...用于密集文本检索任务中。该方法通过逐步将问题及之前检索到的文档作为查询向量输入,并结合高效的MIPS技术来获取下一个相关文档。实验结果表明,在两个关键数据集上均取得了显著性能提升:一方面,在两个多跳基准测试(HotpotQA(Yang等人, 2018)和FEVER的一个多证据子集(Zhu等人, 2018))中展示了显著改进效率-准确度权衡;另一方面,在两个数据集上实现了最先进的下游结果:在HotpotQA上达到了显著提升效率的同时保持了高准确性水平;在另一个数据集上则实现了最新的性能记录

2 方法

2.1问题定义

此次工作中所涉及的检索任务可作如下表述:如图所示。给定一个问题q需进行多步推理以及一个大型文本语料库C。该系统中的检索模块需从C中提取一系列连续段落Pseq={p₁,p₂,…,pₙ}这些段落组合足以提供回答问题q所需的信息。具体而言在这种情况下系统将返回一组最佳评分序列候选者{P₁_seq,P₂_seq,…,P_k_seq}(其中k远小于整个语料库的大小)。其中至少有一个候选者具备预期的质量特征。适当选择较小数量的最佳候选者有助于提高后续处理效率的同时维持较高的信息召回水平。总体而言在真实世界环境下处理包含数十万篇文档的大规模语料库仍需采用高效的处理策略。

2.2 多级密集检索

模型 基于多级检索问题所具有的序列特性和排列规律,该系统采用迭代的方法来处理这一问题。我们通过以下途径来建模选择某一段落序列的概率:

在这里插入图片描述

当t值为1时,在检索过程中仅依赖原始问题数据。
在每一次检索过程中,则会先基于之前的结果生成新的查询表征,
随后通过最大内积技术对这些表征进行处理,
最终完成整个文献密集表示上的搜索任务。

在这里插入图片描述

在内积运算中,在这里⟨·, ·⟩表示查询向量与段落向量之间的点积计算。其中h(·)和g(·)分别代表生成密集表示的段落编码器和查询编码器。为了改进查询表示以考虑在时间步t之前检索到的结果信息,在每一步的检索操作中只需将问题与检索到的相关段落进行整合处理即可实现目标。值得注意的是,在现有的单步密集检索方法(Lee等,2019;Guu等, 2020;Karpukhin等, 2020)的基础上我们进行了一定的优化改进:具体而言,在每一步的检索操作中均基于前一次检索结果的基础上增加了查询语义重写的环节。值得注意的是我们没有采用双编码器结构而是采用了共享RoBERTa-base(Liu等人, 2019)编码器来进行查询与段落参数化编码器的设计方案。在第3.1.3节中我们将详细阐述这一简单的改进措施所带来的显著性能提升效果:具体而言通过应用层归一化处理RoBERTa模型中的起始标记表示形式最终得到了更为紧凑的密集型查询与段落向量。

该检索系统采用与Karpukhin等(2020)相同的研究方法进行模型训练。具体而言,在每个问题处理过程中,将包含问题陈述和之前检索到的段落的内容作为输入项与一个正向参考段落以及m个负向参考段落配对。这些配对用于近似计算所有候选段落的softmax函数值。其中正向参考段落对应于t步时的高质量标注样本;而负面参考段落在同一批次中来源于其他问题处理结果以及对抗性错误样本的组合。在实验过程中,默认情况下我们从TF-IDF算法筛选出相关段落,并从其维基百科链接页面中提取硬负样本用于训练数据集构建。值得注意的是,在这种数据预处理方法下引入超链接页面作为额外的负面样本并非必要且对其性能影响微乎其微(第3.1.3节)。为了进一步提升检索效率,在每个问题处理过程中我们还引入了一个记忆库存储机制(Wu等人, 2018)。该机制能够有效存储大量密集表示向量以供后续使用。由于在内存限制下该机制的设计特性能够有效限制梯度反向传播所带来的内存占用增长(|M|远大于批量大小),因此即使在GPU资源有限的情况下也能稳定运行良好。(第3.1.3节)在此基础上我们通过共享编码器架构实现模型训练过程并收敛后固定其中一个编码器副本作为新的负样本生成器以补充原有的负样本库内容。这一简单的技术改进显著提升了系统整体检索性能表现

在推断过程中,在生成候选答案时使用束搜索算法。对于每个问题,在生成候选答案时使用束搜索算法。其中,在每一步中,候选答案由MIPS模型在第t步通过查询编码器生成。其得分为基于内积和的概率计算方法所确定。这种推断过程仅基于密集型段落索引和查询表示方法进行操作而不涉及超链接构建或其他实体链接相关操作。然后,在生成候选答案后会将前k个序列输入到特定任务模块中进行处理与输出生成。

3 实验部分

在本研究中进行实验的主要两个数据集是 HotpotQA 和 Multi-evidence FEVER。其中 HotpotQA 数据集(引用)包含了 113,000 个复杂跳跃查询,并与现有同类多轮问答基准测试中不同的是其答案信息来源基于维基百科而非知识库存储系统。值得注意的是,在现有同类多轮问答基准测试中** HotpotQA 的设计特性使其能够覆盖更广泛的主题领域**因为每个问题都附有事实支撑段落从而帮助我们评估中间阶段的信息检索性能而 Multi-evidence FEVER 数据集则包含 2万条基于 FEVER 数据库的事实核实声明这些声明均需通过多个文档进行验证以确保其可靠性和准确性

所有实验均在配备8张32GB V100显卡的高性能计算设备上运行。我们所使用的代码库基于Huggingface Transformers框架(Wolf等人于2019年提出)。通过FAISS库中的精确内积搜索索引(IndexFlatIP),Johnson等人开发出了一种高效的检索方案。每个数据集假设最多有两个跳跃节点,在本研究中我们统一设置n=2作为实验参数。为了简化处理过程,在HotpotQA数据集缺乏具体段落顺序信息的情况下,默认将包含答案段落的部分特别标记为末尾段落。在第3.1.3节中我们将详细探讨段落顺序对高效检索模型训练的重要性。完整的超参数设置可以在附录B.1中找到详细说明

3.1 实验:检索

为了全面评估我们的多跳密集检索器(MDR),我们选择了两种不同的应用场景:直接评估重新排序。其中前者直接依据MDR的评分输出前k项结果;而后者则采用专门的任务重排模型处理****MDR的原始排序结果。

3.1.1 直接

在对多种检索方法的对比分析中,我们将MDR与现有的几种典型检索技术进行了系统性评估,这些方法均能够从大规模语料库中提取出排名靠前的段落序列,包括传统的TF-IDF算法、TF-IDF结合超链接(TF-IDF+Linked)的方法、DrKIT密集检索模型以及基于实体链接的技术.其中,TF-IDF作为一种标准化的信息检索基础方法具有重要的参考价值;而TF-IDF+Linked作为其直接延伸版本,通过从传统的TF-IDF结果中提取超链接段落并对这些结果进行BM25加权排序来提升检索精度.DrKIT(Dhingra等人,2020年)作为一种最新的密集型检索算法,通过构建实体级别的密集索引来实现高效的文本检索;该算法主要依赖于超链接信息来辅助实体提及提取,并采用二进制掩码机制来限制搜索范围.此外,在Fever基准测试体系中,我们还引入了一个基于事实核实的事实链接基准(Hanselowski等人,2018年)。该基准首先利用句法解析器提取潜在的事实陈述中的实体提及信息;随后通过MediaWiki API接口定位到与这些实体相关联的具体文档资源

表格1详细列出了各检索方法的表现数据,并对其进行了对比分析。具体而言,在HotpotQA的数据集中, 采用前k段作为主要评估指标; 而在FEVER数据集上, 则采用了精确度、召回率以及F1值作为综合评价指标, 以确保结果的一致性。针对这两个数据集分别进行了深入分析后发现, MDR的表现显著优于所有其他基准方法

在这里插入图片描述

表1:在k个检索的段落中召回率的表现以及精确度/召回率/F1。

3.1.2重新排序

使用高效率的方法对返回文档进行复杂模型重组是一种普遍采用的方式

表2展示了重新排序后的结果。与Asai等人(2020)的研究相似,在评估指标方面我们采用了答案召回率和支持段落精确匹配(SP EM)。即使未进行重新排序处理,MDR的表现依然超越了传统的语义检索方法。每个编码过程都涉及将问题与段落对进行交叉注意力计算。通过重新排列密集检索器输出的前100个序列,在段落召回率方面我们超越了采用BERT处理超过500个段落的最先进的图循环检索器。FEVER系统通常直接从搜索结果中选取最相关的句子作为证据,并未涉及文档再排序的过程。

在这里插入图片描述

表2:HotpotQA重新排序检索结果(用于最终答案预测的输入段落)。

3.1.3 分析

为了深入分析MDR的优缺点,在HotpotQA开发版本上进行了进一步的研究。

检索错误分析 HotpotQA方法包含两类典型的问题类型:跨越性问题(即缺少一个中间实体节点),其在回答之前需要检索该中间节点;以及比较性问题(即同时提及两个相关实体并进行比较分析)。如图2所示,在这两种典型问题类型下的检索性能表现存在显著差异。案例研究表明,在这种情况下完成任务较为容易的情形主要是由于其涉及的两个实体信息均直接出现在提问语境中

在这里插入图片描述

图2对比了问题与桥接问题在检索性能上的差异。左图展示了未经重排的真实通道序列在回波过程中的表现;右图则呈现了经重排后链式精确匹配中前1位的结果。

这一案例似乎已基本得到了解决,并且基于最新研究数据,在实体链接任务中表现出显著成效(Wu等، 2019)。

针对桥梁相关的问题,在重新排序后抽取样本分析了50个错误示例。研究结果表明,在一半的情况下(详见附录A.1中的具体案例),我们的检索模型成功生成了与原序列同样有效的替代段落。这一研究结果表明,在抽取样本中发现约90%的比例达到了准确度较高的目标。剩余部分未能达到预期效果的原因在于密集型检索方法难以捕捉到段落与提问之间的精确n-gram匹配关系。由于这一现象并非特殊情况(Lee等, 2019; Karpukhin等, 2020),在处理具有高度词汇重叠的问题时(Lee等, 2019; Karpukhin等, 2020),密集型检索方法会遇到这类问题。为此建议采用一种混合多跳检索策略,并结合术语索引与密集索引以提升跨桥接问题的表现。

检索器切除研究 在表3中,我们对模型在HotpotQA上的不同变体进行了分析,以探讨每个提出组件的有效性。结果表明,通过进一步训练内存模块能够带来微小的进步。值得注意的是,在提升性能方面共享编码器起着关键作用。段落顺序的尊重对模型性能至关重要 - 采用无序方式几乎无法获得理想效果。此外,在负样本选择上仅使用非超链接段落的变化对其性能影响较小。

在这里插入图片描述

表3验证了基于HotpotQA平台的检索器模型删除实验。该单跳行为等价于DPR方法(Karpukhin等人, 2020)。

问题分解用于检索 由于多跳问题比简单问题更具复杂性, 近期研究(包括Min团队等, 2019; Perez团队等, 2020)表明显式问题分解有助于简化复杂的问题结构。Wolfson团队等(2020)进一步发现, 利用分解的问题可提高检索效果。我们在采用更为先进的单跳密集检索模型(如Karpukhin团队等, 2020年)时, 结论是否依然成立这一假设下展开了研究。基于Wolfson等人的QDMR数据集(2020年),我们采用了人工标注的问题分解方法进行分析。对于类似于"Mick Carter是哪个公共房屋的房东"这类查询, 我们将其拆分为两个子问题: SubQ1:"Mick Carter是哪个公共房屋的房东?" 和SubQ2:"第一个问题的答案(The Queen Victoria)位于哪个地址?" 在这一过程中, 我们采样了100个过渡性查询, 并将SubQ2中的#1替换为正确答案"The Queen Victoria"。这种方法的优势在于能够忽略中间环节的错误累积影响。为了评估潜在的分解方法性能, 我们采用了Karpukhin团队等提出的最新单跳密集检索模型。

如表4所示,在显式问题分解方面并未观察到显著改进现象;这一发现与Wolfson等人的研究表明相反。进一步分析显示,在分解检索策略中更换第一跳(即子问题1)为原始问题时,并未出现性能退化情况;这表明强大的预训练编码器具备有效提取关键信息的能力。针对显式组合可能导致性能下降的现象,则推测这些信息可能在其他检索阶段发挥辅助作用。详细讨论可参考附录A.2部分

在这里插入图片描述

表4呈现了与采用Oracle方法进行问题分解结合密集检索策略的对比实验结果(基于100个连接问题进行了测试)。关于实验中所采用的问题分解设置的具体细节,请参阅全文相关内容。

3.2 实验:HOTPOTQA

在本节中考察了MDR在多轮问题回答方面的优势。由于我们的检索系统不关注下游模型的需求,在实验中我们采用了两类不同的答案预测架构:一类是基于预训练Masked语言模型(包括BERT(Devlin等人2019)、ELECTRA(Clark等人2020)),另一类是基于预训练seq2seq架构(包括BART Lewis等人2020a、T5 Raffel等人2019)。值得注意的是与复杂的图推理模型(Fang等人2019;Zhao等人2020)相比上述两种架构不依赖超链接因此能够适用于任意文本。
对于读者模型而言其主要功能是从问题与文章序列的连接[q p1 … pn]来推断答案区间。在此基础上我们构建了一个双头预测架构用于同时预测答案区间的起始与结束位置此外我们还在每个输入句子头部增加了另一个双头预测模块以辅助识别支持句并输出一个二元标签指示该句是否为支持句为了简化过程相同的编码器系统负责对前k个段落进行重新排列关于这一过程的具体实现已在第3.1.2节进行了详细阐述。
其中表现最优的是基于ELECTRA Clark等人(2020)的设计它在标准SQuAD Rajpurkar等人(2018)基准测试中实现了单模型最佳性能此外我们还评估了采用全词遮盖策略下BERT-wwm(BERT-wwm)的表现以确保实验结果与Asai等人(2020)的研究保持一致

生成式 模型(如RAG(Lewis等人于2020b)和FiD(Izacard与Grave于2020)),是基于预训练语言模型构建的序列到序列模型框架。这些方法通过将预训练语言模型与问题及检索到的相关文档结合输入,并利用答案标记进行微调训练。在相关领域取得了显著成果。具体而言,FiD体系首先采用独立的T5编码器处理每个检索到的信息片段,并通过解码器基于所有输入标记的信息执行注意力机制的应用以生成最终回答。而RAG则以较小型BART架构为基础设计,在完成seq2seq模型微调的同时还实现了对密集检索机制中问题编码器的技术优化以提升整体性能。我们进行了相应的技术改进,支持多级跳跃式的检索策略。

关于这两种读者模型的更多细节,请参阅附录B.2。

3.2.1 结果

在现有系统中进行对比分析

在这里插入图片描述

表5:HotpotQA-fullwiki测试结果。

实验结果见表6。当段落数量充足时,在性能上落后约1-2%于ELECTRA阅读器的表现。然而,在Asai等人的研究基础上(该研究同样采用了BERT-wwm方法进行答案预测),其性能表现仍然优于相关工作。值得注意的是,在单跳数据集(如NaturalQuestions)上进行实验发现,在仅获取前50个段落信息的情况下(与提取模型相比),RAG方法并未显示出明显优势;而当扩展至前100个段落时,在该基准数据集上的表现却超越了类似的方法。进一步地,在使用相同文本片段数量的前提下(即前50个片段),FiD方法的表现并未超过ELECTRA阅读器;但这一差距在自然问题基准测试中有所缩小——具体而言,在NaturalQuestions数据集上的实验表明,在获取前100个片段信息的情况下,FiD方法较其他提取类阅读器提升了4分左右的表现水平。基于此假设,在单跳问题中性能提升的原因可能与模型容量有关:较大的预训练模型能够更加高效地存储与现实世界实体相关的单跳知识事实;而相比之下,多跳问题由于涉及复杂的关系网络以及潜在缺失实体的情况,则会显著增加推理难度——这种现象可能源于多轮对话中的证据分布较为分散的特点

在这里插入图片描述

表6:在HotpotQA开发集上的读者比较。

推断效率 为了在效率方面与现有的多轮问答系统进行比较, 我们采用了Dhingra等人(2020)的方法, 即采用16个CPU核心以及批处理大小为1的方式来衡量推理时间. 我们的系统实现了高效的近似最近邻搜索方法, 即HNSW算法(Malkov & Yashunin, 2018), 其性能几乎不逊于精确搜索. 对于内存索引部分, 我们发现检索时间相较于大型预训练模型的前向传递可忽略不计. 类似地, 对于基于术语索引的系统而言, BERT对段落重新排序的需求成为了主要的效率瓶颈. 因此, 在缺乏端到端代码支持的情况下, 我们根据BERT交叉注意力前向传递的数量来估算运行时间(这与Dhingra等人(2020)所采用的方法相同), 并省略了额外处理带来的开销(例如TF-IDF或链接图构建). 如图3所示, 我们的方案相比现有最先进的系统快约10倍, 同时维持了相近的表现水平. 相较于两个高效方案(DrKIT和GoldEn), 我们的实现仅依赖于单个检索结果来进行预测, 这种简化策略较之前的工作提升了超过10%的整体性能.

3.3 实验:多证据发热

在处理FEVER索赔验证任务时,我们采用了主流开源方案——KGAT(刘等人, 2020)来对比现有检索方法的优势。具体结果体现在表7中的'验证标签准确度'指标及FEVERscore评估中。这些基线模型均基于实体链接完成文档检索过程,并通过重新排序检索到的句子段落顺序,在完全连接的句子图上应用不同形式的图注意力机制进行验证标签预测。值得注意的是,在先前研究中多证据子集实例通常仅依赖于同一文档内的多个证据句子;为此我们还针对需要来自不同文档的严格多跳子集进行了实验测试。实验结果显示,在不微调下游模块的情况下仅替换检索组件即可显著提升性能表现,在严格多证据子集测试中表现尤为突出。

在这里插入图片描述

表7:多证据FEVER事实核实结果。Loose-Multi被定义为多个证据句子集合的一个子类。Strict-Multi则是Loose-Multi的一个细分类别,在其定义下需要来自不同来源文档的独立证据句子。

4 相关工作

密集检索的开放领域问答(Open-domain QA with Dense Retrieval) 与广泛应用于现有开放领域问答系统(陈等人, 2017;王等人, 2018;杨等人, 2019)相比,在稀疏词索引信息检索方法中通常采用密集段落检索技术(李等人, 2019;Guu等人, 2020;Karpukhin等人, 2020)。这些技术不仅捕捉到了超越简单N-gram重叠的语义匹配效果更为显著。为了生成强大的密集问题和段落表示方法要么通过自我监督任务进行大规模预训练这些任务类似于检索中的问题-段落匹配关系要么直接使用人类标注的问题-段落对来微调预训练掩码语言模型。在单跳信息寻求型问答数据集(如NaturalQuestions(Kwiatkowski等人, 2019)或WebQuestions(Berant等人, 2013))中这些密集方法相较于传统的IR方法表现出了明显的提升效果。在基于预训练模型的方法出现之前Das等人(2019)通过RNN编码器为问题与段落获取了密集表示并设计了一个迭代检索过程基于阅读器模型的隐藏状态重构了查询表示然而这种方法需要一个初始的TF-IDF/BM25检索阶段以及一个复杂的基于RL的学习范式才能充分发挥其优势并且仅考虑了单跳数据集的情况。相比之下我们提出的方法更倾向于采用一种更为简洁有效的查询改革策略即仅将原始查询与之前的检索结果作为查询编码器的输入进行融合在此基础上结合更强力的预训练编码器以及更有效的训练策略(包括批量+内存库负采样与二元排序损失)MDR能够使系统的准确度提升一倍左右

由于我们的密集编码器通过融合原始问题与初始检索结果生成更新后的查询表示, 我们的工作实质上也涉及到了一种新型的扩展机制.该机制参考了Rocchio等人的早期工作[1][2], 并结合了近年来IR领域的研究进展[3].特别值得注意的是, 我们的系统在方法论上具有显著特色, 它在一定程度上借鉴了伪相关反馈技术的核心思想[4][5][6], 避免了传统方法中对人工干预的需求.现有文献表明, 大多数研究致力于通过动态补充关键术语来降低用户query的模糊性[7], 同时保持迭代过程中检索目标的一致性.相比之下, 我们的创新之处在于构建了一个更具自主性的改进框架: 在多步骤推理过程中, 系统会自动识别并追踪多个独立的目标; 同时, 我们并未预先设定特定领域术语序列作为query扩展策略; 相反, 是采用了一种更加灵活的信息聚合方式: 即将所有检索结果段落有机衔接成一个连贯的整体结构; 最终利用预训练语言模型从最终阶段获取到的相关内容中提取核心信息片段.

除了现有的基于知识图谱的多步问答系统(如HotpotQA)之外,在知识库领域还存在多种其他多跳问答数据集(包括Welbl等人、Talmor和Berant等的研究团队在2018年发表的工作;以及Zhang等人在2018年的研究)。与现有的基于知识图谱的多步问答系统(如HotpotQA)中的问题相比,在现有基于知识库的知识图谱构建的数据集中所提出的问题较为合成化且多样性较低。由于在知识库中存在多个相关实体之间复杂的关联性,在处理一个多步骤的问题时,通常会涉及到多个相关实体之间的关系。因此这类数据集并未设计用于开放领域设置的功能;相反该功能需要依赖于多跳检索技术来实现现有方法在这些数据集上的性能表现主要体现在两个方面:其一是从特定领域的小型段落池中进行检索操作;其二是专注于非检索设置即已知一个紧凑文档集合的情况下进行查询操作。(Sun等人、Dhingra等人等的研究均遵循这一思路)相比之下我们的工作聚焦于构建一个高效的多跳检索模型该模型不仅能够轻松扩展到包含数百万文档的真实世界语料库而且能够实现对开放领域问题的有效理解和解答能力

5 结论

在本研究中,在成功密集检索方法的基础上提出了一种多跳设置的应用方案,并将其进行了推广。这一改进方案较现有最佳方案在处理复杂多跳查询时展现出更高的准确率和效率。通过将该方法应用于两个不同领域的问题并结合多种辅助模块,在实验结果中展示了该技术体系的优势。值得注意的是,在本研究中所设计的框架因其简洁性以及无需依赖特定语料库图形结构的特点,在多个应用场景下实现了更好的适用性和灵活性。

A 定性分析

A.1 错误的桥梁问题错误案例

参照第3.1.3节的讨论可知,并非所有桥接问题的一半错误都具有实质意义。在表8中列出了模型预测出的能够有效补充现有内容的替代段落序列

在这里插入图片描述

表格8:我们的模型在预测过程中出现了错误情况,并且其中还包括了正确的段落顺序。关键线索被标注为蓝色以突出显示。

A.2 问题分解分析中的示例

在这里插入图片描述

表9展示了分解系统产生的采样检索错误,并以红色标记突出显示。当模型能够访问原始问题中的完整信息或前一次操作结果时,则这些错误有可能被避免。关键线索通过蓝色标记来突出显示。经过分解后,在后续的一个分解阶段中将不再保留相关信息。

A.3 抽取式与生成式阅读器模型

表6详细列出了四种不同阅读器模型的答案预测性能。提取性模型基于来自hop1和hop2段落对筛选出的前250个检索结果来预测答案。生成式模型计算复杂度较高,在实验中限制了每轮仅使用较少的段落数量。在此基础上,我们推测多跳RAG相较于FiD展现出较差性能的部分主要源于RAG所采用预训练模型规模较小。此外,在查询编码器上进行梯度反向传播这一过程会导致较大的内存占用,并且限制了可检索上下文的数量。值得注意的是,在相同的上下文和阅读模型大小前提下,多跳RAG的表现仍逊于提取式的ELECTRA架构(即仅依赖于top-1检索结果)。该ELECTRA架构在仅使用顶部1个检索段落序列时实现了53.8%的准确率,在引入更多上下文后却下降至51.2%的回答准确率

基于表10中的前50个检索结果可以看出,在生成模型中,并非所有任务都能完美匹配输入内容。值得注意的是,在性能方面两者表现相近的研究结果表明,在大多数情况下并未体现出明显的性能提升优势。通过深入分析HotpotQA数据集中的不同问题类型其主要区别体现在针对比较型问题的任务处理上而针对连接型查询的问题处理上,则略显优势。这些结果可能暗示着,在处理数值比较这类任务时

在这里插入图片描述

表10:使用前50个检索到的段落链回答EM(Entity Match)

B 模型细节

B.1 最佳模型超参数

在这里插入图片描述

表11:检索器的超参数

在这里插入图片描述

表12:抽取式阅读器(ELECTRA)的超参数

B.2 关于阅读器模型的更多细节

B.2.1 抽取式阅读器

提取式阅读系统通过四个损失函数进行模型训练。为了实现对支撑段落关系的有效捕捉,在每个样本的表示上预测一个答案起始位置评分以及对应的结束位置评分。随后我们采用特殊的[unused0]标记预处理每个输入句子并判断其是否为支持句。在训练阶段我们将每个问题与包含真实段落序列以及五个不含答案的反向段落序列建立一一对应关系以增强模型鲁棒性。当进行推理时我们从预处理得到的MDR中选取前250个最相关的段落序列作为候选输入并结合线性组合重新排序分数对这些候选序列的答案跨度进行排序组合权重则基于实验结果进行了最优配置以平衡准确性与计算效率之间的关系

B.2.2 解码器中的融合

该方法以T5-large为架构构建了一个基于序列转序列的深度学习模型。相比而言,在参数规模上是提取性模型的大两倍。参考Izacard & Grave(2020)的研究成果进行超参数设置。我们在自然问题数据集上采用了前100个段落作为训练基础。针对本研究的情景设计,在实验过程中选取了前50个检索到的关键片段,并在此基础上构建完整的上下文连接机制。通过PyTorch的数据平行ism技术实现多卡并行训练以提升训练效率

B.2.3 多跳RAG模型

RAG模型旨在通过问题x及其检索到的文档z来生成答案y。同样地,在多跳RAG模型中,则表示为:给定问题x以及第一跳和第二跳的检索文档z₁和z₂(仅限两跳且针对HotpotQA)。该系统由三个关键组件构成:
• 一级检索器pη₁(z₁|x)带参数η₁用于表示输入问题x下前k篇段落的概率分布(即前k个截断分布)。
• 二级检索器pη₂(z₂|x,z₁)带参数η₂用于表示在输入问题x及一级检索结果z₁的基础上进行的后续搜索结果的概率分布(即前k个截断分布)。
• 生成器pθ(yi|x,z₁,z₂,,y1:i−1)则用于基于输入问题x、一级与二级检索结果以及之前预测的yi-1序列来预测下一个序列元素yi的概率分布(其中参数化为θ)。

多跳RAG序列模型 与RAG系列模型一致,在基于固定两跳检索器的文档集中生成答案系列。为了获取生成系列的概率值,我们通过计算两个相关联的两跳检索器隐含变元的积分来实现这一目标:

在这里插入图片描述

在此,z1和z2是来自各自检索模块的前k篇文档。

多跳RAG的token级别模型 此外还可以通过每个token位置识别出多种来源的上下文信息来进行预测。

在这里插入图片描述

每个标记的预测概率如下。

在这里插入图片描述

C 无需检索的方法

基于最近的研究成果(Roberts等人, 2020),该研究采用T5系列模型直接从问题中生成答案(无需检索)。在HotpotQA平台上进行实验时发现,在多跳问答任务上,基于检索的方法与无需检索的方法之间显著的性能差异要大于单跳问题的情况。

在这里插入图片描述

图4:在不同问答数据集上,无检索方法与基于检索方法之间的性能差距。

D 一个统一的问答检索系统

在实际应用中,在固定大小的语料库里,在不知道未来所需查询结果数量的情况下(Asai等人, 2020),开发自适应多阶段检索系统的潜力至关重要。鉴于此方法相对简单,在统一框架中实现该方法易于扩展至统一框架中。The study by Asai et al., 2020, demonstrates the potential of adaptive multi-step retrieval systems in fixed-size corpora, though their approach relies on separately trained models for different query types. Here, we further explore the feasibility of employing a single retrieval model to handle both single and multi-hop queries effectively.

在问题编码器顶部增加了二元预测头以实现自适应检索系统

在这里插入图片描述

表13对比分析了统一检索模型与各自专注于特定任务的专门模型。通过综合摘要数据库这一单一来源的检索性能测试,在NLP问答系统(NQ)上进行了评估比较。为了便于对比分析,这三种模型均采用了BERT-base编码器架构,并经评估发现该统一模型在NQ系统上的表现比RoBERTa-base架构更优(AR@_K值表示从前K个被检索到的段落序列中获得正确答案的比例)。

全部评论 (0)

还没有任何评论哟~