[论文阅读]Retrieve What You Need: A Mutual Learning Framework for Open-domain Question Answering
Extract and Organize Relevant Information: A Mutual Learning-Based Knowledge Integration System Aimed at Handling Open-Domain Query Answering Tasks
该研究提出了一种名为"Mutual Learning-Based Framework"的互惠学习框架...以实现信息检索所需内容的有效性与精确性相结合的目标...其中...通过构建基于互惠学习的知识图谱来提升系统性能...该框架通过动态平衡检索所需信息与知识图谱更新之间的关系来实现这一目标。
TACL2024
摘要
开放域问答(QA)系统通常遵循"搜索-理解"模式,在这一过程中搜索模块负责从大规模语料库中提取相关段落 ,随后理解模块基于检索到的内容与原始问题生成答案 。本文中我们提出了一种简洁创新的"互学框架"设计,在该框架中通过一个中间组件——信息筛选模块来提升"搜索-理解"类模型的效果表现。具体而言该组件采用基于强化学习的方法实现了训练过程我们所提出的中间组件具有以下几项显著优势:第一无需额外标注问题-段落配对关系;第二相较于现有的竞争性"搜索-理解"类模型在回答准确率与响应速度等方面均有明显提升;第三无需微调操作即可将相关知识融入输入数据从而有效增强大型预训练语言模型(如ChatGPT)在零样本场景下的推理能力
计算资源消耗高,系统在处理大量数据时,需消耗大量计算资源,影响效率。
现有问答系统严重依赖大规模标注数据,在时间和人力以及财力等多个维度上投入较大。此外,在专业领域方面的数据集而言,则需要专业的标注人员来进行标注工作这一限制使得其实用性受到制约
为了更好地解决当前存在的问题,作者针对这些问题提出了一种方法,在不降低模型性能的前提下通过这种方法能够减少所需的支持段落数量,并对该方法进行了初步测试。
初始阶段的基础实验旨在考察在TQA数据集上不同选择策略的效果。研究者采用了TQA数据集,并将检索器设置为DPR结构的同时,默认使用基于T5模型构建的Fusion-in-Decoder架构作为生成模型。研究结果表明,在应用DPR检索器筛选出的100个段落中获得65.0分的EM值,在随机选取10个段落时也达到了53.3分的EM值。值得注意的是,在这一过程中还尝试引入了更为先进的Contriever检索器进行测试。然而研究发现,在这种情况下筛选出的10个段落与基于DPR筛选出的100个段落所展现的效果几乎相同因此可以得出结论即在生成内容质量上数量因素的重要性较之于数量因素的影响要小得多
组织了三名学生志愿者参与评估任务,并对每个问题所需段落数进行了估算。经过详细分析后得出的结果表明,在每一个问题中平均约需7.5个段落即可完成回答。从而推断,在之前检索器所检索到的大部分类别内容可能存在显著冗余
这两个初步的结果与作者所预期的一致;也就是说,在研究过程中应优先选择那些相关但比例较低的支持段落,并非要向读者提供过量的段落内容

图 1展示了我们提出的一种互学习架构方案。在整个训练过程中,在第一个学习阶段中(Phase 1),阅读器模型的参数保持固定状态,并且仅更新知识选择器的学习参数。相比之下,在第二个学习阶段中(Phase 2),阅读器模型的学习参数进行了优化调整,并且其相关权重不再变化。
开发了一种新型互学习架构, 以提升检索结果质量及阅读系统效能为目标。研究团队的核心创新点在于设计并实现了"知识筛选器"组件, 这一关键模块作为连接检索系统与读取者组件的中间件角色, 其主要职责是优化系统对精选段落集合的选择效率。随后, 我们将这一体系结构建模为强化学习训练目标, 并在此基础上展开进一步研究
方法
针对问题qi, 检索系统会从大规模知识库中抽取指定数量的段落Di. 接着, 信息精简模块会从这些段落中提取出精简后的段落集合pi, 其中pi是Di的一个子集(pi⊆Di). 最后, 信息整合与分析模块会将这些精简后的段落与原始问题qi进行整合并分析, 从而生成最终的答案.
对于检索器而言,在大量研究中已经证明了DPR方法(Karpukhin等, 2020a)比基于稀疏表示的方法更为有效。在阅读器模块中采用了Fusion-in-Decoder模型(FiD, 2020),该架构基于预训练模型如T5和BART进行了初始化
作者采用交替策略进行两个阶段的系统训练,并分别训练了知识选择模块和阅读器
在第一阶段中(第1轮),支持段落选择者被建模为一个具有上下文信息的多臂老虎机问题,并通过策略梯度算法优化支持段落选择者使其能够学习最优的支持段落组合。其目标是使经过该过程后的预测奖励最大化,在此期间阅读器的参数不发生变化。
在第二阶段(阶段2),我们固定了知识选择器的权重,并通过监督学习手段对阅读器进行了训练;其训练数据由问题和知识选择器所选中的K个段落构成。
1.知识选择器代理
将其建模为一个基于上下文的多臂赌博机问题,并通过采用策略梯度方法训练出一种知识选择器
多臂老虎机游戏问题亦称Multi-Armed Bandit模型,则可将其视为一组各具不同赢率的赌博机,在有限次数内寻求最优的策略以最大化收益。
在现代问答系统中, 提升运行效率的关键在于优化知识选择器的功能, 它需要能够智能筛选出与查询相关的文本片段. 将每个文本片段类比于一个决策臂, 通过合理配对相关片段组合来优化回答质量.
策略梯度方法 通过对策的优化来直接调整模型在某状态下采取特定行动的概率。这种方法的核心理念在于利用梯度信息来最大化预期奖励。
作者采用基于策略梯度的方法改进了知识选择器的选择机制,在此基础上使其能够通过阅读器提供的反馈信息自动调节自身的段落筛选过程。进而使得知识选择器在接收到问题(上下文)时依据策略概率自动选出最可能包含正确答案的段落集合。

如果预测的结果正确,则优化策略以提高所选段落被选中的几率;当预测结果不正确时,则降低该段落被选中的几率
从直观上看,在预测答案正确的情况下,我们通过调整策略从而使所选段落被优先采样;当预测答案不正确时,则会降低这些相关段落被采样的概率。
2.基于FiD的阅读器

采用FiD方法,在该框架中将问题与选定的各个段落配对形成多个'问题-段落'配对。这些配对依次被编码器独立地处理,并最终为每个段落生成一个隐藏表示
以跨段落融合为特点的是FiD体系的核心。各个段落经过编码后,在解码器中进行融合运算以生成一个全局表示向量。通过多头自注意力机制实现跨段信息交互的同时完成特征提取与语义聚合功能。该机制使FiD具备从多个上下文片段提取关键信息的能力,并能基于这些信息生成符合整体语境的答案。
答案生成:基于跨段落表示机制,在该文献中采用自回归机制逐步推导最终答案。FiD阅读器通过互学习框架与知识选择器相互训练以优化性能,并显著提升了回答的准确性。
总结

实际上这就是把强化学习框架迁移到这个领域上来,强化学习框架就是两个需要训练的东西互相学习内容。每一个epoch就是一次轮转。首先初始时知识选择器的参数是随机生成的,因此选择出来的结果可能有正样本有负样本,基于这些检索的结果,阅读器进行一个作答,如果得到的答案和预期一致,则给予奖励;如果不一致,不给奖励。通过计算梯度的方式来对知识选择器的参数进行更新,使得每一轮之后知识选择器都更加优秀;至于阅读器的训练,则是基于知识选择器的结果进行生成,也是和参考答案进行比较后计算梯度,使用梯度来更新参数。
