PokeMQA: Programmable knowledge editing for Multi-hop Question Answering翻译笔记(PokeMQA:可编程知识编辑的多跳问题回答)
文章目录
- 论文标题:PokeMQA:可编程知识编辑的多跳问题回答系统
-
摘要
-
1 简介
-
2 在知识编辑框架下的多跳问题回答机制
-
3 多跳问答记忆中的可编程编辑系统
- 3.1 PokeMQA的工作流程设计
- 3.2 可编程范围检测器优化方案
- 3.3 知识提示生成机制构建
-
4 实验设置
-
- 4.1 评估指标
- 4.2 基线方法和语言模型
- 4.3 实现细节
-
5 性能分析
-
- 5.1 主要结果
- 5.2 拆分研究
-
*6 相关工作
*7 结论
*限制
*A 提示与补充结果用于 PokeMQA
*B 关于训练数据集构建的详细信息
*C 多轮问题回答数据集统计
*D .D 关于Scope Detector微调的详细信息。
*E 基线实现的具体细节
*F 两阶段编辑的事实检索
*G 许可协议
*H 实验的具体细节
*I 快速推理

论文标题:PokeMQA:可编程知识编辑的多跳问题回答
论文链接:https://arxiv.org/abs/2312.15194
arXiv:2312.15194v2 [cs.CL] 15 Feb 2024
摘要
评估机器理解和推理能力的具有挑战性的任务之一是多跳问答(MQA)。其中大型语言模型(LLM)已广泛达到与人类相当的性能。鉴于现实世界中知识事实的动态特性,人们已经开始探索在避免昂贵的重新训练或微调的同时,使用知识编辑来更新模型以获取最新的事实。从编辑后的事实开始,更新后的模型需要在MQA链中提供级联变化。以前的艺术品只是采用了一个混合提示来指导LLMs(大型语言模型)顺序执行多个推理任务,包括问题分解、答案生成以及通过与编辑过的事实进行比较而实施冲突检查。然而,这些功能各异的任务之间存在耦合关系,抑制了LLMs在理解并回答问题方面的优势,同时干扰了它们不擅长的任务——冲突检查。因此我们提出了一种框架名为可编程知识编辑的多跳问题回答(PokeMQA)以解耦这些任务
1 简介
MQA需要一系列交互的知识性事实以推导出中间答案Inter Miami。基于事实"梅西效力于Inter Miami"后,随后利用另一条事实"Inter Miami地处北美"来推导最终答案NA。例如,在图1所示的两跳查询中,也需借助其他相关性知识进行推导。该系统面临着巨大的推理挑战(Mavi等人, 2023; Chen等人, 1998; Lan等人, 5月)。(Rao等. , 6月)

图1-1:在知识编辑界面中展示了一个关于多跳问题的回答示例。该示例涵盖了相关的知识事实,并通过三条具体的推理路径展示了如何解决两跳问题。对于不可靠的推理逻辑而言,在这种情况下依赖了一个已过时的事实以及一个虚构的事实,并最终得出了合理的结果——欧洲
然而,在LLMs中存在知识可能有误或随着时间推移失效的情况
在MQA框架下, MeLLo团队提出了一种方法, 旨在引导大型语言模型完成复杂或多步骤的问题推理任务. 特别地, 在分析复杂或多步骤的问题时, 该系统会先将每个子问题生成一个临时回答. 然后系统会比较这些临时回答与之前已编辑的事实信息以识别是否存在逻辑上的不一致. 经过多次对LLMs进行引导后, 该方法最终解决了这些问题.
然而这一结合为LLMs在上下文推理演示中达到精确度提出了较高要求。首先,在处理两个候选事实时,在语义上LLMs需有深刻的理解,并根据它们间的事实兼容性进行冲突检测。当提供有限提示信息时,“知识编辑指令”的引入可能导致对其编纂逻辑的学习存在偏差。“尤其是在处理复杂任务如问题分解时”,这种干预方式可能会引入与预期不符的信息干扰
在此基础上, 我们开发了可编程知识编辑的多跳问题回答系统 (PokeMQA). 在本方案中, 我们将两个关键任务-即问题分解与知识编辑-进行分离, 并引入辅助知识提示来辅助问题分解过程. 具体而言, 我们通过可编程的范围检测器移除了知识编辑中的冲突检测功能, 该检测器用于评估子问题是否受到任何已编辑事实在其语义空间中的影响 (挑战1). 我们设计了一个双阶段范围检测器: 在预检测阶段, 我们能够有效地过滤掉大部分无关性较高的候选; 在冲突消歧阶段, 我们能够在剩余的小规模候选上实施精确检索. 该双阶段框架特别考虑到了大量经过编修的事实信息, 同时兼顾了计算效率与表现力. 检索到的相关编修数据被用来校准大型语言模型 (LLMs) 的行为表现. 此外, 我们还开发了一种增强型的知识提示机制, 旨在提升问题分解环节中的解析分析能力 (挑战2).
此外,在处理多步问题时的回答过程中可能引用过时或不存在的事实依据,并且尽管如此有时仍能获得正确答案。因此将这种情况定义为不可靠的推理过程,并在图1中进行了展示。为了更精确地评估模型在处理逻辑推理方面的能力,我们提出了一种新的度量标准——逐跳回答准确率(Hop-Acc),该指标旨在量化大语言模型是否能够遵循示例、逐步分解问题并生成所需答案的能力程度。
2 在知识编辑下的多跳问题回答
基于先前的研究(Zhong等人,2023;Meng等人،2022a),我们将事实表示为三元组形式(s、r、o),其中包括主体s、客体o及其之间关系r(例如:梅西效力于国际迈阿密队)。我们希望更新的知识事实也被表示为相同形式的编辑过的内容(即:s、r、o),例如:梅西效力于博卡青年队)。一个多跳问题Q的回答过程需依次检索并查询一系列的事实。这些按查询顺序排列的事实将构成一个事实序列⟨(s₁,r₁,o₁),..., (sₙ,rₙ,oₙ)⟩ ,其中每个后续主体sᵢ₊₁等于上一客体oᵢ ,最终答案on唯一地代表了一个实体间路径P=⟨s₁,o₁,...,on⟩ 。
值得注意的是,在路径P中除了起始主体s₁外的所有客体o₁,…on均未在查询Q中出现过 ,它们必须通过显式或隐式推理从图1所示的多跳问题中推断得出(例如:国际迈阿密队属于北美大陆)。如果我们用编辑事件e=(si,r_i,{oi*}) 替换掉无效的事实(si,r_i,Oi) ,由于这种级联效应的存在 ,相应的事实序列将被修改为 ⟨(s₁,r₁,o₁),…,(si,r_i,{oi*}),…,( { sn },rn,{on} ) ⟩ 。
经过更新后的实体间路径定义为P* = ⟨s₁,o₁,…,{o^*_i},…,${o^*_n}⟩;这表明,在接受编辑e的影响后,通往Q最终答案的推理路径发生了变化。
基于多轮问答(MQA)的知识编写机制中
编辑域 。与我们的研究方向一致,在(Mitchell等人, 2022)的基础上我们进行了若干修改。对于一个编辑e = (s, r, o),我们定义了描述(s, r)的单跳问题q,并将其基础答案设定为o。值得注意的是,在特定编辑对应的基础问题是不唯一的,在此以语义等价性区分的一组相关问题是该类别的典型代表(例如,“曲棍球运动诞生于哪个国家?”与“曲棍球运动源自何处?”是两个具有相同语义意义的问题)。我们将这组相关问题统称为该类别的编辑域S(e)。执行后,在进行编辑e = (s, r, o)操作时,S(e)中所有这些问题的答案都将相应地更新为o值。相较于先前的研究工作,在本研究中我们基于原子性问题的单位性来定义编辑域S(e),从而排除了那些通常具有复杂语法规则的问题。这种更为简化的处理方式有助于编程范围检测器能够精准识别并学习S(e)所代表的语义模式特征,并在此基础上实现更加精确的编缉检索机制以调节LLMs的行为模式。
3 多跳问答记忆中的可编程编辑
3.1 PokeMQA的工作流程
如图2所示,PokeMQA是一种轻量化模型编辑器.它能够无缝集成到主流开源大语言模型中无需修改现有模型参数.这一特性赋予了语言模型更强的适应能力使其能够根据修改后的事实进行精准回答.整个流程包含以下两个主要环节:
在内存中存储编辑.当系统接收到一组编辑操作E={e1 … em}时 每个三元组e将被转换为一个自然语言陈述t并将这些陈述存入外部记忆库M={t1 … tm}以便后续查询与检索.
针对多轮推理场景的输入 本系统采用了就地学习策略并通过提供几组输入-标签示例进行指导 系统将按照以下三个任务交替执行:首先 根据当前上下文与推理状态识别出当前推理阶段应关注的核心子问题(即原子问题);其次 检查该子问题是系统已有的知识库内容并生成相应的回答内容;最后 从知识库中提取该子问题的答案实体信息.这些提取出来的问题分解结果或最终答案将作为后续推理的基础继续推动整个系统的运行.

图2展示了我们提出的方法PokeMQA的示意图。该系统通过外部知识库构建提示信息来辅助分解初始问题。随后系统会依次进行后续的问题分解、基于可编程范围检测器的知识编辑以及答案生成步骤来完成多轮对话任务。系统所使用的具体提示信息可在附录一中找到。
另外,在这项研究中提出了一种可编程范围检测器(Range Detector),它将步骤二中的知识编辑任务从大型语言模型(LLMs)中分离出来。前人的研究(Zhong等人, 2023年)在每个子问题上生成试探性 responses,并在 LLMs 中检查这些 responses 和检索到的内容之间的语义差异。在 limited supervision signals 的指导下,在 LLMs 中分析这些模式以识别潜在矛盾是一项具有挑战性的任务。在此研究中所提出的范围检测器以子问题作为输入,并将它确定为预设范围内任何编辑的一个指标值。如果是这样,则会将事实冲突信息反馈给选定的陈述者;否则事实冲突信息为空,则 LLMs 将根据其内部知识生成答案
在此基础上, 为此建议采用知识提示机制来纠正步骤I中出现的问题分解. 在多轮对话场景中的查询请求, 缺少足够的背景信息, 导致识别主要子任务(即第一步分解的目标)可能面临一定的难度. 具体而言, 针对多跳对话中的查询请求, 学习者往往难以提供清晰的问题实体描述及其相关信息, 这些内容对于后续环节能够顺利展开至关重要. 为了优化这一过程, 我们开发了一种创新的知识辅助工具来预处理对话输入. 该工具能够对查询语句进行分类识别, 并从外部数据库中提取相关支撑材料, 最终生成一个结构化的知识提示框架. 接下来, 将此框架与原始查询语句相结合, 形成更加完善的对话启动包, 这一改进有效提升了整体性能
基于开发出了范围检测器和知识提示的PokeMQA能够使语言模型专注于问题分解与回答,并形成可靠的推理路径。具体阐述了所构建的组件
3.2 可编程范围检测器
基于Mitchell等人(2022)的研究成果, 我们采用了可编程范围检测器来进行冲突检测, 并开发出一种专门针对特定任务的训练方案用于识别有效的编辑范围模式
该体系架构形式化地定义了范围检测器g(t, q) : T × Q → [0, 1] ,其中T代表编辑语句空间而Q代表原子问题空间,在此框架下检测器估算给定问题q是否属于编辑语句t的概率(以编辑操作e为基础)。该检测器可被设计为基于现有文本分类技术的方法(Liu et al., 2019;Lu et al., 2020;Zha et al., 2022;Chuang et al., 2023)。基于考虑可解释性和计算效率需求,在我们的框架中我们采用了两个轻量化且互补性的模型方案 ,它们分别命名为gϕ 和 gψ 。对于每一对输入(t, q),我们首先计算出t与q各自的嵌入向量,并利用负平方欧式距离这一度量工具来建模其条件概率分布关系 。接着 ,我们将t与q作为一个整体输入进行序列分类分析 ,从而得到最终的结果。
在我们设计的体系结构中,默认使用了两个关键组件:gϕ充当预检测模块(Mpre),而gψ则负责冲突辨识与处理(Mdis)。将这两个组件整合后构建了一个双阶段的编辑事实检索系统。通过预检测模块(Mpre),我们可以有效去除那些与当前上下文无关或意义相近的潜在编辑操作;而冲突辨识模块(Mdis)则能够精准识别出那些最有可能导致问题出现的关键候选。详细信息请参考附录F。当系统确定输入的问题属于已定义范围内时...
范围检测器模型

在本研究中,在这里我们定义Pn为负样本取样的概率分布,并假设其在整个小批量数据中服从均匀分布。值得注意的是,在这种情况下,Mpre和Mdis分别基于所提出的监督学习框架进行训练。
模型的选择

其中指示函数1(·)用于判断。N代表验证集Dval中的样本数量。运算符Λ表示逻辑与操作。对于目标对(ti, qi),精确检索仅在目标对(ti, qi)的检测概率高于所有其他对(t, qi)时实现。这些对比通过将目标编辑语句ti替换为来自Dval的不同候选值而生成。同时,在探测器模型中使用的编辑语句筛选策略决定了Block Rate指标的表现。

在以下公式中,D^-_{val}等于D_{val}减去{(ti, qi)}]这一定义直观上反映了以下含义:当SR表现出较高的数值时,说明该范围检测器能够更为高效地识别所需编辑语句;而当BR表现出较高的数值时,则意味着其对那些与编辑活动无关但又具有原子性特性的状态转移具有较低的误报率.通过对两个指标进行综合分析,我们最终选择能够在验证集上取得最佳性能的那个检测器(即其SR与BR之和达到最大值).研究表明,在Yao等人的实验结果表明这两个指标能够更好地作为早期终止标准
3.3 知识提示生成器
在问题分解过程中识别关键子问题时,在研究领域中发现存在对现有方法有效性存疑的情况时,在探索新的解决方案以提升性能的过程中,在寻求突破以实现更优结果的过程中,在分析现有技术局限性以优化现有系统的过程中,在寻求创新以提升系统性能的过程中,在探索新方法以解决复杂任务的过程中
维基数据中的知识事实为问题分解提供了宝贵的上下文信息。
这些知识被存储为三元组(s, r, o)的形式。
为了简化处理工作流程,
我们选择保留大量常识性事实用于问题分解。
这些基本成员关系R = [r1, r2]分别代表实例of和子类of两种基本成员关系。
在维基数据中,
每个实体至少具有其中一种成员关系,
这一特性使得这两个基本成员关系能够提供可靠的基础常识性信息。
因此,
对于一个关键实体si,
我们可以随机选择(si, r1, o1)或(si, r2, o2)作为检索依据。
检索完成后,
我们利用预定义模板将关键实体及其相关联的知识整合到问题Q中,
从而增强输入的问题质量。
例如,在图2所示的情况下,
我们识别到了关键实体梅西,
并成功检索到了其对应的知识事实(梅西,实例,人类)。
将这些信息整合后,
最终生成了包含关键实体梅西及其属性的人类相关提示。
4 实验设置
我们完成了对MQUAKE(钟等)在2023年的评估工作,并将其作为知识编辑基准使用。其中包含基于反事实编辑的MQUAKE-CF-3K版本以及带有时间知识更新的MQUAKE-T版本。这些数据集包含了大量的k-hop推理问题(k值限定于2、3、4),每个问题均与一个或多个编辑操作相关联。详细统计信息可在附录C中查阅。
4.1 评估指标
多轮推理准确性 (Zhong等،2023)。该指标评估的是(经过处理后的)语言模型在执行多轮对话任务时的回答质量。
跳跃式答案准确性(Hop-Acc) 。为了消除不可靠推理对结果的影响,我们提出了一种新的指标——Hop-Acc——用于评估MQA系统的性能,并重点关注中间推理路径的正确性。具体而言,在给定一个多轮查询Q的情况下,默认情况下基于问题分解提示的设计是高度结构化的;因此模型能够以清晰且可解析的方式呈现子问题的答案。通过分析推导过程即可提取中介答案链⟨s1, o1, …, on⟩作为推断路径P。我们相信只有当推断路径P与黄金标准路径P*完全一致时才表明模型能够彻底解决这类问题;而这一新指标衡量了多轮推理过程的准确性仅限于基于顺序分解的问题。
4.2 基线方法和语言模型
我们采用四种知识编辑方法作为基准,并涵盖参数更新方法、FT(Zhu等提出于2020年)、ROME(Meng等提出于2022a年)、MEMIT(Meng等提出于2022b年),以及MeLLo这一基于记忆的方法(Zhong等提出于2023年)。详见附录E。当前尚无充分证据显示链式思考提示与问题分解提示中哪一种更为有效。因此,在保证了公平性和全面性的前提下,在使用MeLLo这一代表性的记忆型编辑器之外,并报告了其他参数更新方法在COT与QD提示下的表现数据。
我们对以下三个基础语言模型进行了实验:LLaMa-2-7B 是 Touvron 等人于 2023 年提出的开源预训练大型语言模型... Vicuna-7B 是通过微调 LLaMA 训练而产生的...由 Fastchat 库(Zheng 等人于 2023b 年)实现... GPT-3.5-turbo-instruct 是 GPT-3.5 系列中最强版本的一个变体...用于完成遗留任务
4.3 实现细节
我们采用了DistilBERT(Sanh等,2019)作为基础,并结合预检测器gϕ和冲突消歧器gψ进行模型微调。特别注意的是,在用于微调的数据集Dtrain中,并未包含任何在测试阶段出现过的编辑操作符t。详细说明了相关的微调参数设置内容,请参见附录D。
为了评估不同规模的编辑操作下的系统性能表现,在研究过程中我们采用了分层抽样的方法将数据集按照问题节点访问频率进行分类(Parsons, 2014)。随后通过分层抽样的方法形成具有不同规模的编辑批次组别,并在每组别中同时施加全部待评估的编辑操作(Wang等, 2023)。
需要注意的是,在开源的LLaMa-2-7B模型(LLaMa-\texttt{2}-7\texttt{B}$)上进行与参数更新方法相关的实验研究;而对于基于记忆的编辑方法,则采用了在所有语言模型中进行广泛评估的方式。(关于实验的具体细节,请参阅附录H)
5 性能分析
5.1 主要结果
PokeMQA展现出良好的效果与可靠性 。我们在表1中展示了我们的主要研究结果。结果显示,在几乎所有的测试设置下,PokeMQA均显著优于所有的基准方法.此外,无论是在哪一种测试设置下,PokeMQA均达到了最高水平的Hops准确率,Hops准确率这一指标有力地支持了我们提出的观点,即问题分解与冲突检测之间的耦合给大型语言模型(LLMs)带来了过重的工作负担,从而降低了其推理性能.为了克服不可靠推理所带来的负面影响,PokeMQA不仅有效缓解了相关问题,并且进一步提升了知识编辑型场景下MQA的表现.在实现高Hops准确率的同时,PokeMQA还揭示了其推理过程更加合理的特点,这不仅为模型预测提供了更为可靠的解释机制,还增强了在该场景下LLMs的可解释性.Poker MQ A能够有效地扩展至当前主流的大规模语言模型(如GPT-3.5-turbo-instruct等),并且无需进行额外训练即可应用.

表1:在MQUAKE-CF-3K和MQUAKE-T上的评估结果。最好的结果用粗体标出。术语“k编辑”表示编辑批次的大小为k。 “COT”表示当前方法使用链式思考提示,否则使用问题分解提示;度量标准是多跳准确率(Acc)和跳数回答准确率(Hop-Acc),如第4.1节所述。 “-”表示当前指标不适用于此设置。
MeLLo是一个潜在的替代方案 。关于MeLLo的相关结果表明它无疑是一个强大的竞争对手。在对LLaMa-2-7B的面对面比较中,MeLLo取得了(1/10)最优结果和(7/10)次优结果。令人惊讶的是,MeLLo在两种设置中也表现最佳(在MQUAKE-T上,当编辑批次大小为1时,LLaMa-2-7B得分97.7,使用GPT-3.5-turbo-instruct得分88.12)。通过详细分析推理过程,我们发现MeLLo通过利用快捷的推理模式(详见附录I)来解决大多数多跳问题,这可以被认为是对提示的欠拟合形式。一个明显的证据是,具有较弱推理能力的LLaMa-2-7B模型的准确度高于GPT-3.5-turbo。同时,不可否认的是,MeLLo的性能大大受益于大型语言模型(LLMs)能力的提升,这表明在未来更强大的LLM上,MeLLo可能会进一步缩小与PokeMQA的性能差距。
从知识编辑的角度来看,参数更新方法可能并非最佳选择。基于现有研究发现(钟等、小野等学者2023年发表的相关研究),采用参数更新方式会导致模型在处理复杂推理任务时性能骤降。最小规模的编辑批次能够达到最优效果,在此基础上进一步增加编辑批次规模可能导致模型性能急剧下降。无论是在何种实验条件下比较ROME和MEMIT的表现时发现,在所有设置下ROME的表现都不如MEMIT这一现象也与事实相符:MEMIT正是ROME的一个优化版本。就现有技术而言,在实现大规模、灵活的知识编辑方面仍显不足。通过以上实证分析可知
MQA面临的知识编辑方面的诸多挑战仍显突出 。如图3所示(中间为右侧),该系统在处理不同难度及多步推理任务时均展现出卓越的性能水平,并显著超越了现有竞争对手其推理结果具有高度可靠性。然而令人担忧的是,在提升事实检索准确性和语言模型推理能力方面面临着双重考验:通过整合额外的事实信息来构建更为复杂的逻辑推导体系成为一项艰巨的任务。目前尚未完全克服这些困难。

图 3:左图采用 GPT-3.5-turbo-instruct 作为基础语言模型,在 MQUAKE-CF-3K 数据集上进行了 Hop-Acc 多跳查询实验;通过 varied 编辑批处理规模展示了不同版本间的性能差异。
中图与右图则分别展示了基于 MQUAKE-CF-3K 数据集对 2、3、4 跳问题实施的不同知识编辑方法所得出的准确率(Acc.)以及多跳查询准确率(Hop-Acc);这些评估结果均基于 LLaMa-2-7B 模型实现。
更多详细研究内容可参考附录 A。
5.2 拆分研究
本研究通过消融实验探讨了两个可分离组件Mdis和Mgen对PokeMQA性能提升的作用及其必要性

表2详细列出了PokeMQA的各种变体及其消融实验结果,并基于Hop-Acc这一关键指标进行了评估分析。同时,在附录A中,则提供了另一种度量方式的结果。
实验结果显示,在表2和图3(左侧)。基于实验数据得出结论表明,在使用这两个组件时能够显著提升性能。进而提出以下两点研究发现:
有选择地应用 M gen 的效果表现较为突出。参考表2以及图3(左)所示的数据图表可知,在多数情况下该方法均能有效提升PokeMQA系统的表现水平。尽管上述实证分析结果验证了其有效性,但值得注意的是,在与MQUAKE-T相比,MQUAKE-CF-3K中所展现出来的性能提升更为显著,这可能与两者的构建基础存在差异有关,MQUAKE-T是基于近年来的真实事实更新进行设计的,因此在输入问题中涉及的关键实体可能已经为现役预训练语言模型所熟悉,从而使得即使在缺乏额外上下文信息的情况下也能相对容易地识别关键实体并获取相关知识.鉴于此,我们建议根据不同场景有选择地应用Mgen以达到最佳效果
对于大规模编辑而言,M dis扮演着关键角色
6 相关工作
知识编辑的方法 在处理语言模型的事实更新方面 已经取得了一定的研究进展 其中大多数采用基于知识定位和元学习的技术来预测基础模型权重的变化 进而对模型参数进行局部调整(Mitchell等人, 2021; Meng等人, 2022b)。同时有研究选择保持现有参数并显式存储编辑实例(Mitchell等人, 2022; Zhong等人, 2023)。近期研究通过理论分析与性能评估的方法发现现有编辑技术存在一定的局限性 本研究则聚焦于解决一个具有挑战性的具体问题 即在支持知识编辑的应用场景下实现多轮对话问答系统(MQA)。
7 结论
在本研究中,我们设计并实现了创新性的可编程知识编辑机制(PokeMQA),旨在显著提升基于MQA系统的性能并有效缓解其不可靠推理所带来的挑战。该机制通过范围检测器确保生成的逻辑推理与修正后的事实高度一致,并结合辅助知识提示来拓展上下文信息的空间维度。经过对三个不同LLM平台的大规模测试表明,在多跳推理任务中采用该方法能够显著提升模型的回答准确性和可靠性。
限制
在本研究中,在范围检测器上未专门构建任务架构旨在达到较高的事实检索精确度的同时试图缓解复杂多步骤问题处理中上下文长度对大型语言模型推理能力带来的压力,并减少其对推理能力的影响。
此外,在受控编辑和大规模编辑方面展现了巨大的潜力。然而由于其存储机制容易遭受内存注入等攻击因此为了降低其在实际场景中的风险基于记忆的编辑需要得到可靠的安全技术支持
A 提示和补充结果用于 PokeMQA
表格5列出了在提示中使用的PokeMQA的演示示例。补充结果的数据分析分别体现在表6和图4中。

表5:我们在PokeMQA提示中使用的上下文演示示例中的一部分被省略了(其余三个演示未展示)。其中绿色标记的部分是从外部知识库检索后生成的内容;而红字标记的部分则是由范围检测器从外部存储检索得到的。

表6:PokeMQA及其变体的消融研究结果,以准确度为指标。
B 训练数据集构建的详细信息
为了训练我们的范围检测器gϕ与冲突歧义解决器gψ等组件所组成的系统中包含一个训练数据集D
C 多跳问题回答数据集统计
表3包含了我们实验中使用的两个基准数据集的统计数据。

表3:实验中使用的数据集的统计信息。
此外,在编辑批次设置为完整时的情况下,MQUAKE-CF-3k提供了2786种不同的编辑选项,相比之下,MQUAKE-T则仅有96种不同的编辑方法
D 关于Scope Detector微调的详细信息。
我们利用DistilBERT(Sanh等人, 2019)经过微调的预检测器gϕ以及冲突消歧模块gψ,并源自Huggingface Transformers库(Wolf等人, 2020)中的distilbert-base-cased模型。将SR + BR - 1用作早期终止指示符。
在对预检测器gϕ进行微调的过程中,在深度神经网络模型中实现目标检测任务时
E 基线实现的详细细节
在我们的实验研究中,我们采用了涉及FT、ROME和MEMIT三种技术的知识编辑方法,这些方法均基于EasyEdit库(Wang等, 2023)实现。沿用LLaMa-2-7B模型的默认超参数配置,并对其部分参数进行了微调,以确保这些知识编辑技术在不同实验场景下的适用性。通过对ROME的学习速率以及MEMIT的目标编辑层进行优化调整,具体细节可参考附表4

表4:ROME和MEMIT的详细超参数修改。
F 两阶段编辑事实检索

G 许可协议
在 Apache 2.0 许可证下发布的是 Vicuna-7B(v1.1)和 distilbert-base-cased。LLaMa-2 被 LLAMA 2 社区许可协议允许使用。遵循 MIT 许可证而发布的项目包括 ELQ、ROME、MEMIT 和 FT。
H 实验细节
由于MQUAKE视一系列事实为一个实例,并且每个示例包含三个不同表达形式的多步问题Q,在遵循(Zhong等, 2023)的研究框架下发现:若任何一个子问题基于特定指标得以解决,则该示例被视为有效。
论文中的研究、信息和语言模型分别是以英语呈现的。我们在一台配置了四块NVIDIA A40 GPU的工作机上部署了所有实验任务。每个任务所需的时间约为15个GPU小时。受限于计算资源的数量,为了确保结果的一致性,我们采用了贪婪解码策略来从语言模型的内容库中提取输出,并记录每次运行的具体结果数值。
I 快捷推理
参考表8中提供的一个实例后发现, 虽然MeLLo看似通过整合两个关键因素来得出最终结论, 但其推导路径未能遵循指示中所展示的任务流程, 这可被视作是对问题拆解能力不足的表现

图4展示结果对比实验中,在GPT-3.5-turbo-instruct及LLaMa-2-7B模型上实施基于不同规模编辑批次下的优化策略对比研究;通过对MQUAKE-CF-3K框架中各PokeMQA变体实现转移精度(Hop-Acc)与整体识别率(Acc)指标下的性能评估;采用不同规模的编辑批次来验证优化策略的有效性及适用性。

表7表格是我们用于数据集构建中重述问题生成提示的标准格式。这些提示由明确的操作指示和具体的问题实例展示组成。

表8:GPT-3.5-turbo-instruct推理过程中出现的快捷推理示例。
