Reasoning over Hierarchical Question Decomposition Tree for Explainable Question Answering
文章目录
-
- 题目
- 摘要
- 引言
- 相关工作
- HQDT的定义
- 方法论
- 实验
- 结论
- 限制
- 附录
题目
基于层次问题分解树的可解释问答推理

摘要
可解释问答(XQA)旨在回答一个给定的问题,并提供为什么选择该答案的解释。现有的XQA方法集中在单一知识源上的推理,例如结构化知识库、非结构化语料库等。然而,整合来自不同知识来源的信息对于回答复杂的问题是必不可少的。在本文中,我们提出利用问题分解进行异构知识集成,通过将复杂的问题分解为简单的问题,并为每个子问题选择合适的知识源。为了便于推理,我们提出了一个新的两阶段XQA框架,基于层次问题分解树的推理(RoHT)。首先,我们建立层次问题分解树(HQDT)来理解复杂问题的语义;然后,我们从根到叶递归地对HQDT进行概率推理,以聚合不同树层次的异构知识,并考虑分解和回答概率来搜索最佳解决方案。在复杂问答数据集KQA Pro和Musique上的实验表明,我们的框架明显优于SOTA方法,证明了利用问题分解进行知识集成和我们的RoHT框架的有效性。
引言
可解释的问题回答(XQA)的任务是
- 回答一个问题和
- 提供一个解释,使用户能够理解为什么选择这个答案(Neches et al,1985;Schuff等人,2020)。
它为测试智能系统的推理能力和可解释性提供了一种合格的方法,在人工智能中具有重要的作用(Lu et al,2022)。最近在XQA方面的工作可以分为两个方向:
- 神经符号方法(Berant等人,2013;梁等,2017;曹等,2022b)将自然语言问题翻译成形式表示(如SPARQL(孙等,2020),KoPL(曹等,2022a),lambda-DCS(梁,2013)等。),其在结构化知识库(KBs)上的执行给出了答案。在这里,形式表示充当了对最终答案的解释。
- 基于分解的模型生成导致最终答案的自然语言中间步骤(例如,将复杂问题分解成子问题的问题分解(Min等人,2019;佩雷斯等人,2020年;邓等,2022),思维链提示(魏等,2022;Dua等人,2022;Khot等人,2022)等。).在这里,中间步骤显示了推理的基本原理。
虽然取得了显著的成果,但这两个方向都有关键的局限性。对于神经符号方法,形式表示只能在KBs上执行。然而,即使是最大的知识库也是不完整的,从而限制了模型的召回率。对于基于分解的方法,他们采用自由文本语料库作为知识源,而自然语言的多样性使得XQA变得困难。事实上,整合来自异构来源的知识对QA非常重要(Wolfson et al,2020),尤其是回答复杂的问题。对于知识整合(如KBs、文本语料库)已经做了多次尝试(孙等,2018,2019;石等,2021)。尽管这些基于图的方法很有前途,但缺乏解释能力或受限于有限的推理能力。

图1:分层问题分解树(HQDT)的一个例子。q i表示节点在其BFS排序枚举中的索引。
直观地说,利用问题分解来集成异构知识源是一个有前途的方向,因为我们可以灵活地为每个子问题选择合适的知识源。挑战在于:
- 如何确定问题分解的粒度,由于某些复杂的问题可以用一个知识源直接回答,进一步的分解增加了出错的可能性。例如,在图1中,q 1可以用维基百科语料库回答,而无需进一步分解。
- 由于问题分解和回答都是不确定的,如何在各种可能的解决方案中找到最优解。比如,q 0也可以分解为“哪些山在北美或者非洲”,“1 #的高度是多少”,“SelectAmong] [largest] #2”。
为此,我们提出了一种新的基于分层问题分解树的两阶段XQA框架推理,称为RoHT。首先,我们提出通过建立复杂问题的层次问题分解树来理解复杂问题。在这个树中,根节点是原始的复杂问题,每个非根节点是其父问题的子问题。叶节点是不能进一步分解的原子问题。与现有的将问题直接分解为原子问题的表示法相比,例如QDMR (Wolfson等人,2020),我们的树结构提供了通过直接回答或进一步分解来确定解决问题的灵活性。其次,我们提出了基于HQDT的概率推理,融合了知识库和文本在树的不同层次上的知识,并考虑了树生成和回答的概率得分。推理过程是递归的,从根到叶,由三个步骤组成:1)调度器为特定问题确定适当的知识源(从知识库、文本或顺序求解其子问题);2)相应的执行者输出带有概率的答案;3)聚集器聚集来自所有知识源的候选答案并输出最佳答案。
在评估中,我们在两个复杂的问答数据集上实例化了我们的RoHT框架:Pro (Cao等人,2022a),其中我们删除了其知识库中一半的三元组,并用维基百科语料库进行补充,以及Musique (Trivedi等人,2022),其中我们采用Wikidata (Vrandecic和krtzsch,2014年)作为给定文本段落之外的附加知识库。实验结果表明,RoHT在k b+文本环境下显著提高了性能,在KQA Pro和Musique上的EM评分比现有的SOTA模型分别提高了29.7%和45.8%。此外,与基于分解的方法相比,RoHT在Musique上的SOTA提高了11.3%。
我们的贡献包括:
- 首次提出利用问题分解来整合异构知识源;
- 通过首先建立HQDT,然后对HQDT进行推理,设计了一个新颖的两阶段XQA框架RoHT
- 通过在两个基准数据集上的大量实验和仔细的消融研究,证明了我们的RoHT框架的有效性。
相关工作
基于文本的问答和知识库随着时间的推移,问答任务已经演变成两个主流:
- 基于非结构化数据的问答(例如,像维基百科这样的自由文本语料库);
- 结构化数据的质量保证(例如,大型结构化知识库,如DBpedia (Lehmann等人,2015年)、Wikidata (Vrandecic和krtzsch,2014年))。由于结构化数据和非结构化数据在直觉上是互补的信息源(Oguz等人,2022年),已经进行了几次尝试来结合两者的优点。
一种早期的方法是IBM Watson (Ferrucci,2012)将多个专家系统结合起来,并对它们进行重新排序以产生答案。(徐等,2016)将关系短语同时映射到知识库和文本,使用整数线性规划模型提供全局最优解。基于通用模式的方法(Das等人,2017年)通过在公共嵌入空间中对齐知识库和文本来推理。GraftNet (Sun等人,2018年)及其继任者PullNet (Sun等人,2019年)将自由文本纳入图节点,使文本服从KBQA方法。TransferNet (Shi等,2021)提出了关系图来统一建模知识库中的标签形式关系和语料库中的文本形式关系。
虽然取得了有希望的结果,但是这些方法缺乏可解释性或者局限于有限的问题类型,即TransferNet通过透明的步骤转移显示出可解释性,然而,它只能回答多跳问题,并且不能处理需要属性比较或值验证的问题。相比之下,我们提出的框架显示了HQDT良好的可解释性,并涵盖了更多的问题类型。
问题分解对于数据集,Pro (Cao等,2022a)提出将复杂问题分解成多步程序KoPL,该程序可在KBs上执行。BREAK (Wolfson et al,2020)提出将问题分解成QDMR,构成步骤的有序列表,通过自然语言表达。Musique (Trivedi et al,2022)是通过组合从现有数据集获得的单跳问题而构建的问答数据集,因此自然地提供了问题分解。
对于模型,已经进行了几种尝试来学习弱监督分解,如基于跨度预测的方法(Min等人,2019),无监督序列转导方法ONUS (Perez等人,2020),基于AMR的方法QDAMR (Deng等人,2022)。另一项工作是采用语境学习的大型语言模型,如最少到最多提示(周等,2022),分解提示(等,2022),连续提示(Dua等,2022)。与现有的工作相比,我们首次设计了一个层次化的问题分解树,用于整合来自多个知识源的信息。
HQDT的定义
形式上,给定一个复杂的问题,它的HQDT是一个树T,每个节点q i ∈ T代表一个问题。对于根节点,它表示给定的复杂问题,对于非根节点,它表示其父节点的子问题。叶节点是不能分解的简单(“原子”)问题。注意HQDT是一个3元有序树。如图1所示,我们用BFS排序来枚举T的节点,q 0是根问题。
一个问题q i = w1,,wj,,w|q i | 根据令牌词汇可以归为三种类型之一:
- 自然语言问题(如q 4:“北美最高的是哪座山?”),这里wj ∈ V,V是单词词汇;
- 桥梁问题(例如,问题5:“4号有多高?”),这里wj ∈ V ∪ R,R是引用令牌词汇。在这个问题中,“#4”指的是q 4的答案,也就是q 5的同胞问题;
- 符号操作问题(例如,q 3:“[select between][greater]# 1 # 2”),这里,wj ∈ V ∪ R ∪ O,O是预定义符号运算的词汇表,它是为支持各种推理能力(例如,属性比较和集合运算)而设计的,在附录A中有详细说明。注意,所有的桥题和符号运算题都是原子题,只能出现在叶节点。
对于每个非叶问题q i,我们定义两个有序列表:q i .children = q sti,,qedi ,它们是q i的孩子,从sti到edi连续索引。例如,对于图1中的问题q 1,q 1。孩子是 q 4,q5。q i .atoms = a i 1,,ai ni ,这是通过重新排列引用标记从以q i为根的子树的ni个叶节点推导出的原子问题列表。例如,对于图1中的q 0,其叶节点是 q 4、q5、q6、q7、q3 ,以及相应的q 0。atoms是q 4,q5,q6,Q7,Q3,用q5作为“1号有多高?”,q \7为“3 #有多高”,\q 3为“[SelectBetween][greater] #2 #4”。由于篇幅所限,详细的推导算法在附录B中。我们也称q . I .原子为q . I的原子表示。
特别是,在智商较高的儿童中,智商较低。。。、qedi 1都是自然语言题,qedi要么是桥梁题,要么是符号运算题。回答q i在语义上等价于依次回答q i .children或q i .atoms中的子问题。q i .children或q i .atoms中的最后一个问题返回q i的答案。
方法论
我们的框架RoHT由两个阶段组成:1)构建HQDT。我们通过用概率生成复杂问题q 0的HQDT T来理解复杂问题Q0的分层组合结构,其中每个问题q i ∈ T具有代表其生成的确定性的分数p i g。HQDT上的概率推理。我们从根到叶对HQDT进行递归概率推理来求解q 0。对于每个问题q i,我们将一起利用KBs、文本及其子问题来获得列表Ri,该列表Ri包含带有概率分数的q i的答案。最后,R0中得分最高的答案将被挑选出来作为q 0的最终答案。
具体介绍如下。构建HQDT为了构建复杂问题的HQDT,我们首先生成其原子表示,该原子表示对应HQDT的叶节点,然后基于该原子表示生成每个非叶节点。我们根据每一步生成的可能性来计算每个节点的确定性得分。构建叶节点给定一个复杂的问题q 0,我们首先使用一个基于BART (Lewis et al,2020)的问题分解器Mθ来生成其原子表示,并输出生成的可能性:
这里,L 0 = a 0 1 ⟨sep⟩ a 0 2 ⟨sep⟩.。。⟨sep⟩ a 0 n0是q 0的系列化。原子,⟨sep⟩是一个分离的令牌。LD = Pr(L 0 | q 0;θ)是生成的可能性。由于q 0是T的根,所以q 0中的每个原子问题。atoms对应T中的一个叶节点(用附录C的确定性算法),T中每个叶节点的确定性得分为ld。
基于q 0构建非叶节点。原子,我们可以生成HQDT中所有的非叶题。根问题正好是q 0,因此确定性得分为p 0 g = 1。对于每一个其他非叶问题q i,其原子表示q i .atoms = ⟨a i 1,.。。,艾尼⟩可以从q 0的特定子集翻译过来。原子通过重新排列引用令牌。子集可以通过考虑桥或符号运算问题a 0 j ∈ q 0的引用关系来确定。atoms,对应于叶节点q edi,其他问题在q 0 .atoms .我们在附录c中展示了细节,例如q 2。图1中的原子是(“非洲哪座山最高?”,“1号有多高?”),并且可以从q 0 .atoms中的(a 0 3,a0 4)得到。
然后我们可以使用一个基于BART的问题生成器Mϕ来从q i原子生成q i:
其中L i = a i 1 ⟨sep⟩ a i 2 ⟨sep⟩.。。⟨sep⟩ a i ni是序列化的q i .atoms,l I g = pr(q I | l I;ϕ)是给定L1时q i的可能性。q i的确定性得分计算如下:
问题分解器和生成器的学习问题分解器Mθ可以用paired (q 0,q 0)来训练。atoms)数据,其中原子表示可以来自给定的注释或无监督的构造。通过交换输入和输出,问题生成器Mϕ也可以用相同的数据来训练。详情见第5.2节。
HQDT上的概率推理,
其中ansi j是q i的一个答案,score p i j代表ansi j的确定性。
如图3所示,f的实现包含三个步骤:
- 一个调度器为一个特定的问题确定合适的知识源,即该问题是否可以从KB、文本或通过顺序求解其子问题来回答;
- 执行器根据调度器输出的合适源,通过在知识库上执行(知识库执行器)或从文本中检索(文本执行器),或回答子问题(递归调用f)来获得具有概率的答案;
- 聚集器聚集来自所有知识源的候选答案,并根据它们的概率输出前k个答案。下面,我们将在回答q i时介绍他们的详细情况。调度程序我们将调度程序形式化为:

其中suitkb、suittext和suitchild为0/1变量,分别代表q i的答案是否适合从KB G、语料库C中获得,或者通过顺序求解q i . children获得。具体地,为了检查G是否合适,调度器使用语义解析器(Cao等人,2022a) Msp以概率pparse将q i解析成程序K:
然后它根据K的函数骨架对q i的类型进行分类,比如图2中K的函数骨架是“Find-RelateFilterConcept-selecta mong”。如果与K具有相同函数框架的问题上的G的精度大于预定阈值γ 1,则调度器将suitkb设置为1。
为了检查语料库C是否合适,调度程序试图为q i找到一组证据段落。如果C太大,调度程序将首先使用BM25 (Robertson和Zaragoza,2009)召回几十个最相关的段落。对于每个段落,我们训练一个基于RoBERTa (Liu等人,2019)的选择器Msl来分类它是否是用于q i的证据段落。假设所选证据段落的集合ce不为空,调度器将suittext设置为1。为了充分利用所有级别的知识,如果q i是非叶子问题,调度程序只需将suitchild设置为1,否则设置为0。执行器对于KB执行器,它使用KB G上的等式6中的程序K来获得答案,并使用等式6中的解析得分pparse来计算每个答案的概率得分:
对于文本执行器,它采用如上所述的所选段落集Ce,并采用基于转换器的阅读理解模型Mrc来从Ce中提取答案:
其中p i ex,j是ansi文本的提取概率,j由Mrc给出。对于通过回答其子代来求解q i,f会递归调用自身来求解q sti,。。。,qedi按顺序排列。
在这里,fref是f的一个变体,用来解决桥梁和符号问题,这些问题指的是它们的同胞问题的答案。假设q edi引用了它的兄弟q r1,.。。,qrhi按顺序。如果q edi是一个桥接问题,fref将1)把q edi转换成几个可能的自然语言问题q 1 nl,.。。,qK nl通过用每个组合替换引用令牌((x k 1,vk 1),。。。、(x k hi,vk hi )) ∈ Rr1 × × R rhi,2)调用f求解每个q k nl和3)融合来自每个Rk nl的答案并选择得分最高的前k个答案:
注意答案ansk nl,j的分数是通过对p k nl,j和v k 1,.。。,vk hi,而不是将它们相乘,以避免递归过程中的指数收缩。如果q edi是一个带有操作op和参数的符号操作问题,fref将执行一个简单的程序来对Rr1应用操作op。。。去找热地。每个答案ans edi j的得分计算为p edi g和Rr1,.。。程序用来获取ans edi j。
聚合器聚合器通过从其中选择具有最高分数的前k个答案来融合Ri kb、Ri text和Ri child。如果几个答案具有相同的表面形式,则只保留得分最高的一个。
实验
数据集目前,基于KBs和文本的高质量复杂问答数据集很少。以前的方法(孙等,2018,2019;史等,2021)在MetaQA(张等,2018)上通过将其知识库与WikiMovies (Miller等,2016)的文本语料库配对来评估他们的模型。然而,MetaQA中的问题过于简单,因为其知识库中只有9个关系。因此,我们在两个更具挑战性的复杂问答数据集上进行实验:KQA专业版和Musique,具体如下。
Pro (Cao等,2022a)是一个大规模的复杂问答数据集,包括12万个不同的自然语言问题,在知识库中最多可达5跳。它的知识库是Wikidata (Vrandecic和krtzsch,2014)的子集,由16k个实体、363个谓词、794个概念和890k个三元事实组成。对于每个问题,KQA Pro还提供了相应的KoPL程序。为了模拟知识库不完整的实际情况,遵循(孙等,2019;史等,2021),我们随机丢弃知识库中50%的三元组,以维基百科作为补充文本语料库。Musique (Trivedi等人,2022)是一个基于文本的多跳问答数据集,包括25k个2-4跳问题。
我们在Musique-Ans设置下评估我们的框架,所有问题都可以回答。它的问题是通过人工合成和转述从几个单跳问答数据集精心构建的,很难通过推理捷径作弊。对于每个复杂问题,Musique给出20个段落(包括带注释的证据段落和干扰项段落)作为语料库。特别地,对于训练集中的每个问题,Musique还提供了一个黄金原子表示,以及每个原子问题的答案和证据段落。除了给定的段落,我们选择Wikidata作为知识库来获取额外的知识。
实现KQA Pro对于KQA Pro的实验,一个关键的挑战是没有原子表示的注释,这是在RoHT中训练问题分解器和生成器所需要的。因为复杂问题的KoPL程序遵循上下文无关的语法,所以每个原子问题将对应于程序的特定跨度。因此,我们首先根据语法将KoPL程序分成子程序,然后通过应用BART模型,使用来自原始数据集的(KoPL,question)对来生成原子问题。对于每个原子问题的答案,我们在知识库上执行相应的子程序来得到相应的答案。使用这些构建的原子表示,我们训练两个BART-base模型分别作为问题分解器和生成器。
对于调度器,我们直接使用(Cao等,2022a)在KQAPro上训练的语义解析器,设置精度阈值γ为0.7。我们通过弱监督方法训练一个RoBERTa-large作为证据选择器:对于训练集中的每个问题和构造的原子表示,我们首先使用BM25从维基百科中召回10个相关段落,然后将包含答案的段落作为正样本,将其他召回的段落作为负样本。对于文本执行者,我们也在这些正面样本上训练了BART-large阅读理解模型。
由于Musique为训练集中的每个复杂问题提供了黄金原子表示,我们直接使用它们来训练BARTbase模型作为问题分解器和生成器。对于调度器,我们采用(曹等,2022a)在Wikidata上训练的语义分析器。KB精度阈值γ设置为0.4,由精度最高的前10类问题确定。我们一起在训练集中的复杂和原子问题上训练RoBERTa选择器模型,将带注释的证据段落作为正样本,将干扰项段落作为负样本。对于文本执行器,我们在SQUAD (Rajpurkar等人,2016)上预先训练一个Longformer-large (Beltagy等人,2020)阅读理解模型,然后在Musique的复杂问题和原子问题上对其进行微调。
基线我们将RoHT与复杂QA的几种代表性方法进行比较,包括基于内存的方法、基于图的方法和x QA方法。KVMemNN (Miller et al,2016)将编码后的知识存储在键值内存中,迭代读取内存更新查询向量进行多跳推理。RGCN (Schlichtkrull等人,2018年)是图卷积网络的一种变体,利用知识库的图结构来处理复杂问题。BART KoPL (Cao et al,2022a)是一个基于BART的语义分析器,可以将复杂的问句转换成KoPL程序。它在KQA专业版上实现了超过90%的准确率。
SA (Trivedi等人,2022年)是一个两阶段模型,首先使用RoBERTa-large选择器对K个与问题最相关的段落进行排序和选择,然后使用Longformer-large回答器根据选择的段落预测答案。EX(SA) (Trivedi等人,2022年)是Musique上最先进的模型。它首先将复杂问题显式分解为原子表示,然后反复调用SA模型来依次回答每个原子问题。TransferNet (Shi等,2021)通过由文本形式关系和知识库形式关系组成的关系图上的激活路径迭代地传递实体得分。现有的最先进的模型利用知识库和文本作为知识源,几乎解决了元问题。我们在KQA专业版和Musique上都重新实现了它,详情见附录d。RoHT: RoHTKB、RoHTtext和RoHTmix分别表示只使用KB、只使用文本和同时使用KB和文本的RoHT型号。
KQA Pro的结果KQA Pro的实验结果如表1所示。当仅使用不完整的KB时,RoHTKB模型相对于KVMemNN、RGCN和BART KoPL分别提高了EM 21.22、4.17和0.90,显示了整合不同级别子问题答案的好处。在添加维基百科作为补充文本语料库后,RoHTmix与RoHTKB(EM上的7.51)相比产生了实质性的改进,证明了同时利用来自知识库和文本的知识的有效性。RoHTmix的表现也远远优于使用混合关系图进行端到端训练的transfer net(EM上为29.65)。这是因为与基于图表的方法不同,RoHT通过HQDT生成以自然语言形式显式地显示复杂问题的组合结构,从而可以用更高级和更灵活的子模块(例如,语义解析器和阅读理解模型)从知识库和文本中检索答案。此外,我们在HQDT中设计的原子操作也使RoHT能够解决各种各样的复杂问题:我们可以看到RoHTmix在7类问题中的6类问题上取得了最好的结果,显示了全面的推理能力。

表1:KQA专业版开发集的EM结果。RoHT大幅超越所有基线,在大多数类型的问题上表现最佳。
Musique上的结果表2显示了Musique数据集的dev集上的结果。正如所料,我们的RoHT模型在所有基线上都有显著改善。在只有给定段落的情况下,RoHTtext比SA和EX(SA)分别提高EM/F1 13.8/14.3和11.6/11.9;对于文本和KB,RoHTmix的性能也明显优于TransferNet (62.3 v.s。F1上10.9)。比较RoHTtext和RoHTmix,我们还可以看到用知识库信息补充文本信息的一些好处,尽管这种改进比在KQA专业版上用文本补充知识库要小,因为知识库的覆盖率比文本低,而且语义解析器不是专门针对音乐问题进行优化的。
我们在测试集上提交了RoHTmix的预测,并取得了63.6的F1分数,显著优于最好的公开结果52.3。进一步分析5.5.1调度器的效果为了展示调度器模块的效果,我们将其从RoHTmix模型中移除,即默认KB和召回/给定文本段落适用于HQDT中的所有问题,并在KQA Pro和Musique的dev集上再次评估性能。结果如表3所示。我们可以看到,丢弃调度器后,KQA Pro和Musique上的EM性能分别下降了5.8和7.4。因此,使用调度程序为每个问题选择合适的知识源非常重要。层次分解的效果许多现有方法生成复杂问题的非层次分解,类似于原子表示,以辅助推理(Min et al,2019;沃尔夫森等人,2020;邓等,2022)。
为了证明层次分解的优越性,我们将我们的RoHTmix模型与𝒒𝟎:进行了比较为什么Roncalli要离开维纳斯的画家带着镜子死去的城市?𝒒𝟏:《带镜子的维纳斯》的作者死在哪里?𝒒𝟐:为什么朗卡利离开了第一名?𝒒𝟒::3号死在哪里?𝒒𝟑:《带镜子的维纳斯》是谁制作的?问:为什么朗卡利要离开维纳斯的画家带着镜子死去的城市?合适来源:KB、文字KB ans: [(“提香”,0.93) ]文字ans: [(“提香”,0.97) ]最终ans: [(“提香”,0.97) ]合适来源:KB、文字KB ans: []文字ans: [(“华盛顿”,0.95) ]最终ans: [(“华盛顿”,0.95) ]合适来源:KB、文字、儿童KB ans: []文字ans: [(“威尼斯”,0.88) ]儿童ans: [(“华盛顿”,0.95) ]最终ans: [。 0.81)、(“为罗马之秘会”,0.93)最终ans: [(“为罗马之秘会”,0.93)、(“教皇庇护十二世之死”,0.81) ]合适来源:文字、儿童文字ans: [(“为罗马之秘会”,0.91)儿童ans: [(“为罗马之秘会”,0.93)、(“教皇庇护十二世之死”,0.81) ]最终Ans: [(“为罗马之秘会”。 合适来源:KB,文字KB ans: [(“提香”,0.93) ]文字ans: [(“提香”,0.97) ]最终ans: [(“提香”,0.97)]𝒂𝟐𝟎: # 1死在哪里?合适的来源:KB,文字KB ans: []文字ans: [(“华盛顿”,0.95) ]最终ans: [(“华盛顿”,0.95)]𝒂𝟑𝟎: roncalli为什么离开#2?合适来源:正文正文ans: [(《庇护十二世之死》,0.81) ]最终ans: [(《庇护十二世之死》,0.81)]替换引用令牌返回儿童答案图3:来自Musique的一个案例。我们用绿色标出正确答案,用红色标出错误答案。


表2:在Musique的dev集上的EM和F1结果。与最先进的方法相比,RoHT实现了显著的改进。
表3:带和不带调度器的RoHTmix的EM性能,以及RoATmix的EM性能。
RoATmix模型,它使用与RoHTmix相同的调度器、执行器和聚合器,但是通过直接按顺序回答原子表示中的原子问题来解决复杂问题。如表3所示,RoHTmix在KQA专业版和Musique上的表现都远远超过RoATmix。这是因为HQDT的层次结构使得RoHT模型能够在不同的问题层次上融合来自KBs和文本的知识,并通过比较答案的概率得分来丢弃错误答案。
为了进一步理解原因,我们在图3中展示了Musique的一个案例。我们可以看到RoHTmix和RoATmix都没能回答“提香死在哪里”这个问题。(左边q 4,右边a 0 2)。但是RoHTmix直接从文本中提取q 1的正确答案,最终得到得分最高的q 0的正确答案,而RoHTmix求解a 0 3失败,是因为必须依赖a 0 2的错误答案。
结论
在本文中,我们提出了RoHT,这是一个理解推理的XQA框架,它使用知识库和文本语料库来获取复杂问题的答案。RoHT首先为一个复杂问题构建HQDT,以理解其层次组合结构,然后在HQDT上进行递归概率推理来解决问题,集成来自知识库、文本和子问题的答案。实验表明RoHT明显优于以前的方法。我们还证明了HQDT相对于非分层分解的优越性。
限制
目前,RoHT框架仅限于合并KBs和文本。然而,由于RoHT以独立的方式从每个知识源中检索答案,它原则上可以利用来自更多异构源(如表格)的知识,我们将在未来的工作中对此进行研究。此外,维基百科和维基数据的存储和使用需要一个具有大存储空间和内存的设备。
附录
我们设计了6种原子操作:验证、选择、选择、计数、交集、并集,以支持各种推理能力。我们在表4中显示了它们的输入、输出和示例。从叶节点获得原子表示算法1描述了如何从以q i为根的子树中的叶节点获得问题q i ∈ T的原子表示。

构建HQDT算法2的c伪代码显示了用概率生成复杂问题的HQDT的伪代码。为了重新实现TransferNet,我们分别为KQA Pro和Musique构建了由标签形式关系(即KB三元组)和文本形式关系组成的混合关系图,并用开放源代码训练模型。我们将图表构建的细节展示如下。我们按照原始论文在MetaQA上使用的方法来构建KQA Pro的关系图。如5.2节所述,我们使用其一半的KB三元组作为标签形式。我们通过从维基百科中提取句子来构建文本形式。遵循原始论文,我们使用表面形式的精确匹配进行实体识别和链接。对于知识库中的每个实体,我们召回维基百科中以它为标题的所有段落,然后将该实体作为主题,出现在这些段落中的其他相关实体作为对象。包含对象的句子被选择作为关系文本。答案的召回率为51%,即对于51%的问题,在关系图中存在从主题实体到答案的完整路径,这是TransferNet性能的上限。

对于Musique中的每个问题,我们利用给定的20个段落来构建个人关系图。具体来说,我们首先通过Spacy (Honnibal等人,2020年)识别这些段落中提到的实体,并将表面形式与维基数据实体精确匹配。然后我们采取共现两个实体的句子作为文本形式,以维基数据中主语或宾语是其中一个实体的三元组作为标签形式。回答的召回率为72%。

表4:为QDKT提出的原子操作,以及相应的例子。Ent、Value、Pred和Bool分别表示实体、属性、谓词和布尔变量。()表示元组,[]表示列表。
