知识图谱 | 知识图谱多跳问答推理研究进展、挑战与展望
摘要
关键词**:** 知识图谱 ; 多跳问答 ; 推理
1 引言
1.1 背景介绍
在大数据时代背景下,高效检索关键信息成为一项重要任务。通过三元组的形式对海量数据进行结构化存储的知识图谱(knowledge graph),每个三元组通常表示为<头实体,关系,尾实体>的形式,并且不同三元组之间可能存在关联:其尾实体可能作为另一个三元组的头实体出现。基于语义理解技术构建的知识模型具有强大的语义表达能力,在工业界与学术界正获得广泛的关注与深入研究。该系统旨在支持用户以自然语言提出复杂问题并获取精准答案:凭借知识图谱技术的快速发展与成熟完善,在医疗、教育、金融等多个领域展现出了显著的应用价值:基于此的技术框架——知识图谱基于知识图谱的问答(knowledge graph based question answering, KGQA)——能够通过对数据间的深层关联进行分析与推理,在7×24小时提供智能化的服务方案
传统的知识图形问答系统(KGQA)主要关注的是实体、属性等单一的具体对象,在实际应用场景中已无法满足用户日益复杂的需求。例如,在医疗领域中常见的咨询问题如"常见的治疗感冒药物有哪些?"就无法得到充分解答。而多跳知识问答(简称MTPQ)正是针对那些涉及多个关联节点的问题,在知识图谱上进行多层次推理并最终推导出答案的一项技术方案。
1.2 多跳知识问答推理分类
相较于传统的单步问答系统而言,在涉及大量领域知识并构建复杂关系网络的情况下实现跨层级或多层级的问题解答能力是一个更具挑战性的研究方向。同时这些系统的语义理解能力和表达能力也需要不断提升以满足日益繁复的应用需求。当系统在长路径求解过程中遇到任何一个节点信息不完整的情况时就可能导致无法准确回答相关问题从而给整个系统的性能带来显著影响。针对这一难题研究者们提出了多种解决方案包括基于现有语义理解机制设计高效的数据检索策略以及开发新型的知识表示方法等以期达到提升系统性能的目的。其中推理技术不仅能够支撑智能对话系统的构建还能为其提供快速响应问题的基础从而成为提升用户体验的关键技术之一。
综上所述

图1 基于知识图谱的多跳问答推理方法分类
2 基于嵌入的多跳知识问答推理
该种多轮知识问答推理系统是通过将问题与候选答案映射到公共向量空间中实现其语义向量表示并完成操作的过程。具体而言,在嵌入框架下可实施的操作方式主要包含依赖语义相似度的知识推理机制、利用图结构信息的神经网络方法以及依赖于记忆机制的知识系统三种不同的实现路径。
(1)基于语义匹配的方法
本类方法首先评估问题与候选答案分布式表示之间的语义对应关系,并通过排序候选答案以确定最终的答案。这类方法通常由Bordes A等人提出,并采用嵌入方式将问题及知识图谱三元组表征为特定语义特征。与基于嵌入表达关注点的模型(如TransE、TransH、TransR)类似,在回答简单问题方面这些方法表现良好。然而,在面对多跳问答推理及高效建模等复杂场景时,许多基于语义匹配的方法被提出并改进以提高性能。Bordes A等人在此领域进行了深入研究,在原有三元组表征基础上提出了改进方案:通过对知识图谱中的问答路径及周边子图进行编码处理以获取更为丰富的语义信息并推导出答案。随后Dong L等人在此基础上进一步发展了多列卷积神经网络(MCCNN)模型:该模型利用具有更强学习能力的人工智能架构去捕捉答案路径、背景信息以及类型等分布式表征并理解问题情境;在不依赖人工特征构建或专门词库支持的情况下实现了对问答数据集WebQuestions的良好性能表现:其中关键概念包括答案路径(指连接目标实体及其被询问对象的一系列关联关系)、上下文路径(指连接到答案路径节点的一组单跳实体及关系)以及类型标注(如人名、日期等)。针对上述模型在训练过程中未能充分考虑候选答案相关性的问题Hao Y C等人提出引入CrossAttention机制:此机制能够有效整合全局知识从而提升了模型性能表现;然而现有技术手段仍难以应对复杂长路径或多跳推理场景下的问答处理挑战
该研究团队开发出了一种名为EmbedKGQA的新方法论框架

否则将(h,q,a)视为负样本,并使其可通过在正样本的基础上替换其答案实体为知识图谱中其他非答案实体来实现。EmbedKGQA通过大量标注的正负样例数据对问题及实体进行嵌入向量建模,在推理过程中,则依据打分函数筛选出具有最高得分的候选对象作为潜在的答案目标。
He等人指出,在多轮知识问答推理算法中仅获取最终答案的反馈可能导致学习不稳定或无效性,并强调推理过程中的监督信号同样不可或缺且有助于提升模型可解释性。基于此原理,H G等人提出了创新性教师-学生模型框架,其中Teacher网络负责知识蒸馏工作,其复杂的预测结果被视为"软标签",并采用轻量级Student网络进行训练以模仿这种软标签生成过程以提高学习效果.随后,针对问答任务的应用研究逐渐增多,旨在加速推理速度.在He等人提出的框架中,Student网络的目标是通过寻找问题的最优答案来最大化性能,而Teacher网络则致力于学习生成可靠的中间监督信号以增强中间实体分布表示能力.具体而言,Teacher网络通过正向与逆向双向推理生成稳定可靠的中间监督信号从而优化中间实体分布表示.经过在三个公开基准数据集上的实验验证表明该方法具有显著的有效性
基于语义匹配的方法主要采用弱监督学习策略,在一定程度上降低了人工标注数据的需求量;同时这些方法通过揭示了用户问题与知识图谱知识之间的相似语义联系,在实现多跳推理问答系统时提供了坚实的技术支撑基础。如何使这些方法能够掌握更加丰富与全面的知识图谱信息成为其研究的核心问题;此外,在提升表示方法的可解释性方面也应当作为重要的优化方向进行深入探讨
(2)基于图神经网络的方法
知识图谱中的实体及其邻接实体通过GCN(graph convolutional network)进行信息传递。基于其在处理大规模图数据方面的高效性和灵活性特征,GCN已被广泛应用于多个领域。它作为多跳推理的核心技术基础,在复杂关系建模中发挥着重要作用。
Schlichkrull M等人提出的关系图卷积网络(relational graph convolutional network, R-GCN),是最早将图卷积神经网络应用于知识图谱链接预测任务的研究工作之一。该模型通过整合特定关系来扩展传统GCN架构的能力范围,并使其能够处理多关系场景下的复杂预测问题。
R-GCN模型的整体架构遵循encoder-decoder模式:首先由编码器部分利用GCN将实体及其邻域信息进行整合与更新;随后由解码器部分基于更新后的表示信息并结合预设打分函数来预测目标边的存在与否。
然而该模型缺乏足够的解释性机制支持,在实际应用中难以为不同关系选择提供清晰合理的依据。
与此相比Teru K等人提出的GraIL框架则引入了一种新型基于注意力机制的关系型图神经网络模型来解决知识图谱归纳式关系预测问题。
与传统的全局聚合方式不同GraIL框架采用了局部关注机制:不仅考虑了两个相邻实体之间的相互作用还特别关注于目标关系本身的特点并在此基础上构建了更加灵活复杂的表征学习过程。
具体而言该注意力机制综合考虑了两个目标实体之间以及它们所处子图环境的相关性信息进而能够动态地分配权重并生成更加精确的表示向量用于后续预测任务。
值得注意的是这种新型模型不仅继承了传统的GCN架构优势即快速收敛特性良好的扩展能力以及高效的计算性能;更重要的是其引入的注意力机制使得整个系统的决策过程更加透明化从而显著提升了模型的整体性能表现。

图2 图卷积神经网络
近年来,在智能问答等自然语言处理(NLP)领域中取得显著成效的是BERT(bidirectional encoder representations from transformers)、RoBERTa等预训练语言模型。然而这些预训练模型的知识是隐式获取的,并不能明确表达出来因此无法提供可解释性的预测为了充分利用预训练模型所学到的丰富知识并结合知识图谱中的显式知识以增强可解释性众多研究者提出了融合知识图谱与预训练语言模型进行问答的新范式其中Feng Y L等人提出的多跳图关系网络(multi-hop graph relation network, MHGRN)是一种创新性的多跳图关系网络架构该模型不仅综合运用基于路径的方法还具有良好的可解释性以及强大的基于图神经网络(GNN)扩展能力具体而言该模型通过图神经网络在实体间传递消息来编码结构化信息为了进一步实现显式的路径建模将其将图分解为路径并借鉴知识感知型图神经网络(Knowledge-Aware Graph Neural Network, KagNet)的思想采用长短期记忆(LSTM)网络对固定长度连接下问题实体与答案实体之间的所有路径进行编码最终通过注意力机制整合所有路径嵌入以实现预测过程
传统的智能问答解决方法主要通过独立地从知识库或纯文本中推导出答案。尽管纯文本作为非结构化数据形式本身缺乏明确的组织方式,但它却能够提供丰富的上下文信息。将纯文本与结构化知识库相结合的方法成为当前研究的重点之一。
GRAFT-Net(基于事实与文本的关系网络)与PullNet(拉取网络)通过整合外部文本语料库与知识图谱来完成多跳问答任务。GRAFT-网首先将Wikipedia文档与知识图谱实体作为节点构建,并将实体间的关联关系及文档中包含的实体名词关系设为边来生成问题子图。具体而言, GRAFT-网自提问出发, 由主题实体连接若干种子实体, 从这些种子实体出发, 依据个性化页面排名算法选取邻居实体中PPR值最高者加入问题子图; 同时从文本语料库中提取5条与问题高度相关的句子, 并将可连接到这些句子的相关实体一并纳入子图构建. 最终问题子图为句子节点、实体节点及其间的连接关系构成.PAFLN对子图中各节点随机初始化为固定长度向量后, 基于图卷积神经网络学习更新表示向量, 最终通过对节点二分类确定答案实体实现推理.GRAFT-NET由于采用了启发式方法构建规模过大的问题子图且存在遗漏真实答案的风险.PullNet则基于相似的机制但采用迭代方式构建子图.初始仅包含提问及其相关联的实体节点, 每次迭代通过计算各候选体被包含在下一阶段的概率筛选出所有概率超过阈值的关键体.对于每一个被选中的关键体, 从文本语料库检索对应的相关句段集合并从知识库检索相关三元组集合.将新获取到的所有新句段、三元组以及相关的头尾体均设为新节点并将其间关系设为新边更新当前子图.最终构建完成后仍采用相同方法对各节点进行分类识别最可能的答案体
基于图神经网络的技术在处理知识图谱数据方面展现出更高的表达能力。它不仅能够充分考虑到问题中主题实体在其图谱中的相关实体及其关联关系,在实际应用中还面临一些挑战性的问题。例如,在实体邻居信息稀疏的情况下,其语义表示效果仍显不足;与此同时,在子图不断扩展的过程中伴随而来的计算开销与内存占用也随之急剧上升。尽管采用注意力机制的图神经网络能够动态调整邻接节点的重要性权重,在一定程度上缓解了这一困境;但仍然存在无法完全解决这一类复杂问题的情况。
(3)基于记忆网络的方法
现有主流的深度学习模型如Recurrent Neural Network(RNN)与Long Short-Term Memory(LSTM)网络等均以隐藏层状态作为其记忆机制。然而这些方法所具有的局限性在于它们无法有效存储过长路径的知识信息仅能呈现有限长度的记忆内容。Weston J等研究者则发展出了一种具备可读性与写入性的外部显式记忆模块将其与联合记忆模块相结合以此实现长期存储目标的方法体系。该系统中的"记忆网络"由四个核心组件构成具体包括:输入特征映射器I用于接收并转换外部输入信号为内部特征向量表示;动态内存单元G负责更新并组织存储于内存中的知识信息;输出特征映射器O则根据最新的输入信号与当前内存状态生成相应的输出特征映射结果;响应机制R则将上述输出结果进一步转换为所需的具体答案形式如文本回答等语言表达形式

图3 记忆网络模型框架
基于Weston J等人的记忆网络模型基础之上
R等人于2017年提出了一种基于记忆网络的方法,在知识图谱与文本数据上实现了多轮问答推理。这种框架通过将结构化的知识图谱与非结构化的文本信息整合到一个公共嵌入空间中进行对齐处理,并在此基础上构建了一个层次递归模型来进行推理运算。该模型分为两种类型:动态记忆网络(dynamic memory network, DMN)和动态记忆张量网络(dynamic memory tensor network, DTMN)。DMN模型采用了门函数来实现注意力机制的过程,在每一步迭代中能够根据输入更新注意力权重;而DTMn模型则利用神经张量网络来模拟复杂的关系推理过程,在这一过程中能够更加灵活地捕捉上下文信息之间的联系并生成合理的回答结果。两者的区别主要体现在注意力机制的设计上:前者使用门函数来控制注意力分配的范围与程度;后者则通过神经张量网络构建更加复杂的特征表示方式以提高推理精度
现有的记忆网络模型均展现出较好的性能表现。
3 基于路径的多跳知识问答推理
为了更好地建模多跳知识,在知识图谱中,默认的知识是以三元组形式存储的。随着对多跳知识建模需求的增加,基于路径方法的研究逐渐受到关注。该方法以用户查询中的核心实体作为起始点,并通过逐步遍历多个三元组的头实体、关系及尾实体来探索潜在的答案。具体流程可分解为三个关键步骤:问题解析与初始化、推理机制构建及结果输出。我们将上述方法按算法类型划分为两类:一类是强化学习驱动的..., 另一类则是基于查询图的方法...
(1)基于强化学习的方法
该算法基于path-ranking mechanism(PRA)是一种高效的大规模知识图谱推理路径学习方案。其核心在于利用实体间的复杂路径特征来训练随机游走器模型,并最终得出答案
与基于随机游走的路径查找模型不同的是,Xiong W H等人提出的DeepPath是一种新型的可控多跳推理方法。该系统将路径搜索过程转化为强化学习机制,并通过控制所找到路径的属性来缩减搜索范围。具体而言,在图4所示的模型架构中包含两个主要组成部分:第一部分为外部环境建模部分(如智能体与知识图谱之间的动态交互),第二部分为策略网络智能体(将状态向量映射到随机策略中)。在每一步推理过程中,智能体通过与环境互动来选择关系链接以扩展推理路径。为了更有效地引导强化学习过程并指导智能体学习目标关系路径,在准确性、多样性和精确度等方面采用了多维度奖励机制,并对每一步的行为进行了监督性评价

图4 DeepPath模型
在环境配置中描述强化学习智能体的行为模式时提到:其行为模式包含了正确决策数量和错误决策数量两部分,并且总数目非常庞大。值得注意的是,在路径长度增加时,错误决策序列的数量呈现出指数级增长的趋势。针对这一难题而言,DeepPath模型添加的第一个奖励函数定义如下:

相较于长路径而言,
短路径通常能够提供更为充足的可靠推理依据。
通过将智能体与环境之间的交互限制在较短的链条中,并在此基础上设计高效的奖励机制,
从而提高推理效率。
基于上述分析,
DeepPath算法中的高效奖励函数定义为:
R = \sum_{t=1}^{T} r_t
其中,
r_t表示第t步的即时奖励,
T为路径长度。

其中,p为一个序列关系,如

。
在知识图谱中存在大量语义相近的知识实体的情况下, 这种现象可能导致智能体可能寻找到具有相同语法结构和语义关联的不同路径, 但这些途径往往包含大量重复信息. 为了促使智能体探索更多样化且不重复的路径, DeepPath通过计算当前探索性路径与已有历史记录之间的余弦相似度来定义一个多样化奖励函数

其中

,表示的嵌入向量,F表示已经存在的关系路径个数。
Meilicke C等研究者所提出的AnyBRUL(强化学习驱动的层次化规则学习)系统同样采用强化学习对路径进行采样,在采样过程中构建基础规则并将其抽象为通用规则。相比之下,在DeepPath与AnyBRUL之间存在显著差异:前者要求对头实体与尾实体之间的所有可能路径进行采样后方能完成推理运算;而后者则无需预先计算所有路径即可实现目标实体识别功能,在这一机制下MINERVA(基于实体网络漫游以获得近似真实答案)模型被公认为该类模型中的典型代表:与传统的DeepPath算法不同的是,在MINERVA模型中状态由查询关系及部分路径嵌入组成,在采样过程中无需依赖预设的答案实体嵌入以完成推理运算
强化学习模型通常采用基于二元值的硬奖励机制来监督抽样过程,在监督过程中指示抽样实体是否为正确的答案实体。林等人提出的RS(reward shaping)方法在最后阶段采用了基于正确答案实体与采样实体之间的软奖励机制,并非传统的二元值硬奖励方式。RS模型在训练过程中采用了特定策略来避免过度选择重复路径从而缓解过拟合问题。沈等人提出了一种基于值的强化学习方法并结合蒙特卡洛树搜索技术以应对稀疏正奖励带来的挑战而DIVA则将推理任务建模为一个综合路径发现与答案推理的过程其中路径被定义为隐变量并通过AEVB进行求解
基于强化学习的方法将多轮知识问答推理任务视为序列决策过程, 仅需设定一些目标即可训练出具备较强泛化能力的模型, 无需大量标注数据. 当处理具有复杂性的多轮知识推理场景时, 智能体的能力通常会显得不够.
(2)基于查询图的方法
以按路径顺序组织的方式进行排列组合会导致搜索空间急剧膨胀。而以查询图为架构构建的知识库是一种延伸形式。该系统与传统的按路径生成信息的方式不同,在该系统中信息是以图形化展示并根据需求动态调整结构的基础上实现存储和检索功能。该方法通过构建图形模型将问题抽象化,并在此基础上发展出专门针对主题实体的知识库分支,在表达复杂性方面具有显著优势。
早期的语义解析技术将自然语言问题转化为结构化的Query(如SPARQL Query),在Knowledge Graph上执行该Query即可获得答案。Reddy S等人充分运用了Combinatory Categorial Grammar(CCG)的强大表示能力,并提出Graph Parser用于问题解析。受到这一思路启发,在2015年Yih W T等人定义了Query Graph的概念,并提出了一种分阶段构建Query Graph的STAGG(staged query graph generation)方法以处理Knowledge Graph问答任务。STAGG划分为三个阶段生成Query Graph:首先通过现有的实体链接工具获取候选主题实体并打分;接着探索主题实体与答案节点之间的所有关系路径,在下一节点仅为复合类型时才展开搜索长度为2的关系路径;否则仅考虑长度为1的关系路径,并利用深度卷积神经网络对所有关系路径进行评分以判断匹配程度;最后依据启发式规则添加约束节点至关系路径上。在每个阶段均采用Log-linear模型评估当前部分Query Graph并输出最优最终Query Graph用于知识库检索。</
由于STAGG难以处理包含复杂约束的问题,在现有框架下无法有效解决此类难题。Bao等研究者通过扩展约束类型以及运算符功能,并引入显式时间约束与隐式时间约束相结合的方式,在原有基础上进一步提升了解决能力。他们提出了一种新的多层查询模型(multi-constraint query graph, MulCG),该模型不仅继承了STAGG的核心框架,并在此基础上增加了更多推理规则以应对更为复杂的推理场景。然而,在现有技术中仍存在诸多局限性:这些方法均要求先将候选主题实体与知识图谱中的相关实体建立关联关系;随后需对问题文本进行分析并提取关键语义信息;最终通过综合考量实现精准匹配以完成最终推理目标。为了提升整体性能,在这一过程中采用了分层残差学习策略:首先基于已有候选主题生成初步结果;随后再利用HR-BiLSTM对问题语义特征进行深度编码;最后通过计算两者之间的相似度得分来筛选出最优的主题实体集合并完成后续推理工作
为了限制搜索范围, STAGG仅限于探索不超过2跳的路径,因而无法处理涉及更多跳数的问题。Lan Y S等人对STAGG进行了优化,使其能够支持更长的关系路径,具体而言,该系统采用了一种在扩展路径时就引入约束的方式,而非等到构建完关系网络后再施加限制条件,从而有效降低了搜索空间。该创新性的分级查询图生成方法具备同时处理受限问题与多跳问题的能力,经过测试,该方法在WebQuestionsSP系列数据集上的表现非常出色
该方法基于路径构建多跳知识问答推理模型,并表现出良好的可解释性。然而该方法仅限于处理关系型知识,在涉及属性型和事实型知识时会增加建模难度。
4 基于逻辑的多跳知识问答推理
该符号系统凭借其高准确率和易解释性,在多轮知识问答推理领域已获得广泛关注;其中,在现有逻辑规则体系中占据主要地位的是传统一阶逻辑;而将概率逻辑与知识嵌入相结合的方法也逐渐成为主流;本节将深入探讨运用一阶逻辑进行多轮知识推理的技术框架
综合考虑一阶逻辑的特性与概率逻辑模型所具有的不确定性优势后可知,在这一领域内马尔科夫逻辑网络方法已被广泛认可并验证在知识图推理方面的有效性然而在大规模知识图谱中因三元组之间的复杂结构这一方法面临着诸多挑战整体效率不高基于注意力机制的图神经网络则擅长应对高度复杂的图问题其中Vardhan V H等人提出了一种称为概率逻辑图注意力网络(probabilistic logic graph attention network pGAT)的方法通过变分EM算法优化了所有可能三元组所构成联合分布这一创新性的研究不仅提升了模型对一阶逻辑规则与图注意力机制的有效结合而且为多跳知识问答提供了重要的理论参考
具体来说
GQE专注于聚焦于一阶逻辑查询中的一个特定类别,在该类别中仅涉及存在量词与合取运算相关的查询语句。该方法引入了两个关键几何变换操作符:投影算子P与交集算子I。其中投影操作符P通过基于关系r将当前生成的查询嵌入投影到新空间中形成新的查询嵌入向量;而交集操作符I则通过整合计算图中所有出边指向同一节点的顶点嵌入信息来模拟逻辑合取过程。需要注意的是这些操作符的具体实现细节可参考式(4)。

其中,

该参数矩阵基于关系r进行训练,并被表示为一个可调谐的线性变换模型。由k层构成的前馈神经网络称为NNk。该函数被定义为对称向量函数的形式。
GQE将查询嵌入到向量空间中作为一个单独的点。Query2Box方法认为复杂的一阶逻辑查询对应于一个由答案实体构成的集合体,然而在向量空间中仅以单个点形式表示无法有效建模这种集合关系,因此Query2Box通过将查询映射到向量空间中的一个边界框(box)来进行表示与运算。边界框由中心点与偏移两部分组成,其中答案实体被表示为位于该box内部的一个点,而关系则被分解为中心点与偏移项两部分特征。对于当前输入box p以及下一跳关系r,其对应的box运算也采用中心-偏移编码方式展开:P操作通过向量相加的方式生成新的box,而I操作则取多个box求交集以获得最终结果;随后按照计算图中的运算流程逐步推理即可得到最终的目标box嵌入表达式;此外,QGE方法还引入了析取V运算以增强逻辑查询的能力。值得注意的是,GQE及其延伸方法如Query2Box等都基于闭区域模型来进行查询嵌入,其中欧几里得空间中的单个点或者边界框均被视为闭区域;然而由于闭区域取补后会得到非闭区域形式的结果,因此这些方法无法支持逻辑取反操作并且缺乏对不确定性信息的有效建模能力;相比之下,BetaE方法通过将实体与查询对象映射到[0,1]区间上的𝛃分布形式来解决上述问题;具体而言,BetaE定义了概率投射、概率交以及概率取负三个基本的概率逻辑运算符;其中概率投射过程采用多层感知机模型学习每种关系类型的转换规则;概率交运算则通过给定权重后的带权乘积实现不同𝛃分布之间的融合;同时按照计算图中的推理流程依次应用初始𝛃分布经过一系列变换后即可获得目标𝛃分布表达式;最后系统会从嵌入空间中选择最接近目标𝛃分布的概率质量较高的实体集合作为回答结果
该方法通过一阶逻辑查询实现跨步知识问答推理,在严谨性和自然性上均有出色表现,并且准确率显著。在模拟不确定性方面的一些研究中,将逻辑运算与概率逻辑融合,在理论层面上能够实现任意跳跃数量的推理过程。然而,在实际应用中发现这些模型在处理复杂知识查询方面存在明显局限。
5 实验评测
对多跳知识问答推理模型在现有数据集中进行评估实验可用于验证其性能表现。现有常用自然语言问答数据集包括MetaQA、WebQuestionsSP和ComplexWebQuestions(CWQ)等;此外,在链接预测领域中使用的标准数据集(如FB15k与FB15k-237)也可用于构建基于查询形式的回答系统,并实现其在知识图谱上的推理能力。本节将介绍这些常用评测基准及其评价指标,并对比分析前述方法在这些不同评测基准下的表现效果。
5.1 评测数据集
(1)MetaQA数据集
MetaQA数据集是由WikiMovies数据集构建而成的多轮问答数据集合,在电影领域内包含了超过4万条复杂的提问案例。这些提问涵盖了Vanilla、NTM以及Audio三种不同的版本类型。The Vanilla variant of MetaQA is frequently employed in multi-hop knowledge-based question answering tasks.这一特定版本不仅能够处理涵盖一至三问的知识性对话,并且整合了一个全面的知识库系统.这一知识库系统包含了约13.5万个三元组关系项、4.3万个实体信息以及九大类别的关联网络结构.
(2)WebQuestionsSP数据集
Yih W T等人在对WebQuestions数据集进行改进的基础上提出了WebQuestionsSP数据集。其目的是为了解决真实问题而被构建的数据集,在其中问题源自谷歌建议应用程序接口(Google suggest API)中提取。该数据集仅包含问题的答案部分,并未提供相关的问题查询语句。为此,在这一缺陷的基础上,研究者为每个问题都赋予了相应的SPARQL查询表达式,并去除了部分存在歧义或缺乏明确意图及答案的问题实例。经过筛选后形成的WebQSP数据集总计包含4 737个1跳或2跳的问题实例,在这些实例中答案均可在Freebase知识库中找到。
(3)ComplexWebQuestions数据集
Talmor A团队基于WebQSP开发了ComplexWebQuestions数据集。随后从WebQSP中抽取问题及其对应的 SPARQL 查询,并自动生成包含组合式、连接式、比较级及最高级等更复杂形式的 SPARQL 查询。最终将这些复杂的 SPARQL 查询通过 Amazon Mechanical Turk(AMT)平台转换为自然语言形式的问题。这些问题的答案均通过在 Freebase 数据库上执行相应的 SPARQL 查询获得。该数据集总共包含了 34,689 个具体的问题实例及其对应的解决方案和相关联的 SPARQL 查询
(4)其他数据集
FB15k被定义为Freebase的一个子数据集,并在知识图谱填充领域中被视为一个基准数据集。它由三元组构成以表示实体间的关系。为了应对FB15k测试集中的数据泄露问题,在保持原有数据的基础上Toutanova K等研究者构建了FB15k-237版本并且去除了所有反向的关系链接。此外NELL995数据集则基于NELL系统生成
5.2 评测指标
Hits@1、F1分数、平均倒数排名(mean reciprocal rank, MRR)以及平均精度均值(mean average precision, MAP)是评估多轮对话系统性能的重要指标。将对话过程视为问题与回答之间的检索任务时,Hits@1度量的是回答准确出现在结果列表首位的比例。F1分数衡量的是检索结果在精确性和召回率之间的平衡程度,并取所有问题上的F1分数算术平均作为模型的整体表现指标。MRR通过计算所有正确答案实体在结果列表中位置倒数的均值来进行评估;而MAP则通过计算每个查询下回答准确性的累加精度并取其算术平均来综合评价系统表现。
5.3 实验结果及分析
表1展示了部分多跳知识推理方法在同一实验数据集(MetaQA、WebQSP和CWQ)上的Hits@1表现,“-”标识该指标的具体数值未被报告出来,“1-hop、2-hop及3-hop”分别指代基于源实体至目标答案实体推理过程中所需经历的不同跳数

在MetaQA数据集上进行评估时发现,在单跳推理任务中多个模型显示出相近的Hits@1值表现。然而随着推理深度增加KVMemNN与GRAFT-Net的表现逐渐趋于下降这一现象表明其性能随复杂度提升而减弱值得注意的是PullNet在3跳问题上仍展现出不错的性能并且在三个测试集上均取得了显著的结果这充分验证了其通过迭代构建问题子图来提升推理能力的方法的有效性同时表明基于知识图谱的空间关系推理在图神经网络框架下具有良好的适用性相比之下EmbedKGQA在MetaQA数据集上的平均Hits@1值更高且在WebQSP数据集上同样表现出色这证明了基于语义匹配的方法能够有效解决多跳问答问题NSM+h整体表现优于表1中的其他所有模型这一结果表明通过采用Teacher-Student网络架构并引入中间监督信号能够显著提升系统的推理能力
表2展示了以逻辑为基础的模型(GQE、Q2B(Query2Box)、BetaE)在FB15k、FB15k-237和NELL-995 3个数据集上进行多步推理的结果。

通过比较实验结果可以看出,在表2中的各个数据集上实施Q2B方法能够较优地完成1步查询(问题)、2步查询(问题)及3步查询(问题)。这表明将查询(问题)嵌入到向量空间中作为一个box而非一个点这一理念更为合理,并且这种设计理念能够在实际应用中获得更好的效果。进一步的实证研究表明,在这三个模型当中BetaE方法在这三个模型当中表现最佳,在多轮对话推理任务上具有最高的平均MRR值
表3详细列举了基于强化学习的多轮知识问答方法在三个标准数据集(FB15k、FB15k-237和NELL-995)上的实验结果。评估指标包括Hits@1和MAP值,“—”标识表示相关指标的具体数值未在原始文献中提供。从表3的数据来看,在FB15k-237数据集上使用RewardShaping方法所得的Hits@1值较MINERVA提升了约11%。这可能与MINERVA中的智能体在训练过程中受到虚假负样本的影响有关。具体而言,在训练阶段MINERVA可能会因处理这类负样本而导致较低质量的奖励反馈机制出现,并且由于缺乏正确的动作序列指导导致智能体难以避免被错误路径误导而偶尔导向正确答案的方向。针对这些问题,RewardShaping方法进行了改进,通过扩展智能体可探索的状态空间范围,增强了其对虚假路径的鲁棒性处理能力.然而,这一改进措施并未显著提升在NELL-995数据集上的性能表现,因为该数据集的特点更适合采用一对多关系类型的处理策略.从MAP值对比可以看出,DIVA算法相较于DeepPath表现出更好的性能,主要得益于后者仅关注实体对间的路径连接性而忽视了实体对是否为正样本或负样本的身份判断.这种单一关注点使其对噪声样本及对抗攻击情况较为敏感.相比之下,DIVA算法则更加注重噪声抑制能力以及复杂推理场景下的鲁棒性表现.最后,M-Walk算法通过引入RNN进行状态编码,并结合蒙特卡洛搜索树与神经策略网络优化机制,有效解决了稀疏奖励环境下的探索问题.经过与其他现有算法(DIVA和DeepPath)的对比实验发现,M-Walk算法取得了更为优异的表现

6 结束语
近年来以来,在国内外大量涌现出了各种基于知识图谱的多跳问答推理技术;这些技术都取得了部分进展;但仍面临诸多挑战。
KGQA技术的发展日新月异,在复杂的真实场景中也得到了越来越广泛的运用。在实际应用过程中,人们倾向于提出更加复杂的跨步问题,这促使多步知识智能问答技术应运而生,也得到了学术界越来越多的关注与研究。本文从三个主流方向总结了近年来多步知识问答推理的主要方法与创新思路。大多数现有方法都是多种技术手段的结合应用,而本文采用分类归纳的方式,按照具体研究重点进行分类归纳与阐述:例如在基于逻辑的方法中,BetaE模型将知识图谱实体表示为嵌入形式,其本质是通过神经网络实现了一阶逻辑求解答案的思想,这种基于神经网络的符号逻辑推理方式具有显著的技术创新价值,因此本文将其归类于逻辑推理类方法之中。此外本文还对常用的公开数据集与评估指标体系进行了详细介绍,并分析了各方法在不同基准数据集上的最新研究成果及其特点
本文阐述的方法在实际应用中依然存在瓶颈,主要面临以下3个挑战。
复杂多轮互动的知识问答建模问题:难以全面把握用户的复杂多轮互动问题以及在建模知识图谱中存在复杂的跨层级关系
小样本学习问题表现为:当面对的知识资源与训练数据都十分有限时,无法有效地表达所学的知识以及推理的答案。
可解释能力:尽管深度学习在复杂多步知识问答任务中表现出色;然而其可解释能力不足,则使得模型的可信度受到影响。
各类多跳知识问答推理方法的优点和不足见表4。

未来,将从以下两方面进行更深入的研究。
随着预训练模型如BERT等的发展,在智能问答等自然语言处理领域取得了显著的进步。基于Transformer机制的各种预训练模型不断涌现的同时也引发了诸多研究者的关注与探索,在整合预训练技术与知识图谱方面展现出了巨大的潜力。通过整合这两者的能力提升空间得以开发;而文本与知识信息间的双向交互有助于提升多轮推理的效果;同时通过融合上下文信息能更好地捕捉长距离依赖关系从而进一步优化多轮对话系统的表现水平。
大量互联网数据与行业数据呈现出多模态特征。表现在对同一事物采用图谱知识、文本描述、图像、信息图表以及视频等多种形式进行表达。未来将进一步研究多模态知识图谱在多轮问答中的应用,以满足人们对知识理解与认知服务日益增长的需求。通过多样化的方式增强知识的相关性和多样性,并借助多样化的知识表示手段使相关性更加全面地表达对应的知识信息。
