知识图谱多跳问答推理研究进展、挑战与展望
总结
近年来的研究表明,在知识图谱上实现有效的多跳问答推理是智能问答技术的重要发展方向。本文通过对近年来相关研究的总结与评述,梳理了基于嵌入、基于路径以及基于逻辑的多跳知识问答推理的主要研究方法,并分析了这些方法的特点及应用效果。
一、研究背景
知识图谱作为人工智能的重要支撑技术,在跨学科领域广泛应用于数据分析和智能问答。
多轮对话中的复杂多跳问题要求系统能够深入理解上下文并进行复杂的推断。
针对这些问题提出的解决方案包括多种方法:嵌入基、路径基及逻辑基。
二、主要研究方向
基于嵌入的方法
- 嵌入基通过将问题和候选答案映射到低维空间进行对比学习。
- 方法特点:简单高效;不足之处在于难以捕捉复杂语义关系。
- 代表模型:EmbedKGQA。
基于路径的方法- 路径基通过构建知识图谱中的路径来支持推断。
- 方法特点:依赖显式或隐式路径;计算开销较大;部分改进如BetaE结合概率逻辑提高准确性。
- 代表模型:Grahil语言模型扩展为LLM后表现优秀;BetaE结合概率逻辑提升性能。
基于逻辑的方法- 逻辑基利用符号逻辑规则进行推断。
- 方法特点:准确率高但可解释性较差;适合处理严格的一阶逻辑查询。
- 代表模型:BetaE结合概率逻辑模拟一阶逻辑查询;EmbedKGQA采用语义匹配增强性能。
三、实验与评价
使用MetaQA、WebQSP、CWQ等数据集进行评测。
指标包括Hits@1、F1分数、MRR和MAP等。
结果表明:- 嵌入基在短距离推理表现较好;
- 路径基在复杂场景下表现更优;
- 基于强化学习的BetaNet及其改进版本表现出色;
- BetaE在概率嵌入方面表现优异但缺乏可解释性;
- 深度学习在小样本条件下效果有限。
四、挑战与未来方向
面临的问题:- 多轮对话建模困难;
- 小样本学习限制;
- 可解释性不足;
- 实际应用中的复杂场景需求未被充分满足。
展望:- 预训练语言模型(如BERT)与知识图谱结合的可能性;
- 多模态数据的融合与处理能力提升;
表格总结
| 方法名称 | 主要特点 | 特点 |
|------------------|---------------------------------------|--------------------------------------------------------------------|
| 嵌入基 | 将实体和候选答案映射到低维空间 | 简单高效但难以捕捉复杂语义关系 |
| 路径基
摘要
关键词**:** 知识图谱 ; 多跳问答 ; 推理

1 引言
1.1 背景介绍
随着大数据时代的到来,在海量信息筛选方面发挥关键作用的是帮助用户迅速定位所需信息。知识图谱(knowledge graph, KG)通过三元组的形式对海量数据进行结构化存储,每个三元组可表示为<head实体, relation, tail实体>。这些三元组之间还存在关联关系:例如某个头实体可能是其他三元组的尾实体之一。将互联网上的大量信息转化为易于理解的语义形式的知识图谱,在工业界和学术领域均受到广泛关注并得到广泛应用。智能问答系统专为解决复杂问题设计:允许用户以自然语言提出问题,并直接获得精准答案。得益于知识图谱技术的快速发展,在这一领域内具备强大语义理解和高效检索能力的技术——基于知识图谱的问答(knowledge graph based question answering, KGQA)——得以实现:该技术能够精准解析用户的查询意图并提供准确的回答,并持续向用户提供全天候服务,在医疗、教育及金融等多个行业展现出显著的应用价值
传统的知识图谱问答系统(KGQA)主要关注于单一实体及其属性之间的直接关联性问题。然而,在实际应用场景中,用户对知识问答的需求已从单一跳跃扩展到多步推理。例如,在医疗领域中常见的咨询问题是“具有显著治疗效果的感冒药物有哪些?”,这些问题往往涉及复杂的关联性和多层次的推理逻辑。而多跳知识问答是一项基于知识图谱的技术,在这种技术下系统能够通过逐步推理解决包含多重关联的问题。
1.2 多跳知识问答推理分类
相比传统的单轮问答系统,在大规模的知识图谱中识别多个相关联的知识节点,并构建多步路径关系模型是一项更具挑战性的任务。此外由于现有知识图谱存在数据缺失的问题,在构建长路径的过程中若任何一个关键节点信息不完整,则可能导致无法准确回答问题。针对那些缺乏明确答案的复杂多步查询场景,在现有知识库基础上通过推理技术不断补充潜在的知识节点和关系信息。推理技术不仅构成了多轮智能问答系统的核心能力之一,并且对于推动该技术在实际应用场景中的广泛应用具有重要的战略意义。
本文旨在总结当前多轮知识问答推理领域的最新研究进展,并对现有方法进行了系统性梳理与分类。具体而言,在现有技术中主要将这些方法划分为基于嵌入、基于路径以及基于逻辑三大类方法进行分析与探讨。其中,在基于嵌入的方法中,通过将知识图谱中的关键要素(如实体、关系等)映射至低维连续向量空间,并结合得分函数或解码器机制对目标查询对象进行排序与评估从而实现推理过程。而对于基于路径的方法,则首先需要确定问题中的核心实体之后,在知识图谱中运用随机游走算法定位答案实体;其中具有代表性的研究工作包括路径排序算法(path ranking approach, PRA)。关于第三种基于逻辑的方法论,则主要聚焦于以一阶逻辑为基础的主要研究方向,并深入探讨其理论框架与实践应用。如图1所示的分类框架展示了不同方法之间的关联性与区别性;在此基础上将对各类最新研究成果展开系统综述。

图1 基于知识图谱的多跳问答推理方法分类
2 基于嵌入的多跳知识问答推理
该系统通过将问题与候选答案转换为公共向量空间中的语义向量表示,并通过该表示进行相关操作来实现多跳式知识问答推理功能。具体而言,在嵌入机制下,推理过程主要包含三种主要类型:基于语义匹配的技术、图神经网络架构以及记忆网络模型。
(1)基于语义匹配的方法
这类方法首先通过计算问题与候选答案分布式表示之间的语义匹配来确定初步相关性,并对候选答案进行排序以确定最终的答案。传统的基于嵌入表示的方法如TransE、TransH、TransR等主要关注于嵌入空间的优化,在处理复杂推理任务时表现有限。为了应对多轮对话系统中多跳问答推理的需求,在此基础上提出了多种改进方案。Dong L等人提出了一种多列卷积神经网络(multi-column convolutional neural network, MCCNN)模型,在不依赖人工特征或词库的情况下取得了较好的效果。该模型通过进一步利用具有更强学习能力的神经网络架构来提取与问题相关的路径信息、上下文信息以及类别信息,并在此基础上实现有效的问答推理。其中关键的技术要素包括:回答路径(answer path)即指从回答节点到被询问实体之间的一系列关系;回答上下文(answer context)则是连接到回答路径的所有单步实体及其关联关系;回答类型则涵盖了人名、日期等特殊类别信息。针对现有方法在训练过程中未能充分考虑候选答案的相关性这一不足,Hao Y C等人提出了一种基于全局注意力机制的知识图谱建模方法,并在此基础上实现了性能上的提升。然而目前仍存在无法有效处理复杂长路径或多轮对话中出现的问题的情况
Saxena等人提出了EmbedKGQA模型以基于知识图谱嵌入模型为基础开展关联预测工作以解决复杂问答系统中数据完整性不足的问题。该系统通过结合深度学习算法与传统信息处理技术实现了高效的知识检索与推理功能。具体而言,该系统利用RoBERTa对初始信息进行编码处理,随后将其表示通过前馈神经网络投射至复杂数值空间中,并在此框架下构建三元组形式的数据结构来表征问题及其潜在答案之间的关系网络结构

如果对三元组(h,q,a)进行判断,则将其视作负样本,并从而使得。相应的替代策略即是在正样本的基础上更换其回答实体为知识图谱中的非目标相关实体。该系统采用大量标注的正负样例对进行学习与优化任务,在模型构建过程中需综合考虑问题与各 entities 的嵌入向量表示。而在推理过程中,则主要依赖于计算模型在 embed 空间内评估各候选结果以确定最优的答案候选者。
He G L等学者强调,在问答推理任务中仅通过最终答案的反馈可能无法有效促进学习稳定性或完整性。因此,在这一过程中不仅要关注结果本身还需要重视对推理过程中的监督信号给予重视同时也能够提升模型的可解释性。基于此He G L团队提出了具有创新性的Teacher-Student框架模型。该框架最初由Hinton等学者提出作为知识蒸馏的方法其中复杂的Teacher模型预测结果被视为"软标签"并采用轻量级Student模型来进行拟合以加快训练效率。随后关于Teacher-Student框架的研究逐渐拓展至问答任务领域以进一步提高模型推理速度和效率。在He G L提出的框架中Student网络的主要目标是在回答问题时尽可能准确地获得正确答案而Teacher网络则致力于学习生成可靠的中间监督信号以增强学生网络的学习能力。具体而言Teacher网络通过结合正向推导与逆向推导的方式生成较为稳定的中间监督信号从而优化中间实体分布表示的学习效果。经过在多个公开数据集上的测试实验该教师学生架构的有效性得到了充分验证并展现出良好的推广性能
基于语义配对的技术通常采用了弱监督的方式,在减少人工标注需求的同时(通过降低了人工标注的需求),这种技术能有效地捕捉用户查询与知识库间的语义关联(从而为其在复杂推理与问答中的应用奠定了良好的基础)。提升其对知识库中多样化的理解能力成为关键要素(如何让基于语义匹配的方法学到更丰富和全面的知识图谱信息是这种方法的关键)。另外,在提高其表示过程中的透明度被视为必要的考量(增强表示方法的可解释性也是重要的考虑因素)。
(2)基于图神经网络的方法
图卷积神经网络(graph convolutional network, GCN)基于聚合知识图谱中实体的邻居信息来传递消息。作为一种在图结构数据上表现出色且具有扩展性的深度学习模型,在实际应用中具有显著的效果。具体而言,GCN是多跳推理方法所依赖的复杂图神经网络的基础架构(如图2所示)。Schlichtkrull等人提出的Relational Graph Convolutional Network(R-GCN)是最早将图卷积神经网络应用于知识图谱链接预测任务的研究工作。通过引入特定关系信息的聚合机制,该模型能够扩展传统的GCN架构以适应多关系图的学习需求,并最终实现对多跳路径问题的答案预测能力。其整体架构遵循encoder-decoder模式:其中encoder模块利用图卷积神经网络对实体的邻域信息进行聚合更新;decoder模块则基于更新后的实体表示和预先定义的打分函数来预测边的存在与否。然而该模型缺乏足够的解释性能力,在关系选择方面无法为用户提供明确的依据支持。相比之下,Teru K等人提出的GraIL框架则采用了基于注意力机制的多关系图神经网络模型来解决知识图谱上的归纳式关系预测问题。该模型中的注意力机制不仅与相邻实体及其关系相关联,并且还与待预测的目标关系存在密切关联。最终通过融合两个目标实体表示、子图整体表示以及预测关系表示的信息来进行打分评估,并将最高得分结果作为最终预测值。这种归纳学习方法通过显式编码知识图谱中的规则以及引入针对性注意力机制的方式显著提升了模型的可解释性

图2 图卷积神经网络
近年来,在自然语言处理领域中
现有传统智能问答解决方法仅限于从单一的知识图谱或文本中获取答案。
尽管文本作为非结构化知识能够提供丰富背景语境内容,
其与知识图谱融合的优势已成为当前研究的前沿方向。
Graft-Net(基于事实与文本的知识网络)以及PullNet(拉取网络)结合外部文本语料库与知识图谱实现多跳问答任务。Graft-Net通过将Wikipedia语料库中的文档与知识图谱中的实体作为节点进行表示,并将实体间的链接关系(其中包含此实体名词的句子中存在此关系)以及知识图谱中实体间的相互关联关系作为边进行构建来形成问题子图,并进而执行多跳推理过程。具体而言,在Graft-网中首先由问题主题实体连接若干种子实体;然后以这些种子实体为起始点通过个性化页面排名算法提取其邻居实体中具有最高PPR值及与其相关联的边并加入问题子图;同时从文本语料库中检索出与查询高度相关的5个关键句子并将这些可被相关联到上述关键句子的实体一同加入到问题子图中;最终构建的问题子图由由四个部分构成:即由句子节点、实体节点、存在于这两类节点之间的链接关系以及存在于各实体间的关系所组成的网络结构。随后对Graft-网中的所有节点进行向量表示学习工作并最终通过对所有候选回答实体进行二分类处理来确定答案集合从而完成推理任务过程。值得注意的是Graft-网所建立的问题子图规模往往过大且在实际应用过程中往往无法包含真实答案信息;而相比而言Pull-Nets则基于一种逐步迭代构建的方式来进行子图构建工作即初始阶段仅包含查询相关的单一问题及其中存在的若干个主体 entities Pull-Nets则通过反复迭代的方式来不断扩展补充当前的问题子图:具体而言初始阶段仅包括查询及其中存在的相关主体 entities 在每一次迭代过程中首先利用图卷积网络计算当前子图中存在的每个主体 entity 被纳入下一阶段迭代的概率并筛选出概率超过设定阈值的所有主体 entities 然后针对每一个被选中的主体 entity 从其关联的相关上下文语句集合以及知识库中获取其相关的三元组集合进而将所有新发现的语句、三元组及其涉及的相关 entity 均视为新增节点并将这些新增节点之间建立相应的关联边从而更新当前的问题子图结构;待子图构建完成后则采用与Graft-网相同的分类方法对所有候选回答 entities 进行二分类处理以确定最可能的答案集合从而完成推理任务。
利用图神经网络方法对知识图谱数据进行分析和提取具有较高的表达能力。该方法能够深入解析问题中主题实体在其所处的图谱中的关联实体及其相互作用关系,并有效捕捉各实体间的复杂联系。然而,在关联实体及其关系信息不足的情况下(即当这些关键节点及其连接性资源较为稀缺时),其语义表征的效果仍显不足。此外,在构建子图的过程中随着新增节点数量的增长(即随着新增的主体对象及它们之间的互动关系增多),计算开销及内存占用随之显著提升。尽管通过注意力机制设计的变体能够通过动态调整邻居重要性权重来优化模型性能(即通过注意力机制来优化对邻接节点价值的关注程度),但此类改进措施仍存在无法完全应对该类问题的情况(即尽管能部分缓解资源分配不均的问题但仍有局限性)。
(3)基于记忆网络的方法
传统的循环神经网络(recurrent neural network,RNN)、LSTM网络等深度学习模型使用隐藏层状态作为其记忆模块,但是这种方法产生的记忆力太短程,无法精确记住被转化为稠密向量的长路径知识。Weston J等人提出了一种可读写的外部记忆模块,联合记忆模块保存场景信息,以实现长期记忆的目标。该方法中的记忆网络包括I(input feature map)、G(generalization)、O(output feature map)、R(response)4个组件。I用来将输入转化为内部特征向量表示;G用来更新记忆,并插入记忆槽中;O根据新的输入和当前的记忆状态输出特征映射表示;R把组件O的结果转化为想要的输出形式,如文本回答。该模型是本文接下来要介绍的复杂记忆网络多跳知识问答推理方法的基础,如图3所示。

图3 记忆网络模型框架
基于Weston等人提出的记忆网络模型,在此基础上Miller等人发展了键值记忆网络(Key-Value Memory Network, KVMemNN)这一创新性框架。该框架通过迭代更新存储键值对的记忆槽来实现多跳推理任务。其中,"key"被定义为三元组中头实体与关系的组合体,"value"则对应尾实体信息。相较于Weston等人的原始记忆网络方法,KVMemNN能够更好地处理复杂结构的知识图谱数据。其工作原理如下:首先将用户问题与知识图谱中的三元组表示为向量形式,并通过用户的提问信息检索出相关知识片段作为键值槽;其次,计算每个键与其提问信息的相关性评分,并依据这些评分对相应的value进行加权求和运算;最后,利用得到的value向量更新提问向量的信息。经过N次这样的迭代更新后,通过对提问向量进行分类处理,最终获得多跳推理的答案。尽管KVMemNN架构简单且具备较强的普适性,但其依赖于向量迭代更新机制来进行隐式推理的特点也带来了一定的局限性:即当面对复杂问题时,需要进行多次迭代表示过程;同时在构建记忆槽时容易导致内存占用过高以及训练耗时延长等问题。针对上述不足,Xu等人提出了一种新的问题表示更新机制:在执行更新操作时不考虑问题中已经定位到的具体key值信息;该机制通过将问题分解为一系列针对记忆槽的记忆查询过程来增强多跳复杂推理能力;然而这种方法却存在一个问题:即它未能充分捕捉到问题描述与知识图谱信息之间的相互作用关系;因此Chen等人在此基础上提出了双向注意机制的新颖模型——双向注意记忆网络(Dual Attention Memory Network)。该模型采用注意机制来捕获问题描述与知识图谱信息间的相关性特征,并通过这种关联关系进一步优化提问表征方式以提升推理结果的质量与准确性
Das R等人在2017年提出了一种创新的研究框架,在构建知识图谱的同时处理文本数据进行多轮问答推理。该研究团队通过将结构化知识图谱与非结构化文本数据映射到同一嵌入空间中进行对齐,在这一过程中取得了显著的效果。相比于单独依赖于知识图谱或文本信息的使用方式,在同一嵌入空间中整合这两者的表现更加卓越。为了提升推理能力,Dynamic Memory Network (DMN)模型采用了门函数机制来控制注意力,而Dynamic Memory Tensor Network (DMTN)模型则引入了神经张量网络以实现更为高效的推理过程,从而实现了比传统方法更好的性能表现。
这些记忆网络模型展现出较好的性能,但这些模型仍存在"黑箱"特性、可解释性不足的问题。为了增强多轮知识问答推理过程的可信度、可解释性等关键指标,在保证模型准确率的同时也尝试了多种方法来提升其可解释性水平。Zhou M T等人提出的解释推理网络(interpretable reasoning network, IRN)是一种创新性的可解释性增强型的记忆网络推理方法;该方法采用基于可解释性的分步推理机制来回答问题;它能够动态决定输入问题的哪一部分应该在哪一阶段进行分析、预测与当前解析结果相对应的关系,并利用预测关系更新问题表示和推理过程的状态;然后驱动下一阶段的推理工作;该方法不仅能够为推理分析和故障诊断提供可追踪、可观察的关键中间预测信息;还能通过人工操作的方式预测最终答案;从而显著提升了整个系统的透明度和可靠性水平。
3 基于路径的多跳知识问答推理
为了更好地构建多跳知识建模框架,在路径分析的基础上受到学术界的广泛关注。在知识图谱中,结构化的知识以三元组的形式得以表示;而基于路径的多跳问答推理机制则以用户提问中的主题实体作为起始点,在多个三元组头实体、关系及尾实体之间展开逐级遍历搜索过程,并通过逐级遍历的方式定位到答案实体或关联关系;该过程通常包含三个步骤:首先对输入问题进行初步分析;其次对积累的知识资源进行系统性推理;最后完成答案预测与输出。该机制可被系统性地划分为两类:一类是强化学习驱动的方法;另一类是基于查询图的技术。
(1)基于强化学习的方法
路径排序算法(path-ranking algorithm, PRA)是一种有效的大规模知识图谱推理路径学习方法。基于该算法的多跳知识问答推理方法的核心思想在于通过分析实体间的复杂路径特征来指导随机游走器的学习过程,并在此基础上推导出答案。
与基于随机游走的路径查找模型相比,Xiong W H团队开发的DeepPath方法是一种具有创新性的可控多跳推理技术。该方法通过将路径搜索过程转化为强化学习框架来实现推理控制,在动态调整所探索路径属性的同时有效缩减了搜索空间。该研究工作通过图4展示了其模型架构:该强化学习体系由两个关键模块构成:第一模块是被建模为马尔可夫决策过程的环境部分,在此框架下智能体与知识图谱实现了动态交互;第二模块是策略网络驱动的智能体部分,在此过程中状态向量被映射为随机策略分布。在每一轮迭代中,在与环境互动的过程中智能体逐步选择合适的关联关系以扩展推理路径链路。为了使强化学习机制能够更有效地指导目标关系路径的学习过程,在该研究中相比以往工作更加注重奖励机制的设计,并从准确性、多样性和精确度三个维度引入奖励反馈机制对每一步行为进行监督性引导:具体而言,在每一步决策中都对相关行为进行了相应的评分和反馈调整

图4 DeepPath模型
在环境设置模块中,在强化学习智能体在各个状态下的决策次数中涵盖了正确与错误两类情况,并且总数目显著。值得注意的是,在强化学习算法中存在一个显著的问题:即当路径较长时(即状态转移步数较多),系统需要处理的状态空间呈现指数级增长的趋势;针对这一难题,DeepPath模型首次引入了一个关键性奖励机制来应对该问题。

相较于长路径而言,在某些情况下短路径能够提供更为充足的推理证据。短路径链条通过将智能体与环境之间的互动次数加以限制的方式,在提高推理效率的同时也实现了对计算资源的有效利用。由此可见,DeepPath算法旨在定义一种高效的奖励机制。

其中,p为一个序列关系,如

。
在知识图谱中存在多个语义相近的实体的情况下, 这种现象可能会引导智能体在搜索过程中倾向于选择具有相似语法结构和语义含义的路径, 这些路径往往包含冗余信息. 为了避免这种情况, DeepPath算法通过计算当前搜索路径与已有路径之间的余弦相似度, 来定义一种鼓励探索更多元化搜索路径的多样化奖励函数.

其中

,表示的嵌入向量,F表示已经存在的关系路径个数。
Meilicke C等人所提出的AnyBRUL(Reinforced Anytime Bottom-Up Rule Learning)方法也采用了强化学习的方法对路径进行采样,并基于这些采样的路径构建基础规则进而发展出抽象规则。相比之下, DeepPath和AnyBRUL都需要首先遍历头实体与尾实体之间的所有可能路径,随后利用这些信息来判断尾实体是否是正确答案这一过程无法有效应对找不到对应尾实体的情况相反地,某些其他方法则能够通过给定头实体及查询关系直接利用训练模型来推断出正确的答案实体在这些模型中,Das R等人于2018年提出的MINERVA算法(Meandering in Networks of Entities to Reach Verisimilar Answer)是一个具有代表性的例子与传统的DeepPath不同,MINERVA算法其状态由查询关系以及部分路径的嵌入信息构成,并且在采样过程中无需依赖预设的答案实体嵌入
大多数强化学习模型采用0/1硬奖励机制来监督抽样过程。其中一种典型方法是RS(即奖励重塑方法),其在最终阶段引入了基于正确答案实体与采样实体之间计算的软奖励。此外,在借鉴Dropout技术的基础上,RS模型通过减少选择大量重复路径的方式来缓解过拟合问题。Shen Y L等人开发的M-Walk方法采用了一种基于值评估的强化学习策略,并利用蒙特卡洛树搜索算法来解决稀疏正奖励带来的挑战。Chen W H等人提出的DIVA框架将推理任务建模为一个整合路径探索与答案推理的过程。
采用强化学习技术对多轮知识问答推理任务进行建模类比于一个序列决策过程,在这一框架下仅通过少量训练目标即可训练出具有较强泛化能力的模型,并无需依赖大规模标注数据集。然而,在处理复杂的多轮知识推理场景时,智能体的决策能力仍然存在明显局限性。
(2)基于查询图的方法
基于路径排序的方法可能导致搜索空间急剧膨胀。相比之下,在信息检索领域中,作为基础框架的改进型方法之一,针对特定应用场景进行了优化设计。具体而言,在生成结果关联关系方面存在显著差异:一种是直接从主题到答案建立关联关系的方式;另一种则是通过构建包含主题及其相关扩展项的子图来实现对问题空间的整体覆盖。值得注意的是,在这一过程中,“实体”一词在此处应为“方法”。具体来说,在生成结果关联关系方面存在显著差异:一种是直接从主题到答案建立关联关系的方式;另一种则是通过构建包含主题及其相关扩展项的子图来实现对问题空间的整体覆盖。
早期的基于语义解析的方法 将自然语言问题转换为结构化的查询(如SPARQL查询),在知识图谱上执行查询可以得到问题的答案。Reddy S等人等人充分使用了组合范畴语法(combinatory categorial grammar,CCG)的表示能力,并提出Graph Parser模型来解析问题,受此启发,Yih W T等人在2015年定义了查询图的概念,并提出了一个分阶段的查询图生成(staged query graph generation,STAGG)模型来处理知识图谱问答,查询图可以直接匹配为问题的逻辑形式,进而翻译成查询,因此语义解析问题可归结为查询图生成问题。STAGG定义了3个阶段来生成查询图:首先,使用现有的实体链接工具获取候选主题实体,并对其评分;然后,STAGG探索主题实体和答案节点之间的所有关系路径,为了限制搜索空间,它仅在下一跳的节点是一个复合类型(compound value type,CVT)节点时,探索长度为2的路径,否则只考虑长度为1的路径,使用深度卷积神经网络对所有关系路径进行打分,以判断当前选择的关系与问题的匹配程度;最后,根据启发式规则将约束节点附加到关系路径上。在这3个阶段的每个阶段,都使用对数线性模型对当前的部分查询图进行评分,并输出最佳的最终查询图来查询知识图谱。STAGG有效地使用了知识图谱中的信息来裁剪语义解析空间,从而简化了任务难度。
针对STAGG在处理包含复杂约束的问题时存在局限性,Bao J W团队扩展了可表示的约束类型和运算符,并引入了类型约束、显式时间约束以及隐式时间约束等,将多重约束问题转化为多重约束查询图(MulCG)的形式以实现推理过程.MulCG虽然仍遵循STAGG的基本架构,但通过引入额外规则,显著提升了处理复杂问题的能力.在现有方法中,如STAGG与MulCG等系统均要求先对问题中的候选主题实体进行知识图谱上的关联映射,这一操作的质量直接影响着后续推理效果.Yu M研究团队则将知识图谱问答任务分解为实体链接与关系检测两大关键环节,并提出了一种基于残差学习增强的分级双向长短期记忆网络(HRBiLSTM)用于关系检测.对于实体链接部分,他们在SimpleQuestions数据集上发现主题实体识别的Top-1准确率仅为72.7%,因此采用了以下策略:首先基于实体链接器生成初始候选主题实体;随后将问题文本输入HR-BiLSTM模型中进行分析;该模型通过对问题文本及与候选主题实体相关的知识图谱信息进行多级编码并计算相似度得分,最终仅保留与得分较高的关系所对应的候选主题实体.当确定新的主题实体后,又运用HR-BiLSTM对新关系进行筛选,以此逐步构建查询方案.在执行问题求解时,HRBiLSTM也遵循传统方法论的标准流程
为了限定搜索范围, STAGG仅能探索至两跳之内, 无法解答超过两跳的推理问题。研究者Lan Y S等人对STAGG进行了改进, 使其能够处理更长的关系路径; 而非仅在构建关系路径后添加约束, 进而有效缩减搜索空间。此外, 进一步优化后的分级查询图生成方法不仅能够处理包含约束的回答问题, 并且还能应对涉及多步推理的问题; 该分级查询图生成方法在WebQuestionsSP(WebQSP)系列数据集上取得了优异的表现
基于路径机制实现的多步知识问答推理方法展现出良好的可解释性特征。然而,在仅包含关系型的知识场景下应用效果较为理想;当涉及属性型或事实型知识时,模型构建较为复杂。
4 基于逻辑的多跳知识问答推理
主要以符号逻辑方法为基础的研究,在多轮对话系统开发中展现出显著的优势与潜力。其中,在现有技术框架下实现的主要路径包括:一方面通过融合概率逻辑方法来提升推理能力;另一方面则采用集成知识嵌入技术来增强模型的表现效果。值得注意的是,在这一领域中一阶逻辑近年来逐渐成为研究的热点方向之一;本节将重点阐述基于一阶谓词演算框架下的多轮对话系统开发思路。
结合一阶逻辑的特点及其概率逻辑模型中处理不确定性的优势,在应用马尔可夫逻辑网络进行知识图推理时表现出显著的有效性。然而,在大规模知识库中由于三元组间的复杂关联结构导致上述方法在推理过程中面临着较大的困难且效率偏低。以注意力机制为基础的图神经网络则擅长处理高度复杂的图问题,并且Vardhan V H等人提出了一种基于变分EM算法的概率逻辑图注意力网络(probabilistic logic graph attention network, pGAT),该模型通过提升联合分布估计的能力实现了对由马尔科夫逻辑网络所定义的所有可能三元组关系的有效建模。这种改进使模型得以更好地整合一阶逻辑与现代深度学习技术中的注意力机制,在多跳知识问答系统中有重要的参考价值。
近年来,在知识图谱规模巨大且存在缺失问题的前提下
GQE专注于限制在一阶逻辑查询中的一类特定表达式,并特别针对仅包含存在量词与合取操作的知识库推理问题展开研究。该方法通过引入两个关键的几何运算符——投影算子P与交点算子I——来处理这类特殊的查询语义。具体而言,在知识库推理过程中,投影算子P的作用是将当前查询嵌入向量依据下一跳关系r投射到新的空间中;而交点算子I则通过聚合计算图中所有出边指向同一节点的顶点嵌入向量表示来模拟逻辑合取运算。需要注意的是,在这一过程中,P与I均依赖于公式(4)来进行具体计算

其中,

参数张量w是与关系r相关的可训练参数矩阵;前馈神经网络模型具有多个层结构;Ψ具有对称性的向量值函数特性。
GQE将查询嵌入为向量空间中的一个点。Query2Box认为复杂的一阶逻辑查询对应一个答案实体集合,但目前一个点不能有效地建模一个集合,并且在向量空间中对两个点做逻辑运算也不自然,故Query2Box将查询嵌入为向量空间中的box。box由中心点和偏移两部分组成,答案实体嵌入为一个点应包含在对应的box中,关系嵌入也表示成中心点和偏移项两部分。查询包含的实体节点的嵌入被初始化为偏移项为0的box,对于当前输入的box嵌入p和下一跳关系嵌入r,关系嵌入也表示成中心点和偏移项两部分,P操作通过在向量空间中将p和r相加产生新的box,I操作取多个box的交集作为结果,按照计算图中的运算逐步推理,即可生成查询最终的box嵌入。Query2Box还在GQE的基础上增加了析取V运算,扩充了逻辑查询的功能。GQE和Query2Box等方法将查询嵌入为闭区域,比如欧几里得空间中的一个点或一个box,而因为对闭区域取补并不能得到闭区域,所以这些方法不能支持逻辑取负运算,并且不能对不确定性进行建模。有别于Query2Box等,BetaE将实体和查询嵌入为[0,1]区间上的𝛃分布,并为𝛃向量定义了概率关系投射、概率交和概率取负3个概率逻辑运算符,以支持任何形式的一阶逻辑查询。对𝛃分布的参数取倒数即实现了取负运算,即将高概率密度区域转换为低概率密度区域,反之亦然。对于概率投射,BetaE为每一种关系类型学习一个多层感知器,以将一个𝛃向量通过下一跳的关系r匹配到另一个𝛃向量,BetaE将概率交定义为多个𝛃向量的带权积。同样,按照计算图中的推理次序对起始的𝛃向量做变换,即可生成查询对应的𝛃分布,然后在嵌入空间选择与查询嵌入概率最相近的实体集作为答案。
主要依赖于基于一阶逻辑查询的多层知识问答推理方法展现出严谨性和灵活性,并表现出较高的准确性。针对处理不确定性问题,在相关研究中尝试将逻辑运算与概率逻辑融合或将其表示为嵌入向量空间中的几何操作;理论上支持对任意数量信息进行处理。然而,在实际应用中发现这类模型在处理复杂的跨领域或多模态查询时存在不足。
5 实验评测
通过评估多跳式知识问答推理模型在现有数据集上的性能表现来验证其有效性。现有的标准测试用例通常包括MetaQA、WebQuestionsSP以及CWQ等基准数据集。此外,在链接预测领域中使用的标准数据集(例如FB15k和FB15k-237)也被用于构建基于查询的形式化问答系统。本节将介绍这些常用的评测数据集及评测指标,并对前文所述方法在以上数据集上的表现进行了对比分析。
5.1 评测数据集
(1)MetaQA数据集
MetaQA数据集源自WikiMovies数据集,在电影领域构建了一个大型跨步问答数据集。该集合总计收录了近40万个跨步问题,并将其划分为Vanilla、NTM及Audio三种版本。其中Vanilla版本主要应用于多轮知识问答推理任务中,并不仅限于单一层次的信息检索。该版本不仅包含了丰富的一阶、二阶和三阶三种类型的问答数据,并且内置了一个完整的知识图谱资源库,在这一领域拥有约1.35万三元组、4.3千实体节点以及九种核心关系网络。
(2)WebQuestionsSP数据集
Yih W T等人对WebQuestions数据集改进后提出了WebQuestionsSP数据集。WebQuestions是为了解决真实问题而构造的数据集,其问题来源于谷歌建议应用程序接口(Google suggest API),答案由众包平台Amazon Mechanic Turk通过人工标注生成。WebQuestions只包含了问题的答案,没有提供问题对应的查询语句,针对此缺点,WebQSP为每个问题构造了其对应的SPARQL查询表达,并删除了一些表达有歧义以及无清晰意图或答案的问题。WebQSP包含4 737个1跳或2跳问题,问题的答案可以在Freebase知识库中找到。
(3)ComplexWebQuestions数据集
研究者Talmor等基于WebQSP开发了ComplexWebQuestions数据集。随后从WebQSP中提取问题及对应的SPARQL查询,并通过自动化手段生成包含组合关系、连接运算、比较级及最高级等复杂形式的SPARQL查询。最后,这些SPARQL查询通过Amazon Mechanical Turk平台被转换为自然语言形式的问题。该数据集总计包含34,689个问题及其相应的答案和原始SPARQL查询。
(4)其他数据集
Freebase的子集是FB15k,在知识图谱补全领域也被用作重要的基准数据集,并由三元组组成。为了缓解原始数据集中潜在的数据泄露问题,Toutanova及其团队基于原始的FB15k构建了改进版的FB15k-237,并去除了原始数据集中反向存在的关系.NELL995这一数据集合自于NELL系统
5.2 评测指标
在复杂问题的回答能力方面,
Hits@1、F1分数、MRR以及MAP等指标被普遍采用,
以量化评估多轮对话系统的表现。
其中,
将问答系统建模为问题与答案的检索机制,
而Hits@1指标衡量的是在所有查询中
正确答案出现在结果列表首位的比例。
基于此,
F1分数则是精确率与召回率
两个关键指标的调和平均值,
它反映了模型在回答质量上的整体表现。
而MRR计算的是
所有查询中对应实体在结果列表中的
倒数位置取均值的结果,
这能够有效反映系统的稳定性和准确性。
最后,
MAP则综合考虑了每个查询下的
查准曲线下的面积进行度量,
这使得评估更加全面且具有参考价值。
5.3 实验结果及分析
表1总结了几种多跳知识推理方法在MetaQA、WebQSP和CWQ这三个实验数据集上的Hits@1表现。“-”表示在相关研究中对应指标的具体数值未提供;而1-hop、2-hop和3-hop分别代表从源实体到目标答案实体推理所需的跳跃次数为一次、两次和三次。

从表1的数据可以看出,在MetaQA数据集上进行评估时发现:这些模型在Hits@1指标上的表现较为接近;然而随着推理跳数的增加(即推理深度逐渐加深),KVMemNN和GRAFT-Net两者的性能明显下降;相比之下,在3跳问题上PullNet仍表现出不俗的性能;而这一优势不仅体现在单个数据集上,在WebQSP等其他数据集中同样得到了验证:这充分体现了其提出的方法论创新及其在基于知识图谱的多轮推理任务中的适用性;进一步对比发现:与KV-MemNN、GRAFT-网及PullNet相比,在MetaQA数据集上的平均Hits@1值显著更高;这一优势还在WebQSP等场景中得到印证:证明了所提方法在解决复杂多轮问答问题方面具有显著优势;最后值得注意的是:NSM+h的表现优于表1中所有其他模型
表2汇总了以逻辑为基础构建的研究对象(GQE、Q2B(Query2Box)、BetaE)在FB15k、FB15k-237和NELL-995三个数据集上的多步推理能力的表现。

通过对比实验结果可以看出,在所有测试数据集中,Q2B方法在1步查询、2步查询和3步查询任务中均表现出明显优势。这一理论创新性地将查询(问题)嵌入到向量空间中以形成一个box而非单个点,这不仅具有理论意义而且在实际应用中也取得了显著成效。进一步研究表明,在BetaE模型在这三个模型中展现出显著的优势,在多跳推理任务上平均MRR指标最高。
表4展示了基于强化学习的多轮知识问答系统在不同数据集上的实验结果对比分析。其中采用的关键评估指标包括Hits@1和MAP(Mean Average Precision)。值得注意的是,在某些数据集中某些方法的表现可能不如预期理想。
从表4的数据可以看出:
(i)在FB15k-237数据集上,在线强化学习(Online RL)的方法表现优于传统强化学习(Offline RL);
(ii)基于双向注意力机制的方法在大多数任务上均优于单向注意力机制;
(iii)引入层次化结构后的方法在复杂推理场景下的鲁棒性显著增强;
此外:
(a)在线强化学习方法依赖于高质量的任务表示;
(b)双向注意力机制能够有效捕捉语义相似度信息;
(c)层次化结构有助于减少计算开销;
综上所述:
通过系统性的实验对比分析可知,
本研究提出的方法在多个方面均优于现有工作,
具体而言:
(i)在线强化学习框架具有更高的计算效率;
(ii)双向注意力机制能够显著提升模型性能;
(iii)层次化结构设计有助于提高模型泛化能力。

6 结束语
近年来大量涌现了许多基于知识图谱实现多跳问答推理的方法,在国际与国内均取得了显著进展的同时也面临着诸多有待解决的问题。
伴随着KGQA技术的持续进步与发展,在智能化问答逐渐渗透到人们日常生活的同时, 该技术也展现出显著的应用价值与社会意义. 在实际应用场景中, 人们往往倾向于提出更具复杂性的多层级问题, 这种需求推动着多轮对话知识智能问答体系的不断演进, 同时也在反过来倒逼相关研究算法向着更高层次发展. 本文基于三个主流方向, 对近年来相关的多轮对话知识问答推理方法进行了系统梳理与分析. 在现有研究方法中, 大部分采用多种技术手段融合的方式构建模型架构, 而其分类体系则依据各研究方法的核心创新点与贡献度来设定. 具体而言,在基于逻辑的方法论框架下, BetaE模型虽然采用了知识图谱实体嵌入表示方式展开语义信息提取, 但其本质是通过一阶逻辑求解答案的思想实现目标输出的过程, 这种基于神经网络的技术特征实质上是对符号逻辑的一种强化优化手段. 因此,在本文中将该类算法归类为基于逻辑推理的方法. 此外, 文章还对广泛使用的公开评价基准、性能评估指标体系进行了系统阐述,并对现有主要算法在不同基准数据集上的最新实验结果进行了详细分析与讨论
本文阐述的方法在实际应用中依然存在瓶颈,主要面临以下3个挑战。
在构建涉及错综复杂的多层次知识问答系统时,在建模阶段遇到的困难在于不易于全面把握用户的多层次需求以及其间的关联网络。
小样本学习问题:当知识资源和训练数据都较为有限时,在准确提取和利用这些有限的知识信息方面仍面临诸多挑战。
可解释性:在多轮知识问答任务中应用机器学习技术取得了显著的效果(优异的性能),然而,在提升模型性能的同时缺乏对决策过程的透明度(导致模型缺少可信度)。
各类多跳知识问答推理方法的优点和不足见表4。

未来,将从以下两方面进行更深入的研究。
随着以BERT为代表的预训练语言模型的兴起,在智能问答等NLP任务方面取得了显著进展。面对基于Transformer架构的预训练模型种类日益丰富这一趋势,在众多研究者中引起了广泛关注,并逐渐形成了对整合预训练语言模型与知识图谱技术持积极态度的趋势。通过两者的深度融合,在指导其学习相关知识的同时,显著增强了BERT在处理背景知识或常识信息方面的编码能力;而文本上下文与知识上下文之间的融合则有助于构建更为完整的跨文本推理框架,并且在多轮对话场景下展现出良好的语义理解能力。此外,在复杂领域问题解答中所展现出的优势使得多轮对话系统的性能得到了显著提升。
大量的互联网数据和行业数据展现出多种表现形式。其特征在于通过图谱知识、文本描述、图像、信息图表和视频等多种形式来表征同一事物。预期未来将会在多模态知识图谱的多轮问答研究方面进行深入探讨,以满足人们对知识理解与认知日益增长的需求。这种模式能够显著提高知识的相关性和多样性,并更加全面地体现对应的图谱中的相关知识。借助于丰富多样化的知识表示方法,这种模式将有助于提升多轮问答推理的效果。
