Collaborative Policy Learning for Open Knowledge Graph Reasoning


摘要
近年来,在这一领域中研究者们对可解释性图推理技术表现出浓厚的兴趣。然而,在处理稀疏和不完整的图数据时现有方法往往面临性能瓶颈为此我们在此研究中聚焦于开发一种新的强化学习框架以提升此类任务的表现。该框架的主要目标是通过从背景文本语料库中提取补充事实来增强图的能力从而推动其在复杂场景下的应用潜力。在此过程中我们遇到了一个关键的技术挑战即如何开发一种机制来识别并排除与当前推理任务关联度较低的事实信息以确保路径搜索过程的有效性。为此我们设计并实现了两个协作组件一个多跳式推理组件以及一个专门负责抽取潜在事实信息的事实提取模块这两个组件之间的互动关系被精确建模并通过互惠反馈机制实现了性能上的显著提升。具体而言事实提取模块能够动态地识别并生成与当前上下文相关的潜在事实而这些生成的事实则会反向指导其自身的优化过程从而提升了整体系统的可解释性水平。为了验证我们提出的方法有效性我们在两个公开的数据集上进行了系列实验结果表明该框架能够显著提高处理稀疏与不完整知识图谱的能力并且展现出良好的扩展性和泛化性能。此外完整的研究代码以及相关数据集已公开发布于GitHub存储仓库:https://github.com/shanzhenren/CPL
1.介绍
知识图谱的构建与推理过程,在人工智能领域具有重要意义。其中,在自然语言处理中,“识别图中缺失的事实(实体关系)的问题在该领域具有重要意义”。近年来提出的神经图推理方法如MINERV A (Das等人, 2017)、DeepPath (Xiong等人, 2017)以及Multi-Hop (Lin等人, 2018),在这一任务上取得了显著成果——其预测精度显著优于基于嵌入的方法(Trouillon等人, 2016;Dettmers等, 2018),并且模型具有良好的可解释性。这些方法将链接推理任务视为图上的路径搜索问题进行建模(例如,请参见附图)。
如图1所示:知识图谱推理任务的描述。假设给定一个实体实例(如Miami)及其关联查询关系(如位于),我们能够在现有的知识图谱结构中推导出合理的推理路径以辅助预测相应的目标实体(如USA)。

然而,在当前的研究中发现,在神经图推理领域仍然面临着两个关键性的挑战:(1)现有研究发现其算法对于含有稀疏性及不完整性(即潜在虚假正的结果)的表现尤为敏感,这使得寻觅通往目标实体的有效证据路径变得异常困难。(2)现有的研究多基于静态图模型进行设计,无法有效应对动态扩展中的新增数据
我们探讨了基于开放知识图推理(OKGR)的新任务——即在进行推理过程中通过动态补充新事实至图表中(如图2所示)。现有的联合图与文本嵌入方法主要聚焦于优化知识表示以提升推理能力(Xu et al., 2014; Han et al., 2018)。然而我们进一步探讨了通过从文本中提取的事实来扩展知识图谱的方法这一思路。尽管如此这种整合过程中的事实往往存在噪声或与推理路径无直接关联的情况进而可能导致搜索效率下降以及模型可伸缩性受限因此设计一种能够有效筛选关键事实的技术显得尤为重要
图2展示了基于OKGR问题的CPL框架概览。为了优化知识图谱(KG)的质量和推理能力,该方法通过抽取与蓝色虚线箭头相连的三元组信息来动态提升知识图谱(KG)的质量。该方法包含两大核心部分:第一部分是开发事实抽取策略并生成相关事实;第二部分是通过动态优化图结构来进行推理以提高预测准确性。

针对OKGR所面临的一系列挑战, 我们开发出了一种新的协作学习框架CPL, 该框架通过相互促进的方式协同训练两个强化学习代理. 在该框架下, 同时引入了一个专门负责信息提取的任务模块, 基于推理过程和语料库设计出一套基于现有知识快速识别关键信息的技术(见图2). 在具体实施过程中, 该任务模块会持续优化并动态调整图中权重最大的边, 从而使得强化学习代理能够更加高效地完成正向路径的探索.
就而言之,在政策学习阶段,当推理代理成功达成目标时将获得奖励反馈;若采用来自推理代理的边缘建议,则可确定了合理的推理路线;这种积极的反馈机制会被及时发送回事实提取代理;这不仅增强了事实提取策略的学习效果,并且为后续的路径推理奠定了基础;同时又会传递给事实提取代理以作为奖励信号;如需进一步了解相关机制,请参阅第3节以及附图3所示的内容。
我们主要开展以下几项工作:(1)在"开放世界"环境下进行知识图谱推理,在背景语料库中能够提取新事实用于路径求解;(2)研发出一种新型协同政策学习框架,深入探究了事实提取与图推理间的相互关系;(3)经过系统性的实验验证与深入分析,验证了所提出的方案在准确性和实用性方面的突出优势。
2.背景与问题
而现有的KG补全方法则通过全面遍历对所有可能的三元组进行排序。
background corpus背景语料库

基于此前提,在我们的研究问题设定下已识别出实体信息;将从语料库中提取事实数据等同于进行关系抽取任务。通过远程监督学习方法(引用Mintz等人的2009年研究)为每个句子标注主谓宾体格关系。可能存在许多这样的情况导致多个不同但具有相同主体与谓体配对的关系实例出现。按照Lin等人先前的研究成果(2016),我们将所有具有相同核心主体与谓体配对的关系实例归入同一个集合中进行分析处理。该集合被称为‘核心实例集合’或者‘主题集’或者其他类似名称;即由这些标有相同核心主体与谓体配对的关系实例组成的集合被称为‘主题集’或者‘核心实例集合’或者其他相关术语;
问题
开放知识图谱推理(OKGR)旨在通过整合G与C来进行知识图谱推理活动,在此过程中,G通过从C中抽取的事实数据不断更新和完善自身。本研究重点考察了OKGR机制及其在实际应用中的表现特点。具体而言,则是利用语料库中的信息来增强知识图谱的能力,并持续补充相关的事实数据以丰富其内涵体系。鉴于此关于关系提取技术的具体评估超出了当前研究的探讨范围我们将这部分内容作为未来研究的重点来进行深入探讨。
3.框架
概述

3.1 Graph Reasoning Agent


3.2 Fact Extraction Agent

详细阐述协同政策学习(CPL)的具体架构。其中以PCNN-A TT为例展示了句子编码器的具体实现。在给定的推理步骤t中,在实体et位置上运行着一个高效的推理机制。该机制通过动作空间采样策略选取关联关系,在当前状态信息基础上进行状态转移操作。具体而言,在时间步t下,在实体et处运行时序网络结构会根据预设规则生成候选关系集合,并从中选择最优连接路径完成状态更新过程。

事实提取器在提升推理机性能方面积累逐步延迟的奖励反馈。其提供的建议若有助于推理进程,则将带来正面反馈。更多细节可参考第3.3节。
3.3 Collaborative Policy Learning
在本节中
增强的推理行动空间
因此,我们将提取器提取的高置信度边添加到推理器的动作空间中


基于 推理反馈 的事实提取
该推理机制通过向提取机制提供关于其参与推理过程贡献度的信息, 从而促使该提取机制不断优化其抽取策略。在此基础上, 我们定义事实型抽取机制会从该推理者那里获得一个逐步递延的奖励信号。具体而言, 当该推理者耗尽时间T并最终抵达目标节点时, 我们认为这条推导路径具有有效性与正确性。如果事实型抽取机制对此有贡献, 就意味着在时间t (满足0≤t≤T)时抽取机对这一有效推导路径提出了一条建议边, 那么在t时刻抽取机对该建议边给予1分; 否则则不给予分数。被选中的边会将此次奖励信息加入自身数据库中, 而其余未被选中的边则会被移除出数据库。
政策更新


根据式(2)可知,在Gt不为零的情况下REINFORCE算法才会进行参数更新。此外,在状态转移过程中参数更新不仅与当前奖励相关还涉及到对未来状态的预测权重。对于正向训练序列当γ取正值时系统将确保所有状态的累积奖励Gt都不为零从而使得内部状态能够获得正面反馈并引导模型参数按照内部状态梯度方向进行更新。在具体应用中我们应该根据任务需求谨慎选择合适的γ值以避免出现无意义的状态转移情况。为了防止这种消极影响我们选择将提取器的γ设为0这是因为这种情况下无法提供有效的指导信息而被模型所忽视的状态转移行为不会对参数更新产生任何影响这有助于提高算法的有效性。相反地在推理器设置中我们将其γ值设定为1以确保所有的中间转移行为都是具有实际意义且能够有效引导目标达成的过程
4.模型实现
在本节中, 本节将阐述这两个替代方案的架构设计(参见图3), 并详细说明模型训练与推理的过程.
4.1策略网络架构


4.2模型训练与推理
训练
基于模型预训练与自适应采样策略的方法旨在提升训练效率。值得注意的是,在进行初始阶段的推理器训练时,默认使用原始知识图谱作为基础。与此同时,在经过远程监督标记的语料库中进行提取器的优化。此外,在生成阶段的经验构建中,默认采用动态调整策略来优化边缘抽取的重要性排序。其中,自适应采样机制的设计目标是鼓励推理模块对潜在的新边属性进行更深入的探索,并从而促进整个联合学习框架中的协作过程。为了全面评估不同组件的作用及其相互影响,在实验过程中还采用了重放记忆技术(如Mnih等人所提出的)来进一步提升系统的性能。为此我们需要开发几种关键组件的具体实现方案:包括去除自适应采样或重放记忆的技术方案;以及一直冻结提取器来进行消融研究的技术方案等
推理
在推理过程中, 我们采用训练好的模型并利用寻径算法来推断缺失的事实. 该过程与训练阶段的训练经验生成步骤具有相似性, 即基于推理器进行路径推理, 而提取器持续从语料库中提取并提出边. 一个主要区别在于我们的方法不涉及奖励机制, 而是通过广度优先搜索算法, 在图结构中生成多个可能的推理路径, 并依据各条路径的得分值进行排序.
5.实验
5.1数据集和比较方法
Datasets
我们开发了两个数据集用于评估:FB60K-NYT101和UMLS-PubMed2。其中FB60K-NYT10数据集分别包含FB-60K知识图谱与NYT10语料库;而UMLS数据集则分别包含UMLS知识图谱与PubMed语料库。表1总结了两个数据集的统计信息。研究表明,在这两个数据集中关系分布存在明显差异性——对于某些特定的关系类型推理路径较为不足;此外还有些关系缺乏推理价值。基于此我们筛选出了一些具有推理价值且由领域专家推荐(见表2)的关系并确保其具备充足的推理路径随后相应地划分为了两个子图以展示不同规模对知识图谱大小的影响具体而言我们首先按照8:1:1的比例将整个知识图谱划分为三个互不重叠的部分即训练集验证集与测试集接着通过随机抽样的方法生成不同比例的sub-train-sets集合
表1 数据集信息


语料库- KG对齐分析
本研究在表1中探讨了语料库与知识图谱之间的信息重叠问题(即对齐)
比较算法
我们对以下几种算法进行了对比分析:(1) KG嵌入领域的最优算法(SOTA); (2) 图像与文本联合表示方法; (3) 基于神经网络的图推理技术.
对于基于三元组知识图谱嵌入的方法而言,在这项研究中我们系统性地考察并评估了三种主流模型:DistMult(Yang等提出于2014年)、ComplEx(Trouillon等在2016年提出)以及ConvE(Dettmers等在2018年提出)。针对结合文本与图嵌入的技术体系中,则分别采用了RC-Net(Xu等人于2014年)与joint-NER(Han等人于2018年)。在此基础上我们开发了一个基准体系——TransE+LINE模型:通过构建词-实体共现网络来开发这一基线模型。具体而言我们采用了LINE模型(Tang等人于2015年)与TransE模型(Bordes等人于2011年),它们被用来协同学习实体及关系的嵌入表示以保留共现网络结构信息及知识图谱内在结构特征。对于基于神经图推理的技术框架中则采用了一种基于强化学习的路径推理方法MINERV A(Das等人于2017)。
为了评估CPL中事实提取策略的效果, 我们构建了一个基于两步过程的事实提取基准模型. 该方法首先采用PCNN-ATT模型从语料库中抽取关系三元组, 接着将置信度高于设定阈值的关系三元组注入到知识图谱(KG)中. PCNN-ATT (Lin et al. , 2016)作为一个实现这一功能的事实提取系统, 完成了其功能模块并实现了与知识图谱的有效结合. 通过优化开发集中的阈值参数进行微调. 然后, 在强化后的知识图谱上应用MINERVA模型进行推理分析.
CPL基于我们在第3节中介绍的成熟模型。针对所有的方法,我们不仅提交了完整的源代码实现,并且详细说明了补充材料中的超参数设置。
5.2评估与实验设置

在我们的实验研究中,我们采用了保留验证集的方法来确定最佳超参数和最佳测试模型的位置(通过日志检查点记录)。针对所有评估方法,在实验过程中我们采用了三个一致的随机种子(编号分别为55、83和5583)进行模型训练,并对结果计算平均指标。关于模型训练的详细信息可以在补充材料中找到。
5.3性能比较
所有算法的KG推理性能如表3、4和图6所示。我们可以得出以下结论:

表3列出了KG推理在UMLS-PubMed数据集上的性能对比。我们采用了Hits@K(%)指标,在不同规模(即原始图尺寸为20%至100%)的情况下进行了测试。CPL表现最优,在图密度增加时其性能进一步提升。

表4:在FB60K-NYT10数据集上进行知识图谱推理能力比较。通过分析该数据集的表现特征,我们能够清晰地看出其与UMLS-PubMed数据集在趋势特征上的相似性

图6:与图形规模的关系。遵循三元组排序策略的方法在小规模区域中表现出色,在处理大规模数据时则逐渐被路径导向型的知识图谱推理方法超越。
三元组排名vs路径推理
当KGs规模较小时(即较少时),CPL和MINERVA的表现不如三级排序方法;但随着KGs中加入更多三元组(即新增更多的三元组),CPL和MINERVA的表现显著优于三级排序方法(如图6所示)。这是因为,在稀疏KGs上进行推理时普遍性不足(即推理的普遍性不够完善),导致基于路径的模型未能捕捉到底层模式。
CPL与联合嵌入方法比较
由于CPL并非以路径为基础的模型,并且在小KG分区中的连接过于稀疏,在这种情况下CPL的表现也未能超过RC-net、TransE+Line以及JointNRE等模型。值得注意的是,在更大规模的数据集上CPL展现出显著的优势。这归因于两个主要原因:其一在于图论中的密度较高提供了充足的推理路径;其二在于其他算法在联合训练过程中未能有效过滤掉噪声文本信息。
CPL与其他图推理方法的对比
在性能方面显著优于 MINERVA 的是 CPL,在其优势在于利用相关文本信息进行预测的情况下,默认情况下其表现更为出色。相对于 CPL 而言,在全 FB60K-NYT10 数据集上的表现更为出色是因为这两部分数据集之间的配准程度较低(参考第 5.1 节)。该图具有完整的连接性(密度为 100%),而通过语料库所获得的优势则难以通过简单的指标来衡量。
5.4性能分析
1.模型构件的烧蚀研究
基于CPL框架下

研究图5基于UMLS与PubMed的数据融合过程。其属性为无自适应采样策略,并且在训练阶段固定了提取器参数。其属性为无自适应采样策略。其中符号代表我们提出的完整模型架构(包含所有组件)。
研究表明,在仅启用自适应采样的情况下进行重放记忆才能取得显著效果。
协作明显提升绩效水平;可训练提取器显示出更高的性能水平。
随着知识图谱规模扩大时,在某种程度上其对CPL改进的作用逐渐减弱归因于数据量增加导致图结构密度提高从而使得文本贡献被过度分散。
2. 事实选择的有效性
其在KG中添加的边数较CPL高出数十倍
基于FB60KNYT10数据集展开了一个案例研究,用于验证动态事实过滤的有效性。在整个训练过程中,我们系统性地评估了MINERVA和CPL的推理能力,发现提取器贡献度随训练阶段推进呈上升趋势,同时自适应采样策略在初始阶段即可积累足够的积极学习样本
实验结果如图4所示。研究团队发现几个值得注意的现象:(1)在图4中sug edge/pos path路径相对于曲线表明,在训练过程中提取器的贡献随着训练进度逐步增加;(2)CPL模型具有较高的初始性能,并且这一优势源于其自适应采样策略能够迅速生成足够的正训练样本经验;(3)从性能曲线的波谷形状可以看出,在agent停止自适应采样时并未发展出稳定的探索策略。尽管如此,在自适应采样的初期阶段依然具备一定的探索能力。
图4: KG推理性能的变化趋势与时间有关。sug edge/pos path路径是指提取器与推理器之间在正边缘与正路径之间的比值。

5.5推理路径案例研究
为了展示CPL的工作原理, 我们从其推理结果中选取了若干典型的推理路径作为样本. 由于篇幅限制, 这些案例的详细说明已移至附录部分. 这些样本案例揭示出以下四方面的特点: 首先, 推理机能够识别不同关系间的路径模式; 其次, 基于模式识别有效的推理路径; 第三, 抽取器为每一条正向路径提供了相关的连接边; 最后, 抽取者能够从相关语句中提取关键事实信息. 综上所述, 在知识图谱构建过程中, CPL通过语义相关的路径搜索实现了对查询实体的可解释性推断, 并通过学习到的模式指导边建议过程完成了可解释性事实过滤.
6.相关工作
知识图推理
开发出了基于嵌入的知识图谱推理方法(Bordes等人, 2011;Trouillon等人, 2016;Yang等人, 2014;Dettmers等人, 2018)。这些方法展现出良好的性能潜力(Bordes等人, 2011;Trouillon等人, 2016;Yang等人, 2014;Dettmers等人, 2018),然而它们的预测结果缺乏充分的解释性(Yang等人, 2014)。在提升知识图谱的可解释性方面发挥着关键作用的是强化学习(DeepPath; Xiong et al., 2017)。此外,在这一领域取得显著进展的方法包括Minerva(Das等人, 2017)与DeepPath(Xiong et al., 2017),其中Minerva采用了基于政策网络的方法(Xiong et al., 2017),而DeepPath则基于额外规则实现了监督学习(Xiong et al., 2017)。通过引入奖励工程与动作退出机制(Lin等人, 2018),Minerva进一步优化了其性能。
文本与KG的联合嵌入
联合嵌入方法致力于整合文本语料库与知识图谱(KG)。另一方面,在完成其他任务的过程中,则主要依赖于kg的支持。(Toutanova等人, 2015)在此框架下侧重于通过KG和单词嵌入辅助依赖分析来提取标记化的语料库。(Han等人, 2016)则专注于对原始语料库文本进行相同类型的任务。(Han等人, 2016)是一种较新的联合模型发展自(Han等人, 2016),而(Han等人, 2018)则基于相互注意机制进一步优化了事实提取能力。
Open-World KG Completion
还有一些作品在主题上具有相似性。(Shi和Weninger, 2018)提出了一个开放世界的知识图谱(Knowledge Graph, KG)补全问题,在该框架中他们引入了不可见实体以补充知识图谱。(Friedman和Broeck, 2019)则介绍了开放世界概率数据库(Open-World probability Databases),其性质类似于现代知识图谱( modern Knowledge Graphs)。值得注意的是他们的方法与我们所采用的方法不同他们试图在仅凭现有信息的情况下通过逻辑推理来构建完整的知识图谱。(Sun et al., 2018)提出了一种基于文本语料库的开放且不完整的知识库环境(或Knowledge Graph),但他们的研究重点在于从特定于问题的知识子图中提取答案
7.结论
本研究致力于开发一种新型知识图谱推理方法,在现有知识库基础上实现新知识的有效提取以提升推理能力。为此我们构建了一个创新且通用性兼具的新框架即协作政策学习系统通过其协作训练两个协同代理分别是推理器与事实提取器让它们分别掌握路径推理策略以及相关事实提取规则该系统能够实现高效可解释性推理过程并有效去除噪声事实通过大量真实数据集测试展示了该系统的优越性能我们的研究方案具备灵活性支持多种寻径模块的改进方案例如可以通过引入ConvE或RotatE模型来进行奖励工程化处理从而随著相关组件的优化提升整体性能
