【论文阅读笔记 KDD2021】《Relational Message Passing for Knowledge Graph Completion》
论文链接:可从该链接下载完整的论文内容
代码和数据集:可在此GitHub存储位置获取

文章目录
注
- 4 次实验
-
4.1 实验环境设置
-
4.2 主要研究结果
-
4.3 模型变体
-
4.4 基于模型可解释性的案例分析
-
5 RELATEDWORK
-
- 5.1 Knowledge Graph Completion
- 5.2 Graph Neural Networks
-
6 CONCLUSION AND FUTUREWORK
-
ABSTRACT
知识图补全的目标是预测知识图中实体间缺失的关系。在本文研究中,我们提出了一种基于关系消息传递的知识图补全方法。与现有基于嵌入的方法不同,所提方法仅考虑那些在知识图中未赋予权重实体 ID 的边特征(即仅涉及实体间已建立联系的关系类型),并逐次更新边上的信息以整合周边节点的数据。
具体来说,在该架构中构建两种邻域拓扑模型:其中 (1) 通过引入动态权重机制来捕捉邻近实体间的边特性; (2) 通过引入多层编码机制来描述两个实体之间的相对位置特征.
整合两个消息传递模块以实现关系预测。基于现有知识图谱基准的实验结果和我们提出的新型数据集显示,在路径性能方面该方法显著优于现有知识图谱完成方法。该路径同样适用与实体不可见的归纳推理场景。
关键词 :知识图完成;消息传递;图神经网络
1 INTRODUCTION
该系统通过组织实际世界的实体和事实来进行结构化数据存储。
通常情况下,在知识图谱上不同类型的关联并非均匀分布。举例来说,在知识图谱中,“graduated from”这种关系更可能连接到与个人出生地点相关以及大学地理位置相关的节点而非电影的语言节点。因此,在推断实体对(h,t)之间关系类型时,“h与t相邻链接所涉及的关系类型将提供有价值的信息”。
受最近成功图形神经网络的启发,
我们建议通过消息传递机制来捕捉给定实体对的邻域结构。
然而,
传统的消息传递方法通常基于假设,
即消息与节点关联,
并且消息依次向其邻居传播信息。
这种方式并不适用于用于表示关系类型的KG中更为关键的部分。
消息传播机制
它带来了三个额外的好处:提升信息传播效率、优化模型性能以及减少计算开销
- 它遵循归纳逻辑,并且能够处理那些未预先在训练数据中包含的实体;
- 存储效率较高,并且无需计算实体向量表示;
- 具有可解释性特征,并基于关系间关联强度进行建模以提供预测结果的支持。
然而,在关系消息传递中存在一个主要缺陷:其计算复杂度明显高于基于节点的消息传递(定理 2)。为了克服这一挑战,我们提出了一种交替的关系消息传递机制,在知识图谱上交替传播节点与边之间的关系消息。我们的实验结果表明,这种交替消息传递方法显著提升了处理效率,并与传统的基于节点的消息传递方法在计算复杂度上实现了平衡(定理 1 和 3)。
关联背景与路径流
关联背景与路径流。基于交替的消息传递机制,在研究特定实体对(h,t)时探讨了其两种局部子图拓扑结构(如图1所示)。
1.关系上下文 在知识图谱中提取实体间的邻近关系至关重要,在这些邻近关系中我们能够揭示出与每个实体相关的属性及其所属类别的重要信息(如图1a所示)。然而,在大多数知识图谱中存在两种情况:一是实体缺乏明确的类型划分;二是即使存在类型划分也较为松散。因此,在分析和理解知识图谱中的实体及其关联性方面具有重要意义。为了应对这一挑战性问题 我们提出了一种多层次的关系消息传递机制 该机制能够有效聚合(h, t)节点间多跳连接所携带的知识
2.关系路径 。需要注意的是,在仅仅基于知识上下文建模的情况下是无法准确识别实体对(h,t)之间的相对位置的;同时捕捉(h,t)之间所有可能的关系路径集合也非常关键(如图1b所示)。在此处而言不同类型的连接路径不仅揭示实体间的关系本质而且对于预测也是至关重要的因素;因此我们计算了知识图谱中实体h与t之间所有可能的关系路径集合并通过沿着这些预定义的关系路径传播关联信息;最后通过注意机制选择性地整合不同类型的关系表示并将上述两个核心模块有机整合完成最终的任务——即基于知识图谱的知识推理功能

我们旨在识别 Ron Weasley 或 Hedwig 是否为 Harry Potter 的宠物。 这两个实体与哈利波特共享相同的关联路径(共同生活),然而它们各自具有不同的关联背景:罗恩韦斯莱参与了 {Brother of, Lives with} 行动,而海德薇则参与了 {Bought, Lives with} 项目。 通过捕获这些关系的上下文信息,我们的模型得以区分 Ron Weasley 作为人类与 Hedwig 作为猫头鹰。

(b) 这两个主要角色Hermione Granger和Draco Malfoy共享相同的上下文关系{职业, 家庭}。然而,在尾部实体Harry Potter那里存在两条不同的关系路径{(House, House), (Occupation, Occupation)}以及一条{(Occupation, Occupation)}. 这种差异使得我们的模型能够预测哈利波特与其他两位角色——赫敏格兰杰和德拉科马尔福之间的友谊。
实验
我们在五个知名的知识图谱以及我们开发的一个新知识图谱DDB14数据集上进行了系统而深入的实验研究。实验结果明确显示,在这三个代表性数据集上的表现均优于现有最先进的知识图谱补全方法。具体而言,在WN18RR和NELL995数据集上的绝对路径Hits@1指标方面,我们的PathCon模型相较于最先进的基准模型,在这两个数据集上的提升幅度分别为16.7%和6.3%。通过系统实验分析表明,PathCon不仅实现了更好的预测性能,在训练效率方面也展现出显著优势。此外的研究发现进一步验证了该方法的有效性,并明确指出了上下文信息与路径信息对知识图谱补全任务的重要性
贡献 。我们的主要贡献如下:
- 开发出了一种适用于知识图谱完整性的交替关系消息传递框架。
- 相较于现有的基于嵌入的方法而言,在该框架下我们深入探讨了两种重要的子图拓扑结构:即关系上下文网络和基于路径的关系网络。
- 它们不仅具备归纳能力、存储效率较高以及具有良好的可解释性和计算效率。
- 并揭示了其在关系预测任务中的关键作用。
- 构建了一个新型的疾病数据库(DDB14),它涵盖了14种不同类型的医学知识,并且适用于相关知识图谱的研究。
2 PROBLEM FORMULATION
设G=(V,E)为一个实例的知识图谱,其中V代表节点集合,E代表边集合。每条边e具有对应于关系类型r∈R的一种类型特征值。我们的研究目标在于推导出知识图谱G中缺失的关系模式:即对于给定的一对实体(h,t),旨在建立关于它们之间关系的模型p(r|h,t),这等价于构建以下概率分布模型:
p(r|h,t)\propto p(h,t|r)·p(r) \quad (1)
式(1)中所述的先验分布p(r)反映了各关系类型的先验知识,并被用作正则化项以防止过拟合现象的发生。进一步地,在式(1)的第一项中:
p(h,t|r)=½[p(h|r)·p(t|h,r)+p(t|r)p(h|t,r)] \quad (2)
式(2)为我们构建这一类基于三元组的关系推理模型提供了理论指导基础:其中,
- p(h|r)和p(t|h,r)分别衡量了给定特定关系模式r时实体h和t的可能性。
- 由于我们假设实体没有特定的身份信息,则可以通过构建每个实体的局部子图来代替其本身特征表示:具体而言,
P(C(h)|r),\ P(C(t)|r)
其中C(·)表示基于某种相似度测度构建的关系子图结构表示工具。
等式(2)中的术语p(t|h, r) 或p(h|t, r)基于它们之间的关系 r,测量h或其他途径达到t的可能性。这促使我们关注KG中h与t之间的关系路径。在本文中,我们将详细阐述我们方法中如何对这两个因素进行建模,并探讨这些因素如何促进关系预测。
3 OUR APPROACH
在本节中, 我们首先阐述了关系消息传递框架的基本概念, 然后详细讨论了PathCon系统的核心组件: 一是基于上下文的关系消息传递机制; 二是支持路径信息处理的关系路径消息传递机制. 本文所涉及的相关符号定义见表1.

3.1 Relational Message Passing Framework
为了更好地理解这一机制, 我们首先回顾传统的基于节点的通用图消息传播方法。假设每个节点v初始赋予特征向量x_v, 在多个时间步长内迭代更新其隐藏状态s_v^i. 其中, 在第i次迭代中, 节点v接收来自其邻居的所有消息m_v^i = A(\{s_u^i\})_{u∈N(v)}(3). 然后根据接收到的消息进行状态更新s_v^{i+1} = U(s_v^i, m_v^i)(4). 其中,N(v)表示图中v的所有邻居集合;而A(·)和U(·)分别表示消息聚合函数与更新函数. 初始状态下各节点的隐藏状态设定为其特征向量s_v^0 = x_v.
尽管这一架构在普通图中非常受欢迎,并衍生出多种变体(如GCN、GraphSAGE和GIN),但在应用于知识图谱时会遇到一系列挑战。这些问题具体体现在以下几个方面:
首先,在大多数知识图谱中,边具有特征(即关系类型),而节点本身不具备属性信息。这导致基于节点的消息传递机制不够自然。即使将节点特征设定为其唯一标识符(如one-hot向量形式),也会带来两个相关问题:
其次,在推理过程中处理未曾见过的新节点的能力不足,并且缺乏归纳能力以适应复杂场景的变化需求。
最后,在实际应用中发现的知识图谱往往包含大量实体而非有限的关系类型数量差异极大。这种情况下存储所有实体的嵌入信息不仅占用大量内存资源而且可能导致系统性能显著下降
关系消息传递 。为了解决这一问题,在信息传播时一种自然的想法是,在信息传播时通过边而非节点来进行操作。其中N(e)表示图中与边e相邻的所有边集合(这些边至少与e的一个端点重合)。其中s_e^0代表了边e的初始特征属性——其对应的关系类型。因此可知,在信息传播过程中使用方程组(5)和(6)的方法被称为关系消息传递。
关系消息传递克服了基于节点的消息传递的缺陷,
然而,在消息传递过程中带来了新的计算效率问题。
为此,我们详细分析了两种消息传递方案的计算复杂度,并提供了相应的证明
- 定理1(根据节点的消息传播复杂度)针对包含n个节点及m条边的图形结构,在每一次迭代过程中涉及根据节点的消息传播机制(公式(3)与公式(4))所对应的计算复杂度被确定为2M+2N。
- 定理2(关联消息传播复杂度)同样针对包含n个节点及m条边的图形结构,在每一次迭代过程中关联消息传播机制(公式(5)与公式(6))所对应的计算复杂度被确定为N·\sigma^{2}+\frac{4M^{2}}{N},其中\sigma^{2}代表图形中各节点度值分布的经验方差。
根据前述定理,在现实世界中节点呈现幂律分布的特点下
直观上理解交替关系的消息传递机制是这样的:这里的节点扮演处理信息的核心位置,并接收并暂时保存来自其每个相邻边的消息。随后会向其每个相邻边缘发送这些聚合的信息。因此,在该系统中等式 (7)-(9) 被定义为交替传递关系消息,并且由于消息在节点与边之间进行交互转移而得以实现。
- 引理3(交错关系的消息传递复杂性)考虑一个具有N个节点和M条边的图。在每次迭代过程中采用交错关系的消息传递策略(公式(7)-(9)),其平均计算复杂度为6M。
从定理 3 明确表明交替的关系消息传递显著降低了时间开销,并在相同水平的复杂性上与基于节点的消息传递相匹配
3.2 Relational Context
对于知识图谱三元组(h, r, t),h与t的关系语境通常与r紧密相关。例如,在r表示"graduated from"的情况下,则有理由推测h的关联属性包括"person.birthplace"、"person.gender"等;同时t的关联属性可能是"institution.location"、"university.founder"以及university.president等;因此,在推断它们之间的关系类型时将提供重要的线索;在这里我们采用了所提出的基于信息传播机制的学习方法来获取这种语境信息
我们定义了在迭代过程中的每条边e对应的隐藏状态为s_e^{(i)};同时定义了在迭代过程中的每条节点v对应的相邻消息存储量为m_v^{(i)}。基于上述提出的交替关系消息传递方案,在本节中我们将对这一方法进行具体实现并推导出各条边的表征。根据式(10),我们有:
m_v^{(i)} = \sum_{e\in N(v)} s_e^{(i)}
其中\sum_{e\in N(v)} s_e^{(i)}表示节点v的所有邻接边上的隐藏状态之和。
接着,在式(11)中,
s_e^{(t+1)} = \sigma([m_v^{(t)}, m_u^{(t)}, s_e^{(t)}]\cdot W + b), \quad u, v\in N(e)
其中\sigma(\cdot)是一个非线性激活函数;而矩阵W和向量b则分别代表可学习的参数变换矩阵以及偏置项。
特别地,在初始状态下,
s_e^{(0)} = x_e
其中x_e被设定为一条one-hot向量形式的信息编码结果。
在公式(10)与(11)之间传播的关系性上下文信息被复制了K次。最终得到的消息m_h^{K-1}与m_t^{K-1}分别充当了头部h与尾部t的表征。此外,在图2中我们还提供了一个具体实例来说明关系性上下文信息的传播过程。

图 2展示了PathCon的一个实例。该方法分析了头部与尾部实体之间的二跳关系上下文,并涉及长度不超过三个连接头至尾的关系路径。这些上下文及路径依据所包含的关系类型而非具体的实体来捕获信息。通过整合这些上下文及路径信息,PathCon评估关系 r 的概率。
3.3 Relational Paths
在第2节中讨论了如何构建关于p(t|h,r)或p(h|t,r)的概率模型。需要注意的是,在基于关系的消息传递机制中,默认会忽略节点及其关联边的身份信息这一假设可能会带来一个问题:该模型无法区分实体间在知识图谱中的相对位置
在以下场景中,在给定的实体对(h, t)中,在给定的知识图谱中,在给定的关系推理系统中),假设h被"person.birthplace"等属性所围绕,并被其他与人相关的属性如"person.gender"所包含;而t则通常被与大学相关的属性如"institution.location"、"university.founder"以及"university.president"所包围。基于这些观察,在训练数据集中经常出现这样的模式:即当存在这样的结构时(即当存在这样的模式时),能够推断出h可能是一个人(即可能是一个实体表示为一个人),而t则可能是一所大学(即另一个实体表示为一所大学)。并且它们之间应该存在一种特定的关系——即"h graduted_from t"(因为这种模式在训练数据集中频繁出现)。然而,在实际情况中(在实际情况下),这两个人性体之间可能存在某种直接关联(即可能存在某种直接的关系),或者它们之间可能不存在任何关联(即它们在知识图谱中的位置彼此远离)。出现这种情况的原因是关系上下文消息传递机制只能识别两个实体之间的类别信息(即仅能识别这两个实体各自所属的类别),而无法获取它们在知识图谱中的相对位置信息。(受限于上述机制的能力限制)
为了解决这一问题,我们建议通过分析 h 和 t 之间的连接方式来探索它们之间的关系模式。这些模式体现在 KG 中从 h 到达 t 的原始路径中,在 KG 中从 h 到达 t 的原始路径由一系列实体和边组成h(v_0) \overset{e_0}{\to}v_1\overset{e_1}{\to}v_2...v_{L-1}\overset{e_{L-1}}{\to}t(v_L);其中任意两个连续的实体v_i和v_{i+1}通过边e_i直接相连;每个节点在整个路径中仅出现一次以避免重复;对应的关系路径 P 是根据原始路径中的所有边的关系类型序列来定义的;即 P=(r_{e_0},r_{e_1},...,r_{e_{L-1}}),其中 r_{e_i} 表示边 e_i 的关系类型;需要注意的是,在建模关系路径时我们不考虑节点的具体身份这与关系上下文保持一致
我们用P_{h\to t}来表示从实体h到实体t的所有可能关系路径所组成的集合。随后,在PathCon框架中明确表征这些关系路径及其对应的嵌入向量s_p。然而,在实际应用中会遇到一个问题:随着_path_长度增加,不同_path_的数量呈指数级增长(具体表现为\lvert r \rvert^k条k跳_path_)。这会导致计算复杂度显著上升。尽管如此,在现实世界中的知识图谱而言,在FB15K数据集中仅约3.2%的长度为2的关系_path_实际上存在(如图2所示)。对于较小的k值(k≤4),这种现象更为明显。
3.4 Combining Relational Context and Paths
该方法基于消息传递方案推导出h和t的最终信息,并整合了它们各自的上下文信息。这些变量进一步结合以推导出(h,t)这对的整体关系:其结果由下式给出:s_{(h,t)} = \sigma([m_h^{k−1}, m_t^{k−1}] · W^{k−1} + b^{k−1}) (式 ①),其中 s_{(h,t)} 表示实体对(h, t)的上下文表示。请注意,在训练阶段的基础事实关系r被当作未被观察到的数据处理。
需要注意的是,在PathCon框架中,在给定的一对节点(h, t),可能存在多条关系路径。然而,并非每条路径都与预测的关系r存在逻辑关联,并且每条路径的重要性也有所不同。此外,在PathCon框架中由于我们已知(h, t)对的上下文信息s_{(h,t)} ,它可以被视为节点间关系的先验知识来源之一。基于s_{(h,t)} ,我们可以计算出每条特定路径P相对于该上下文信息s_{(h,t)} 的注意力权重:\alpha_p=\frac{exp(s_p^Ts_{(h,t)})}{\sum_{p∈P_{h→t}}exp(s_p^Ts_{(h,t)})} (13)。随后将注意力权重被用来整合所有路径的表示:s_{h→t}=\sum_{p∈P_{h→t}}\alpha_ps_p (14)。其中s_{h→t} 是节点对(h, t)的关系聚合表示。这样通过引入上下文信息s_(h,t) 能够帮助识别出最具有代表性的关系模式
给定关联上下文表征s_{(h,t)}与路径表征s_{h\to t}的基础上,
我们可以通过将两者进行结合使用并经过计算得到概率分布p(r|h,t),
具体来说:
p(r|h,t)=SOFTMAX(s_{(h,t)}+s_{h\to t})(15)
为了训练模型,在训练集上最小化预测结果与已知事实之间的差异损失,
我们的目标函数定义为:
\min_L=\sum_{(h,r,t)\in D}J(p(r|h,t),r)(16)
其中 D 表示训练数据集集合,
而 J(\cdot) 则代表交叉熵损失函数。
值得注意的是,
关联上下文表征s_{(h,t)}在模型中承担了两方面的功能:
一方面它有助于提升对关系分布的学习能力;
另一方面则用于评估不同路径对目标关系的重要性。
3.5 Discussion on Model Explainability
基于其建模的独特性, PathCon 专注于处理那些不涉及实体信息的关系. 这种专注于纯关系的机制使得它能够方便地用于生成系统的预测结果. PathCon 的可解释性体现在两个主要方面:
同时, 构建基于关系的上下文模型能够捕捉到上下文关系与预测关系间的关联性, 这一机制有助于识别给定关系的关键邻近边。例如: institution.location, university.founder 和 university.president 可以被识别为 graduated.from 的重要上下文关联
另一方面,在构建模型时发现实体间的关系类型及其分布情况,并据此推断各实体间的关联程度和相关性;这有助于确定关键实体及其重要关联关系。例如,在知识图谱中,“schoolmate of”与“graduated from”的组合会被认为是后者的重要关联因素。
值得注意的是,在这种情况下
3.6 Design Alternatives
随后我们将探讨PathCon的几种设计方案。在消融实验过程中,我们采用PathCon与其他实现方案进行对比。
当我们构建关系上下文模型时,并非采用了等式(11)和(12)中那种连续性连接的方式而是设计了另外一种更适合当前场景的应用方法
该上下文聚合器基于输入向量各分量的算术平均值
其灵感源自推荐系统中对特征的组合运用。该种方法用于衡量单个特征之间的交互作用(例如,“AND(gender=female, language=English)”)。请注意,在Mean和Concatenation上下文聚合器中虽然也分别转换来自两个输入节点的消息并将它们加在一起形成结果向量或矩阵的形式但并未对它们之间的相互作用进行建模这可能在某些关联性预测任务中具有一定的局限性然而在跨上下文聚合器的设计中我们则采用了不同的策略首先计算来自头部和尾部的消息之间的所有元素级成对交互即将每个消息分解为多个元素并逐一比较这些元素间的乘积关系随后我们将这些乘积结果展平为一个向量并通过变换矩阵对其进行加权求和从而综合考虑所有互动关系最终生成新的嵌入表示这一过程如公式(18)所示其中我们使用带括号的上标来表示元素索引d 是m_v^i 和 m_u^i 的维度接着我们将这些成对乘积结果展平为一个一维向量并将其与预定义的学习权重矩阵相乘得到一个加权后的综合向量随后通过激活函数\sigma对其进行非线性变换最终得到下一层次节点的新嵌入表示s_e^{i+1}如公式(19)所示值得注意的是在跨上下文聚合器中我们不仅保留了输入节点原有的顺序信息还增强了各层间信息传递的能力
通过递归神经网络(RNN)学习路径表示,在构建关系路径模型时,递归神经网络能够有效地提取路径特征。与直接为路径P分配嵌入向量相比,在公式 s_p=RNN(r_1,r_2,...) (20)的基础上进行表示学习会更加高效。相比于基于路径嵌入的方法,递归神经网络的优势在于其参数数量固定,并且不受关系路径数量的影响。此外,递归神经网络还可能捕捉到不同关系路径之间的相似性。
Mean path aggregator 在求取(h,t)对的关系路径最终表示形式时,我们可以简单地将所有从h到t的路径表示形式相加后取均值,而非采用等式(13)和(14)所示的注意力型路径聚合器:s_{h\to t}=\sum_{p∈P_{h\to t}}s_p(21)。该平均型路径聚合器可用于当关系语境不可用时
4 EXPERIMENTS
在本节里, 我们对所提出的PathCon模型进行了评测, 并系统性地分析了该模型的性能特征, 同时基于六个不同知识图谱数据集进行评估验证。
4.1 Experimental Setup
知识图谱数据集
FB15源自 Freebase 这一大规模的知识图谱项目,它整合了人类普遍使用的知识. FB15k-237则作为该项目的分支集,特意排除了所有反向关联. WN18则构建于 WordNet 数据库之上,涵盖了英语单词间概念语义及其词汇间的关系网络.其增强版本 WN18RR进一步精简了数据结构,仅保留核心关联.最后,NELL995这一数据集则来源于 NELL 系统在第 995 次迭代过程中处理的大规模自然语言学习样本集合.
此外提出了本研究开发出了一个专为知识图谱(KG)相关任务设计的新数据集DDB14。该数据集基于疾病数据库构建,并且其涵盖了疾病、症状与药物等基本要素及其相互联系。从中随机选取了4,000个三元组中的两部分作为验证集与测试集
表 2 综合展示了六个不同数据集的基本统计信息。进一步地,我们计算并展示了每个知识图谱(KG)中节点度分布的均值与方差(其中E[d]代表期望值),这一观察结果的经验分析表明,在真实图中关系消息传递具有较高的复杂性。显然,在所有知识图谱中观察到Var[d]显著较大。因此,在实际应用中交替的关系消息传递方案被认为是必要的。

Base线研究的基础上我们将PathCon与若干个前沿性模型进行了对比分析,并包含TransE、ComplEx、DistMult、RotatE、SimplE、QuatE以及DRUM等七种主流模型。其中前六种模型均基于嵌入空间构建机制设计而来,而DRUM则仅依赖于关系路径来进行预测。具体实现细节可在附录D中详述。
除了广泛开展消融研究外,并提出了一款模型架构具有两个简化版本:Con与Path。其中每个简化版本各自专注于单一的关系上下文或单一的关系路径来进行性能评估。具体参数数量则可见于表3中的详细信息。实验结果表明,在无需实体嵌入计算的前提下(即无需进行实体嵌入计算),PathCon型在网络层次上的存储效率较基于传统方法表现出显著提升

评估协议
4.2 Main Results
在与基线的关系中进行了对比分析。表4详细列出了各数据集上关系预测的结果。整体而言,在各数据集上的性能表现优于所有对比的基准模型。PathCon方法在关系预测任务中的性能优势体现在六个不同数据集上:分别为0.2%、0.6%、0.9%、16.7%、6.3%和1.8%的绝对提升比例。这两个最稀疏的知识图谱正好对应的是WN18RR和NELL995。从经验上来看,在处理稀疏知识图谱方面PathCon表现出色。这可能是因为该方法所采用的独特参数数量显著少于大多数基准模型。相比之下,在FB15K上的性能增益则相对较小;这可能是由于FB15K的数据密度非常高而导致基准模型更容易实现良好的处理效果。

此外,在进一步分析中可以看出PathCon具有的稳定性得到了证实(因为实验数据显示大多数标准偏差都很小)。如表4所示,在多种情况下(特别是当考虑复杂的关系网络时),Con或Path方法已经显著超过了现有的绝大多数基线模型(具体而言是通过将关系上下文与关系路径相结合,在多数情况下能够显著提升性能)
知识图谱归纳推理方面。为了验证我们的方法,在知识图谱完成过程中进行了实验研究。具体而言,在测试集上随机选取了一组节点子集,并将其移除以模拟实际应用中的缺失数据情况;随后,在训练集中删除这些被移除的节点及其关联边;剩余的数据用于模型训练,并在评估阶段将被移除的边重新加入到训练集中以模拟恢复过程;通过逐步增加被移除节点的比例(从0开始),我们实现了从完全转导状态向完全归纳状态的过渡;实验结果显示:PathCon、DistMult 和 RotatE 在关系预测任务上的实验结果显示(如图3所示)。其中发现,在完全归纳设置下(即被移除比例达到100%时),我们的方法表现略微低于前两者;这一现象可以用以下原因来解释:前两者基于节点嵌入的方法依赖于节点身份信息这一固有假设;而我们的方法则没有对节点身份进行建模,默认地实现了对所有异质性实体的一致性映射能力;因此在面对高度去个性化数据时展现出更强的学习能力

4.3 Model Variants
上下文跳数和最大路径长度 。我们探讨了我们模型对上下文跳数与最长路径长度的敏感性。通过将这两个参数设定为0至4之间(其中0表示放弃相应功能),并在图4中展示所有可能组合(除0, 0外)在WN18RR上的实验结果。结果显示,在提高上下文跨度和最长路径长度均能显著提升模型在小规模任务上的性能表现;然而随着计算深度的增长其边际效益逐渐递减这一现象在其他数据集上也得到了验证

上下文聚合器的研究。我们考察不同上下文聚合器实现方式对模型性能的影响。Mean、Concat 和 Cross-context 聚合器在四个数据集中的实验结果如图5所示(FB15K和WN18的数据集结果未展示,因为它们分别类似于FB15K-237和WN18RR)。实验结果显示,均值方法在各测试数据集上的表现最差,这表明在聚合节点到边的特征时,节点顺序的重要性不可忽视。值得注意的是,Cross方法的一个显著缺点是其参数数量远超Concat方法,导致运行时间和内存资源需求显著增加。然而,在FB15K-237和DDB14等特定数据集中,尽管Cross的参数更多,但其性能表现与Concat相当稳定

路径表示类型和路径聚合器 。我们实现了四种路径表示类型和路径聚合器的组合:Embedding+Mean、Embedding+Attention、RNN+Mean 和 RNN+Attention,其结果如图 6 所示。与上下文聚合器不同,六个数据集上的结果是路径表示类型和路径聚合器类似,因此我们只报告 WN18RR 上的结果。我们发现 Embedding 始终优于 RNN,这可能是因为关系路径的长度通常很短(在我们的实验中不超过 4 个),因此 RNN 在建模序列方面几乎无法展示其实力。结果还表明,注意力聚合器的性能略好于平均聚合器。这表明头尾实体的上下文信息确实有助于识别关系路径的重要性。

初始边缘特征 。在这里,我们考察了三种类型的初始边缘特征:身份类、基于词袋模型(BOW)以及基于BERT嵌入的关系类型。值得注意的是,在测试数据集NELL995上进行评估具有重要意义的原因在于其关系名称涉及较多英文单词(例如,“organization.headquartered.in.state.or.province”),这表明该数据集在语义表示方面具有一定的代表性(如图7所示)。具体结果表明,在BOW特征的表现稍逊于身份特征的情况下(如图7所示),BERT嵌入的表现则明显落后于其他两类特征。这一发现促使我们进一步分析其原因:BERT嵌入系统更擅长识别不同关系类型之间的语义关联性。然而,在当前模型设计中存在一定的局限性——即我们的模型主要致力于从上下文或路径层面的BERT嵌入学习到预测关系类型的标识映射关系(如图7所示)。换句话说,在嵌入空间中建立这种映射关系将有助于提升模型性能表现(如图8所示)。基于此观察结果,请问您是否愿意将此发现作为未来研究方向之一?

4.4 Case Study on Model Explainabilty
采用FB15K-237和DDB14这两个数据集来探讨PathCon的可解释性。将上下文跳数设定为1,并将最大路径长度设定为2。在训练结束后,我们从每个数据集中挑选三个关键关系,并参考上下文变换矩阵来列出这些关系的最显著的上下文、路径或路径聚合器。结果如表 5 所示,观察到绝大多数识别出的关键信息在逻辑上是有意义的。例如,在"education Campus of"中能够推断出"educationin"的存在,在"是 associated with"这种表达中体现出了传递性特征。此外,在附录 E 中提供了更多关于 DDB14 数据集的具体可视化结果和讨论内容。
5 RELATEDWORK
5.1 Knowledge Graph Completion
知识图谱通过多种下游应用场景获取外部数据,并结合现有技术提升数据质量与完整性水平。现有研究主要集中在基于向量空间模型的知识图谱补全方法上,在连续向量空间中对每个实体和关系赋予相应的向量表示,并通过观察到的事实数据对其进行训练优化。其中一类方法采用平移机制进行建模,在连续向量空间中将实体表示为点状对象,并对关系施加平移操作使得平移后的头部实体与尾部实体位于真实空间[3]、复杂空间[22]或四元数空间[39]中更为接近。另一种研究方向则是多线性或双线性模型,在实数域[35]或复数域[24]中利用矩阵运算来计算语义相似度。此外还有一类研究探索了超越点状结构的知识图谱架构设计[6,21],这类方法试图通过引入更高阶的空间结构来提升知识表示能力。然而这些基于向量空间的传统方法在处理归纳推理中的链接预测问题时表现不足,并且难以从已有事实中归纳出能够指导后续推理的知识规律
5.2 Graph Neural Networks
现有的 GNN 基于神经消息传递机制 [10] 的核心包含两个关键步骤:信息传播与节点聚合。在此基础上发展出了多个借鉴自卷积神经网络(如[8, 11, 15, 25])、递归神经网络(如[17, 29])以及 Transformer架构(如[34, 36, 44, 49])的变体模型。然而,这些方法均依赖于节点间的消息传播机制。我们则主张通过边端交互机制促进信息传播。
基于相同核心理念的概念模型中存在两种不同的 GNN 框架。 DEGNN [16] 通过捕获其表示所需的学习目标及其与图中所有节点之间的距离关系,在这一过程中所涉及的距离不仅被视为额外的重要属性数据点,并且还被用来调节 GNN 中的消息传递机制。 SEAL [38] 在预测连接(a,b)的存在性问题时,引入了基于各自到目标节点a和b的距离度量作为关键指标。 与此相反,我们采用关系路径这一概念来表征两个实体间的相对位置状态。
研究人员还在应用图神经网络于知识图谱领域。例如如Schlichtkrull等研究者[20]就曾运用GNN模型对KG中的实体及其关联关系进行建模。然而这些方法存在主要缺陷即未能考虑到关联路径以及在归纳设置下缺乏预测能力。相比之下在同一领域内研究者王等[30, 32]则致力于通过GNN模型学习KG中的实体嵌入并将重点放在提升推荐系统的效果上而非补全知识图谱
6 CONCLUSION AND FUTUREWORK
我们开发了PathCon以填充知识图谱(KG)。 PathCon 被用于分析KGs中的两种子图结构:一种是头体及其上下文的关系网络;另一种是头尾实体之间的路径连接。 研究表明,在进行知识图谱推理时,提取的关系上下文信息与路径连接信息均具有重要意义。 通过整合这些信息资源能够显著提升推理性能。 此外,该方法同时具备归纳能力、高效的存储特性以及良好的可解释性。
我们提出了未来工作的四个重点方向。首先指出的是参考备注2中的讨论可知, 研究PathCon在节点特征感知的知识图谱上的经验性能具有很好的潜力。接着探讨能够更有效地利用预训练词嵌入构建模型具有重要的发展潜力;第三点指出的是值得探究为何RNN的表现欠佳及其改进的可能性。最后一项指出的是探索如何将上下文表示与路径表示相结合以达到系统性整合的目的非常有趣
