Rethinking Graph Convolutional Networks in Knowledge Graph Completion
研究内容
多种基于GCN的知识图补全(KGC)方法首先通过使用GCN技术融合邻居实体与关联信息来提取实体与关系的表示向量;随后借助知识图嵌入(KGE)模型来捕捉实体间的交互模式。这种操作虽然带来了额外的计算开销;但其性能水平仍未能超越当前最先进Knowledge Graph Embedding(KGE)技术。
通过消融研究发现;在KGC方法中采用图结构建模机制对整体性能的影响相对较小;相比之下;对实体表示执行线性变换的作用更为显著。
研究者提出一种简化的LTE-KGE架构;通过对实体表示施加类似于线性变换的操作;该方案所得结果与传统的GCN方法基本持平。

符号定义
- 知识图谱表示为\mathcal{K}=\left\{\left(e_i, r_j, e_k\right)\right\} \subset \mathcal{E} \times \mathcal{R} \times \mathcal{E},可以由一个三阶邻接张量\mathcal{X} \in\{0,1\}^{|\mathcal{E}| \times|\mathcal{R}| \times|\mathcal{E}|}唯一确定
 - 给定三元组\left(h_i, r_j, t_k\right) \in \mathcal{E} \times \mathcal{R} \times \mathcal{E},KGC定义一个得分函数s:\mathcal{E} \times \mathcal{R} \times \mathcal{E} \rightarrow \mathbb{R}以获得三元组成立的分数s\left(h_i, r_j, t_k\right),有效三元组的得分应高于无效三元组,一些有代表性的得分函数定义如下
- TransE:f(h, r, t)=-\|\mathbf{h}+\mathbf{r}-\mathbf{t}\|_{1 / 2}
 - DistMult:f(h, r, t)=\mathbf{h}^{\top} \mathbf{R t}
 - ConvE:f(h, r, t)=\sigma(\operatorname{vec}(\sigma([\overline{\mathbf{r}}, \overline{\mathbf{h}}] * \omega)) W)^{\top} \mathbf{t}
 
 
研究对象
该研究聚焦于三种具有代表性的图神经网络模型:Relational-GCN(RGCN)、Weighted-GCN(WGCN)以及CompGCN。其中 CompGCN 在 FB 和 WN 数据集上的表现分别为 MRR 值为 0.355 和 0.479;其对应的 ComplEx+N3 版本的表现则为 MRR 值为 0.366 和 0.489。
嵌入更新过程包含三个关键步骤:首先,在第一阶段中从图邻域中聚合信息;其次,在第二阶段对实体表示进行转换;最后,在第三阶段实现关系表示的转换。

实验设置
- 
该解码器主要由TransE模型、DistMult方法及ConvE技术组成。
 - 
模型采用了基于二元交叉熵的损失函数来评估预测质量。
L =\frac{1}{|S|} \sum_{(h, r, \cdot) \in S}\left(\frac{1}{|\mathcal{E}|} \sum_{t \in \mathcal{E}} y(h, r, t) \cdot \log f(h, r, t) + (1-y(h, r, t))\cdot\log (1-f(h, r,t))\right) - 
数据集基于FB15k237和WN18RR。
 - 
采用MR、MRR以及H@N等指标进行评估。较低的MR值与较高的MRR/H@N值表明模型性能表现更为优异。
 
Do GCNs Really Bring Performance Gain?
- 作者首先实现了几个目标模型并呈现出更为优异的效果,“O”标记的结果出自他们原始论文的研究成果,“R”则基于DGL框架进行了复制性验证。
- 一般来说,在多数场景中图神经网络(GCN)明显增强了知识图谱嵌入(KGE)方法的表现能力;然而,在个别特定应用中这一优势可能并不适用。
 
 

- 单个GCN层就足以实现令人满意的性能
 

Which Factor of GCNs is Critical in KGC?
图结构建模
- RAT 操作:通过随机切断相邻张量实现,在消息传播过程中将原本的邻居实体替换成随机选取的其他实体。
 - WNI 操作:完全摒弃了任何关于邻居的信息,在自身表征更新上等价于整个图中不存在任何连接边。
 

结果表明, 虽然GCN编码器能够提升KGE模型的表现, 然而, GCN架构中对图结构建模的作用对于性能提升并不关键, 其增益并非源自邻域聚合
自环信息
该方法(WSI)旨在删除图中所有的自环边(self-loop edges),使得节点(node)的表示完全依赖于其邻近节点(neighbor nodes)及其关联关系(associated relations)所生成的内容。

- 当前研究主要考察了三种变体的表现:仅基于自环信息的模型、仅依赖邻居信息的模型以及仅采用随机生成邻居信息的模型,在现有实验设置下均未能显著提升效果
 - 研究者认为这三种变体都存在一个关键特征:它们都能在较高置信度下区分语义不同的实体
 - 如果仅采用自环信息,则每个实体的表示将完全独立而不受其他实体影响
 - 如果仅依赖邻居信息,则只有当两个实体具有相似的表示时才可被区分(具体而言,在WSI/WSI+RAT条件下性能明显低于基于WN18RR完整GCN模型的情况)
 - 研究发现这一现象的原因在于当相邻实体数量较少时(如WN18RR和FB15k-237中分别仅有2.1和18.7个相邻实体),基于较少的信息进行区分会面临更大挑战
 - 然而研究并未探讨第三种情况的具体表现
 
论文探讨了一种假设:若融合过程能够较好地区分具有不同语义的实体,则GCN将有助于增强KGE模型的效果。为验证这一假设,研究者进行了两个关键实验:一是考察是否采用自环信息;二是通过随机采样给定实体集中的邻居进行验证。研究发现,在集合数量逐渐减少时(即集合数目逐渐减少),不同实体之间的邻域愈发相近以至于难以区分;但若引入自环信息,则未见显著下降。


关系的线性转换
LTR:CompGCN采用关系的线性变换作为核心机制;通过消融实验分析发现该环节的重要性较低;在嵌入更新阶段包含两个关键模块;从而实体表示间的聚合操作对于模型性能提升具有重要意义。

总结发现:如果GCN能够通过生成的实体表示清晰地区分具有不同语义的实体,则实体表示的转换将有助于提升其性能。
LTE-KGE
该研究认为现有的繁重复杂图神经网络(GCN)架构对知识图谱问答(KGC)可能并非必要,并为此建议引入LTE-KGE模型用于说明更为简洁有效的模型能够达成现有先进方法的效果。
基于三元组(h, r, t)的基础得分模型f(\mathbf{h}, \mathbf{r}, \mathbf{t})上,在LTE-KGE框架下提出了一种改进方法。通过应用特定的线性变换矩阵W_h和W_t分别对头实体\mathbf{h}和尾实体\mathbf{t}进行加权处理后得到新的得分模型\left.f\left(g_h\left(W_h \mathbf{h}\right), \mathbf{r}, g_t\left(W_t \mathbf{t}\right)\right)\right)。该得分模型在实验结果中展现了显著的优势。
LTE-KGE本质上相当于一种改进型的设计方案专注于仅利用自环信息构建GCN模型,在这种设计中h_g和t_g分别代表恒等函数、非线性激活函数、批量归一化以及Dropout等技术手段的灵活组合。
在实验中,论文通过设置使W_h和W_t共享同一组参数;对于TransE模型而言,该方法将其关系函数设定为恒等函数;而对于DistMult/ConvE模型,则经过BN和Dropout处理。
效果与时间对比

LTE-KGE & GCN
这一部分主要想说明LTE-KGE已经隐式聚合了邻居信息
给定头实体h,目标是最小化所有与之相连的邻居的损失
\sum_{r \in R_h} \sum_{t:(h, r, t) \in S} \log f(W \mathbf{h}, \mathbf{r}, W \mathbf{t})
其关于\mathbf{h}的梯度为
该算法通过双重求和机制实现对关系嵌入的优化
分别计算了这三个模型(LTE-TransE、LTE-DistMult和LTE-ConvE)的梯度,并将其形式可表示为以下方程的形式。可以看出,在此过程中,梯度的作用即是用于聚合各节点之间的相互作用。其中,在这一过程中的参数更新机制与图卷积网络(GCN)中的一层迭代过程具有等价性
Σ符号用于累加所有满足条件的项。对于每个关系r属于集合R_h以及每个三元组(h,r,t)属于集合S的情况,在权重矩阵W的基础上计算向量乘积,并将其结果与偏置项b(·)相加以获得最终输出。
