Advertisement

Rethinking Graph Convolutional Networks in Knowledge Graph Completion

阅读量:

研究内容

多种基于GCN的知识图补全(KGC)方法首先通过使用GCN技术融合邻居实体与关联信息来提取实体与关系的表示向量;随后借助知识图嵌入(KGE)模型来捕捉实体间的交互模式。这种操作虽然带来了额外的计算开销;但其性能水平仍未能超越当前最先进Knowledge Graph Embedding(KGE)技术。
通过消融研究发现;在KGC方法中采用图结构建模机制对整体性能的影响相对较小;相比之下;对实体表示执行线性变换的作用更为显著。
研究者提出一种简化的LTE-KGE架构;通过对实体表示施加类似于线性变换的操作;该方案所得结果与传统的GCN方法基本持平。

在这里插入图片描述

符号定义

  • 知识图谱表示为\mathcal{K}=\left\{\left(e_i, r_j, e_k\right)\right\} \subset \mathcal{E} \times \mathcal{R} \times \mathcal{E},可以由一个三阶邻接张量\mathcal{X} \in\{0,1\}^{|\mathcal{E}| \times|\mathcal{R}| \times|\mathcal{E}|}唯一确定
  • 给定三元组\left(h_i, r_j, t_k\right) \in \mathcal{E} \times \mathcal{R} \times \mathcal{E},KGC定义一个得分函数s:\mathcal{E} \times \mathcal{R} \times \mathcal{E} \rightarrow \mathbb{R}以获得三元组成立的分数s\left(h_i, r_j, t_k\right),有效三元组的得分应高于无效三元组,一些有代表性的得分函数定义如下
    • TransE:f(h, r, t)=-\|\mathbf{h}+\mathbf{r}-\mathbf{t}\|_{1 / 2}
    • DistMult:f(h, r, t)=\mathbf{h}^{\top} \mathbf{R t}
    • ConvE:f(h, r, t)=\sigma(\operatorname{vec}(\sigma([\overline{\mathbf{r}}, \overline{\mathbf{h}}] * \omega)) W)^{\top} \mathbf{t}

研究对象

该研究聚焦于三种具有代表性的图神经网络模型:Relational-GCN(RGCN)、Weighted-GCN(WGCN)以及CompGCN。其中 CompGCN 在 FB 和 WN 数据集上的表现分别为 MRR 值为 0.355 和 0.479;其对应的 ComplEx+N3 版本的表现则为 MRR 值为 0.366 和 0.489。
嵌入更新过程包含三个关键步骤:首先,在第一阶段中从图邻域中聚合信息;其次,在第二阶段对实体表示进行转换;最后,在第三阶段实现关系表示的转换。

在这里插入图片描述

实验设置

  • 该解码器主要由TransE模型、DistMult方法及ConvE技术组成。

  • 模型采用了基于二元交叉熵的损失函数来评估预测质量。
    L =\frac{1}{|S|} \sum_{(h, r, \cdot) \in S}\left(\frac{1}{|\mathcal{E}|} \sum_{t \in \mathcal{E}} y(h, r, t) \cdot \log f(h, r, t) + (1-y(h, r, t))\cdot\log (1-f(h, r,t))\right)

  • 数据集基于FB15k237和WN18RR。

  • 采用MR、MRR以及H@N等指标进行评估。较低的MR值与较高的MRR/H@N值表明模型性能表现更为优异。

Do GCNs Really Bring Performance Gain?

  • 作者首先实现了几个目标模型并呈现出更为优异的效果,“O”标记的结果出自他们原始论文的研究成果,“R”则基于DGL框架进行了复制性验证。
    • 一般来说,在多数场景中图神经网络(GCN)明显增强了知识图谱嵌入(KGE)方法的表现能力;然而,在个别特定应用中这一优势可能并不适用。
在这里插入图片描述
  • 单个GCN层就足以实现令人满意的性能
在这里插入图片描述

Which Factor of GCNs is Critical in KGC?

图结构建模

  • RAT 操作:通过随机切断相邻张量实现,在消息传播过程中将原本的邻居实体替换成随机选取的其他实体。
  • WNI 操作:完全摒弃了任何关于邻居的信息,在自身表征更新上等价于整个图中不存在任何连接边。
在这里插入图片描述

结果表明, 虽然GCN编码器能够提升KGE模型的表现, 然而, GCN架构中对图结构建模的作用对于性能提升并不关键, 其增益并非源自邻域聚合

自环信息

该方法(WSI)旨在删除图中所有的自环边(self-loop edges),使得节点(node)的表示完全依赖于其邻近节点(neighbor nodes)及其关联关系(associated relations)所生成的内容。

在这里插入图片描述
  • 当前研究主要考察了三种变体的表现:仅基于自环信息的模型、仅依赖邻居信息的模型以及仅采用随机生成邻居信息的模型,在现有实验设置下均未能显著提升效果
  • 研究者认为这三种变体都存在一个关键特征:它们都能在较高置信度下区分语义不同的实体
  • 如果仅采用自环信息,则每个实体的表示将完全独立而不受其他实体影响
  • 如果仅依赖邻居信息,则只有当两个实体具有相似的表示时才可被区分(具体而言,在WSI/WSI+RAT条件下性能明显低于基于WN18RR完整GCN模型的情况)
  • 研究发现这一现象的原因在于当相邻实体数量较少时(如WN18RR和FB15k-237中分别仅有2.1和18.7个相邻实体),基于较少的信息进行区分会面临更大挑战
  • 然而研究并未探讨第三种情况的具体表现

论文探讨了一种假设:若融合过程能够较好地区分具有不同语义的实体,则GCN将有助于增强KGE模型的效果。为验证这一假设,研究者进行了两个关键实验:一是考察是否采用自环信息;二是通过随机采样给定实体集中的邻居进行验证。研究发现,在集合数量逐渐减少时(即集合数目逐渐减少),不同实体之间的邻域愈发相近以至于难以区分;但若引入自环信息,则未见显著下降。

在这里插入图片描述
在这里插入图片描述

关系的线性转换

LTR:CompGCN采用关系的线性变换作为核心机制;通过消融实验分析发现该环节的重要性较低;在嵌入更新阶段包含两个关键模块;从而实体表示间的聚合操作对于模型性能提升具有重要意义。

在这里插入图片描述

总结发现:如果GCN能够通过生成的实体表示清晰地区分具有不同语义的实体,则实体表示的转换将有助于提升其性能。

LTE-KGE

该研究认为现有的繁重复杂图神经网络(GCN)架构对知识图谱问答(KGC)可能并非必要,并为此建议引入LTE-KGE模型用于说明更为简洁有效的模型能够达成现有先进方法的效果。

基于三元组(h, r, t)的基础得分模型f(\mathbf{h}, \mathbf{r}, \mathbf{t})上,在LTE-KGE框架下提出了一种改进方法。通过应用特定的线性变换矩阵W_h和W_t分别对头实体\mathbf{h}和尾实体\mathbf{t}进行加权处理后得到新的得分模型\left.f\left(g_h\left(W_h \mathbf{h}\right), \mathbf{r}, g_t\left(W_t \mathbf{t}\right)\right)\right)。该得分模型在实验结果中展现了显著的优势。

LTE-KGE本质上相当于一种改进型的设计方案专注于仅利用自环信息构建GCN模型,在这种设计中h_gt_g分别代表恒等函数、非线性激活函数、批量归一化以及Dropout等技术手段的灵活组合。

在实验中,论文通过设置使W_hW_t共享同一组参数;对于TransE模型而言,该方法将其关系函数设定为恒等函数;而对于DistMult/ConvE模型,则经过BN和Dropout处理。

效果与时间对比

在这里插入图片描述

LTE-KGE & GCN

这一部分主要想说明LTE-KGE已经隐式聚合了邻居信息

给定头实体h,目标是最小化所有与之相连的邻居的损失

\sum_{r \in R_h} \sum_{t:(h, r, t) \in S} \log f(W \mathbf{h}, \mathbf{r}, W \mathbf{t})

其关于\mathbf{h}的梯度为

该算法通过双重求和机制实现对关系嵌入的优化

分别计算了这三个模型(LTE-TransE、LTE-DistMult和LTE-ConvE)的梯度,并将其形式可表示为以下方程的形式。可以看出,在此过程中,梯度的作用即是用于聚合各节点之间的相互作用。其中,在这一过程中的参数更新机制与图卷积网络(GCN)中的一层迭代过程具有等价性

Σ符号用于累加所有满足条件的项。对于每个关系r属于集合R_h以及每个三元组(h,r,t)属于集合S的情况,在权重矩阵W的基础上计算向量乘积,并将其结果与偏置项b(·)相加以获得最终输出。

全部评论 (0)

还没有任何评论哟~