Advertisement

ACL 2023|《Double-Branch Multi-Attention based Graph Neural Network for Knowledge Graph Completion》细读

阅读量:

模型名称MA-GNN

知识图谱补全(非少样本)

摘要

图神经网络(GNN)充分利用了知识图谱(KG)中的拓扑结构,在低维空间中表示实体及其关系,并在知识图谱补全(KGC)领域展现出强大的能力。KG不仅包含了丰富的全局与局部结构性信息,在实际应用中发现许多基于GNN的KGC模型难以通过简单的聚合方式同时捕捉到这两类关于图结构的信息,并且难以有效学习孤立子图中具有稀疏邻域可见实体的表现特性。针对这一问题,在本文研究中我们发现一种基于注意力机制的方法能够显著优于传统基于GNN的KGC方法。在此基础上我们提出了一种双分支多注意机制(MA-GNN),旨在学习包含丰富全局与局部结构性信息的更具表现力的实体表示方法。具体而言我们首先设计了一种基于图注意力网络(GAT)的局部聚合器来提取实体特征并捕捉其邻域关系;在此框架之上我们进一步引入了一种滚动关注机制通过两跳邻居间的语义相似性来丰富实体嵌入;最后我们结合了Transformer架构以捕获实体间的远程依赖关系从而获得更加全面且具全局性的表征信息。实验结果表明MA-GNN在归纳性知识图谱补全基准测试中实现了显著性能提升。

一、介绍

知识图谱(KGs)基于事实三元组(头实体、关系与尾实体)构建而成,在多个领域发挥着关键作用,涵盖语义搜索、问答系统以及推荐系统等多个方面。

  1. 即使是包含数以十亿计的三元组的大规模知识图谱(如Freebase和DBpedia),其局限性也使得其无法完全覆盖所需的知识。

该系统旨在通过已知三元组关系及尾部(头部)信息,在自动模式下补充缺失的头部(尾部)数据。

4、知识图谱补全(KGC)可以通过以下方法:

知识图谱嵌入(KGE)是一种方法:通过构建评分机制来映射实体与关系至低维向量空间,并利用已观测的三元组对三元组的有效性进行评估。

图神经网络(GNN)方法:基于KGC内部固有的图结构特征设计而来,在此过程中,GNN能够通过聚合其本地邻居信息来实现对每个实体隐藏表示的学习目标

基于注意力机制的图神经网络(GNN)模型:该模型能够通过多层聚合过程整合不同层次的节点信息进而提升实体特征的表现力

二、面临问题

基于知识图谱嵌入(KGE)的方法用于填充知识图谱时,主要受限于预先设定的评分机制;实现对实体结构信息的有效编码则面临巨大的挑战.

该方法在补充知识图谱方面存在局限性:它仅能获取单一实体周边的局部信息。此外,在处理大型知识库时也面临挑战:每个主要知识库通常由若干个相互独立的知识库部分构成,并且与主干知识库保持分离。随着基于GNN的方法层数增长以及孤立部分所代表的知识点数量和关联关系逐步扩大,在现有技术框架下会出现明显的问题:过平滑现象可能加剧或者导致关键信息丢失。

3、基于注意力机制的图神经网络(GNN)用于知识图谱补充的任务:它们主要集中在对高阶拓扑特征进行编码,并未充分考虑节点邻域所携带的丰富结构化特征;在复杂的信息编码过程中,对于局部特征与全局特征的有效结合关注不足;此外,在知识图谱补充任务中发现二阶邻居数量显著高于一阶邻居数量这一现象,在实际应用中直接将二阶邻居节点作为每个目标节点的一阶邻居引入会导致计算开销激增

因此,在学习知识表示的过程中特别重视目标实体的多跳邻居,并被综合考虑其全局及局部结构信息以推导出有效的表示具有重要意义。

本文提出了一种双分支多注意力机制图神经网络(MA-GNN),旨在通过其全局-局部结构信息维持知识图谱(KGC)的有效性。MA-GNN作为一种基于编码器-解码器架构的设计方案,在其设计中包含三种不同的注意力机制:基于Graph attention network(GAT)、Snowball局部注意力机制以及Transformer自注意力模块;此外,ConvE也被纳入其中作为独立模块使用。具体而言,在考虑两个分支在特征表示上的差异性时,在全局与局部特征提取过程中采用了三种不同的注意力机制。我们首先通过GAT与Transformer自注意力模块学习实体嵌入以捕获其整体与局部特征关系;随后引入Snowball局部注意力模块来计算两跳邻域实体之间的语义相似度。

综上所述,我们做出了以下贡献:

1、提出了一种双分支多注意图神经网络,该网络由全局和局部两个并行分支组成,与其他基于注意力的GNN方法相比,MA-GNN可以通过GAT和基于Transformer的自注意捕获实体之间的局部信息和长期依赖关系。
2、为了提取更多的判别特征,设计了Snowball局部注意机制,该机制可以学习目标实体的两跳邻域实体之间的实体相似性,并像雪球一样编码更多的信息。
3、在五个基准数据集上将MA-GNN与以前的KGC方法进行了比较。实验表明,MA-GNN具有显著的改进效果,在WN18RR数据集上的得分为0.679,在NELL-995数据集上的得分为0.823,在FB15K数据集上的得分为0.932,分别比现有方法高12.7%,4.3%和15.1%。

三、相关工作

3.1GNN-based模型

到目前为止,在KGs(知识图谱)中处理多关系边方面,基于GNN(图神经网络)的方法已取得显著进展;这些方法开发了多种消息传递机制以捕捉实体间的复杂关联及其属性特征。

CompGCN描述了在连接目标实体的邻域实体的每条边上的组合算子;

该团队开发了一种新型的基于语义信息感知的图神经网络框架来促进KGE外推。

重新思考的核心目标是探索GCNs在知识图谱构建中的具体应用。该研究还提出了一个名为LTE-KGE的知识表示框架。该框架通过融合线性变换后的实体嵌入与现有知识表示技术相结合的方法实现了对复杂关系的学习。

MRGAT为KGs设计了一个基于异构GNN的框架,直接将GNN应用于多关系图;

KBGAT利用GAT在任何实体的邻域中合并实体和关系特征。

3.2 Attention-based模型

近五年内逐渐成为研究热点的注意力机制方法(Attention-based methods)在知识图谱领域持续受到关注

该方法通过Transformer架构整合邻居信息,在不局限于局部一阶邻居的前提下特别聚焦于全局拓扑结构的研究,在适度非平滑条件下推导长距离关联的能力成为重点考察对象

可将分层注意力机制被划分为关系级别的注意力机制与实体级别的注意力机制,并通过实体级别的注意力来编码每个基于关系路径的邻居特征。

四、实验

4.1模型

模型MA-GNN有两大组成部分:一个编码器和一个解码器。

编码器分为三个模块来捕获局部和全局信息:

局部分支(局部分支包含两个关键组件:Graph注意力网络模块(GAT)Snowball本地注意力模块 ,它们均用于学习本地图结构特征)

(2)全局分支(基于Transformer 的自注意模块学习全局、远程关系)。

图1

4.1.1图注意网络模块Graph attention network module

假设知识图谱G = (E, R)中的每个实体

都有一个初始特征向量

我们通过图注意力机制GAT系统地从目标实体的邻接节点中提取特征信息,并将其传递给给定实体以便完成任务。

和它的一跳邻居

的情况下计算第l层的注意力分数

,其中

是实体

的一跳邻居集合。

其中

是实体

在第l层的嵌入,对于实体特征,有一个可学习的权重矩阵叫做

为全连接神经网络,

是我们使用的激活函数ReLU,通过对实体

邻居的加权特征求和,可以对实体

的局部信息进行聚合:

更新后的实体表示通过以下方式计算:

其中

决定了多少信息在邻居之间传递,

是需要训练的参数。

该模块采用了基于Transformer架构的自注意力机制。

Transformer是一种由多个自注意组件组成的独特编解码器结构,设

作为每个Transformer注意力机制的输入端,在这里我们定义变量n为实体的数量参数,并设定变量d为单个实体所对应的向量维度参数。这些参数可以通过适当的函数实现

,公式

作为一个基于Transformer的自关注层:

其中LayerNorm()是层归一化函数, Softmax()是逐行Softmax函数, σ是激活函数(如ReLU). 在这个层中, 可训练的参数包括...

,更详细地说,

被分解成H个注意力头

,然后来自注意头的矩阵

被连接起来产生

一旦我们获得了GAT编码最终的每个实体表示

其中l代表GAT层数目,并将这一数值输入至基于Transformer架构设计的MA-GNN自注意力子网络中。

图2

其中N、K为堆叠模块数,为了规范化嵌入,我们首先将

将输入数据投影至基于Transformer的自关注维度,并通过层归一化处理嵌入向量

其中,

为可学习权矩阵,

为自注意维数,

为了最终得到GAT嵌入的空间维度。因基于Transformer的自注意力机制在无需位置编码时具有置换不变性性质,在这种情况下我们采用随机游走方法来提取实体序列的信息。

其中,

分别对应第l层单个注意力头的学习查询路径、键路径和值路径,在其中h表示注意力头的数量

4.1.3Snowball局部注意模块

我们首先构建以目标实体的邻居为重点的一跳邻域子图(例如

),如下图所示,

图3

通过提出的Snowball局部分位机来聚合本地图结构信息。在该方法中, snowball局部分位机将目标实体的一阶与二阶邻接体进行提取,并且能够基于二阶邻接体之间的影响权重来识别一阶邻接体间的语义关联。在此处,我们具体说明了 snowball局部分位机的一种实现方式:

其中

表示实体

的嵌入,

表示实体

的两跳邻居,

中的i表示第i个一跳邻域子图或目标实体

,k = 0表示目标实体,k, m = 1,2,3…指两跳邻域实体,

为两跳邻居间的语义相似度。

通过雪球局部注意力机制处理之后,在两跳范围内提取实体特征。随后,在融合过程中, 前馈神经网络产生的z向量与图注意力机制(GAT)以及基于Transformer架构的自注意力机制的计算结果进行结合。“Add”操作等价于一种简单的特征融合方式, 其中Snowball局部注意力模块被堆叠成M层, 如图1所示, 并且M=2

如图3所示,

被关注的目标实体中包含了一跳相邻子图。图注意网络模块通过计算注意力分数对一跳邻居节点的嵌入进行加权求和,并将这些邻居节点的表示信息综合起来,并将其补充到目标节点的表示中。

然而,GAT需要两个阶段的图注意来聚合实体

(

)的单跳邻居实体,也是目标实体

的两跳邻居实体。由此可见,

两个跳跃邻居实体中存在某种特定的关系,在这种关系中类似于雪球效应的现象被观察到。研究发现,在传统的知识图谱构建方法中仅依赖节点间的一阶或二阶邻居关系难以捕捉复杂的知识关联性问题。为此我们提出了一种新的方法即通过 snowball 局部注意力机制学习不同语义相似度的信息并将其与 graph attention 网络模块以及 transformer 基于自注意力架构进行融合从而能够更好地捕捉复杂的知识关联性问题并生成更加丰富的表征信息

4.1.4知识图谱补全模块Knowledge graph completion module

我们特意选择了ConvE 作为解码器,在我们的实验设置中,默认采用初始化特征向量来表征各实体的关系特征。通过重塑机制,在模型架构中将每个三元组的低维嵌入空间映射至一个二维张量结构上,并在此基础上计算相应的三重得分矩阵。对于同一个关系r而言,在正向推理时从头实体h出发推导尾部实体t;而在反向推理时,则可以从尾部实体t出发推导出头实体h。其得分函数定义如下:

其中

代表h与r的空间重塑;其中符号∗代表卷积运算;参数ψ代表一组用于提取特征的卷积核;经过矢量化处理后得到的结果由函数f()计算得出;其对应的权重矩阵则由上述定义直接确定

σ作为ReLU激活函数,在ConvE模型中相比分数较低的三元组而言,分数较高的三元组更为积极。本文提出了一种基于图神经网络的新方法——MA-GNN模型,并对其损失函数进行了详细定义如下:

其中,

是三元组

的标签(1或0),sigmoid函数用g表示,N表示尾部实体的候选个数。

4.2数据集

4.3基线方法

本文采用了大量的基线方法进行比较,分为以下几类:

几何方法: TransE (2013)、RotatE (2019)、ATTH (2020)、TimE (2021)、Rot-Pro (2021)、BiQUE (2021)、HBE (2021)、RotatE-IAS (2022)、HousE (2022)、GIE (2022)

张量分解方法: ComplEx (2016)、Procrustes (2021)

负采样(NS)方法: CAKE (2022)、KGTuner (2022)

深度学习和基于注意力的方法: ConvE (2018)、HittER (2021)、KGA (2022)、PUDA (2022)、JointE (2022)、StructurE (2022)

图神经网络方法: CompGCN (2020)、Rethinking (2022)、SE-GNN (2022)、MRGAT (2022)

4.4结果分析

表1 FB15K-237和WN18RR的链路预测结果

表2 NELL-995上的链路预测结果

表3 FB15K和WN18的链路预测结果

表一至三展示了标准基准测试集上的链路预测性能

表4 预测头尾实体的评估

在表4中观察到,在FB15K-237WN18RR上,验证集与测试集在预测尾实体时均显著优于对头实体的结果显示了MA-GNN在处理尾实体时能够更有效地聚合相邻实体以获取额外的数据/信息内容。

4.5消融实验

MA-GNN包含三个核心组件:GAT、Snowball本地注意力组件以及基于Transformer的自注意力组件。

The MA-GNN variant without the Snowball local attention module, the MA-GNN variant without the Transformer-based self-attention module, and the GAT variant with a multi-layer perceptron replacing the Snowball local attention module and removing the Transformer-based self-attention module.

五、局限性

MA-GNN模型专注于处理包含多种关系的图谱(知识图谱),针对单一类型关系的图谱其表征能力待提升。

全部评论 (0)

还没有任何评论哟~