Advertisement

Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs Deepak

阅读量:

相关工作

现有的方法通过仅关注实体特征或以不相交的方式考虑实体和关系的特征学习KG嵌入,相反,我们提出的图注意力模型从整体上捕获了KG中任何给定实体的n跳领域中的多跳和语义相似的关系。

我们的方法

在这里插入图片描述

1.GAT

单个GAT层为:
在这里插入图片描述
输出层:
在这里插入图片描述
相对注意力aij是使用softmax函数计算领域中所有值的。

连接K个注意力头的多头注意力过程如下:
在这里插入图片描述
最后一层的输出嵌入是使用平均而不是连接操作来计算的,以实现多头注意力:
在这里插入图片描述

2.关系很重要

提出了一个新的嵌入方法,将关系和相邻节点特征结合到注意机制中。
定义了一个注意力层,是我们模型的构建块,与GAT类似,我们的框架与注意力机制的特定选择无关。
通过对对应于特定三元组在这里插入图片描述在这里插入图片描述的实体和关系特征向量的串联执行线性变换来学习这些嵌入。
在这里插入图片描述
在这里插入图片描述

我们学习了由在这里插入图片描述表示的每个三元组在这里插入图片描述的重要性。
获取三元组的绝对注意力值:
在这里插入图片描述
要获得相对注意力值:
在这里插入图片描述
在这里插入图片描述

多头注意力用来稳定学习过程并封装有关社区的更多信息。
本质上,M个独立的注意力机制计算嵌入,然后将它们连接起来,得到以下表示:
在这里插入图片描述
在模型的最后一层,并不是连接来自多个头的嵌入,而是使用平均来获取最后的平均向量。
在这里插入图片描述
将初始实体嵌入信息添加到从最终注意力层获得的实体嵌入中,
在这里插入图片描述
在我们的架构中,我们通过为两个实体之间的n跳邻居引入辅助关系,将边的概念扩展到有向路径。这个辅助关系的嵌入是路径中所有关系的嵌入的总和,我们的模型迭代地从实体的远邻积累知识。一般来说,对于n层模型,输入信息是在n跳领域上累积的。图2还显示了学习新实体嵌入和在n跳邻居之间引入辅助边的聚合过程。对于每个主要迭代,我们在每个广义GAT层之后和第一层之前对实体嵌入进行归一化。
学习新实体嵌入和在n跳邻居之间引入辅助边的聚合过程

3.培训目标

使用铰链损失训练我们的模型:
在这里插入图片描述
在这里插入图片描述

4.解码器

使用ConvKB作为解码器。
卷积层的目的是分析三元组在每个维度上的全局嵌入属性,并概括我们模型中的过渡特征。具有多个特征图的得分函数可以正式写为:
在这里插入图片描述
该模型使用soft-margin损失函数来进行训练:
在这里插入图片描述

实验和结果

培训协议

我们遵循两步训练程序,即我们首先训练我们的广义 GAT 来编码关于图实体和关系的信息然后训练像 ConvKB 这样的解码器模型来执行关系预测任务。 原始 GAT 更新公式 3仅聚合从 1-hop 传递的信息邻域,而我们的广义 GAT 使用来自 n 跳邻域的信息。

评估协议

在关系预测任务中,目标是预测缺少 ei 或 ej 的三元组 (ei, rk, ej),即预测 ei given (rk, ej) 或预测 ej given (ei, rk)。 我们通过将每个实体 ei 替换为每个其他实体 ei 来为每个实体 ei 生成一组 (N - 1) 个损坏的三元组? ∈ E \ ei,然后我们为每个这样的三元组分配一个分数。随后,我们按升序对这些分数进行排序,并获得正确三元组(ei,rk,ej)的排名。与之前的工作类似,我们在过滤设置中评估所有模型,即在排名期间我们删除已经存在于训练、验证或测试集中的损坏三元组。通过替换尾部实体 ej 重复整个过程,并报告平均指标。 我们报告了 N = 1、3 和 10 的平均倒数排名 (MRR)、平均排名 (MR) 和前 N 个排名 (Hits@N) 中正确实体的比例。

结果和分析

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

注意力值与Epochs

在学习过程的初始阶段,注意力是随机分布的。随着训练的进行和我们的模型收集来自邻里的更多信息,它表明对直接邻居的更多关注,并采取来自较远邻居的次要信息。 一旦模型收敛,它就学会收集多跳和聚类关系信息来自节点的 n 跳邻域。
在这里插入图片描述
在这里插入图片描述

PageRank分析

我们假设实体之间的复杂和隐藏的多跳关系在密集图中比稀疏图中更简洁地捕获。 为了检验这个假设,我们进行了类似于 ConvE 的分析,他们研究了平均 PageRank 与 MRR 相对于 DistMult 的增加之间的相关性。在 NELL-995 与 WN18RR 的情况下,我们观察到我们观察到的相关性异常,并将其归因于 WN18RR 的高度稀疏和分层结构,这对我们的方法构成了挑战,该方法不以自上而下的递归方式捕获信息。
在这里插入图片描述

消融研究

在这里插入图片描述

总结和未来工作

将来,我们打算将我们的方法扩展到在我们的图注意力模型中更好地在分层图上执行并捕获实体(如主题)之间的高阶关系。

全部评论 (0)

还没有任何评论哟~