Advertisement

Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs阅读笔记

阅读量:

关系预测存在的问题

当前最新发展出的关系预测技术主要依赖于知识嵌入的方法;这些方法可以大致分为两类:一类是转换型模型(transformation-based models),另一类是卷积神经网络(CNN)。其中转换型模型通过简单的操作与少量参数实现了对嵌入的学习;但这种做法导致的结果是生成了质量较低的嵌入表示;相比之下;CNN类型的模型通过大量参数以及对复杂关系进行深入建模来实现了更高表达能力的结果;然而;在这种架构下,默认情况下每个三元组都会被单独处理而不考虑其他潜在的关系模式;这使得在知识图谱中某个实体周围固有的丰富潜在结构信息难以被有效地捕捉到

主要贡献

一种基于图注意力机制训练出了一种用于知识图谱关系预测的嵌入表示。
改进后的图注意机制能够更好地捕捉到给定实体在多跳邻域内的实体及其关联关系特征。

方法

知识图谱G(\varepsilon,R)基于实体集合和关系集合能够共同构建。一个三元组(e_s,r,e_o)可以通过两个节点之间的一条边来描述其关联关系。

图注意力网络

图卷积网络 (GCN) 从实体的邻域收集信息,所有邻居节点在信息传递中的贡献是等同的。因此,引入了 GAT。GAT 在每个节点的领域内,给节点分配不同的重要级,而不是如同 GCN 将所有节点视为同等重要。GAT可以表示为
e_{ij} = a(W\vec{x_i},W\vec{x_j})其中e_{ij}表示边(e_i,e_j)的Attention值。
每条边的注意力值是对于主体实体 e_i的该边特征的重要程度。此处,相对注意力值通过 softmax 函数在所有邻域的值中计算得来。
\vec{x^{'}_i} =\sigma(\sum_{j∈N_i} a_{ij}W\vec{x_j})
然后将K头进行拼接操作
\vec{x^{'}_i} ={||}_{k=1}^K\sigma(\sum_{j∈N_i} a^k_{ij}W^k\vec{x_j})
最后使用均值合并
\vec{x^{'}_i} =\sigma(\frac{1}{K} \sum_{k=1}^K\sum_{j∈N_i} a^k_{ij}W^k\vec{x_j})

在这里插入图片描述

与GAT不同,在本模型中每一层的输入均为两个独立的嵌入矩阵——实体嵌入矩阵和关系嵌入矩阵。具体而言,在本模型中实体嵌入矩阵由 H \in R^{N_e \times T} 表示,在其中第i行对应实体e_i的完整向量表示,在此过程中N_e代表总共有多少个不同的实体节点而T则表示每个节点所具有的特征维度数量。类似地,在本模型中关系embeddding matrix由 G\in R^{N_r\times P} 表示,在这一设置下每一行对应着一个特定的关系类型以及其相关的特征维度信息,并且这里定义了共有 N_r 种不同的关系类型而P则代表每种类型所涉及的关系向量长度。经过一次变换之后我们就能得到两个更新后的embeddding matrices分别为 H'∈R^{N_e×T'} G'∈R^{N_r×P'} }

随后获得实体 e_i 的新嵌入,则需通过学习与每个三元组相关联的表示来获取其更新后的信息。具体而言,在处理对应于特定三元组 t_{ij}^k = (e_i, r_k, e_j) 的情况时(其中 \vec{h_i}\vec{h_j}\vec{g_k} 分别代表实体 e_ie_j 以及关系 r_k 的嵌入向量),我们可以通过将这些元素进行级联线性变换来计算出新的表示形式:\vec{c_{ijk}} = W_1[\vec{h_i}||\vec{h_j}||\vec{g_k}] 其中 \vec{c_{ijk}} 表示该三元组 t_{ij}^k 的向量形式。

为了提取每个三元组的相对重要性 b_{ijk} , 我们首先通过执行一个线性变换得到中间特征表示, 接着施加一个非线性激活函数LeakyReLU以生成注意力权重b_{ijk}, 如下所示

b_{ijk} = LeakyReLU(W_2c_{ijk})

随后将注意力权重进行归一化处理

a_{ijk} = \text{softmax}_{jk}(b_{ijk}) = \frac{\exp(b_{ijk})}{\sum_{n\in N_i} \sum_{r\in R_{in}}\exp(b_{inr})}
其中 N_i 被定义为与实体节点 e_i 直接相关的实体节点集合,在构建关系过程中会涉及到构建关系 R_{in} 的相关实体节点对 (e_i, e_n)

归一化后的注意力系数被确定后(替代"得到"),从而能够推导出新的嵌入向量。(调整了动词和主语的位置)
类似于GAT(替代"同GAT"),以确保训练过程的稳定性(替代"为了稳定学习过程"),从而能够获取更多关于邻居节点的信息。(替换词汇并优化句子结构)
类似于GAT(避免重复使用相同表达)、以确保训练过程的稳定性(避免重复)、从而能够获取更多关于邻居节点的信息。(进一步优化表达)
在最后一层阶段中采用均值而非拼接方式(替代"在最后一层采用平均值而不是concat")、以便更加高效地整合信息。(调整了表达方式并简化描述)

全部评论 (0)

还没有任何评论哟~