Learning Knowledge Graph Embedding With Heterogeneous Relation Attention Networks(IEEE2022)
Learning Knowledge Graph Embedding With Heterogeneous Relation Attention Networks
- 作者:Zhifei Li, Hai Liu, Zhaoli Zhang, Tingting Liu, Neal N. Xiong
- 来源:该期刊(中科院1区,《IEEE Transactions on Neural Networks and Learning Systems》期刊)
- 时间:发布于2022年
- 链接:Heterogeneous Graph Attention Network(IEEE)
Abstract
图神经网络(GNNs)作为一种高效的图表示方法,在学习图嵌入方面展现出显著的能力。然而 KGs具有内在的异构性 包含多种类型的实体与关联 如何同时处理复杂的图形数据以及整合多种语义信息成为一个关键挑战。本研究提出了一种基于注意力机制的设计框架 用于处理异构知识图谱的问题 具体而言 首先在每个关系路径下整合节点邻域的信息 接着通过分析各条关系的重要性来调整权重 最后将各条路径的信息按照计算出的权重进行综合得到最终表征 因此 该方法不仅能够从多角度整合节点特征 同时还能根据不同属性赋予相应的权重
Introduction
尽管 KGs 已经积累了许多实体、关系和三元组,但它们仍然存在完整性问题、开放性和新增知识等方面的局限性。针对这些问题,在研究领域已逐渐转向关注链接预测技术的发展与应用。当前研究中所采用的主要方法是链接预测(Link Prediction),其核心目标就是推导Knowledge Graph中缺失的事实信息。传统的Knowledge Embedding (KGE)方法通常不强调严格的结构约束,并未充分整合网络连通性特征。相比之下,在深度学习领域取得突破性的Graph Neural Network (GNN)模型能够成功地聚合每个节点及其局部环境中的关键信息特征
然而,在现实世界中,实体与关系之间存在多样性这一特性使得知识图谱(KGs)呈现出显著的复杂性
KGs 的异构性:KGs 内在于其复杂性特性,在于不同类型实体各自具有的独特属性表现形式可能属于多样潜在空间体系特征呈现方式;因而解决如何有效处理高复杂度图状数据结构同时精准提取多维度特征信息仍是亟待解决的关键技术难题。
关系的重要性:KGs 异构性主要体现在其关联路径表征上;这种表征能够展现多种三元组所构成复杂语义内涵;此外还能够通过不同层次关联路径整合出多样语义组合;关键是如何实现这些语义信息的有效融合以及合理选择最优关联路径组合;若对各类关联路径采取平等对待原则将会导致重要关联路径所承载语义内容无法得到充分展现;因此必须建立科学评估机制明确各类关联路径重要程度并据此分配适当权重系数。
聚合器的影响:实体间联系主要依靠聚合器函数作用于各相关联路径邻居节点特征进行综合表征;这构成了图神经网络体系架构中不可或缺的重要功能模块;值得注意的是此类函数需针对无序非序列化数据样本建立适应性处理框架;同时在深度学习模型训练过程中必须保证该类函数具备良好的可微分性质以支持高效优化过程;目前已有若干新型聚合器设计方法值得深入研究探讨基于不同聚合器组合所构建起的图神经网络体系架构对模型性能表现的影响程度。
在此基础上,本文提出了一种新提出的异构关系注意网络框架HRAN。该框架通过注意力机制评估不同关系的重要性,并考察了三种不同的聚合器函数的作用。
本文的主要贡献如下:
- 开发了一种新型的端到端异构关系注意力网络(HRAN)框架。
- 通过运用注意力机制分析各路径的关键性。
- 进行了大量实证分析以证明该方法的有效性。
Proposed Method
准备工作
Link prediction involves representing a triplet as (e_s, r, e_o). Given a specific entity instance with a particular relation type, the goal of link prediction is to predict another appropriate entity that can form a correct triplet with the given subject and relation. That is, for each triplet instance, it aims to determine an appropriate object entity e_o by defining a standard score function. The optimization objective typically focuses on maximizing the score of correct triplets over incorrect ones.
在本文中,图卷积通过聚合节点特征实现链路预测任务的嵌入生成。令 H^(l) 代表 GNN 第 l 层的节点特征矩阵,则前向传播过程可表示为:
H^(l) = f(D̃{-1/2}ÂD̃H(l-1)W^{(l)})
其中 f 为激活函数,在这里定义为非线性变换函数。Â = (A + I) ∈ ℝ^{|ε|×|ε|} 表示包含自环的图 G 的邻接矩阵。D̃ 表示 Â 的度矩阵,在此过程中被逆度矩阵进行归一化处理:
H^(l) = f(D̃{-1}ÂH(l-1)W^{(l)})
model

HRAN框架说明:
-
(a)实体级聚合:基于关系路径构建的邻接矩阵用于整合各实体间的基于关系路径邻居信息。
-
(b)关系级聚合:通过不同类型的聚合器函数对每条特定关系路径上已知权重的信息进行综合处理。
-
(c)最终阶段:借助得分函数生成三元组是否为正确的关系预测结果。
实体级聚合
提出了实体级聚合,聚合每个基于关系路径的实体特征 。
从\mathbf{h}_e^0和\mathbf{r}_r^0这两个基础要素出发,在整合基于关系路径的各项实体特征后
本文研究的核心是实体级别的聚合函数,在GCN框架下进行了深入探讨。通过重新排列等式结构可知:对于每个关系路径r\in\mathcal{R}而言,在第l-1层时的所有邻居节点i其对应的节点特征\mathbf{h}_i^{(l-1)}会被收集起来并进行汇总后进行归一化处理。进而计算得到基于该关系路径r的聚合结果\mathbf{h}_{\{\mathcal{N}_{(e)}^r\}}^{(l-1)} = \frac{\sum_{i=1}^{|\{\mathcal{N}_{(e)}^r}|}\mathbf{x}_i}{|\{\mathcal{N}_{(e)}^r}|}
给定一个包含关系路径集合 \{r_1,r_2,\dots,r_{|\mathcal{R}|}\} 的数据模型中,每个实体能够获得 |\mathcal{R}| 项聚合特征集合 \{\mathbf{h}_{\mathcal{N}_{(e)}^{r_1}}^{(l-1)},\mathbf{h}_{\mathcal{N}_{(e)}^{r_2}}^{(l-1)},\dots,\mathbf{h}_{\mathcal{N}_{(e)}^{r_{|\mathcal{R}|}}}^{(l-1)}\} 。因为这些聚合特征是由单一的关系路径生成的,在这种情况下使得每一个特征都具有专门化的语义内涵,并能够有效捕获对应类型的信息。
关系级聚合
利用实体间的各种语义关联关系进行数据集成。设计出一种新型基于关系的注意力机制模型用于获取不同关联路径上的重要性权重,并将其应用于整合多种类型的信息。
为了探究不同关系路径的相对重要性,在构建基于 |\mathcal{R}| 个实体级别的聚合特征时,默认采用特定方法作为输入依据;具体表示为:
\{\alpha_{r_1}^{(l-1)},\dots,\alpha_{r_{|\mathcal{R}|}}^{(l-1)}\} = \Phi_{att}\left\{\mathbf{r}_{r_1}^{(l-1)},\dots,\mathbf{r}_{r_{|\mathcal{R}|}}^{(l-1)}\right\}
其中,
\alpha_r^{(l-1)} = \Phi_{att}\left(\left\{\mathbf{r}_r^{(l-1)} \forall r \in \mathcal{R}\right\}\right)
此处所指的关注函数 att 是一种由深度神经网络设计实现的人工智能机制,在其运作过程中能够有效捕捉各关系路径的重要程度,并通过这种能力实现有针对性地整合异构知识图谱中的特征信息
为了掌握各条关系路径上的权重参数 ,系统首先采用了非线性变换将特定类别的特征向量进行处理 。随后引入注意力机制向量 \mathbf{q} 来评估各类别特征的重要性 。最后计算出对应的权重系数 \alpha_r^{(l-1)} ,其值由激活函数σ决定 :
在获得每条关系路径对应的权重值后,在后续阶段中通过预训练参数\alpha_r^{(l-1)}来表示各个关系路径对应的各个特征重要性权重的基础上对所有基于关系路径的聚合邻接节点特征进行融合计算。随后将所有基于关系路径的聚合邻接节点特征进行融合计算以获得每个实体的所有邻居节点基于关系路径的加权表示
*聚合方法
* 由于聚合过程应该是可训练的,并且在方法训练过程中保持高计算效率,因此三种有效的聚合方法 mean/max/sum 如下:\begin{cases} \frac{1}{|r|}\sum_1^d\sum_{\forall{r\in{\mathcal{R}}}}\big(\alpha_r\mathbf{h}_{\mathcal{N}_{(e)}^r}^{(l-1)}\big) \\ [2ex] \max(CONCAT\{\alpha_r\mathbf{h}_{\mathcal{N}_{(e)}^r}^{(l-1)},\forall{r\in\mathcal{R}}\}) \\ [2ex] \sum_1^d\sum_{\forall{r\in{\mathcal{R}}}}\big(\alpha_r\mathbf{h}_{\mathcal{N}_{(e)}^r}^{(l-1)}\big) \end{cases}
符号 d 表示 d-维特征。sum 聚合器近似地类似于在 GCN 框架中使用的聚合器函数。mean 和 max 聚合器的灵感来自于 CNNs 中的池化方法。
*图卷积
*图的卷积传播可以通过非线性变换来更新为:
\begin{cases} \mathbf{h}_e^{(l)}=f\big(\mathbf{W}_e^{(l)}\mathbf{h}_{\mathcal{N}_{(e)}}^{(l-1)}\big) \\ [2ex] \mathbf{r}_r^{(l)}=f\big(\mathbf{W}_r^{(l)}\mathbf{r}_r^{(l-1)}\big) \end{cases}其中,\mathbf{W}_e^{(l)} 和 \mathbf{W}_r^{(l)} 分别为特定实体和特定关系的连接系数矩阵,f 为修正线性单位(ReLU)。
*可以观察到所有相邻的特征在 \mathbf{h}_{\mathcal{N}_{(e)}}^{(l-1)} 中融合,而实体特征 \mathbf{h}_e^{(l-1)} 自身没有融合。因此,需要在卷积传播中纳入自循环。此外,为了使该方法更加灵活,还引入了超参数 \beta,称为自注意值。上式可以重新定义如下:
\mathbf{h}_e^{(l)}=f\big(\mathbf{W}_e^{(l)}\big((1-\beta)\mathbf{h}_{\mathcal{N}_{(e)}}^{(l-1)}+\beta\mathbf{h}_e^{(l-1)}\big)
符号 \beta 决定了实体特征本身在自循环中的保留比率。
* 最后,可以将每个实体特征 $\mathbf{h}_e^{(L)}$ 和关系特征 $\mathbf{r}_r^{(L)}$ 连接的最后一层得到最终每个实体和关系的嵌入矩阵。可以被定义为:
\begin{cases} \mathbf{E}=CONCAT\{\mathbf{h}_e^{(L)}\forall{e\in{\varepsilon}}\} \\ [2ex] \mathbf{R}=CONCAT\{\mathbf{r}_r^{(L)}\forall{r\in{\mathcal{R}}}\} \end{cases}
Eexperiments
Datasets
- WN18:源自 WordNet 的数据集包含 18 种不同类型的关系实体以及总共约 40,943 个实际存在的实体实例。这些表示词义的实体通过其间的词汇关系联系在一起。
- FB15k-237 是 FB15k 数据集中提取的一个特定子集集合。该子集集中共有 237 种独特的非可逆性关联,并拥有 14,541 个具体的实体实例。
- WN18RR 则是从原始的 WN18 数据集中排除了所有可逆性关联后提取的一个专门研究对象集合。该集合中包含了约 40,943 个实例,并仅涉及 11 种不同的非可逆性关联类型。
Baselines
- TransE:将实体和关系转换为翻译嵌入来建模多关系数据。它是应用最广泛的链路预测方法。
- TransD:通过将实体投影到关系相关空间来建模复杂关系。
- TorusE:进一步嵌入关系和实体。由于其复杂性,它可以扩展到大的 KG。
- RotatE:将实体表示为复向量,将关系表示为复向量空间中的旋转。它可以有效地推断出各种关系模式。
- ModE:将实体嵌入到极坐标系中,并且只使用模量部分。
- DistMult:通过匹配嵌入空间中的潜在语义来衡量三重态的概率。
- ComplEx:将 DistMult 扩展到复杂空间和模型对称和反对称关系。
- ConvE:首先提出了基于多层CNN的链路预测架构。
- ConvKB:每个三元组被连接成一个三列矩阵,并利用 CNN 提取实体和关系之间的全局关系。
- InteractE:旨在通过增加卷积交互作用的数量来提高链路预测性能。
- R-GCN:是一种图卷积网络的推广,用于处理 KGs 中的高度多关系数据。
- SACN:引入了加权图卷积网络,结合利用了 GCN 和 ConvE 的优点。
- HRN:HRAN 的一个变体,它消除了注意机制,并赋予每个关系路径相同的重要性。
- HRAN:提出的异构图网络,从不同语义方面的特征,并为关系路径分配适当的权重。
Method
- 链接预测:获取MR、MRR和Hits@k结果。
Conclusion
本研究旨在探索异构知识图谱中复杂结构与丰富语义的融合方式,并以此为基础提出了一种新型的学习框架——异构关系注意网络(HRAN)。该框架通过分别聚合不同关系路径上的邻居特征来构建语义表示。具体而言,在关注各关系路径重要性这一关键环节上,则采用了先进的注意力机制模型来进行信息提取与融合工作。
在三元组预测任务中,默认采用一种基于卷积神经网络的关系特定滤波器生成方法,并在此基础上设计了一套有效的特征提取策略:在卷积操作过程中能够从每个实体中提取出具有特定语义特性的特征向量。
实验结果表明该方法在链路预测任务中表现出了显著的优势与潜力。
鉴于当前研究工作中存在的诸多局限性与改进空间,在未来的研究工作中建议可以结合最新的生成对抗网络技术来进一步探索如何有效生成高质量的负样本三元组。
