Advertisement

GNN in KG(三) Logic Attention Based Neighborhood Aggregation for Inductive Knowledge Graph Embedding

阅读量:

本文发表于AAAI2019会议,其作者分别来自Sun Yat-sen大学、腾讯AI实验室以及武穴大学。在系统学习了前两篇论文之后我们了解到GK嵌入模型主要由编码器与解码器两个部分构成。值得注意的是融合图神经网络的编码器在创新潜力上具有更大的发展空间这是因为其聚合机制直接影响着模型的整体性能表现。在此基础上本文提出了一种理想聚合器的概念并阐述了其实现所需的关键条件。

  • Permutation Invariant. 这也是图神经网络中的一个基本特性:聚合操作与节点邻域的排列顺序无关。
    • Redundancy-Aware. 知识图谱中的事实通常是相互依赖的:一个体在芝加哥公牛队打球通常暗示他是篮球运动员。基于实体邻域中的这种冗余是有益的:从而使得聚合操作能够提取相关信息。一个好的聚合操作应该能够利用这种非显式的冗余信息。
    • Query-Relation-Aware. 在常见的知识图补全任务中,默认给出的是查询关系:例如live_in关系。一个聚合操作可能会利用这些信息集中在附近的相关事实:例如"play for"芝加哥公牛队。这条性质与前一条有所不同:因为live_in关系并不一定真的与play_for有很强的因果或包含关系:二者之间仅存在一定的概率同时出现。结合后续算法讨论的内容:这条性质旨在强调聚合操作需要建模不同关系之间的概率分布。
在这里插入图片描述

为此,在研究领域中首次提出了一种创新性的聚合网络体系架构——Logic Attention Network(LAN)。该体系通过运用了两个不同的方法——逻辑规则机制与神经网络机制——分别从粗粒到精细粒地建模了关系级与邻居级信息。其中前者遵循了统计理论的基础原理;而后者则依赖于深度学习中的注意力机制来捕捉关键特征。

Preliminaries

Notations

知识图谱由三元组构成:

在这里插入图片描述

本文使用N_K(e)表示实体e相关的一条关系以及另一个实体:

在这里插入图片描述

每个节点e对应的两个变量分别是其相邻节点集合和相关边集合。基于给定的知识图谱K及其相关的属性信息集I, 目的是学习一个聚合函数A。

Framework

编码器。它首先通过权重矩阵W_e∈R^{n×d}将输入节点进行嵌入表示,并输出e_i^I∈R^{n×d}。对应的边对实体的影响则被建模为:

在这里插入图片描述

w_r表示关系r的转换矩阵,并满足单位向量的要求。接着,聚合函数的输出为:

在这里插入图片描述

聚合函数A被选中池化或RNN。

在这里插入图片描述

|·|_{L1}表示L1正则化的一种方法,在这种情况下我们旨在通过减少头实体与关系到尾实体之间的差异来实现这一目标

Logic Attention Network

注意

在这里插入图片描述

本文采用如下两种方式去估计注意力系数:

Logic Rule Mechanism 使得实体e与相邻关系r_1之间存在关联并可能导致另一个相邻关系r_2的存在。这些看似不相关的边之间可能具有潜在的依存关系。基于以下数学模型建立这种潜在依存性的量化表示:

在这里插入图片描述

其中1(x)是一个指示函数,在x取true值时赋值为1,在否则情况下赋值为0。为了衡量两种关系同时发生的情况数量与第一种关系单独发生频次之间的比率,并将其结果定义为两者之间的关联概率,在聚合器的部分中指出Query Relation Aware这一特性可能暗示着live_in对play_for存在影响的可能性,并从研究者角度来看 play_for已经成功地支撑了live_in的发展情况 因此应弱化其他关联的影响程度 所以Logic概率被定义为:

在这里插入图片描述

这里的max可以理解为影响力最大的边。

  • Neural Network Mechanism。这部分就是GAT中的注意力,没啥好说的。
在这里插入图片描述
在这里插入图片描述

将这两种权重机制结合在一起得到最终的注意力版本的聚合函数:

在这里插入图片描述

Training Objective

训练的时候需要引入负例:

在这里插入图片描述

单个实体的损失函数为:

在这里插入图片描述

γ是一个超参数,[x]_+=max\{0,x\}。那么总体的损失函数就是全部的实体的损失之和:

在这里插入图片描述

以下是对文本内容进行同义改写的版本

在这里插入图片描述

那么联合的损失函数为:

在这里插入图片描述

实验

数据集:

在这里插入图片描述

对于inductive的任务,需要有一部分在训练过程中不可知的数据。因此,从测试数据集中随机抽取R=(5\%,10\%,15\%,20\%,25\%)。然后使用两种不同的策略构建不可知实体U'。一个叫Subject,另一个是Object。前者把只在测试集中出现的subject添加进U',后者则添加object。如果在原始数据集中没有任何邻居,那么则在U'中过滤掉这个实体。并且要确保不可见的实体不会出现在最终的训练集或验证集中。将原始训练集分为两个数据集,新的训练集和辅助集。如果s,o∈E那么被添加到新的训练集中;如果s,o有一个在U'中,则被分配到辅助集中。表1是2x5=10种产生的数据集。

Experiments on Triplet Classification

在这里插入图片描述

LSTM在性能上与MEAN相比有所不如,但所需参数数量相对较少。这一发现凸显出为知识图谱(KGC)设计邻域聚合器时考虑排列不变性的必要性。另一方面,在所有数据集上 LAN 模型均表现优异, 这一验证其在知识图谱补全(KBC)任务中的有效性。

在这里插入图片描述

使用MMR以及Hits@k作为评价指标。

在这里插入图片描述

结果:只写了Subject-10数据集上的数据,因为别的也差不多。

在这里插入图片描述

然后是一些消融试验:

在这里插入图片描述

不同的score function:

在这里插入图片描述

图3中可以看出,当U'值上升时会引起模型性能的下降;然而与其他指标相比,该指标(LAN)的下降速率较慢。

在这里插入图片描述

Table 6 中展开了案例分析研究,并观察到 LAN 将性别这种次要因素放置于最低层级位置,在实际应用中取得了更好的效果,相较于 MEAN 方法而言具有显著的优势。

全部评论 (0)

还没有任何评论哟~