Advertisement

SIGIR 2023|《Normalizing Flow-based Neural Process for Few-Shot Knowledge Graph Completion》论文细读+理解笔记

阅读量:

模型名称NP-FKGC

论文地址:[PDF] Normalizing Flow-based Neural Process for Few-Shot Knowledge Graph Completion | Semantic Scholar

代码: GitHub - RManLuo/NP-FKGC: Official code implementation for SIGIR 23 paper Normalizing Flow-based Neural Process for Few-Shot Knowledge Graph Completion

摘要

知识图谱作为一种结构化的知识表示形式,在现实世界中得到了广泛的应用。近年来,以“少样本知识图谱补全”(FKGC)为研究对象的知识图谱补全技术越来越受到实验人员和研究者的关注。然而,现有的FKGC方法是基于度量学习元学习 的,这些方法经常存在分布外泛化过拟合 问题。同时,它们无法估计预测中的不确定性,这一点至关重要,因为模型预测在少样本情况下可能非常不可靠。此外,大多数算法不能处理复杂的关系,忽略了KGs中的路径信息,这在很大程度上限制了它们的性能。本文提出了一种基于标准化流的知识图谱补全神经过程 。具体地说,我们统一了标准化流和神经过程来模拟KG补全函数的复杂分布 。这为在估计不确定性的同时预测少量关系的事实提供了一种新颖的方法。然后,我们提出了一个随机ManifoldE解码器 ,以结合神经过程并处理少样本设置中的复杂关系。为了进一步提高性能,我们引入了一种基于注意关系路径的图神经网络 来捕获KGs中的路径信息。在三个公共数据集上进行的大量实验表明,我们的方法显著优于现有的FKGC方法,并达到了最先进的性能。

一、介绍

1、知识图谱表示形式:(头实体,关系,尾实体)

2、知识图谱应用:网络搜索、问答、推荐系统等

3、知识图谱并不完整➡需要补全➡而知识图谱中的大部分关系都是少于10个相关事实的长尾关系➡少样本知识图谱补全

4、少样本知识图谱补全(FKGC)旨在设计一个KG补全函数(模型),该函数(模型)在支持集中使用少量三元组样本(事实)来预测查询集中给定关系中不可见的事实。

5、现在的少样本知识图谱补全方法:基于度量学习的方法、基于元学习的方法

二、面临问题

1、分布外泛化

2、过拟合

3、元学习可能存在的局部最优

4、没有考虑实体之间的路径信息

5、无法量化预测中的不确定性

6、 Neural processes基于随机过程,不仅可以估计预测的不确定性,而且可以推广到具有少量数据的新任务,然而,Neural processes无法直接应用到FKGC,Neural processes通常采用高斯分布来模拟随机过程,在KGs中无法处理复杂关系,高斯分布面对一对多关系存在多峰分布和后验坍缩的问题

为了解决上述挑战,本文提出了一种基于神经过程的FKGC方法——NP-FKGC。具体来说,首先采用神经过程(NP)来定义KG补全函数上的分布。通过从分布中抽样,可以很容易地得到一个专门针对给定的少样本关系的预测函数。然后,通过一种标准化流(normalizing flow, NF)对NP进行扩展,将简单的高斯分布转化为复杂的目标分布,更能表达处理复杂关系和估计不确定性。此外,本文提出了一种新的随机ManifoldE解码器(SManifoldE)来预测查询集中的事实。SManifoldE将神经过程和ManifoldE的优点结合起来,可以处理少量三元组下的复杂关系。最后,本文提出了一种基于注意关系路径的图神经网络(ARP-GNN)来有效地考虑FKGC的路径。采用图神经网络(GNN)将路径信息编码为实体表示,而不是使用广度优先搜索(BFS)。这样,NP-FKGC可以同时考虑复杂关系和路径信息。
在三个公共基准数据集上进行的大量实验表明,NP-FKGC显著优于最先进的方法(MRR分别为33.7%,43.3%和17.5%,Hits@1分别为77.6%,41.5%和36.4%)。
本文的主要贡献如下:

1、提出了一种基于神经过程的少样本知识图谱补全方法(NP-FKGC)。据我们所知,这是第一个将np应用于FKGC问题的工作
2、提出了一种新的基于标准化流的神经过程编码器和随机ManifoldE解码器(SManifoldE),以同时估计不确定性和处理复杂关系,一个基于注意关系路径的GNN (ARP-GNN)去捕获FKGC的路径信息。

3、在三个公共基准数据集上进行了广泛的实验。实验结果表明,NP-FKGC可以显著优于最先进的方法。

三、相关工作

3.1少样本知识图谱补全FKGC

现有的知识图谱补全方法大致可分为基于度量学习的模型基于元学习的模型 两大类。

基于度量学习的方法开发了一个匹配网络来计算支持集和查询集中三元组之间的相似性。GMatching是FKGC中的第一项工作,它提出了邻居编码器和LSTM匹配网络来测量相似度。FSRL扩展了GMatching,通过一个关注邻居编码器和一个LSTM支持集编码器同时考虑多个支持三元组。在FSRL的基础上,FAAN提出了一种特定于关系的自适应邻居编码器。同时,它采用基于Transformer的编码器来学习三元组的表示。为了考虑KGs的不确定性,GMUC提出了一个基于高斯的度量函数来捕捉不确定的相似性。CSR利用GNN的强大功能,引入了一种基于子图的预训练匹配网络。P-INT引入了基于路径的匹配网络。但是,它无法解决实体无法通过路径连接的情况。此外,匹配网络不能处理FKGC中的复杂关系。
基于元学习的模型旨在快速更新不可见关系的模型参数。MetaR提出了一种关系元学习器来表示少量的关系,并使用支持集更新它们的表示。MetaP引入了一个元模式学习框架来预测新的事实。GANA将元学习与TransH相结合,使MTransH能够处理复杂的关系。此外,GANA还引入了一种门控和关注的邻居聚合器来解决邻居稀疏的挑战。但是,基于元学习的方法需要一个微调过程来更新模型参数,这是不够有效的,因为它需要计算和存储梯度。更重要的是,他们遭受分布外泛化问题,并且无法量化预测中的不确定性。

3.2神经过程Neural Processes

神经过程(Neural Processes, NPs)将随机过程和神经网络结合起来,在观测数据有限的情况下定义预测函数的分布。CNP是NP族的一种特例,它将数据编码成一个确定性的隐变量,使函数参数化。因此,它不引入任何不确定性。为了解决CNP的局限性,神经过程(NP)是一个随机过程,它学习一个潜在变量来对函数的潜在分布进行建模,我们可以从中对下游任务的函数进行采样。ANP结合了CNP和NP的优点,以一种细心的方式结合了确定性和随机路径。NPs还被应用于许多小问题,如随机物理场建模、节点分类、推荐和链接预测。
然而,它们都没有将NPs适用于FKGC。此外,现有的神经网络假设底层函数满足简单的高斯分布,无法处理KG补全函数的复杂分布。

神经过程(NPs)是在预测函数𝑓:𝑋→𝑌上建模分布的随机过程。具体地说,假设函数𝑓是由一个高维随机向量z参数化的,函数的分布可以用𝑃(𝑧| C)表示,根据经验假设它是一个基于有限上下文的数据的高斯分布。通过从分布中抽样一个z, NP可以很容易地得到一个专门用于新预测任务的函数。因此,在目标数据上预测的可能性被建模为

𝑛和𝑚分别表示C和D中的样本数,𝑃(𝑧| C)由编码器使用上下文数据计算得出,由译码器建模用以实现函数并预测目标数据标签。由于对数的真实分布是难以处理的,所以可以使用平摊变分推理来训练NPs。通过最大化证据下界(ELBO)来优化编码器和解码器的参数,用公式表达为:

其中,θ为编码器参数,Φ为解码器参数,近似于真实后验分布。

3.3标准化流Normalizing Flows

标准化流(NFs)使用一系列双射映射函数将简单分布转换为复杂目标分布。标准化流越来越受到机器学习研究者的关注。Rezende等介绍了相对简单但易于计算的平面流和径向流。他们应用这些流来近似变分推理中的后验分布。Kingma等引入了逆自回归流,在逆向过程中效率更高。RealNVP对耦合流使用仿射耦合函数,计算效率高,但表达能力有限。NFs还应用于许多任务,如图像生成、机器翻译和时间序列分析。

标准化流(NFs)能够通过应用𝑇步长双射变换将简单(例如高斯)分布转换为具有表现力的复杂分布。

首先,NFs从基本分布中采样一个,随着变量规则的变化,存在一个可逆光滑的映射函数。通过堆叠一连串的序列(流)链,所得到的结果变量

最后的一个复杂分布由下式得到:

下的雅可比矩阵行列式的绝对值。

四、实验

4.1模型

模型NP-FKGC由四个主要部分组成:

(1)一个基于注意关系路径的图神经网络,用于捕获实体之间的关系路径信息;

(2)关系编码器,用于学习给定少样本关系的表示;

(3)基于标准化流的神经过程编码器,定义KG补全函数上的分布;

(4)随机ManifoldE解码器预测尾实体。

4.1.1基于注意关系路径的图神经网络

虽然从KG嵌入方法(如TransE)中学习的实体表示已经包含了关系信息,但现有的FKGC方法从一跳邻居中聚合信息,以进一步增强实体表示。然而,它们忽略了实体之间的关系路径信息,这在KG完成中显示出巨大的力量。直观地说,广度优先搜索(BFS)是获取实体之间路径以促进FKGC的最简单方法。但是,在大规模的KGs中,耗时长,不能处理不连接的实体对。近年来,许多研究都采用GNN来捕获图中的结构和路径信息。因此,本文提出了一种基于注意关系路径的图神经网络(ARP-GNN)来捕获实体之间的关系路径信息。

具体来说,给定一个实体𝑣,我们通过采用注意关系消息传递方法来聚合其邻居的信息。在每一层,我们首先生成每个邻居关系的表示。然后,对关系表示进行聚合,得到实体表示。注意关系消息传递的公式如下

分别是实体v,邻居实体,邻居关系的表示;||表示连接操作;表示一个特定于关系的线性变换矩阵;是权重矩阵和𝑙层的偏差;ReLU()为激活函数;为了区分不同关系的重要性,注意权值计算为

其中𝑊为权矩阵,LeakyReLU()为激活函数。

直观地说,GNN消息传递本质上是对BFS的模拟,它展示了捕获实体之间路径的能力。利用GNN可以挖掘gpu的并行计算能力,加快路径提取过程。此外,ARP-GNN还可以通过使用注意机制区分路径中每个关系的贡献。这样,通过叠加𝐿-layer ARP-GNN,我们可以将所有长度-𝐿关系路径嵌入到实体表示中,表示为

其中表示通过KG嵌入方法(如TransE)获得的初始实体/关系表示。根据经验,KG中的大多数实体都可以在2长度的路径内连接。因此,我们在实验中选择𝐿= 2。对于不能在2长度路径内连接的对,来自其2跳邻居的信息仍然可以增强实体表示。

生成实体表示后,支持集中的每个三元组都可以表示为其头部和尾部实体表示的连接,表示为

其中,分别表示由ARP-GNN生成的头部和尾部实体的表示。

4.1.2关系编码器

为了生成少样本关系表示,我们采用了广泛使用的关注Bi-LSTM关系编码器对支持集中的三元组进行汇总。给定一组三元表示,它们的隐藏状态计算为:

然后,我们对隐藏状态进行聚合,得到最终的关系表示,表示为:

关系表示𝑟'用于预测查询集中的新事实

4.1.3基于标准化流的神经过程编码器

为了将神经过程应用于FKGC,我们提出了一个基于标准化流的神经过程编码器来定义KG补全函数上的分布。该编码器由两部分组成:(1)一个学习分布的神经过程编码器;(2)一个将简单分布转化为复杂目标分布的标准化流程,其参数化了随机KG完成函数。

神经过程编码器的目标是基于上下文数据(支持集)绘制联合分布。因此,给定一个上下文数据C𝑟,它会尝试捕获之间的连接,以推断函数𝑓𝑟上的分布。为了减少分布的估计偏差,我们通过随机替换尾部实体,为C𝑟中的每个三元组生成𝑛负三元组样本。扩展的上下文数据表示为。对于中的每个三元组,我们首先采用ARP-GNN来生成头部和尾部实体表示,然后,我们将它们与一个指标的表达式一起输入到一个MLP中,生成隐含表示

表示是否为负三元组。通过引入负三元组,我们可以更准确地估计函数的底层分布。

将所有上下文对的表示通过聚合函数A(·)总结为一个向量r来定义联合分布,该联合分布必须满足置换不变的条件。因此,我们选择一个简单的平均函数来生成全局表示r,其公式为

然而,高斯分布不足以模拟KG补全函数的复杂分布。因此,我们建议使用归一化流(NF)将一个简单分布转换为一个复杂的目标分布

我们首先从基础分布中抽样一个,通过应用一系列变换,最终的潜在变量为:

其中可以是任意双射变换函数,如Planar flow、Real NVP flow、Masked Autoregressive
flow。潜变量可视为对应随机过程函数的一种实现,该函数由分布建模。

通过变量规则的变化,定义了的目标分布为:

明显,不仅定义了分布函数,也估计不确定性。支持集是有限的或嘈杂时,的熵越高,表明该模型预测更加不确定。

4.1.4随机ManifoldE解码器

解码器旨在预测查询集中三元组的尾实体。传统的FKGC方法通常采用朴素点积或简单的分数函数(如TransE)来预测候选尾实体的分数,这些都无法有效处理复杂的关系(如一对一和一对多关系)。通过对manifold sphere中的三元组进行建模,ManifoldE缓解了在处理复杂关系时影响性能的ill-posed algebraic system和over-strict geometric form问题。给定一个三元组(h,𝑟,𝑡),ManifoldE试图在一个 manifold sphere中对三元组建模,其公式为

其中𝐷𝑟是特定于关系的流形参数,是流形函数。在实验中我们使用TransE作为流形函数。

然而,ManifoldE是为具有大量三元组的场景而提出的,它不能直接应用于少量样本的情况。因此,我们提出了一种随机的ManifoldE解码器(SManifoldE),它结合了ManifoldE和神经过程的优点来解决少样本KG补全问题。

对于每个查询三元组,我们首先使用ARP-GNN生成头部和尾部实体的表示,并使用关系编码器生成关系表示𝑟'。然后,标准化流神经过程编码器计算出的,我们采用两个独立的mlp将它们映射到头部和尾部实体的空间,其表示为

然后,我们随机地将投影到由定义的超平面中,其公式为

这样可以使它们更容易相交,提高预测精度。最后,由SManifoldE解码器计算的分数表示为

其中也是由一个MLP函数得到的。

通过将所带来的随机性融入到预测结果中,我们的SManifoldE解码器能够在少量的样本情况中处理复杂的关系。

4.2数据集

4.3基线方法

将NP-FKGC方法与两组基线进行了比较:传统的KGC方法。这些方法通过对KG中的关系结构建模来学习实体嵌入和关系嵌入。

选择了四个知识图谱补全模型(例如TransE , TransH , DistMult和ComplEx)作为传统的KGC基线。这些基线可以使用开源代码实现。
选择了五种少样本知识图谱方法。包括GMatching、MetaR、FSRL、FAAN、GANA等。

4.4结果分析

在NELL, WIKI和FB15K-237数据集上的5次FKGC结果

最好和次好的结果分别以粗体和下划线突出显示。从结果中,可以看到NP-FKGC显著优于所有基线,并在大多数指标上设置了新的STOA性能。

具体而言,NP-FKGC在三个数据集上的MRR比现有的STOA(即GANA)高出33.7%,43.3%和17.5%,这表明NP-FKGC通常可以对正确的尾部实体进行更高的排序。此外,NP-FKGC在三个数据集上对GANA的Hits@1分别提高了77.6%、41.5%和36.4%,表明NP-FKGC能够准确预测尾部实体。虽然NELL中的GANA的Hits@10略高于NP-FKGC,但NP-FKGC在其他指标上仍然优于GANA,可能因为NP-FKGC通过多层APR-GNN捕获关系路径,比GANA中的1跳邻居信息更有效。此外,标准化流程和SManifoldE使NP-FKGC能够更有效地处理复杂的关系。

传统的KGC方法(例如TransE)得到的结果最差,特别是在WIKI数据集上,这自然反映了它们不是为少样本而设计的事实。另一方面,FKGC基线(例如GMatching和FSRL)的性能更好,因为他们设计了一个匹配网络来捕捉支持集和查询集之间的相似性。然而,简单的匹配网络不足以表达KG中的复杂关系。因此,它们的性能被一些传统的KGC方法所超越,这些方法考虑了NELL上的复杂关系(例如TransH和complex)。

MetaR采用元学习框架更新关系表示,FAAN设计了基于注意力的邻居编码器增强实体表示,达到了较好的效果。而MetaR采用TransE的得分函数,FAAN采用简单的点生成来预测尾部实体,同样无法处理复杂的关系。GANA不仅考虑了邻居信息,还针对复杂关系提出了MTransH评分函数。因此,GANA优于其他基准,实现了第二好的性能。
包括不同类别的复杂关系下在NELL数据集上的5次FKGC结果

为了评估NP-FKGC对复杂关系的有效性,在上表中报告了不同类别复杂关系的结果。将NELL中的复杂关系分为一对一和一对多两类,这是基于GANA的分裂。
从结果中,可以注意到NP-FKGC在不同类别的关系中始终优于其他基线。虽然考虑复杂关系的KGC方法在一对多关系中取得了更好的结果,但它们还不能适应few-shot。GANA是考虑复杂关系的唯一基准,在一对一和一对多关系中都达到了第二好的性能。
处理复杂关系的能力可以归功于标准化流(NF)和SManifoldE。通过消融实验分别删除这些部分,可以看到一对多关系的性能显著下降。具体来说,NF为随机函数定义了一个更具表现力的分布,使模型能够处理符合不同分布的复杂关系。同时,SManifoldE对manifold sphere中的三元组进行建模,以捕获复杂的关系。此外,通过结合神经过程,SManifoldE可以更好地适应少样本设置。

4.5消融实验

通过去除NP,模型将退化为具有GNN的传统ManifoldE模型,这在少样本中是无效的。如果没有NF和SManifoldE,模型将无法处理复杂的关系。此外,去除ARP-GNN后,模型的性能显著下降,说明考虑关系路径信息的重要性。

4.6不确定性分析

NP-FKGC的主要优点是能够估计其预测中的不确定性。在给定支持集的情况下,利用标准化流程和神经过程,可以得到预测函数的一个分布,即,模型的不确定性可以通过熵值来评估,熵越高,模型的不确定性越大。

首先在NELL数据集上评估了NP-FKGC和其他基线在不同小样本尺寸𝐾下的性能,然后在上图中展示了NP-FKGC估计的相应的,本文报告了MRR和Hits@1结果。两幅图中不同的少样本数量下,可以看到NP-FKGC在所有𝐾值下始终优于其他基线,原因是神经过程可以有效地学习具有有限支持集的分布来估计潜在事实。

随着样本大小的增加(从1到5),神经过程可以吸收新的观察结果来增强分布和更准确地预测新的事实。图底部所示的的减少支持了这一说法,观测数据越多,越小,说明模型的预测越确定,预测效果越好。
值得注意的是,NP-FKGC的性能在𝐾= 7时下降,可能的原因是随着𝐾的增大,支撑集中可能会引入噪声。现有的few-shot方法和神经过程对支持集的质量都很敏感,这可能导致性能下降。在𝐾= 7处,的增加验证了NP-FKGC的高不确定度。模型预测的不确定性越大,预测性能越差。在大多数情况下,NP-FKGC可以捕获预测的不确定性,从而实现可靠的预测。

全部评论 (0)

还没有任何评论哟~