知识补全中图卷积网络的再思考Rethinking Graph Convolutional Networks in Knowledge Graph Completion阅读笔记
知识补全中图卷积网络的再思考Rethinking Graph Convolutional Networks in Knowledge Graph Completion阅读笔记
本文目录
-
1.研究背景
-
2.预先工作
-
3.实验设置(探索GCN的优势的实验)
-
- 3.1 模型介绍
- 3.2 损失函数
- 3.3 数据集
- 3.4 训练和评估约定
-
4.GCN在知识补全中的真正效用
-
5.一个简单有效的框架(LTE-KGE)提出
-
- 5.1 模型介绍
- 5.2 实验结果
- 5.3 LTE-KGE和GCN们的关系
-
6.相关工作
-
读后感:
1.研究背景
- 知识图谱通常不完整,手动查找成本高,需要自动补全技术,很多KGE算法被用来做知识补全
- GCN在图结构数据中应用广泛,能在考虑实体基础上考虑关系,被认为能够提高KGE的性能
- 基于GCN的知识补全模型表现并不如最先进的KGE模型,却引入了额外的计算复杂度,值得思考“GCN在知识补全中的真正优势是什么?”
2.预先工作
- 基于图卷积网络的知识补全模型的通用架构

GCN作为编码器,通过充分捕捉图结构来生成实体和关系的表示,KGE模型作为解码器,根据GCN生成的表示来尽可能恢复( 即补全 )知识图结构
3.实验设置(探索GCN的优势的实验)
3.1 模型介绍
编码器方面,以三个代表性GCN模型为研究对象:
-
RGCN(Relational-GCN)
-
WGCN(Weighted-GCN)
-
CompGCN
总结上述三个典型模型,得到实体、关系的嵌入的更新过程如下:
(1)聚合图邻域信息( 即捕捉图结构信息 )
(2)对聚合后的实体表示进行变换
(3)对关系表示进行变换
解码器方面,也使用三种流行的模型作为研究对象: -
TransE
-
DistMult
-
ConvE
3.2 损失函数
二元交叉熵

其中y(h,r,t)是三元组的标签,也就是“真”或者“假”,这里用标签平滑将标签处理为[0,1]间的数字,要是没出现过的三元组直接视为负样本( 其实这是不合理的 )
3.3 数据集
FB15k237(FB237)和WN18RR
3.4 训练和评估约定
- 按照研究的模型RGCN、WGCN、CompGCN的原论文最佳参数建议,毕竟按照一定方式变化(因为要研究GCN中不同的部分的影响)后的模型只要和变化前的原始模型性能相当即可( 这就可以说明本文想探索的问题 )
- 对于测试集中的三元组,替换头或尾实体来创建候选三元组( 这里应该指的是创建用于评估性能的候选三元组? )。将候选三元组的得分进行排序 ,并且过滤掉出现过的真三元组。用MR(越低越好)、MRR(越高越好)和H@N(越高越好)作为评价指标
4.GCN在知识补全中的真正效用
结论:通过聚合充分区分不同语义的实体,从而提高KGE模型的性能
而这一优势并不非要GCN才可以做
( 细节有待后日补充,不是我本次阅读论文的重点 )
5.一个简单有效的框架(LTE-KGE)提出
模型目的:证明简单的模型也可以与最先进的基于GCN模型相似的性能相当, 即实现一些替代性。
5.1 模型介绍

其中:
- Wh和Wt是具有可训练权重的线性变换( 可以理解为可训练的权重矩阵 ),可以根据实验结果共享相同的参数
- gh和gt是可选操作,可以是恒等函数、非线性激活函数、批量归一化、随机失活的函数组合
- 每个实体都可以训练得到单独的表示( 这个其他的方法也是可以的 ),用于区分不同语义的实体
- 当Wh和Wt是恒等矩阵、gh和gt是恒等函数时,LTE-KGE就是普通的KGE模型了
与仅使用自循环信息的GCN相比,能够更灵活地为头、尾实体组合不同的变换( 意思可能是可以组合不同的权重矩阵和那个可选的函数组合 )
5.2 实验结果
参数设置:
-
Wh和Wt取同一个矩阵,不当作两个矩阵训练
-
gh和gt:对于DistMult和ConvE取批归一化(batch normalization)和随机失活(dropout )的组合;对于 TransE取恒等函数。 其实就是对于这三种解码器设置了不同的编码器,编码器总框架是LTE-KGE,里面的参数略有不同
-
RotatE和TuckER作为基准比较模型
-
batch size,训练轮次(epoch),测试样本数量都相同
实验结果: -
有GCN作为编码器的模型,训练和测试时间较长,LTE-KGE模型在这方面具备和没有GCN的模型一样的优势
-
即,LTE-KGE拥有GCN模型的优点,又避免了它的缺陷
结果列表:

表格说明:LTE-KGE系列模型与基于GCN的KGC模型性能相当,有时更好。( 但是这里没有前面说的RGCN和WGCN的性能表现,不知道什么原因,但是实验源码是有这两部分的 )
所有实验的时间代价对比图如下:( 那个蓝色的w/o GCN 应该指的是没有GCN的模型,这种模型的时间代价作为基准1 )

5.3 LTE-KGE和GCN们的关系
- LTE-KGE的行为类似于一个基于GCN的模型,把单个GCN层当作是编码器
- LTE-KGE的简化考虑:
把LTE-KGE的公式当作

对于给定的实体h,损失函数如下:
其中,Rh是所有与h相关的关系组成的集合,f是KGE模型的评分函数( 这里老觉得差一个负号,因为原文说的是最小化损失,而评分函数是越大越好,这里有矛盾感觉? )。
一般采用梯度下降法来最小化上述损失函数,即如下的梯度:

在本文实验中,这个评分函数尝试了三种模型的评分函数,这三种评分函数对应的梯度分别如下:
LTE-TransE:

用L2范数的情况下:

LTE-DistMult:

LTE-ConvE:

进一步确定g(h,r,t)为

后,式子为:

综上所述,这三类评分函数的梯度有一个共同的形式:

其中a和b是两个标量值型函数( 即返回一个数据值的函数 )。这个形式可以等效于1层GCN的迭代,因为式子中的线性变换W可以对应于GCN聚合里的权重矩阵。即,KGE模型和梯度下降的组合表现得类似GCN的聚合操作,所以再单独添加聚合是不必要的,也是从原理上说明了为什么LTE-KGE性能和GCN类的KGC模型类似。
6.相关工作
涉及到的知识相关的领域有:
- 知识图谱嵌入
- 知识图谱补全中的GCN
- KGC模型的重审视,全面分析基于GCN的KGC模型
读后感:
这是一篇让人眼前一亮、又通过大量实验让人非常信服的论文,可以说是“表里兼备”,在不断内卷的知识图谱、神经网络领域,保持科学分析的初心,让我受益良多。科学研究的本质不应该是为了发论文而编公式、卷参数,也不是画个靶子再射击,希望我也能永远保持这篇论文体现出的探索和好奇心。非常感谢这篇论文的所有作者!
