Advertisement

知识补全中图卷积网络的再思考Rethinking Graph Convolutional Networks in Knowledge Graph Completion阅读笔记

阅读量:

知识补全中图卷积网络的再思考Rethinking Graph Convolutional Networks in Knowledge Graph Completion阅读笔记

本文目录

  • 1.研究背景

  • 2.预先工作

  • 3.实验设置(探索GCN的优势的实验)

    • 3.1 模型介绍
    • 3.2 损失函数
    • 3.3 数据集
    • 3.4 训练和评估约定
  • 4.GCN在知识补全中的真正效用

  • 5.一个简单有效的框架(LTE-KGE)提出

    • 5.1 模型介绍
    • 5.2 实验结果
    • 5.3 LTE-KGE和GCN们的关系
  • 6.相关工作

  • 读后感:

1.研究背景

  • 知识图谱通常不完整,手动查找成本高,需要自动补全技术,很多KGE算法被用来做知识补全
  • GCN在图结构数据中应用广泛,能在考虑实体基础上考虑关系,被认为能够提高KGE的性能
  • 基于GCN的知识补全模型表现并不如最先进的KGE模型,却引入了额外的计算复杂度,值得思考“GCN在知识补全中的真正优势是什么?”

2.预先工作

  • 基于图卷积网络的知识补全模型的通用架构
    在这里插入图片描述
    GCN作为编码器,通过充分捕捉图结构来生成实体和关系的表示,KGE模型作为解码器,根据GCN生成的表示来尽可能恢复( 即补全 )知识图结构

3.实验设置(探索GCN的优势的实验)

3.1 模型介绍

编码器方面,以三个代表性GCN模型为研究对象:

  • RGCN(Relational-GCN)

  • WGCN(Weighted-GCN)

  • CompGCN
    总结上述三个典型模型,得到实体、关系的嵌入的更新过程如下:
    (1)聚合图邻域信息( 即捕捉图结构信息
    (2)对聚合后的实体表示进行变换
    (3)对关系表示进行变换
    解码器方面,也使用三种流行的模型作为研究对象:

  • TransE

  • DistMult

  • ConvE

3.2 损失函数

二元交叉熵
在这里插入图片描述
其中y(h,r,t)是三元组的标签,也就是“真”或者“假”,这里用标签平滑将标签处理为[0,1]间的数字,要是没出现过的三元组直接视为负样本( 其实这是不合理的

3.3 数据集

FB15k237(FB237)和WN18RR

3.4 训练和评估约定

  • 按照研究的模型RGCN、WGCN、CompGCN的原论文最佳参数建议,毕竟按照一定方式变化(因为要研究GCN中不同的部分的影响)后的模型只要和变化前的原始模型性能相当即可( 这就可以说明本文想探索的问题
  • 对于测试集中的三元组,替换头或尾实体来创建候选三元组( 这里应该指的是创建用于评估性能的候选三元组? )。将候选三元组的得分进行排序 ,并且过滤掉出现过的真三元组。用MR(越低越好)、MRR(越高越好)和H@N(越高越好)作为评价指标

4.GCN在知识补全中的真正效用

结论:通过聚合充分区分不同语义的实体,从而提高KGE模型的性能
而这一优势并不非要GCN才可以做
细节有待后日补充,不是我本次阅读论文的重点

5.一个简单有效的框架(LTE-KGE)提出

模型目的:证明简单的模型也可以与最先进的基于GCN模型相似的性能相当, 即实现一些替代性。

5.1 模型介绍

在这里插入图片描述
其中:

  • Wh和Wt是具有可训练权重的线性变换( 可以理解为可训练的权重矩阵 ),可以根据实验结果共享相同的参数
  • gh和gt是可选操作,可以是恒等函数、非线性激活函数、批量归一化、随机失活的函数组合
  • 每个实体都可以训练得到单独的表示( 这个其他的方法也是可以的 ),用于区分不同语义的实体
  • 当Wh和Wt是恒等矩阵、gh和gt是恒等函数时,LTE-KGE就是普通的KGE模型了
    与仅使用自循环信息的GCN相比,能够更灵活地为头、尾实体组合不同的变换( 意思可能是可以组合不同的权重矩阵和那个可选的函数组合

5.2 实验结果

参数设置:

  • Wh和Wt取同一个矩阵,不当作两个矩阵训练

  • gh和gt:对于DistMult和ConvE取批归一化(batch normalization)和随机失活(dropout )的组合;对于 TransE取恒等函数。 其实就是对于这三种解码器设置了不同的编码器,编码器总框架是LTE-KGE,里面的参数略有不同

  • RotatE和TuckER作为基准比较模型

  • batch size,训练轮次(epoch),测试样本数量都相同
    实验结果:

  • 有GCN作为编码器的模型,训练和测试时间较长,LTE-KGE模型在这方面具备和没有GCN的模型一样的优势

  • 即,LTE-KGE拥有GCN模型的优点,又避免了它的缺陷
    结果列表:
    在这里插入图片描述
    表格说明:LTE-KGE系列模型与基于GCN的KGC模型性能相当,有时更好。( 但是这里没有前面说的RGCN和WGCN的性能表现,不知道什么原因,但是实验源码是有这两部分的
    所有实验的时间代价对比图如下:( 那个蓝色的w/o GCN 应该指的是没有GCN的模型,这种模型的时间代价作为基准1
    在这里插入图片描述

5.3 LTE-KGE和GCN们的关系

  • LTE-KGE的行为类似于一个基于GCN的模型,把单个GCN层当作是编码器
  • LTE-KGE的简化考虑:
    把LTE-KGE的公式当作
    在这里插入图片描述
    对于给定的实体h,损失函数如下:在这里插入图片描述
    其中,Rh是所有与h相关的关系组成的集合,f是KGE模型的评分函数( 这里老觉得差一个负号,因为原文说的是最小化损失,而评分函数是越大越好,这里有矛盾感觉? )。
    一般采用梯度下降法来最小化上述损失函数,即如下的梯度:
    在这里插入图片描述
    在本文实验中,这个评分函数尝试了三种模型的评分函数,这三种评分函数对应的梯度分别如下:
    LTE-TransE:
    在这里插入图片描述
    用L2范数的情况下:
    在这里插入图片描述
    LTE-DistMult:
    在这里插入图片描述
    LTE-ConvE:
    在这里插入图片描述
    进一步确定g(h,r,t)为
    在这里插入图片描述
    后,式子为:
    在这里插入图片描述
    综上所述,这三类评分函数的梯度有一个共同的形式:
    在这里插入图片描述
    其中a和b是两个标量值型函数( 即返回一个数据值的函数 )。这个形式可以等效于1层GCN的迭代,因为式子中的线性变换W可以对应于GCN聚合里的权重矩阵。即,KGE模型和梯度下降的组合表现得类似GCN的聚合操作,所以再单独添加聚合是不必要的,也是从原理上说明了为什么LTE-KGE性能和GCN类的KGC模型类似。

6.相关工作

涉及到的知识相关的领域有:

  • 知识图谱嵌入
  • 知识图谱补全中的GCN
  • KGC模型的重审视,全面分析基于GCN的KGC模型

读后感:

这是一篇让人眼前一亮、又通过大量实验让人非常信服的论文,可以说是“表里兼备”,在不断内卷的知识图谱、神经网络领域,保持科学分析的初心,让我受益良多。科学研究的本质不应该是为了发论文而编公式、卷参数,也不是画个靶子再射击,希望我也能永远保持这篇论文体现出的探索和好奇心。非常感谢这篇论文的所有作者!

全部评论 (0)

还没有任何评论哟~