Advertisement

Structure-Augmented Text Representation Learning for Efficient Knowledge Graph Completion

阅读量:

研究问题

将图结构编码与文本编码相结合,综合利用结构和文本信息

背景动机

  • 现有的基于结构的传统编码模型难以处理新兴实体
    • 在执行链路预测时,现有的基于文本编码的模型将整个三元组进行分类处理导致计算资源消耗过高未能有效利用空间信息并未能解决实体多义性问题
    • 作者设计了一个非常有用的可视化工具来详细比较KGBERT在精确度和运行时间上的表现差异
在这里插入图片描述

模型方法

基于孪生模型对文本实施非对称编码,并从表示学习与空间结构两个维度分析其评估结果。

在这里插入图片描述

孪生模型

这一项新术语的确切含义尚未明确。孪生神经网络其结构极其简单可见下图如图所示即每个输入被分配至一个拥有共享权重参数的不同神经网络接着会计算这两个输出节点之间的损失函数进而完成整个过程这一技术的主要应用在于通过比较类似样本来识别同一实体在实际操作中可具体应用于人脸识别系统以及数字签名验证等场景

损失函数有两种设计途径:一种是基于合并后的特征层采用交叉熵损失函数进行分类学习;另一种则是从每个输入端获取其表征信息或将其映射至更高维度的空间表示,并通过计算两者的相似度来进行学习。

在这里插入图片描述

除了上述两种变体外,还有一种称为伪孪生神经网络的变体。这种变体的特点是通过使两个网络不共享权重或者采用完全不同结构的设计来实现孪生特性。通常情况下,人们将这种设计称为伪孪生神经网络,并将其应用于解决输入与输出之间存在较大差异的问题。例如判断文章标题与内容的相关性就是一个典型的应用场景。

另一种方法是三元组网络,其实它是通过负采样或者对比学习实现的,并且每个三元组都是由一个正样本和两个负样本组成的。

文本编码器

对头实体和关系拼接后编码

在这里插入图片描述
在这里插入图片描述

对尾实体单独编码,注意两个编码器间参数绑定

在这里插入图片描述

得分模块

确定性表示学习

其实在之前KGBERT方法的基础上有所发展,在这种情况下研究者们提出了另一种思路。具体而言,在这里采用了两个不同的特征指标,并通过分析这些指标间的关系进行深入研究得出了新的评估标准

在这里插入图片描述

直接由MLP输出分数

在这里插入图片描述
在这里插入图片描述

负采样下的损失函数为

在这里插入图片描述
空间结构学习

其核心机制本质上是基于transe的得分函数设计。研究者指出,仅通过前一部分的学习机制就无法使模型具备排序多个候选实体的能力。

在这里插入图片描述

损失函数为对比损失

在这里插入图片描述

最终损失函数为:

在这里插入图片描述

与RotatE模型相结合

我们假定s^{(tc)}=s^c为StAR模型的预测得分,并且同时取用s^{(ge)}作为RotatE模型的预测得分。我们的目标则是通过优化权重向量\alpha来综合以上两得分计算出最终综合得分。

在这里插入图片描述

定义为V为得分top-k实体在\mathbb{R}^{d\times k}空间中的表示。同时定义为矩阵M\in\mathbb{R}^{k\times 100}记录了这些实体与其他实体表示之间的余弦相似度值,并取其前100高的数值。

称作\operatorname{Std}\left(V \in \mathbb{R}^{d \times k}\right) \in \mathbb{R}^d为实体表示的标准偏差,并被称作\operatorname{Mean}(M \in\mathbb{R}^{k \times 100})为余弦相似度的平均值

基于特征相似性方面定义模糊度为 x^{\{(a d)\} := [\text{Std}(V); \text{Mean}(M)]} ,基于得分对比方面定义分数一致性为 x^{\{(sc)\}} := [ |s^{\{(tc)\}} - s^{\{(ge)\}} | , s^{\{(tc)\}} + s^{\{(ge)\}}, s^{\{(tc)\}}, s^{\{(ge)\}} ]} ,将上述两个指标作为输入传递给MLP模型以实现预测目标

在这里插入图片描述

两个模型变种定义如下:

  • k ← ∞, α ← 0.5的情况下,等价于直接取两个模型得分的平均值,并将其命名为StAR (Ensemble)
  • k ← 1000, α取自上文定义的可学习参数时,则得到StAR(Self-Adp)

实验结果

单独的模型效果不是很好,与rotate集成之后勉强sota

在这里插入图片描述

但效率提高了很多

在这里插入图片描述

zero_shot关系实验

在这里插入图片描述

不可见实体实验中,First Probing Task被定义为测试集仅包含训练阶段未曾接触过的实体;Second Probing Task是指从训练集中随机移除实体;Third Probing Task指测试集仅保留训练阶段已见过的实体。通过观察可知,在不同实验设置下传统KGE模型的效果差异较大;而本文提出的方法表现出极强的一致性

在这里插入图片描述

消融实验

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~