Advertisement

【论文】Knowledge Transfer for Out-of-Knowledge-Base Entities: A Graph Neural Network Approach

阅读量:

Knowledge Transfer Mechanism for Out-of-Knowledge-Base Entities: A Graph Neural Network-Based Solution 基于图神经网络实现超越知识库实体的知识表示

  • 摘要

      1. 引言
    • 2 在构建知识库的过程中面临的OKKB实体挑战下涉及的知识图谱构建

    • 2.1 在解决OKKB entities challenge的过程中涉及的知识图谱构建

    • 2.2 在解决OKKB entities challenge的过程中涉及的三元组分类任务

    • 2.3 在解决OKKB entities challenge的过程中涉及的知识表示与分类的问题

    • 3.模型

      • 3.13.1图表NNs
      • 3.2知识图谱上的传播模型
          • 传播模型:
        • 转移函数

          • 池化函数:
      • 堆叠和展开
  • 3.3 输出模型部分:涉及分数与目标函数的定义。

  • score function

  • Pairwise-Margin Objective Function为两边际的目标函数。

  • Absolute-Margin Objective Function则代表绝对的目标。

  • 实验

      • 4.1达成目标与超参数配置

      • 4.2规范三元组分类

      • 4.3 OOKB实体抽取实验

          • 数据集
        • 1.选取合适的OOKB实体。

        • 2.去除不符合条件的并按要求分割。

        • 结果

      • 4.4堆叠和展开图NNs

    • 5.结论

摘要

  • 通常情况下,知识库并不完整;因此需要进行必要的补充。
  • 知识库补全任务(KBC)的目标是预测知识库中缺失的信息。
  • 本文探讨了知识库中的"知识外溢"问题:如何表示和解决那些在训练阶段未被识别的新实体
  • 现有的基于嵌入式知识图谱补全模型中,默认假设所有 entity 都参与了 training 并获得了 embedding 表示。
  • 然而,在引入新 entity 时,默认情况下获得其 embedding 表示需要进行耗时 expensive 的重新计算。
  • 为了解决 OOKB 实体问题而无需进行额外的重新训练, 我们采用了在测试阶段提供的辅助 knowledge 来计算 OO KB 实体 的 embedding 表示量。
  • 实验结果表明,在 OOKB环境下我们的模型表现良好。此外,在不依赖 OO KB 实体的标准 KBC 设置下, 我们的模型在 WordNet 数据集上实现了最新的性能水平。
  • Github源码

1 Introduction

WordNet、Freebase等知识图谱被用于信息抽取、问答系统以及文本理解相关任务。这些知识图谱被视为一组关系三元组(h;r;t),其中头实体h与尾部实体t通过特定关系r连接。尽管一个知识库包含数百个这样的三胞胎结构体(h;r;t),但它存在数据缺失问题【1

3

9

例如,在一个新的三元组中发现了一个OOKB实体"Blade Runner"(基于Androids Dream of Electric Sheep!)。该系统旨在推导出更多的事实。从现有知识库出发解答诸如"刀锋杀手是否属于科幻小说?!"之类的问题。如果知识库包含DoAndroids梦见电羊的数据,则有助于我们确定答案是否为肯定。

在这里插入图片描述

图1通过示意图展示了该方法的应用场景,在现有资源限制下探讨了从外部获取OOKB实体嵌入的可能性。尽管这些策略在某些情况下可能有效可行,但计算开销过大可能导致实际应用中难以实施。实际上,在没有外部资源支持的情况下,Blade Runner案例成功展示了新事实从现有知识中推断的可能性。
为了解决OOKB实体问题,在知识图谱构建上采用图神经网络(Graph Neural Networks, GNNs),其中实体被建模为节点、三元组作为边构成图结构。
图神经网络 作为一种定义于图结构上的深度学习框架,默认由传播机制与目标函数两部分组成。传播机制负责节点间信息传递过程,在此过程中首先获取节点e邻域的嵌入表示,并通过池化操作将其转化为节点e的表征向量;随后将该表征向量用于计算邻接节点的信息表示。
在此过程中,“传播模型”相当于将节点嵌入到连续空间的过程,“输出模型”则是在该空间中定义面向具体任务的目标函数。
在这个研究中我们采用TransE[Bordes et al., 2013]作为输出模型方案;不过也可以结合其他基于嵌入的知识图谱补全方法进行设计。
本文的主要贡献体现在:
1. 提出了针对OOKB实体问题的知识图谱补全新框架;
2. 建立了适合处理OOKB实体的通用模型架构;
3. 在标准测试集及OOKB实体特定设置下验证了该方法的有效性。

2. 知识库完成中的OOKB实体问题

2.1知识图谱

  • 定义E为实体集合,R为关系集合。
  • 将事实(即关系或三元组)视为形式(h;r;t)的三元组。
  • Ggold ⊂ E×R×E 为黄金事实集。
  • 这些三元组涉及E中的实体对以及r中的关系。
  • 若一个三元组属于Ggold ,则称其为正三元组 ;否则,
  • 它则是负三元组
  • 知识补全旨在识别完整的知识库(即Ggold),尤其在现有信息有限的情况下。

2.2KBC:三元组分类任务

在本任务中,在现有知识库G不完整的情况下,在每个三元组x2h中可能存在两种情况:x为正的三元组(即x2ggold)或负三元组。将G中不存在的三元组合分为正或负的问题被称为"问题"称为"问题"称为"问题"称为"问题"被称为"问题"被称为"问题"被称为 " 问题 " 被视为从机器学习角度来看的一个问题是基于E和R的数据进行分类的任务。在标准情况下,E和R仅限于G中的实体和关系。

2.3 OOKB实体问题

我们开发了一个新任务,在知识图谱补全(KBC)领域进行扩展,并命名为知识图谱外实体(OOKB)问题 。除了训练阶段所使用的已有知识库G外,在测试阶段我们引入了新的三元组集合Gaux,这些新增的三元组恰好包含了来自OOKB和原有知识库的信息结合体*。
在测试阶段,** Gaux 中每一个三元组都精确地包含了来自OOKB的一个实体以及原有知识库的一个实体***。
我们的目标是准确识别包含OOKB丢失实体EOOKB的关系三元组**, 因为这些缺失的嵌入信息需要通过现有知识库中的数据进行推断。
换句话说,我们致力于构建一个能够利用已有信息并通过辅助知识传播至OOKB实体的模型。

3.模型

3.13.1图表NNs

  • Graph-NNs基于图数据设计。
  • 然而,在大多数图神经网络中会将整个图表示为向量形式;而对于知识图谱补全任务来说,则特别关注于能够表示节点及其关联边的向量形式 的模型。
  • 图神经网络主要由传播机制与输出机制两部分构成。
  • 其中其作用在于指导信息在节点间流动的过程。
  • 本文改进了传播机制以适应知识图谱的需求。
  • 对于输出部分则采用基于嵌入的KBC模型TransE进行建模。

3.2知识图谱上的传播模型

传播模型:
在这里插入图片描述

G(kg):知识图谱;e(ent):实体;v_e(v_e):实体e在d维嵌入空间中的向量表示;Head(head)、Tail(tail)分别是与实体e相连的头节点和尾节点;Trans(trans)是基于边性质定义的转换操作符;将相邻节点的向量通过Trans结合到当前向量v_e中完成信息整合;Pool是定义在v上的池化操作

在这里插入图片描述
  • Shead(e) 涵盖邻域 Nhead(e)所具有的表示向量,
    • Stail(e) 涵盖其对应的 Ntail(e)所具有的表示向量。
      等式 2-4 采用池函数而非求和运算。
      参考文献 3.3 中详细列出了这些函数的所有候选函数。

转移函数

  • 转移函数T(包括Thead和Ttail)的目的是修改相邻节点的向量 ,以反映当前节点与相邻节点之间的关系 。转换函数的示例如下:
在这里插入图片描述
  • 其中,A是模型参数的矩阵,tanh和ReLU是元素双曲正切和校正的线性单位函数。* 此外,我们还可以使用其他神经网络技术,如批次归一化、残差连接和长短时记忆。
  • 我们也可以根据 当前节点(实体)与相邻节点之间的关系来设置转移函数 ,例如:
在这里插入图片描述

请特别关注节点e及其当前邻居(h或t),并为每对组合及它们之间关系r分别设置相应的参数矩阵。在第4节的实验部分中,我们采用了以下所述的各种跃迁函数作为基础模型。

在这里插入图片描述

其中BN表示批次标准化

池化函数:
  • 池函数P定义为:将一组向量转换为一个向量的操作或函数体系,并且它的主要功能是归纳这些输入向量间的共同特征或属性体系。其中包含以下几种基本形式:
  • 恒等映射操作
  • 加法运算
  • 最大值池化操作
在这里插入图片描述
  • 其中max是elementwise max 函数(对应元素逐个相乘)。
堆叠和展开

图神经网络的设计中包含该消息传递机制。这种机制决定了信息如何在节点与其邻居之间流动。通过不断迭代使用该机制,在一次又一次的应用中,
我们可以使一个节点的信息能够传递给离它越来越远的邻居,并最终使每个节点都能获取到来自更多路径的信息。

传播 可以有两种实现方式:堆叠或展开

  • 在展开图上, 采用相同的模型参数进行传播, 并且这一过程与等式(2)至(4)所描述的一致。
    • 堆叠型神经网络其构建方式类似于现有的成熟堆叠技术, 在时序上基于时间步长n时序地采用了不同的模型参数。
在这里插入图片描述
在这里插入图片描述

T(n)head和Ttail(n)是依赖于头/尾和时间的转换函数。

3.3输出模型:分数和目标函数

  • 我们采用基于TransE的函数作为输出模型。
  • TransE作为一种基于嵌入的基本模型,在KBC框架下表现出良好的性能特征。其简单性和易训练性使得我们选择它作为主要的嵌入学习方法之一;然而,在实际应用中,并非所有场景都适用TransE;相反地,在某些特定领域中采用其他形式的嵌入模型可能更为合适。
  • 在本节中详细阐述TransE的设计原理及其核心组件——pairwise-margin成对边界目标函数;同时,在后续章节中我们将介绍一种改进型的目标函数——absolute-margin绝对边缘目标。
score function

(不真实性)评分函数F用于度量三元组(h;r;t)的虚假性程度。其分数值越低时,则该三元组更真实地反映了实际情况。

在这里插入图片描述
  • 这三个变量分别代表了头节点的嵌入向量(Vh)、关系嵌入向量(Vr)以及尾节点的嵌入向量(Vt)。
    • 这个分数函数表明,在计算首节点与关系节点之间的交互时所得到的结果(vh + vr)应当尽可能接近尾节点对应的嵌入表示(vt),即vh + vr ≈ vt。
Pairwise-Margin Objective Function两两边际目标函数
  • 目标(损失)函数定义经过优化后使其数值最低。
    • 成对边界目标函数常用于知识图谱填充。
在这里插入图片描述

其中[x]为折算函数 [x]=max(0,x)。
τ被定义为阈值(距离指标)。
由(hi, ri, ti)构成的三元组被定义为正三元组。
由(h0i, ri, t0i)构成的三元组被定义为负三元组。
该目标函数要求负样本三元组的分数至少高出正样本三元组τ个单位。当这一差距小于τ时,则需要通过优化参数来满足这一条件。反之,则无需更新参数。因此,在成对关系中我们关注的是正负两极性三角体间的分数差异程度。

Absolute-Margin Objective Function绝对目标函数

在本文中,我们采用了一种新的目标函数来替代成对的边缘目标,并将其称为绝对边缘目标

在这里插入图片描述
  • τ被视为一个重要的调节参数,在此框架中被称作裕度。
    • 该目标函数分别考虑正负两种情况下的三胞胎关系:一方面关注正三胞胎的表现(其分数将被优化至零),另一方面则对负三胞胎施加约束(其分数不得低于τ)。这种设计不同于传统的成对边际目标函数。
    • 该目标函数不仅在优化过程中表现出色,在初步实验中也展现出良好的适用性与稳定性。鉴于此,在第4节的实验研究中我们采用了这一方法。

实验

4.1实现和超参数

  • 我们使用神经网络库chainer 实现了我们的模型。
  • 所有网络均采用随机梯度下降法反向传播法 进行训练;
  • 具体而言,我们使用了Adam 优化方法。Adam的步长为α1=(α2·k+1:0),其中k表示执行的周期数,α1=0:01,α2=0:0001。
  • 每个实验的最小批量为5000个,训练周期为300个。
  • 此外,在标准三元组分类中嵌入空间的维数为200,在其他设置下为100。在初步的实验中,我们尝试了几种激活函数和池函数,并根据计算时间和性能发现了以下超参数设置。我们用了等式(5)-(6)在标准KB和OOKB设置中都作为传输功能。
  • 池函数 ,我们使用了标准三元组分类中的max pooling 函数,并尝试了三个池函数max,sum,average ,在OOKB设置中。初步实验的结果反映在我们选择绝对边缘目标函数 而不是成对边缘目标函数上。
  • 绝对裕度目标函数(式(8))。绝对边缘目标函数比两两边缘目标函数收敛更快。
  • 由于任务是将三元组分成正(即,必须存在于知识库中的关系)和负三元组(不能存在的关系)的二元分类,因此我们使用验证数据确定 了这些类之间输出分数的阈值
  • 为了处理有限的可用计算资源(如GPU内存),当一个实体拥有太多的相邻实体时,我们随机抽取它们 。事实上,有一些实体出现在大量的三胞胎中,因此有许多邻居;当邻域大小超过64时,我们从邻居中随机选择64个实体

4.2标准三元组分类

  • 在标准补全任务里,我们对我们的模型与之前版本的KBC模型进行了对比分析,并未包含OOKB实体.
  • 以数据集为基础,在本研究中采用了WordNet 1.1和Freebase 2.0的数据源,并参考表1中的详细规格.
  • 两个数据集中均设有训练集、验证集及测试集。其中验证与测试阶段的数据样本分别包含了阳性与阴性类别。
    • 注意到的是,在训练阶段的数据中,并未引入任何负面样本。
      通常情况下,在缺乏真实负面样本的情况下(即仅凭正样本构建),我们无法直接获得高质量的真实负样本;因此可以通过正样本生成一定数量的模拟负样本来进行补充学习。
      我们采用了一种基于Bernoulli分布的方法,在有向图中随机选取节点作为破坏节点;具体而言,则是通过将从E(G)中取样的随机实体替换为h或t来生成损坏的三元组。
      实验结果如表2所示。
      实验表明,在WordNet11基准数据集中达到了最优性能;相比之下,在Freebase 13基准数据集中其表现优于TransE方法。
在这里插入图片描述

4.3 OOKB实体实验

数据集
  • 我们进行了系统性地处理WordNet11数据集,并以此为基础开展OKB实体实验研究:
    • 在测试集中筛选出分布不一的OKB实体样本共计9组。整个流程主要包含以下两个核心环节:识别出目标OKB实体并提取与分析相关的三元组
1.选择OOKB实体。

随后我们从WordNet11测试文件中提取了N=1000、3000和5000个三元组。
通过三种不同的方法来确定这些数据集的具体组成,
我们分别设置了Head、Tail和Both三种配置项。
在Head配置项下,
所有头实体都被视为候选目标;
Tail配置项下,
所有的尾部实体都被视为候选目标;
而Both配置项则综合考虑了头体和尾部的所有显示实体作为候选目标。
OKKB实体最终被选定时,
它们必须存在于WordNet 11训练集中,
即满足(e;r;e′)或(e′;r;e)的形式,
其中e′必须存在于现有的知识库中,
而不属于OKKb的实际构成成员。
在此基础上,
我们进一步排除了那些不具有关联性的候选OKKB实体。

2.过滤和分裂三元组。

基于所选的OKUB实体,在WordNet11测试文件中选择了前N个三元组作为测试样本。

表3:OOKB数据集中的实体和三元组的数量。三胞胎的数目包括负三胞胎。

为了表示九个数据集中的每一个都分别被{Head;Tail;Both}-{1000;3000;5000}所表示,在其中一部分用来表示OOKEEPER实体的位置时,则另一部分则用来表示用于生成OOKEEPER实体的三元组数量。

结果

基于WordNet11生成的九个数据集,在此基础上验证了我们提出模型的有效性。
需要注意的是,在这一过程中我们采用了以下简单的方法作为本实验的基础方法:对于任意一个OOKB实体u来说,在辅助知识库中提取其邻域关系并获得对应的嵌入向量(由三元组决定),随后通过sum、max或average函数对这些向量进行聚合处理以获得该实体u的整体表示向量。
值得注意的是,在这种情况下所有邻域实体都包含在训练知识库内因此我们可以直接采用标准Knowledge Base Completion (KBC)方法来进行计算。
此外我们在TransE原始论文的基础上对超参数和其他设置进行了深入研究以确保实验结果的有效性与可靠性。

表4:OOKB实验的结果:简单基线和拟议模型的准确性。粗体和带下划线的数字分别是每个数据集的最佳和次优分数。

Table 4 presents the outcomes of the OOKB experiment, which includes the accuracy rates of both the simple baseline and our proposed model. Among these, bold and underscored numerical values specifically represent the best and second-best results achieved across different datasets. Refer to Table 4 for a detailed presentation of experimental results. The "pooling" column indicates which pooling function was utilized in each case.

  • 从表中可以看出, 我们的模型显著优于现有的基线方法.
    特别是在所有测试数据集上, 采用平均池化操作的图神经网络在性能方面均优于其他方法.
    此外, 采用最大池操作的图神经网络表现出良好的准确性.
    在某些特定场景下(例如Tail-3000), 这种方法的表现尤为突出.

4.4堆叠和展开图NNs

  • 对于我们而言, 关注节点间的层次化关系建立至关重要.
  • 在此研究中, 我们揭示了该方法在标准三元组分类任务中的具体表现.
  • 数据集基于WordNet11构建, 旨在应用于该分类任务的标准架构. 通过精度比较表5可以看出, 堆叠与展布型神经网络展现出显著的优势.
    表5: 叠压与展布型神经网络性能对比. 其中, 深度参数决定了迭代传播模型的应用次数
表5:叠加和展开图NNs的精度。深度表示迭代应用传播模型的次数

*参数‘depth’用于衡量传播模型的迭代应用次数。特别地 当depth值设为1时 这两种方法退化为基础香草图神经网络 其性能指标达到87.8% 如表2所示。
这些实验结果表明 堆叠与展开技术并未显著提升性能。
这表明 嵌入机制的强大能力得以实现 即使在复杂的网络拓扑结构中 也可以有效地将关于遥远节点的信息映射到连续的空间中。

5.结论

本文提出了一种新型的KBC任务,在训练阶段未被观察到的关键实体上实现了有效的处理与学习。基于此需求与目标导向原则,在文献研究的基础上设计并实施了两项三元组分类实验以评估该方法的有效性与适用性。通过系统评估发现,在OO Kob bilty实体问题中所提出的解决方案不仅显著超越现有的基线方法,在标准KBC设置下也验证了WordNet 11最新版本下的卓越性能表现。

全部评论 (0)

还没有任何评论哟~