Advertisement

GNN in KG(六) Few-Shot Knowledge Graph Completion

阅读量:
在这里插入图片描述

本文针对知识图谱补全的小规模学习任务,提出了一种基于few-shot relation learning的模型框架FSRL。

目录

  • few-short

    • 数据增强或正则化
    • Meta-learning(元学习)
    • 小样本其他分类
  • 问题定义

    • 简并学习场景
      • 探讨小样本学习为何能够有效迁移至新的类别
  • Model

    • 对于异构邻居的编码采用了先进的策略。
    • 系统通过聚合少量参考样本集实现了高效的数据处理。
    • 在匹配查询与参考集时采用了精确的算法策略。
    • 模型训练的目标设定与优化过程采用了系统化的策略。
  • 实验研究

    • 在不同关系间的对比分析
    • 基于消融方法的评估
    • 深入分析

few-short

该研究领域的主要目标是在每种类别仅有少量样本的情况下训练出具备强泛化性能的模型,并进一步实现对新类别数据的识别能力。尽管样本数量有限可能会导致严重的过拟合现象,在此背景下研究者们提出了多种解决方案以缓解这一挑战。具体而言,
该研究领域的主要目标是在每种类别仅有少量样本的情况下训练出具备强泛化性能的模型,并进一步实现对新类别数据的识别能力。
为了缓解这一挑战,
该研究领域的主要目标是在每种类别仅有少量样本的情况下训练出具备强泛化性能的模型,并进一步实现对新类别数据的识别能力。
主要包含以下两个主要方向:

数据增强或正则化

小样本训练数据数量不足的情况下,在原有基础上进行扩充确实是一个合理的选择。在图像处理领域中进行数据增强的方法非常多样化,并非单一模式;通过对图像进行翻转和平移操作可以有效扩展训练集容量。而正则化方法通常用于防止模型过拟合问题,在实际应用中可采取多种策略:例如,在处理图片时常用自编码器技术,并将自编码器的重建误差作为额外的正则化项加入模型以提高泛化能力。

Meta-learning(元学习)

\text{Meta-Learning} = \{\text{Task}_{\text{meta-train}}, \text{Task}_{\text{meta-test}}\}

  1. 以改进方案为基础的优化调整方案的实现。
  2. 主要依赖于 RNN 基础的记忆机制。
  3. 距离度量方法是一种有效的数据分类方法。

从个人的角度来看,在迁移学习中实现微调是一种方法或技巧。具体而言,在迁移学习过程中需要冻结某些预训练好的模型参数,并以一种更加抽象的方式来利用这些参数所代表的知识。值得注意的是,在迁移后的领域中仅需少量样本(few-shot learning)即可通过几步梯度下降实现较好的性能表现。
基于记忆的方法可参阅论文[One-shot learning with memory-augmented neural networks]。
基于度量的方法主要包括以下三个关键部分(参考):

在这里插入图片描述

小样本其他分类

Model-Based 方法旨在通过构建高效的模型架构,在极少量训练样例中快速更新参数,并实现输入x与预测结果P之间的精确映射关系;Metric-Based 方法则采用计算批数据与支持集样本间距离的方式,在分类任务中模拟最近邻决策机制(如赫赫有名的原型网络和孪生网络等都属于此类方法);而Optimization-Based 方法则强调传统的梯度下降算法在小样本学习中存在不足之处,并提出通过优化算法改进小样本学习效果的思路。

Problem Definition

Knowledge Graph Completion (KGC) is a task that involves designing a machine learning model to establish accurate semantic relationships between entities in a knowledge graph. Given a specific relation r, the goal is to map all candidate tail nodes t_i ∈ T_r^c to each head node h_j ∈ H_r^c, such that the most semantically relevant tail node is correctly identified for each head node.

Few-Shot Learning Settings

对于每个关系r而言,都存在对应的训练测试实体集合D_r=\{P_r^{train}, P_r^{test}\}。此类任务集合则被定义为元训练集T_{mtr}。在小样本学习场景下,每个训练集合P_r^{train}仅包含少量的样本实体对(h_k,t_k)∈R_r。而测试集合则包含了关系r的所有可能的实体对p_t^r = \{(h_i, t_i,C_{{h_i},r})|(h_i, r; t_i)∈G\}。这些测试实例不仅包括查询(h_i,r)的目标实体t_i以及一些其他候选实例t_j^r ∈ C_{{h_i},r}^*(其中i,j ∈ [1,k]),而且也考虑到了与查询相关的潜在关联项。根据上述定义,在实际操作中我们需要最小化候选实例集中基于余弦相似度计算得到的排序损失函数:

在这里插入图片描述

其中C_{{h_i},r}代表候选实体集合,在完成所描述的过程后,
模型能够预测新增的关系r'
这一过程被称为meta-test。
元测试中所涉及的关系无法在meta-train期间观察到。

关于小样本学习为什么能学习到新类别

小样本学习的目标是构建一个分类模型。其中一部分用于训练分类器的数据可以被划分为两组:一部分是用于构建分类器的学习用例;这部分又进一步细分为训练集合测试集合两大部分;其中通过优化测试集合来调整并优化分类器的各项参数设置。另一部分则是用于评估迁移任务表现的任务;所采用的迁移任务的数据集不包含与原始训练数据相关的标签信息;但是经过优化后的训练数据能够提取各类别独有的特征特性;同样能够在目标域中获取各类别的代表性特征;对于迁移任务测试用例中的每一个样本;根据该测试样本与各同类别代表特征之间的距离度量结果进行分类归属判定。

Model

在这里插入图片描述

如图所示,在实验结果中可以看出模型主要包含以下三组不同的功能模块:第一阶段:对每个实体分别编码其异构领域中的关联节点;第二阶段:从候选关系中筛选并聚合少量具有代表性的实体配对;第三阶段:利用测试集中的查询样本与预先构建的参考样本库进行配准从而推断出潜在的关系模式。

Encoding Heterogeneous Neighbors

借鉴GAT中的注意力机制,并通过对比不同邻居节点对其核心节点的作用效果来区分其影响(图b)。

在这里插入图片描述

其中\oplus表示拼接操作,e_r,e_t分别表示关系和实体的嵌入。

Aggregating Few-Shot Reference Set

在后续阶段包含其编码信息。头实体和尾实体经济通过对相关领域数据进行深度学习处理后可实现其对应的特征提取与表征;随后将头实体与尾实体店结合处理后可获得一个具有关系属性的关系向量;最后该关系向量可通过预设的不同聚合函数进行计算得出。

在这里插入图片描述

本文使用循环自编码聚合器(图c)进行聚合:

在这里插入图片描述
在这里插入图片描述

循环自编码器的输入数据由K个训练得到的实体对构成,并且基于其固有的重建能力而导致引入了重构损失函数

在这里插入图片描述

在此时, 我们将编码器的所有隐藏状态整合起来, 并通过残差进行扩展. 随后, 在计算关系 R_r 时, 我们采用所有实体对的 latent 表示 m_k' 的加权和作为其最终表示.

在这里插入图片描述

在这一过程中,在线自适应聚类模型中使用了一种新的加权方法来体现各实体的重要性。其参数矩阵W_R∈R^{d×2d}是在这一连接操作基础上通过注意力机制动态确定的。

Matching Query and Reference Set

在完成对训练数据集的表示后,在元学习阶段提供的测试查询中提取相关特征以获得测试关系的具体表征(即那些训练集中未包含的关系)。这相当于将经过向量化处理后的测试查询输入到模型f_θ中生成实体对的encoder表征E_{h_l,t_l}=[f_θ(h_l)\oplus f_θ(t_l)]的同时,并结合之前计算出的结果f_ϵ(R_r)来确定最终类别。为了衡量两个向量间的相似程度,则采用了recurrent processor f_μ来进行多步匹配推理。第t个推理步骤可表述如下:

在这里插入图片描述

其中g_t代表隐藏状态而c_t代表细胞的状态。最后一个hidden state g_T详细地表示为查询对的细化信息。通过计算两个向量之间的内积即能够得到相似度评分从而实现排序结果的优化

Objective and Model Training

对于查询关系r,我们随机抽取一组为数不多的正(真)实体对:

在这里插入图片描述

将它们作为参考集R_r进行处理。这些剩下的正实体对将被用作查询(即测试集h_l,h_t)。此外,在知识补全过程中,我们通过引入被污染的尾实体来生成一些负样本对:

在这里插入图片描述

最终,模型的排名损失可以被定义为:

在这里插入图片描述

其中[x]_+=max[0,x]是standard hinge loss并且ξ为safety margin distance。s_(h_l,t_l)表示实体之间的相似性。这个公式的直觉是:降低被污染实体对之间的相似性,尽量提高真正实体对之间的相似性。再添加自编码器的重构损失(可以理解为一种正则化吧),最终的损失函数被定义为:

在这里插入图片描述

最终总体的算法流程被描述为:

在这里插入图片描述

Experiments

采用了两个数据源,在NELL和Wikidata的基础上,Tasks用于代表/指代/涉及的小样本关系数量。

在这里插入图片描述

衡量指标依旧采用了MMR以及Hits@k。实验的结果如下:

在这里插入图片描述

/前后标识符分别代表验证集与测试集的结果

Comparison Over Different Relations

基于NELL测试数据对各个关系的模型性能展开了实验评估。表3列出了FSRL和G-Matching的相关结果。对于每一种情况下的良好结果均采用粗体进行标注:

在这里插入图片描述

通常情况下,FSRL在性能上优于gmatch。实验结果表明:我们的模型具有良好的泛化能力;对于绝大多数关系而言,其表现出色。

Ablation Study

在这里插入图片描述
  • 在所有邻居的嵌入上替代表现为一个平均池化层。
    从表中数据可以看出,在与变量(原AS1)对比下我们的模型性能表现更为优异,
    这表明异构邻居编码器结构具有显著优势。
  • 在实验设置(AS2a)中,
    我们采用了平均池操作取代循环自编码器聚合方式。
    而在(AS2b)设置中,
    则采用平均池化层替代循环自编码器注意力权重计算模块。
    最后,在(AS2c)设置下,
    我们舍弃了解码器模块,
    仅通过编码器层面实现信息融合。
    从表中的测试结果来看,
    我们的模型方法普遍优于其他三个变体方法,
    这表明各组件成员在网络信息融合过程中扮演着重要角色。
  • 舍弃LSTM单元后,
    我们引入了一种新的特征提取方式:
    即通过查询嵌入向量与参考对象嵌入向量之间的点积计算相似度得分(用于排序匹配)。
    实验结果表明,
    这种方法相较于原方法具有更好的性能表现,
    这表明递归匹配网络能够有效学习查询与引用对象之间的相关性关系。

Analysis

Impact of Few-Shot Size

在这里插入图片描述

当K值逐步增大时,两种模型的表现持续提升。这一现象表明,在较大规模的reference集合中可以实现更为有效的关系嵌入。经过实验验证,在不同设定下的测试结果均显示我们的模型能够显著超越现有的GMatching方法,在测试集上的表现均显著优于GMatching方法。这些实验结果验证了我们提出的方法在处理小样本知识图谱中的关系补全任务时表现出良好的稳定性。

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~