Advertisement

LambdaKG: A Library for Pre-trained Language Model-Based Knowledge Graph Embeddings

阅读量:

摘要

知识图主要体现为异构化数据架构特性及实体与关系信息两大核心要素特征。
基于文本的知识图谱嵌入主要通过利用预训练语言模型进行编码描述来实现对实体的信息表征。
目前现有的带PLM的知识图谱嵌入工具有待进一步完善。
本研究提出了一种名为LambdaKG的知识增强学习框架。
该框架整合了多种预训练语言模型(如BERT、BART、T5与GPT-3),并支持包括知识补全、问答、推荐以及知识探测在内的多种功能。
该框架已作为开放源代码发布,并配有详细演示视频与持续维护方案。

有代码

1.介绍

知识图谱(Knowledge Graphs, KGs)通过将现实世界的事实表示为结构化数据,并引起了学术界和工业界的广泛关注(Zhang et al., 2022b)。知识图嵌入(Knowledge Graph Embedding, KGE)旨在将关系与实体映射到一个连续的向量空间中,并能有效提升知识推理能力,并可应用于下游任务如问答(Saxena et al., 2022)、推荐(Zhang et al., 2021)等。基于嵌入的方法如TransE (Bordes等人, 2013),通过预定义评分函数优化目标对象。已开发出卓越的知识图嵌入工具包如OpenKE (Han等人, 2018), LibKGE (Broscheit等人, 2020), PyKEEN (Ali等人, 2021), CogKGE (Jin等人, 2022), 和NeuralKG (Zhang等人, 2023a)等。然而这些基于嵌入的方法受限于浅层网络架构,在利用侧信息方面仍有提升空间。

通过对比基于嵌入的知识表示引擎(KGE)方法,在本研究中我们采用了可扩展的知识表示引擎(KGE)。随着预训练语言模型技术的进步,在文本领域已出现了一系列先进的知识表示方法(Xie et al, 2022;Saxena等, 2022;Kim et al, 2020;Markowitz et al, 2022;Chen et al ., 2022;Liu et al ., 2022),它们均展现出良好的性能表现,并通过动态分配内存资源来支持大规模现实世界的知识图谱构建。最近的研究表明,在无需自适应学习的情况下,大型语言模型(例如GPT-3 (Brown et al ., 2020) 和 ChatGPT (OpenAI, 2022))仍能高效完成多种自然语言处理任务,并为知识表示提供了新的潜力方向。然而目前还没有专门针对带PLM的KGE设计完善的开源库资源,这使得系统性评估新方法及其与现有技术的有效对比变得具有挑战性。

在本文中, 我们向社区展示了基于预训练语言模型构建的一个库, 其名为LambdaKG (MIT许可), 该库不仅适用于kge任务及各种应用程序, 还支持一系列前沿的语言模型. 具体而言, 我们为LambdaKG配备了包括BERT、BART等小规模的语言模型(BERT由Devlin等人提出于2018年,Yao等人发表于2019年; BART由Lewis等人提出于2020年,Liu等人发表于2021年; T5由Rafael等人提出于2020年,Saxena等人发表于2022年), 同时也部署了包括GPT-3(Brown等人提出于2020年)和ChatGPT(OpenAI发布于2022年)在内的大型语言模型. 在开发过程中, 我们着重研究并实现了基于区分性和生成性的两种新方法来提升知识图谱推理能力. LambdaKG不仅适用于事实性知识和常识性推理的任务, 而且能够完成与知识相关的问答、推荐以及探索性学习(LAMA)的任务. 此外, 我们还提供了维护功能以满足新增任务需求、应对新请求以及修复系统错误.

2.系统架构

LambdaKG的整体特性及其架构如图1所示

2.1 Core Module

2.1.1 Trainer&Evaluator

一般来说,在使用LambdaKG进行训练时,则会将整个流程划分为若干具体步骤。其中就包括从前向和向后传递(即training_step)的方式传输数据,并对中间结果进行记录(log)以及对模型进行评估(evaluate_step)。我们开发了一个高度可定制的Trainer类框架,则能够根据不同的需求灵活配置以适应多种任务需求,并支持灵活配置以适应多种任务需求,并允许用户自定义功能模块来进行扩展功能集成。

2.1.2 Metric

为评估不同任务中的模型性能,我们开发了一个Metric类。其中使用的具体指标包括 hits@k(k值取1、3、10),以及平均排名(MR)。hits@k 量化的是预测结果中位于前 k 位的正确答案比例;而 average_ranking 计算的是正确答案在所有候选中的平均位置。研究显示,在常识 KG 的任务完成度方面(如 Hwang 等人 2021 所述),我们的 BLEU-1 评分表现优异。

2.1.3 Bag of Tricks

LambdaKG的所有模型均以plm为基础,在提升性能方面配备了专门的技术方案。特别值得注意的是,在模型架构中融合了多种可更换组件如标签平滑与指数加权平均等技术辅助优化过程。为了防止数据量有限导致的小样本过拟合问题我们引入了主动 early stopping机制并构建了快速运行模块实现精准预测效果。此外我们的系统还集成了一个成熟的Top-k negative sampling策略通过动态筛选最有代表性的样本进一步提升了模型学习效率与准确度

2.2 Unified KG Encoder

由于LambdaKG是一种基于plm的技术, 因此其核心任务在于将结构三元组表示为plm能够理解的自然语言形式. 我们开发了一种统一的KG编码器用于表示图结构及其文本语义, 并支持一系列基于plm的不同知识图谱嵌入方法.

为了实现图结构的信息提取,在知识图谱构建过程中...

2.3 Model Hub

如图2以及表1中的数据表明,在知识表示与嵌入领域中存在一种名为LambdaKG的知识表示框架系统,在知识抽取与嵌入方面表现突出。
该系统由一个核心组件即Model Hub构成,
其中包含了大量经过验证并具有代表性的基于预训练语言模型的知识抽取与嵌入方法。
该系统主要以判别式方法与生成式方法两大框架为基础构建其理论体系,
并通过多维度的实验验证了其有效性与适用性。

Discrimination-based methods

基于判别方法的模型有三种:第一种(如KG- bert (Yao et al ., 2019)、PKGC (Lv et al ., 2022))利用单个编码器对带有文本描述的KG三元组进行编码;另一类模型(如StAR (Wang et al .);2021), SimKGC (Wang et al ., 2022))利用plm的连体编码器(双塔模型)分别对实体和关系进行编码。对于第一种,每个三组的得分表示为:

在其中TransformerEnc充当了BERT模型的角色,并随后配备了二进制分类器。相比之下,在经过复杂运算后才能确定最终结果这一过程耗时较长(见表1)。与之相比,则广泛应用于信息检索任务中的双塔模型架构包括StAR(Wang等، 2021)和SimKGC(Wang等, 2022),它们通常采用更为复杂的编码策略

通过与t进行交互获得嵌入表示。随后, 该系统利用分数函数对候选实体进行筛选和排序, 并将预测结果表示为:

这一类模型采用掩码语言建模方法(如图2所示),其架构与传统实体识别plm具有相似性。其中包含两个关键组件:一个是将输入序列中的每个令牌转化为语义向量的空间映射层;另一个是基于上下文感知的信息提取编码器(如图1所示)。值得注意的是,在传统plm系统中也存在类似的模块划分:一是用于将输入序列中的每个令牌转化为语义向量的空间映射层;二是用于提取基于上下文的信息生成表示的编码器组件。在本研究中,则采用了一种独特的设计思路:将实体与关系标识符视为特殊的词嵌入形式,并将其整合进现有的词嵌入层中(如图3所示)。这种设计使得我们能够更高效地捕捉实体间的关系信息并进行推理运算。

Generation-based methods

以确保在知识图谱(KG)中解码顺序模式与令牌的一致性为前提条件,
研究者GenKGC团队(Xie等, 2022)开发了一种基于实体感知的分层解码器以约束变量Xt。
同时研究者KGT5团队(Saxena等, 2022)采用文本描述的方法对预训练生成型PLM进行应用研究,并将其用于知识图谱(KG)的表示。

我们进一步应用LLM(包括但不限于GPT-3和ChatGPT)用于评估它们在带链接预测知识图谱构建(Knowledge Graph Construction, KGC)中的实验效果。生成式LLM的应用使得KGC任务得以通过包含标题实体及其相关联的信息来进行描述。恰当的设计能够提升模型对尾实体提及的理解能力。The studies demonstrate that through combining contextual information learning methods could significantly enhance their accuracy while ensuring consistent output.因此我们采用类似的方法为GPT-3设置合适的提示语句如图所示.The approach we have adopted involves setting up appropriate prompts for GPT-3, as illustrated in the figure below.

如图3所示,在训练集中提取了相关度最高的100个实体,并将这些实体作为候选实体进行后续处理。同样地,在提示性演示中采用前5个最相似的数据来进行说明,并以此帮助模型更好地理解和掌握任务的核心内容。此外,在受到逻辑思考机制(CoT)方法的启发下,我们运用自然语言处理原理来提升模型的推理能力和预测解释能力,并最终显著提升了其在知识图谱构建(KGC)任务中的整体性能表现。相比之下,在ChatGPT系统的提示设计中主要依赖于这些策略并利用少量演示与测试数据即可完成相应的功能需求

全部评论 (0)

还没有任何评论哟~