Advertisement

Text-Augmented Open Knowledge Graph Completion viaPre-Trained Language Models

阅读量:

摘要

开放知识图谱(KG)的主要功能是利用已有的事实进行推理和发现新的信息。为了提升KG的完成度和实用价值的研究工作主要包括以下两个方面:其一是通过引入事实三元组来扩展图推理的空间;其二是开发一种能够自动提取有效提示的方法以从预训练语言模型(PLM)中获取知识。然而这些方法表现出有限的性能并且需要大量的人力物力来进行优化。
为此我们提出了一种名为TAGREAL的新方法_TAGREAL通过对大规模文本语料库中的关键信息进行深入挖掘并结合PLM探测潜在的知识节点从而实现了对开放知识图谱的有效补全。
我们的实验结果表明在两个基准数据集上的评估指标均优于现有方法。
进一步分析表明即使在数据资源非常有限的情况下TAGREAL依然能够展现出卓越的效果。

1.介绍

知识图谱(Knowledge Graph, KG)是一种heterogeneous graph,在其架构中采用三元组形式(entitiy-relation-entity)来存储事实信息,并通过连接头实体与尾实体的方式实现这种编码(例如,“Miamilocated_in-USA”)。在自然语言处理领域中,KG发挥着关键作用(Dai等人, 2020),其应用涵盖问答系统(Hao等人, 2017;Yasunaga等人, 2021)、推荐系统(Zhou等人, 2020)以及药物发现研究(Zitnik等人, 2018)。然而现有研究(Wang et al, 2018;Hamilton等人, 2018)揭示大多数大规模的知识图谱仍存在完整性不足的问题,在覆盖现实世界知识方面仍有较大缺陷。这一挑战促使研究者们转向 KG 补充工作(Lin et al, 2015),其目标是基于给定的主题实体及关联关系,在推理过程中寻找相关联的对象实体。例如,在图1所示的情境中,“Detroit”作为主题实体并以“contained_by”作为关联关系进行推理时便能实现这一目标

图1: 手工制作产生的提示可能存在局限性, 而作为一种更加灵活的方法, 提示挖掘则提供了一种可扩展的选择. 辅助信息不仅有助于模型理解其背后的意图, 同时也为后续的操作提供了重要的参考. 在这一具体案例中, 加拿大与密歇根作为潜在的选择之一, 但若能够及时地进行提示挖掘并检索相关支持信息, 模型会倾向于选择密歇根本身作为答案.

然而,在现有基于知识图谱(KG)的补全方法(Trouillon等人, 2016b;Das等人, 2018)中存在几个局限性(Fu等人, 2019)。首先,在很大程度上受到图密度的影响(Bordes等人, 2013),这些方法的效果显著受到图密度的影响。具体而言,在具有丰富结构信息的密集图上表现良好(Fu等人, 2019),但在实际应用中更为常见的稀疏图场景下则效果欠佳(Bodenreider, 2004)。其次,默认假设封闭世界的知识图谱不考虑外部资源中的大量开放知识(Fu等人, 2019)。实际上,在许多实际场景中(Bodenreider, 2004),KG往往与包含大量未提取事实的数据源关联起来。为了应对这些挑战(Fu等人, 2019),我们聚焦于开放型知识图谱补全任务( open knowledge graph completion task),其中KG能够通过引用外部新事实进行构建。近期基于文本丰富的解决方案(Fu et al ., 2019)倾向于利用预先定义的事实库来丰富知识图谱。然而这些预先定义的事实库通常具有噪声和限制性(Fu et al ., 2019),即无法提供足够的信息来进行有效的知识更新

预训练语言模型(PLMs)(由Devlin等人于2019年提出;Liu等人于2019年首次提出)在从大量未标注数据中自主学习并潜移默化地积累事实知识方面展现出卓越的能力(Petroni等人于2019年)。借助这些技术,在处理和整合外部文本信息时可有效辅助构建知识图谱体系。近年来 emerged的新颖知识图谱补全方法(Shin et al., 2020; Lv等人, 2022)主要依赖于人工生成的提示(例如,在图1中提及"Detroit is located in [MASK]"),以便通过机器学习系统检索与填充缺失信息(例如,在这种情况下系统会返回"Michigan")。然而,人工生成提示不仅存在成本高昂的问题而且效果有限(例如,该系统对带有人工生成提示的查询返回了错误的答案如"Canada"等结果),如图1所示。

鉴于标准KG的局限性和现有的PLM功能(Devlin等人, 2019; Liu et al., 2019a),我们的目标是利用PLM实现开放的知识图谱。我们构建了一个端到端的框架,在这个框架中整合了PLM隐含的知识以及语料库中的文本信息来进行知识填充(见图1)。与现有的相关研究(例如Fu et al., 2019; Lv等人, 2022),我们的方法无需手动定义事实和提示集这一限制条件。

Our contributions can be summarized as:

基于此,在本研究中我们将重点探讨如何通过改进现有的提示生成与信息检索方法来提升(TAGREAL)系统的性能表现。

通过对现实世界知识图谱(如Freebase1)进行系统性的实验分析与评估,并结合定性分析的方法论支撑,

2.Related Work

2.1 KG Completion Methods

KG补全方法主要包含基于嵌入的方法与基于PLM的方法两大部分。基于嵌入的方法通过将实体与关系编码为向量表示,并在向量空间中构建它们之间的语义关联网络。其中一种重要的模型是TransE(Bordes等, 2013),该模型通过将三元组的头部实体、关系以及尾部实体映射至欧几里得空间来捕捉它们之间的语义关联。另一种方法则是DistMult(Yang等, 2014),该模型采用双线性模型中的对角矩阵形式来描述不同关系间的交互作用机制。此外还有RotatE(Sun等人, 2019)这一创新性方法,在复向量空间中通过旋转操作实现从一个实体到另一个实体的关系建模

近年来的研究者普遍认识到plm可被视为知识库(Petroni等人, 2019a;Zhang及其团队, 2020;AlKhamissi等, 2022)。基于plm的知识图谱补充方法(Yao等人, 2019;Kim et al, 2020;Chang等人, 2021;Lv等人, 2022)逐渐引起了关注。作为开创性的工作,KG-BERT(Yao等人的研究, 2019)通过微调PLM模型提升了性能,在三重元组(头、关系、尾)连接预测任务中超越了传统的嵌入基线方法。Lv等提出的了一种名为PKGC的方法,并采用了预定义的三重提示信息与精心挑选的支持提示作为输入形式。他们的实证结果表明,在开放环境下(Shi和Weninger, 2018),与现有的PKGC相比,在无需领域专家辅助的情况下(TAGREAL框架),能够生成更高质量的知识探测提示,并通过信息检索技术从语料库中提取相关文本信息以替代对支持信息预先存在的假设

2.2 Knowledge Probing using Prompts

LAMA(Petroni等人,在2019a年)最初是从PLM中研究知识框架。这些提示信息通过使用主题占位符和对象未填空的位置进行手动创建。例如,在一个三重查询(如Miami, location, ?)的情况下,“Miami is located in [MASK]”就是一个可能的提示。训练目标是通过PLM精准预测并填充[MASK]位置的信息。另一种方法是由BertNet团队提出的(Hao等人,在2022年),他们通过应用GPT-3(由Brown等人在2020年开发)的方法来生成包含输入实体对和人工种子提示的加权提示集合。随后系统再次利用PLM进行搜索,并选择集成顶级实体对以完成知识图谱(Knowledge Graph, KG)补全过程。

2.3 Prompt Mining Methods

在处理复杂的关系网络时,在缺乏专业知识的情况下进行人工设计会导致高昂的成本投入;而且无法保证工作进度的有效推进;因此吸引了研究者的关注。Jiang等人于2020年开发了一种名为MINE的方法;该系统能够在大规模文本数据库(如维基百科)中寻找输入与输出之间的中间节点或依赖关系;他们还提出了一个创新性的方案;通过评估个体在生成模型(PLM)上的表现来提升提示集的质量;在此前基于现有技术阶段的研究条件下;文本模式挖掘承担了类似功能;即为信息提取提供可靠的分析模型基础;例如MetaPAD(Jiang等人, 2017)通过引入模式质量函数的概念实现了上下文感知的分割机制;从而构建了高精度的模式模型;而TruePIE(Li等人, 2018)则提出了构建了新的分析框架的概念

3.Methodology

本研究提出一种名为TAGREAL的新方法,并以PLM为基础构建了一个处理知识图谱(KG)任务的框架。与现有研究不同的是,在我们的研究中并未采用人工编写的提示信息或固定的事实依据。参考图2可知, 本研究会自动生成适合的提示词, 并通过检索相关支持资料, 这些资源将被用来构建基于PLM的强大背景知识库。

如图2所示:TAGREAL框架。在各个阶段中,输入以红色标记、输出以绿色标记。其中虚线箭头用于标识可选过程

3.1 Problem Formulation

3.2 Prompt Generation

基于以往研究(如Jiang等人的2020年研究)发现,关系知识的准确性受查询提示符质量的影响极大。为此,我们提出了一种系统性方法来生成高质量的prompt提示符,并仅以三元组作为输入数据。这些生成的信息包括图3所示的内容。通过采用文本模式挖掘技术从大规模语料库中提取质量特征,并据我们的研究发现(如图3所示),我们率先采用文本模式挖掘方法来提取LM提示信息,并认为这种方法具有开创性意义。

  • 相同来源。我们主要在大规模语料库(如维基百科)上运用了模式挖掘技术,并将其作为主流的预训练语言模型(PLM)数据来源之一。
  • 相同目标。文本模式挖掘旨在从大规模语料库中提取新信息;提示挖掘则致力于揭示潜在的知识内容。
  • 相同评价标准。模式或提示的有效性取决于其能否可靠提取大量真实的信息内容。

图3展示了提示生成流程。通过实线连接展示了中间环节的变化路径,箭头则指向中间阶段或最终结果,其中[X]代表头部实体,[Y]代表尾部实体,输入端用红色标记,输出端用绿色标注

Sub-corpora mining

子知识图谱挖掘作为模式挖掘的第一个重要步骤,在构建数据基础时发挥着关键作用。具体而言,在给定一个知识图谱KG(其关系集为R=(r₁, r₂,…, r_k))的情况下,我们首先从该知识图谱中提取所有由各个关系ri∈R对应的头实体与尾实体所形成的有序对

如对关系r1: /business/company/founder进行分析,则我们从KG中提取与此关系相关的所有元组。对于每一个提取出的元组tj,在大型语料库(如维基百科)和其他可靠的来源中进行查找

,这些句子被添加到子语料库

在我们的研究中,我们设定每个元组中的集合大小限定在θ,并旨在帮助未来应用发现更多通用模式。

Phrase segmentation and frequent pattern mining

基于短语分割和频繁模式挖掘的技术手段,在子数据集中提取特征模式作为提示候选项。通过采用AutoPhrase算法(Shang等人, 2018),将原始数据划分为更为自然与明确的语义单元,并结合FP-Growth方法(Han等人, 2000)识别出高频出现的特征模式序列以形成候选集合

。集合的大小很大,因为有很多杂乱的文本模式。

Prompt selection

为了从候选集中选择质量模式,我们应用了两种文本挖掘方法:MetaPAD (Jiang等人,2017)和TruePIE (Li等人,2018)。MetaPAD应用模式质量函数,引入上下文特征的几个标准来估计模式的可靠性。我们解释了为什么这些特征也可以用于LM提示估计:(1)频率和一致性:由于PLM在预训练阶段学习了频繁模式和实体之间更多的上下文关系,因此在背景语料库中出现频率更高的模式可以从PLM中探测到更多的事实。类似地,如果一个由高度关联的子模式组成的模式频繁出现,那么它应该被认为是一个好的模式,因为PLM将熟悉子模式之间的上下文关系。(2)信息性:信息性较低的模式(如图3中的

)其在PLM知识探测方面的能力较为薄弱,在一定程度上无法有效阐述主体与客体实体之间的关联。(3)完整性:模式的完整性在PLM知识探测中具有重要影响,在特定条件下(如图3所示的情况中)尤其显著地体现出来;尤其是在模式中出现占位符缺失的情况下(例如图3中的

),从而导致PLM甚至无法给出答案。(4)覆盖范围方面:质量模式应当能够最大限度地从PLM中探测到准确的事实。因此,在仅适用于单一情况或少数几种情况的质量模式下赋予其较低的质量评分是合理的选择。随后,在基于MetaPAD选择的提示(模式)上实施TruePIE算法以实现过滤功能。该算法通过剔除与正样本存在较低程度相关性的提示(例如,在本例中排除了p ' 3和p ' m−1)来优化提示库的质量。这一过程对于构建一个更为可靠和精确的提示筛选系统至关重要,因为我们希望所收集的所有训练数据均能在语义层面上高度一致,从而最大限度地减少低质量数据对模型预测结果的影响效果。最终,我们成功建立了这样一个高质量的数据处理体系

基于提示给出的平均概率:

3.3 Support Information Retrieval

在提示符挖掘的基础上,在提示符中增加了查询式和三重式的辅助信息以促进模型对相关知识的理解以及三重分类能力的提升。参考图4可知 对于与r相关的第i个查询项

采用BM25算法(罗伯特森等, 1995年)从权威资料库中筛选出评分高于阈值δ且长度低于设定值φ的所有优质候选文本,并从中随机抽取一份作为支撑材料。

整合到PLM框架中,我们将支持将文本整合到通过前一阶段优化得到的集成体中,以实现每个提示符号的具体应用,并同时确保目标实体的有效隔离。其中,[CLS]和[SEP]分别用于序列分类标记,并在各自的任务处理中发挥特定作用以促进信息提示的有效分离。在训练过程中,我们采用三元组形式代替查询来进行文本检索,其中[MASK]位置则由目标实体进行填充。此外,在TAGREAL参数设置中,默认为可选模式,以便根据具体数据情况灵活配置相关功能。

3.4 Training

然后,我们将每个关系r的所有训练三元组转换成具有提示集合

在BM25检索结果中获得的三重支持信息(若有)的相关描述。在训练过程中,[MASK]会被每个正负三元组中的对象实体进行替代。随后将查询实例引入

通过更新其参数来微调PLM。采用交叉熵损失(Lv et al, 2022)进行优化:

全部评论 (0)

还没有任何评论哟~