Towards Semantically Enriched Embeddings for Knowledge Graph Completion
文章目录
- 
- 题目
 
 - 摘要
 - 简介
 - 相关工作
基于嵌入的知识图谱补全
用于知识图谱完成的大型语言模型
针对知识图谱嵌入中的语义理解
现有基于嵌入的知识图谱补全评估方法
结论和建议 
题目
面向知识图谱补全的语义丰富嵌入

摘要
基于知识图谱的知识补全(KB completion)在过去几年中获得了广泛关注。传统的算法往往将知识图谱视为一个多标记图结构,并未能充分挖掘图表示意图中蕴含的语义信息。本文旨在提升现有技术能力,并系统探讨了多种知识图谱补全算法的变体形式及其语义处理机制。首先考察仅基于事实信息的KB补全过程(Knowledge Base completion),包括传递闭包推导与归纳链接预测等方法;随后结合大型语言模型构建增强型KB补全框架;最后深入分析逐步融入语义层次(如类层次结构与描述逻辑公理)的知识图谱补全过程及其性能表现。通过全面梳理现有研究进展与技术路径选择,在此基础上提出了对未来研究方向的新颖视角与探索方向:一方面关注如何更有效地捕捉与整合多源异构数据中的语义关联;另一方面则聚焦于建立更加科学合理的评估体系与公平对比机制;同时还需要进一步厘清不同研究范式之间的差异性与互补性关系;最终以期推动这一领域取得更加系统的理论突破与实质性的技术进步
在上述框架下展开具体研究工作:第一部分重点分析传统基于三元组表示的知识图谱补全过程;第二部分则深入探讨基于双层结构化表示的知识图谱补全过程;第三部分提出一种新型矢量空间扩展模型以实现跨模态关联建模;第四部分构建了一个端到端的大规模预训练模型框架用于自动提取上下文相关知识并生成完整的知识架构
关键词:知识图谱嵌入、知识图谱嵌入中的语义、大型语言模型。
简介
近年来的知识图谱(Knowledge Graph, KG)因其能够整合知识管理、信息表达与推理能力,并广泛应用于学习场景中的 KG 表示技术等领域而受到了广泛关注。该技术通过将实体间的关系编码为三元组的形式存储与表达知识;这些实体被组织成一个由头(head)、关系(relation)、尾(tail)组成的三元组;在多个下游应用场景中已得到广泛应用。
然而
为了修正这种情况,在研究团队已采取多种措施,并涵盖多种层次结构和本体信息的组合形式。例如EL++、ALC等技术均被采用。在一些情况下,则会借助额外的知识表示能力来捕捉这一关键特征的信息内容,并采用框嵌入的形式进行表征。
相关工作
已有研究表明,在知识图谱补全领域最新的研究进展(简称SoTA)主要集中在以下几个方面:一方面是对知识图谱细化相关文章的系统性调查与分析;另一方面则是对基于规则与经典方法的知识图谱补全技术展开探讨;但这些研究均未深入考察知识图谱嵌入相关的理论框架与实践应用。针对基于知识图谱嵌入的知识图谱补全方法,则是近年来的研究热点之一;其中一些研究还尝试将评分函数(如翻译模型、语义匹配模型等)作为分类依据进行系统性组织。然而,在现有研究中尚缺乏对利用多模态信息(包括图像、文本与数字文字等)辅助知识图谱补全这一创新思路的具体探讨。为此,Gesese等人[4]在深入分析现有技术的基础上提出了一种新的分类方法;其研究不仅涵盖了传统的评分函数体系还拓展至多模态数据融合的相关算法设计与性能评估框架。值得注意的是,在上述文献综述的基础上我们发现现有研究普遍未对KG嵌入技术中的本体陈述属性与语义特征展开深入探讨
本研究综述探讨了图知识(KG)补全领域的技术演进历程。早期研究主要聚焦于基于向量嵌入的方法与基于大语言模型(LLM)的技术框架。近年来,随着图知识补全技术的发展需求日益凸显,学者们提出了多种创新性的解决方案,在现有研究基础上逐步构建起涵盖不同类型补全任务的知识图谱构建方法体系。该综述不仅系统梳理了各阶段技术的发展脉络与创新点,在深入分析现有方法的局限性及未来改进方向的同时,还对关键评价指标体系进行了详细探讨
准备工作:知识图谱中的语义通常,KG 被定义为一组头-关系-尾三元组 (h,r, t),其中 h 和 t 是图中的节点,r 是从 h 到 t 的有向边(例如,[7–10])。这样,KG 对应于有向的标记图,其中 KG 中的三元组是标记节点之间的标记边,如以下定义所示。
定义 1(知识视图:三元组定义):一个带标记的有向图 G = (V, E, l, LG),其中 V 表示节点集合...
如第3.1节所述,在构建知识图谱(KG)时需区分两类节点并处理不同类型的信息文本。定义1并未明确给出知识图谱中类与关系的形式化语义(形式含义)。TBox中的语义说明通常由逻辑语言L中的构造性定义与公理体系支撑,在编码至KG的过程中需对应生成相应的标签与三元组实体信息。基于上述讨论可知,在KG构建过程中除了关注个体级别的断言外还需要深入探讨类与关系层面的知识表示能力(即所谓的表达能力)。这种能力不仅限于简单的个体断言还涵盖了较为复杂的语义结构与推理能力(参见表2)。在这一框架下我们能够系统地将逻辑语言中的概念转换为KG中的具体编码方案从而实现对知识整体结构的有效建模
称为知识图谱的语义定义。
设L为用于刻画概念及其角色语义的逻辑语言,
而 KG G=(V,E,l,LG) 则是基于定义1中的知识图谱.
若标签LG包含了L中所定义的所有符号,
并且 KG中的三元组均可用L中的语句表示,
则称 KG 为L-形式化的知识图谱.

KG 所采用的典型逻辑语言源自描述逻辑家族,在方便权衡表达能力和可扩展性方面达成了显著效果 [11]。例如, EL 定义了概念的交集以及完全的存在量化概念,而 EL++ 引入了更为丰富的内涵,如概念交集与包含关系,这些内容对于构建类层次结构至关重要。ALC 在功能上较之于 EL++ 增添了概念并集、否定与全称量化等高级特性,从而进一步提升了表达能力。在 KG 的语义构建中,基于语义网形式化的高级方法(如 Web 本体语言 (OWL))的应用使得表达力得到显著提升 [11]。OWL 以 SH 语言为基础,其中角色定义更加复杂丰富,包括角色包含与传递性特征等属性。值得注意的是,KG 的语义构建还涉及数据类型相关的拓展,D 扩展则允许 KG 中的文字内容得以建模,这些内容可作为 ABox 中语句的基础元素之一使用。值得注意的是,基于 OWL 的 KG 不仅有本节所述以外的不同级别表达能力差异,具体而言,Owl-Lite 基于 SHIF(D), Owl-DL 基于 SHOIN (D), owl2 则基于 SROIQ(D), 后者提供了定义性的内容包括反身性、非反身性和不相交性等属性特征以及其他限制条件
使用嵌入的知识图谱补全
大部分基于嵌入的知识图谱补全算法将知识图谱视为图结构,请参考定义1的相关说明。其中绝大多数采用传导链接预测(LP)的方法[12]进行推理过程,在模型训练使用的同一张图上完成推理操作。与之不同的是,在归纳链接预测中,默认情况下不可见的部分也被考虑进来。本节介绍了一系列知识图谱嵌入方法:包括传导型链接预测方法(第3.1节)、归纳型链接预测方法(第3.2节)以及实体类型预测方法(第3.3节),这些方法主要关注头实体、尾实体、关系以及三元组级别的预测任务
传导链接预测 针对 LP 任务,人们提出了各种各样的 KG 嵌入,它们的评分函数(衡量 KG 中三元组的合理性)和底层学习方法有所不同,例如平移模型、语义匹配模型、神经网络模型、基于路径的方法和基于多模态的模型KG——例如,利用文本、数字和多模态文字。下面简要概述了执行传导式 LP 的模型。Dai 等人 [12] 对这些模型进行了详细描述。
基于翻译的模型包括 TransE、TransH 等。在 TransE [7] 中,三元组的关系被视为低维空间中头实体和尾实体之间的翻译操作。TransH [13] 通过将实体向量投影到关系特定的超平面来扩展 TransE,这有助于捕捉实体相对于不同关系的不同角色。这两种模型都有明显的局限性,例如无法表示对称或传递关系。RotatE [14] 的评分函数将关系建模为复平面中的旋转,以保留 KG 中的对称/反对称、逆和组合关系。
语义匹配模型基于相似度评分函数,该函数通过匹配实体和关系的潜在表示的语义来衡量三元组的合理性。在 DistMult [15] 中,每个实体都映射到一个 d 维密集向量,每个关系都映射到一个对角矩阵。三元组的得分计算为实体向量和关系矩阵之间的矩阵乘法。RESCAL [8] 将三元组建模为三向张量。该模型通过潜在特征的成对交互来解释三元组。三元组的得分是使用头实体和尾实体的潜在特征之间所有成对交互的加权和来计算的。ComplEx [16] 通过引入 Hermitian 点积来扩展 DistMult,以更好地处理不对称关系。神经网络模型使用实体名称中单词嵌入的平均值来表示实体。
通过二维卷积层分析实体与关系的嵌入表示。其中头实体与关系的嵌入被重新排列并串联起来作为输入传递给卷积层。随后将得到的特征图向量空间转换到 k 维度量空间中进行投影并将这些投影结果通过逻辑 S 函数对齐尾部嵌入以匹配目标特征从而实现交叉熵损失最小化的优化过程。在 ConvKB 架构中每个三元组被编码成一个3维矩阵形式然后将其输入到卷积层后应用不同滤波器生成多张特征图这些特征图经过融合处理最终形成一个综合性的三维张量用于表征该三元组的信息内容。随后将此综合向量与权重矢量做点乘运算得到预测分数用于评估该三元组的有效性。为了区分知识图谱中的不同关系类型 R-GCN采用了不同于传统 GCN 的设计方案即不仅考虑节点之间的连接还特别关注于不同边类型的关联机制这样可以在预测任务时根据具体的关系类型选择合适的模型参数从而提升预测准确性
基于路径构建的语言模型(例如 PTransE [19])通过引入基于路径的信息构建扩展以改进 TransE 模型的表现。GAKE 则关注于从每个实体出发探索其关联的关系网络以获取上下文信息。RDF2Vec 则采用随机漫步的方式模拟节点之间的潜在联系,并在此基础上构建语义表示。与之相比,在实际应用中利用 RDF2Vec 对头实体或尾实体进行预测并非易事。多模态知识图谱嵌入则能够整合不同类型的输入数据包括文本图像等(有关详细分析,请参阅 [4])。这一系列算法旨在系统性地拓展传统逻辑语言的能力(参见第 2 节)。
例如, DKRL[22] 基于将连续词袋方法编码整合到 TransE 的过程中发展而来. Jointly(ALSTM)[23] 使用门控策略扩展了 DKRL 模型;同时利用注意力型 LSTM 编码文本实体描述. MADLINK[24] 利用 SBERT 表示实体描述;通过随机游走学习其结构化表示;其中,在每一步骤中捕获的关系均依据'谓词频率 - 逆三重频率'(pf-itf)排序.
归纳链接预测主要通过调整现有的传播逻辑模型(LP)来实现归纳设置下的学习目标。然而,在这种情况下需要进行昂贵的重新训练以学习不可见实体的嵌入表示(embedding),这使得该方法无法直接用于对不可见实体进行预测任务。为此,研究者们提出了归纳链接预测方法(Inductive Link Prediction, ILinkP)。统计规则挖掘方法则依赖于从知识图谱(Knowledge Graph, KG)中提取特定模式的技术。其中值得注意的是AnyBURL系统 [25, 26] 将图上的随机游走推广至Horn子句规则中,并将其应用于链接预测任务:当规则的前提与图中的某条路径匹配时,则相应地推断出规则结论中的三元组也应存在于该知识图谱中。相比之下NeuralLP [27] 提出了端到端可微分的一阶逻辑规则学习框架。而DRUM系统 [28] 则采用另一种基于可微分方法的知识图谱一阶逻辑规则挖掘框架,并在性能上相比NeuralLP方法有所提升。
一些基于嵌入的技术也被提出用于归纳设置。其中一种方法是GraphSAGE [29] 通过前馈机制和图神经网络对实体进行编码以实现归纳 LP。然而,在这种方法中,在学习实体表示之前属性集(如词袋模型)是固定的这一限制导致其在实际应用中受到限制 [30]。另一种方法则是利用图神经网络聚合邻居信息 [31, 32]。然而这些方法的一个共同缺点是它们要求未知实体必须被已知实体包围才能进行学习 [33](即它们只能在半归纳设置中工作)。KEPLER [34] 提出了一种统一的模型框架用于知识嵌入与预训练语言表示的学习过程它通过将文本实体描述编码作为模型嵌入然后与知识图谱嵌入联合优化以完成目标任务然而由于引入了额外的预训练语言模型目标KEPLER在计算开销上显著增加并且需要更多的训练数据以保证性能表现良好的效果。受DKRL算法的启发BLP[35]则通过利用预训练语言模型结合LP目标的方式直接学习实体的表征这一方法简化了复杂性并降低了对数据量的需求同时能够有效提升性能表现良好的效果。QBLP[36]作为一种扩展型BLP算法旨在通过挖掘限定词中的语义信息进一步提升超关系知识图谱的表达能力然而目前该算法仍存在一些局限性未能完全解决看不见关系的学习问题另一方面RAILD[37]则提出了一个基于关系到关系的网络架构能够有效地提取和学习复杂的关系特征从而有效解决看不见关系下的完全归纳LP任务这一研究工作为后续研究提供了重要的理论支持与实践指导RMPI[38]则提供了一种全新的消息传递框架适用于全归纳链接预测任务而传统的方法通常采用的是单个实体执行消息传递的操作方式这使得RMPI算法具有更强的并行性和计算效率Hubert等人[39]对此类归纳LP算法进行了系统性的总结与分析
实体类型预测SDType [40] 是一种统计启发式模型,它使用加权投票来利用实例之间的链接,并假设某些关系只发生在特定类型中。如果两个或多个类共享相同的属性集,并且实体缺少特定关系,则它的性能不佳。许多机器学习(包括基于神经网络的模型)已被提出用于类型预测。Cat2Type [41] 使用 BERT 等语言模型来考虑维基百科类别中文本信息的语义。为了考虑维基百科类别的结构信息,生成了一个类别到类别的网络,然后将其输入到 Node2Vec 以获取类别嵌入。结构和文本信息的嵌入相结合,将实体分类为它们的类型。Biswas 等人 [42] 的方法利用在三元组上训练的不同词嵌入模型以及分类模型来预测实体类型。因此,不会捕获上下文信息。 [43] 中的模型使用可扩展的节点局部分类器 (SLCN),根据一组传入和传出关系进行类型预测。但是,只有少量关系的实体可能会被错误分类。FIGMENT [44] 使用全局模型和上下文模型。全局模型根据语料库中的实体提及和实体名称来预测实体类型。上下文模型为实体的每个上下文计算分数并将其分配给类型。因此,FIGMENT 需要大量带注释的语料库,这是该方法的一个缺点。在 APE [45] 中,构建了一个部分标记属性的实体到实体网络,其中包含实体的结构、属性和类型信息,然后是深度神经网络来学习实体嵌入。MRGCN [46] 是一个多模态消息传递网络,可以从 KG 的结构以及多模态节点特征进行端到端学习。在 HMGCN [47] 中,作者提出了一个基于 GCN 的模型来预测实体类型,同时考虑关系、文本实体描述和维基百科类别。ConnectE [48] 和 AttET [49] 模型通过找到邻域实体之间的相关性来预测缺失的类型。Ridle [50] 使用受限玻尔兹曼机学习实体嵌入和关系的潜在分布,从而允许根据关系捕获语义相关的实体。该模型专门针对 KG,其中不同类别的实体用不同的关系描述。CUTE [51] 通过利用类别、属性和属性值对对跨语言实体类型进行分层分类。MuLR [52] 通过字符、单词和实体嵌入学习实体的多级表示,然后进行分层多标签分类。
第3节中所讨论的算法主要关注KG中实体间的具体信息及其相互关系的表现与编码过程。换句话说,另一种方式是将KG视为一个三元组集合,并仅利用ABox中的语句来生成KG嵌入并执行推理逻辑(LP)。尽管一些嵌入模型不仅能够计算三元组的信息表示,还能通过分析其邻近词上下文中的实体关系及节点(借助图遍历技术)来扩展其表示能力,但这些方法并未考虑其他形式的知识,特别是LLM中所蕴含的知识体系或构成知识图谱语义骨干的核心逻辑语言表达公理所包含的知识内容。因此,尽管KG嵌入在推理能力方面取得了显著进展,但它们仍然未能充分挖掘KG中实体、关系及类别的深层语义内涵,以及其中隐含着更为复杂而合乎逻辑的约束条件。后续部分将重点阐述LP在这一方面的具体表现与应用机制。
用于知识图谱完成的大型语言模型
LLM 进一步划分为编码器型与纯编码器型两大类。其中一类为编码器-解码器架构(如BERT [53]、RoBERTa[54]等),这类架构属于判别性架构,并基于大量数据学习预测未标记词汇的任务;另一类则完全采用单向信息传递机制(如LLaMa[55]、ChatGPT[56]及GPT-4[57])。值得注意的是,在生成任务方面表现尤为突出的纯生成架构其主要目标是在预测下一个单词的过程中进行学习;本节后续内容将进一步探讨这两类架构在知识图谱填充领域中的具体应用情况
基于LLM的知识图谱补全方法之一是KG-BERT模型[58]。该模型以Transformer架构为基础设计了一个双向编码器表示框架,在KG补全任务上进行了微调优化,并将三元组表示为文本序列形式。具体而言,该模型通过实体-关系-实体序列构建表示,并利用KG-BERT模型计算评分函数来评估各三元组的可能性。在实现这一过程中,KG-BERT不仅能够根据实体名称或描述提取特征,还能够将这些特征词序列作为输入至BERT模型进行微调训练,从而进一步提升预测性能.尽管KG-BERT是一种基于LLM的方法,但在排序评价指标(如hits@k)方面其表现略逊于能够充分利用知识图谱结构信息的其他方法.Kim等人[59]指出,KG-BERT的一个主要缺陷在于其对关系推理能力的不足,尤其是在面对词汇存在相似性导致候选词选择困难的情况下表现不佳.针对这些问题,Kim等人提出了一种结合多任务学习策略的新模型[59],通过同时优化关系预测任务与相关性排名任务,并结合LP损失函数(Loss)来更好地学习和推理关系信息.
由于评分函数成本高昂,且缺乏文本编码器的结构化知识,先前描述的方法仍然面临高昂的开销。提出了一种结构化增强文本表示 (StAR) 模型 [60],其中每个三元组被划分为两个不对称部分,类似于基于翻译的图嵌入方法。在暹罗式文本编码器的帮助下,这两个部分都编码为语境化表示。然而,基于预训练语言模型 (PLM) 的知识图谱补全方法在性能上落后于基于结构的算法。Lv 等人 [61] 强调,这种滞后的原因是评估设置,它目前基于封闭世界假设 (CWA),其中知识图谱中缺失的事实被视为错误。在 CWA 下,LP 算法的性能通过其预测从知识图谱中删除的一组链接的能力来衡量。相比之下,LLM 引入了外部知识,这可能导致预测语义上正确的新链接,但不在原始 KG 中(因此不在评估集中),因此不计入成功指标。此外,预训练语言模型 (PLM) 的使用方式不恰当,即当三元组用作句子时,会导致生成的句子不连贯。因此,Lv 等人 [61] 提出了一种基于 PLM 的方法,称为 PKGC。这项工作针对第一个问题,提出手动注释作为替代方案。但是,一个包含 10,000 个实体和 10,000 个三元组的中型数据集在测试集中将导致最多 2 亿个三元组的真实标签,不包括人工注释。这一观察导致了一个新的评估指标,称为 CR@1,其中三元组从测试集中采样,缺失的实体用前 1 名的预测实体填充。然后进行手动注释以测量这些三元组的正确比例。然后,PKGC 通过将每个三元组及其支持信息(即定义和属性信息)转换为自然提示句来解决第二个问题,这些提示句被输入到 PLM。PKGC 在各种模态(即属性和定义)方面的表现都优于结构化和基于 LLM 的方法。
GenKGC [62] 将 KG 任务转换为序列到序列(Seq2Seq)生成任务,并基于 GPT-3 的上下文学习范式进行设计。该模型的输入字段包括头实体、关系标识符以及特定标记符 ?∸。作者通过收集若干具有相同语义关联性的三元组样本进行训练,并将其命名为关系引导演示。为了提升表示能力并优化计算效率,在生成阶段引入了实体感知分层解码器结构。该方法已在 WN18RR 和 FB15k-237 等基准数据集上取得良好效果
GenKGC 在评估指标 hits@k 上的表现未能达到结构化 SotA 模型的高度(证实了 Lv 等人的研究发现 [61]),但其性能依然优于基于遮蔽语言模型的方法。该算法结合了现有与新兴知识图谱的技术,在处理复杂场景时展现出显著的优势。针对给定的一个知识图谱查询问题,KG-S2S 通过微调预训练语言模型来直接推导目标实体的文本表示。具体而言,该方法分别利用实体描述信息、软提示辅助以及序列到序列学习机制来提取和学习这些表示特征。为了实现这一目标,我们采用了独立于语义层面的纯文本信息处理对象作为基本处理单元,并从静态场景、小样本规模以及时间维度等多个角度进行了深入分析和验证。
讨论。 LLM凭借其生成连贯且相关文本的能力彻底改变了自然语言处理(NLP)领域。但是这一技术也存在局限性:一个主要问题是LLM容易产生幻觉[64]。这意味着它们可能生成连贯但完全虚构的信息或关联。这对知识图谱补全任务带来了巨大挑战:知识图谱补全旨在准确预测缺失的链接或事实。此外LLM通常需要对特定领域进行大量微调和适应以实现有效执行
在生物医学、法律或科学等专业领域中广泛应用于多个应用场景中由于这些领域具有独特的术语体系和语境因此其表达方式往往与日常语言存在显著差异大型语言模型(LLM)在躯干部分的表现相对有限因为学习过程中其对某些实体的知识储备较为薄弱这一现象已被相关研究指出[65]尽管LLM在提升大规模知识图谱(KG)填充质量方面展现出巨大潜力但其仍需通过引入额外信息来弥补知识上的不足或者借助专门领域的资源来提升结果的准确性
关于知识图谱补全方法的评估而言必须认识到现有的基准测试方法主要基于封闭世界假设 (CWA)
总体而言尽管LLM为知识图谱补全任务提供了丰富的资源但它们固有的不足特别是在处理幻觉以及适应特定领域时存在一定的限制需要得到改进另一方面为了确保全面掌握知识图谱的发展我们需要研发出能够超越现有的评估标准的方法
面向知识图谱嵌入中的语义捕获
提取实体类型信息以构建知识图谱 最近已采取措施利用实体类型信息呈现形式图示 无论是否考虑类型层次结构 TKRL [66] 采用分层编码机制来处理实体类型的层次信息 它基于每个实体应对其不同(超)类型具有多种表示的假设 TransT [67] 则提出了一种综合考虑实体类型及其层次结构的方法 该方法进一步从实体类型构建关系类型 并通过计算相关实体和关系基于类型的语义相似性来提取实体类型的先验分布 在此基础上 采用先验分布生成每个实体的多维嵌入表示 而非单个向量 进而估计实体和关系预测的后验概率 Zhang 等人 [68] 将实体类型视为所有 entities 的约束 并使这些 types 在嵌入空间中诱导出一个同构子集集合 该框架引入额外的成本函数以模拟这些约束与 entities 和 relations 嵌入之间的适应度 JOIE [69] 则采用了跨视图建模策略 (i)跨视图关联学习本体概念与实例 entities 的嵌入 (ii)在每个视图内分别学习与 entities 相关的结构性知识及本体信息(基于层次感知编码) 该模型在 triple 补全任务及输入 types 的 entities 上进行了评估 另一种方法是用于 KG 的自动 entities 类型表示 AutoETER [70] 它借助关系感知投影机制将 relations 视为头 entity 和尾 entity 类型之间的转换 关系级别的注意力机制旨在区分不同关联 relation 对 entities 的重要性 同时 type 级别注意力也会考虑每种 type 的邻域信息 即使头 entity 属于同一类别 不同的关系可能连接不同的 entity groups 实体级别的注意力则旨在确定每个邻居 entity 对于特定 relation 下 entities 的重要性 TrustE [72] 则是一种通过考虑 entity 类型中的噪声构建元组可信度的结构化嵌入方法 它不同于传统方法 TrustE 使用结构投影矩阵将 entities 和其 types 分别编码到独立的空间中 并通过检测 noisy type 来确保可信度 其能量函数着重关注高可信度 entities 和其 types 对 通过检测 noisy type 和 type prediction 来评估模型

基于本体的知识图谱嵌入尽管前面讨论的方法使用了一些示意图信息,例如实体类型和类型层次结构,但它们仍然忽略了本体中捕获的大部分概念级知识,即描述逻辑公理中的 TBox 信息。正如 Chen 等人 [73] 所报告的,将 TBox 三元组解释为 ABox 三元组(即忽略其语义)的 KGE 在成员资格和包容预测等推理任务中无法实现高性能。因此,在本节中,我们将分析采用 TBox 的 KGE信息,以及它们在第 2 节中讨论的逻辑语言的结构和公理方面的表达能力。表 2 概述了这些方法。
这些系统的第一代将概念表示为嵌入空间中的 (高维) 球体 (例如 [74])。然而,虽然概念的交集是一种常见的操作,但两个 n 球的交集不是 n 球,这导致在测量概念之间的距离和推断概念之间的等价性时面临挑战。第二代将概念表示为高维盒子,因为盒子在相交下是封闭的。ELEm [74] 是这些方法中最早的方法之一,它通过使用连接、存在量化和底部概念的语义扩展 TransE 来近似解释函数,从 EL++ 生成低维向量空间。它基于蛋白质-蛋白质相互作用对 LP 进行评估。 EMEL++ [75] 在包容推理任务上评估了该算法,并将其与 ELEm 进行了比较,在 ELEm 中这些语义被表示但未得到正确评估。与 TransE 类似,EMEL++ 将关系解释为类之间的平移操作。BoxEL [76] 和 ELBE [77] 通过将概念表示为轴平行框来扩展 ELEm,其中两个向量分别表示下角和上角或中心和偏移量。在 BoxEL [76] 中,作者借助与连接运算符相关的示例展示了框嵌入相对于球嵌入的上述优势,即,与框嵌入相比,球嵌入不能正确表达 Parent ⊓ Male ≡ Father。此外,当 Person 和 Parent 具有两个不同的体积时,平移无法模拟他们之间的 isChildO f 关系。除了框表示之外,ELBE [77] 还为表示 EL++ 中表达的公理(如表 2 所示)的每个范式定义了几个损失函数,例如合取、底部概念等。更进一步,Box2EL [78] 不仅学习概念的表示,还学习角色作为框的表示,以尽可能多地保留本体的语义。它使用与 BoxEL 类似的机制来表示概念。先前的方法将角色(二元关系)定义为 TransE 中的翻译,但 Box2EL 将每个角色与一个头框和一个尾框相关联,以便借助碰撞向量,头框中的每个点都与尾框中的每个点相关。碰撞向量模拟概念之间的交互,并动态移动相关概念嵌入的位置。另一方面,CatE [79] 借助类别理论语义嵌入 ALC 本体,即使用类别而不是集合来形式化解释的逻辑语言语义。这是有利的,因为类别具有类似图形的结构。TransOWL [80] 及其扩展允许将 OWL 公理纳入嵌入过程,方法是修改 TransE 的损失函数,以便为涉及 OWL 词汇的三元组(如 owl:inverseOf、owl:equivalentClass 等)赋予更高的权重。OWL2Vec* [73] 使用词嵌入模型从生成的语料库中的实体和单词创建嵌入。该语料库是通过在本体上随机游走生成的。该方法在类成员预测和类包含预测任务上进行评估。OntoZSL [81] 是另一种考虑本体模式的方法,它通过考虑本体中的类(通过 rdfs:subClassOf)和谓词(通过 rdfs:subPropertyOf、rdfs:domain 和 rdfs:range)的结构信息和文本信息来完成 KG 补全。
本节探讨了基于 KG 中示意图信息的应用方法,在自类型层次结构出发的基础上深入研究描述逻辑公理中的类与谓词语义的问题。然而,在传统三元组与实体类型预测任务中进行评估的方法虽能取得一定效果,在大多数情况下却忽视了一个重要的研究方向:即仅涉及 KG 中 TBox 术语的任务完成问题。这种忽视导致所构建模型在处理较为复杂的演绎推理问题时表现出明显局限性:具体而言,“基于框嵌入”的方法虽然能够有效地表征描述逻辑公理背后的语义内涵[1] ,但却受限于其对特定公理形式的支持能力——例如无法有效处理具有传递性特征的关系陈述这一关键特性[2] 。这些局限性通过实验结果得以部分印证:如表 2 所示,在现有方法中仅有极少数算法能够处理 SH 的相关子集属性[3] ,而 OWL 本体(从 SHIF(D) 到 SROIQ(D))在表达能力方面仍有待提升[4] 。此外,在当前研究框架下缺乏统一的数据集系统比较仍是一个亟待解决的问题:现有的性能比较指标体系未能充分反映不同算法在实际应用中的表现差异[5] ,同时也不清楚如何系统地量化此类示意图信息对模型训练效率的影响因素[6] 。综上所述,在现有技术条件下实现一个既能有效利用 KG 示例信息又能在复杂推理场景下获得良好性能的整体解决方案仍面临诸多挑战
使用嵌入进行知识图谱补全的现有评估设置
本节主要介绍了评估协议的相关内容,并明确了所采用的基础标准与评价指标体系。详细阐述了所采用的基准数据集及其在不同算法类别下的具体应用情况。其中不同任务中使用的基准数据集各有特点,在选择与构建这些基准集合时主要参考了WordNet、YAGO和Freebase等资源库。这些标准集合仅包含三元组信息,默认情况下并未引入本体知识以避免潜在的信息过载问题。Gesese等人的研究工作提供了较为全面的数据对比分析,在涉及链路预测(LP)的任务中通常会将训练/验证集合一并提供;但需要注意的是这些划分方式并非严格限定,在实际应用中可能因需求差异导致划分标准有所变化。因此基于现有标准集合无法对模型在复杂关系类型或分类维度上的预测性能进行细致区分分析。ELEm在蛋白质相互作用网络(PPI)相关的数据集中进行了链接预测(LP)任务的评估工作;然而后续研究则引入了更具表现力的数据资源类型如基因本体(GO)[83]或食物关系数据库(FoodOn)[84]等以提升模型性能表现度。另有研究表明针对本体嵌入模型的研究工作可将测试样本按照范式(NF)进行分类考察其对原子概念NF1原子概念与关联词NF2以及原子概念与存在限制NF3和NF4等不同层次语义范畴的学习与预测能力

在LP任务中常用的评估标准主要基于排序机制。常见的算法多采用hits@k作为评价基准。其中参数k通常取值范围在1至100之间,默认常见设置包括1、3、10及50。除了hits@k之外还采用MR(平均秩)和MRR(平均倒数秩)等指标。具体而言一些研究如[50]探讨了精确度与召回率的平衡并提出了F1分数这一综合评价指标。针对本体嵌入模型的研究工作普遍关注AUC值这一性能评估标准。
评估与报告研究结果。大多数现有算法主要针对具有三重结构的知识图谱(KG)进行性能评估,因其专注于基于三元组结构的推理机制而被广泛采用。然而,在扩展知识图谱嵌入模型功能的任务中存在例外情况。在传导式LP框架下(TransE/TransR等),研究表明,在传导式LP框架下(TransE/TransR等),模型性能高度依赖于超参数的选择策略。例如,在文献[100]中指出,在适当超参数设置下优化后最早提出的 RESCAL 模型表现出色,并超越了后续出现的各种改进方案。类似研究在文献[101]中通过系统性地对21种不同嵌入模型进行了全面评测,并提出了最佳超参数组合方案。研究发现表明:尽管现有工作在知识图谱嵌入领域取得了显著进展 [78] ,但在数据集选择 [50] 以及评测指标设计方面仍存在明显分歧 [78] 。值得注意的是,在本体层次上的每个范式 [78] 都得到了专门关注 [50] ,但如何平衡不同维度的能力仍是一个开放问题。
结论和建议
在本节中,我们基于前面几节的基本概述,对过去十年中取得的进步性成果进行了系统性的回顾与分析,并提出了若干富有建设性的未来研究方向.这种批判性思维主要关注语义层面的理解与挖掘.现有的知识图谱构建算法大多受限于ABox范畴(定义1),即仅关注实体间的关系构建.这种处理方式等价于将知识图谱简化为一种"数据图",即实体间的关联网络.而当前较为成熟的知识图谱构建方法则致力于将知识表示具象化、系统化(定义2),例如从局部层次上构建基于实例的知识图谱(第5.1节),以及从全局视角出发构建具有可解释性特征的知识图谱(第5.2节).
虽然将算法局限于传导模式会大大缩小其适用任务范围。大多数用于知识图谱补全的方法都受到这一限制——它们不允许基于新增实体或关系进行推理。仅有一小部分归纳式方法专注于利用新增实体进行推断——目前很少有专门设计用于预测新关系的方法。尽管如此,在某些情况下仍然有可能实现对未知关系的推测——例如,在现有蛋白质信息下推测与之相互作用的新药物(如蛋白-药物相互作用)是一个可行的方向;然而,在这种模式下无法基于已知蛋白质的知识推测潜在的新药物。
评估设置方面存在不足。由于未建立统一的标准体系而影响相关领域的发展,在知识图谱补全研究中社区面临着诸多挑战:
- 在超参数扫描过程中缺乏统一的标准协议, 导致不同研究之间难以进行结果比较与验证. 这一问题使得相关领域的进展显得不够令人满意: 2020 年一篇论文 [100] 引起了对该领域自 2011 年 RESCAL 方法以来十多年来整体发展状况怀疑 [8].
 - 评估数据集存在明显的局限性. 研究人员花了多年时间才发现, 常用的 FB15K 数据集在训练与测试阶段存在严重的数据泄露问题, 因为许多三元组实际上是其他三元组的逆向关系. 这导致简单的逆向三元组预测算法就能获得较高的分数 [87]. 此外, 文献中使用的数据集数量较少(见表 3), 存在针对基准优化而非针对具体任务优化的风险.
 - 数据集规模. 相比于目前广泛使用的 KG 数据(通常包含约 10^8 级别的三元组), 评估过程中所使用的数据规模较小(例如, 常见的数据集 FB15k-237 和 YAGO3-10 的规模约为 10^5 级别).
 - 评估标准. 最常用的评价指标是基于保留三元组集合上的 hits@k 评分. 这种方法倾向于重建已存在于原始 KG 中的链接(即已知存在的边), 而忽略了那些真正新发现且语义上正确的潜在新链接. 如果一个方法能够发现大量真正新链接, 它们的排名往往高于那些仅保留已知链接的方法, 然而这种高价值的方法却可能在下游任务中表现不佳. 比如最近提出的 sem@k [102] 指标旨在弥补这一缺陷, 尽管在没有昂贵的人工标注"黄金标准"的情况下量化这些指标的具体效果仍存疑.
 
对外部知识存在偏差。大多数现有的知识图谱构建技术主要依据自身属性预测链接形成过程,在不依赖传递闭包的传统归纳方法中同样也适用这种方法。然而,在基于LLM的新KG推理技术中,则主要依赖于外部补充信息(即LLM生成的内容)。值得注意的是,在归纳环境下这种技术虽然具有显著潜力,并有望使LP超越仅基于现有模式推断的能力。这一观点必须建立在充分认识到仅通过推断现有KG结构模式可能无法解决原始驱动KG构建任务的核心问题这一前提之上:因为这种简单的推断方式很可能只是模仿了KG固有的不足之处。因此,在探索如何解决原始任务时必须避免这种局限性思维:也就是说,在注入KG完成过程中的外部信息时不能仅仅局限于LLM这一种可能性
除了KG之外, 还有其他知识图谱也能提供类似的背景知识, 这种情况引致KG连接与完成任务之间有趣且有益的关联[103]. 最近研究显示, 在利用KG的时间评估作为信息源方面取得了一定进展, 这一发现可视为KG外部信息应用的一个重要例证. 上述批判性思考为未来的发展方向提出了几点建设性意见.
转向语义嵌入研究。
依赖外部资源
数据集和评估方面也是一项重要工作。为了提高评估质量, 评估数据集需要变得更大, 并且性质更加多样化, 这能更好地反映现实世界中的下游任务需求。这与我们之前提出的建议具有紧密关联。在实验设计和结果报告方面, 同样需要实施更多创新方法, 从而确保研究的有效性与可靠性。这些未来的研究方向都面临着不同类型的挑战, 包括计算资源的需求更为密集以及潜在的人工智能幻觉问题等复杂因素的影响。除了实验设计外, 我们还需要开发新的评价指标体系, 以便更准确地衡量下游任务的实际性能。
