Advertisement

Unifying Large Language Models and Knowledge Graphs: A Roadmap

阅读量:

5.1 LLM-augmented KG Embedding

知识图嵌入(KGE)主要通过将每个实体与关系表示为一个低维向量空间中的特定形式(称为"嵌入")。这些"嵌入"包含了知识图谱语义与结构的关键信息,并可应用于多个应用场景如问答系统、推理引擎以及个性化推荐系统等[182][38][183]。传统的KGE方法主要依赖于基于知识图谱结构的信息来优化定义在嵌入空间中的评分函数(例如TransE[25]和DisMult[184]等模型)。然而由于现有的结构完整性存在局限性,在表征那些不可见的实体以及长尾关系方面往往表现不足[185][186]。为此最近的研究工作开始采用利用大语言模型对实体与关系进行文本描述编码的方式以增强知识图谱的知识表示能力[40][97]

5.1.1 LLMs as Text Encoders

Pretrain-KGE[97]是一项研究具有代表性,在图16中展示了其框架。基于KGs提供的三元组(h, r, t),Pretrain-KGE[97]首先通过LLM编码器将实体h、t及其关联关系r的文本信息转化为向量形式:

其中eh、er及et分别代表实体h、t与关系r的起始嵌入向量,在实验过程中, Pretrain-KGE采用BERT作为大型语言模型的编码器模块.随后将这些初始嵌入数据传递至KGE模型中运行处理,并获得最终结果vh、vr及vt.在对KGE进行训练时,则采用标准的KGE损失函数来优化该模型参数:

其中f为KGE评分函数,γ为边际超参数,

将负样本作为研究对象。这样可以帮助KGE模型有效地获取所需的知识结构信息,并保留LLM的部分核心能力。KEPLER[40]提供了一个将知识嵌入与预训练语言表示统一起来的框架。该框架不仅通过利用强大的LLM生成高质量的文本增强知识嵌入效果,并且能够无缝地整合事实知识到LLM中。Nayyeri等[137]利用LLM生成了世界顶级级别的文本表示,在句子级、文档级以及更高级别的层次上展现出卓越的能力。通过采用四元数和二面体超复数表示方法,在图结构嵌入方面实现了高度融合与互补性提升。Huang等[138]开发了一种多模态融合方法,使得LLM能够用于多模态知识图嵌入任务,并显著提升了下游应用的表现效果。CoDEx[139]提出了一种基于LLM授权的新损失函数设计策略,在三元组可能性预测方面表现出了显著的优势特性。

5.1.2 LLMs for Joint Text and KG Embedding

另一种方法并非以KGE模型为基础来分析图结构而是直接利用LLM整合图结构与文本信息于同一个嵌入空间中

在模型训练过程中,在处理文本时会将尾部实体标记为[MASK]。将此句子输入至LLM系统中,并在此基础上对其进行微调训练以便更好地捕捉隐含信息。随后,在经过微调后,在使用过程中 LLM能够预测出未显示的实体信息。数学表达式如上所示:

其中Θ代表LLM的参数。通过优化LLM,在测试集上正确识别实体t的概率达到最大值。经过训练后,在LLM模型中所对应的Token序列被用于构建实体及其关联的关系嵌入。同样地,LMLE[140]提出了一种对比学习策略,从而提升生成Token在知识图谱嵌入(KGE)中的表现。此外,为了更有效地捕捉知识图谱中的图结构特征,LambdaKG[142]通过采样邻近节点来增强模型的学习能力。

5.2 LLM-augmented KG Completion

知识图谱补全(KGC)是一项任务是通过推理填补知识图谱中未完全描述的知识实体。与Knowledge Graph Embedding(KGE)类似,在传统KGC方法中虽然也关注于Knowledge Graph(KG)的整体架构布局但相对忽视了丰富的文本信息资源。然而随着Large Language Models(LLMs)技术的发展整合运用使得KGC方法能够有效地对文本内容进行编码提取或者生成新的事实从而显著提升了其性能水平。这些方法按照其主要采用的技术类型可大致分为两类:第一类是基于编码器的LLMs(如PaE模型)第二类则是基于生成器的LLMs(如PaG模型)。

5.2.1 LLM作为编码器(PaE)

如图18所示,在(a)、(b)和(c)三个子图中可以看出, 该行工作首先利用单一编码器对文本信息及知识图谱的事实进行编码. 随后, 他们将编码后的表示输入到预测头中以判断三元组的有效性. 这里的预测头可采用简单的多层感知机(MLP)或者传统知识图谱评分函数, 其中包含常见的TransE[25]与TransR[187]模型.

Joint Encoding联合编码

由于仅仅具备编码能力的是编码器类的大语言模型(例如BERT[1]),因此KG-BERT[26]通过将一个三元组(h, r, t)被表示为文本序列,并进而采用LLM对其进行编码(图18(a))。

其输出结果被分类器用于预测三元组的可能性,并表示为[CLS]标记。

其中σ(·)表示sigmoid函数,在这里用于激活表示向量;e[CLS]代表通过LLM编码得到的一个特定表示向量。为了增强KG-BERT的有效性,MULTI-TASK LEARNING-KNOWLEDGE GRAPH Convolutional Network (MTL-KGC)[143]提出了一种基于多任务学习的KGC框架,将其额外的支持任务融入模型训练过程中,具体包括预测(Rank Pairing: RP)和相关性排序(Rank Ranking: RR)两个子任务。随后,PKGC[144]通过将三元组及其支持信息转换为预设模板的自然语言表达来评估每个三元组(h,r,t)的有效性.模型会对这些自然语言表达进行二值分类处理.其中,支持信息由h和t各自的属性提取而来,并具有语言化的功能.例如,对于包含"勒布朗·詹姆斯"这一人物关系的三人组(h,r,t),模型会将其个人属性以口语化的形式表达出来:"勒布朗·詹姆斯:美国篮球运动员".研究者[LASS][145]进一步指出,语义理解能力和图结构信息对于KGC同样具有重要价值.因此,本文提出了一种联合学习语义嵌入与结构嵌入的新方法.该方法将每个完整的三元组信息传递给LLM模型,并对h,r,t三个实体分别计算其对应的LLM输出结果进行平均池化处理.随后将这些嵌入特征传递给基于图卷积网络的方法TransE进行知识图谱重建.

MLM Encoding.

现有研究普遍采用仅对三元组的局部信息进行编码的方式,并未深入处理整个语义信息序列(图18(b))。针对这一问题,提出了基于掩码语言模型的方法MEMKGC[146]。该方法通过设计独特的屏蔽实体识别机制(SEM)来判断哪些实体应被遮蔽。对于输入文本来说

与 Eq. 4 相似,在这种情况下, 它旨在最大化被屏蔽实体成为真实实体 t 的概率。进一步地, 为了获取不可见实体的知识, MEM-KGC 中的多任务学习机制与基于文本描述的超类预测机制相结合:

该研究提出的OpenWorld KGC框架[147]在现有基础之上拓展和优化了经典的MEM-KGC模型。采用管道式架构设计思路旨在解决传统开放世界知识图谱构建中的关键问题。其中主要包含两个关键组件:实体描述预测子网络(EDP),以及辅助推理组件;另一部分则专注于从不完整的三元组(h, r, ?)中推断出可能存在的隐含实体。随后将该隐藏状态传递至方程7所涉及的知识图谱头部节点嵌入层。

Separated Encoding.

然后将这两部分各自由llm进行编码,并利用[CLS]令牌的最终隐藏状态分别作为(h, r)以及t来进行表示。随后将这些表示代入评分函数中进行计算与分析, 以判断三重奏的可能性。
公式为:

StAR[148]在其文本上采用了基于暹罗式的文本编码器,并将其转化为独立的上下文表示。为了规避传统文本编码方法(如KG-BERT)导致的组合爆炸问题,StAR引入了一个评估机制,在其架构中设置了确定性分类器和空间量度工具来进行表征与结构学习,并通过挖掘空间特征来强化结构性知识整合。SimKGC[149]则是一个采用暹罗式文本编码器对文本进行表征编码的典型实例。在完成编码后,在对比学习框架下对这些表征进行处理:具体而言,在计算每个三元组的编码表示与其正样本与负样本之间的相似度时采取了特殊策略——即最大化正样本间的相似度同时最小化负样本间的相似度;这一操作有助于构建能够区分可信与不可信三元组的表征空间。为了防止模型过度拟合纹理特征信息,CSPromp-KG[188]采用了一种参数效率更高的提示学习机制。

LP-BERT[150]这类模型主要通过融合MLM编码与分离编码实现了混合知识图谱生成(KG)的方法。其核心架构包含预训练与微调两个主要阶段。在模型的预训练环节中,主要通过标准MLM机制对具备知识图谱数据的大语言模型进行了系统性培训。而在后续的微调阶段,大语言模型则分别对该模型所处理的这两部分数据进行深入编码,并通过对比学习策略实现了性能优化,其效果与SimKGC[149]类似

5.2.2 LLM as Generators (PaG)

最近的研究工作引入了LLM作为知识图谱(KGC)中的序列到序列生成模型。其中图19中的(a)和(b),展示了这些方法主要基于编码器-解码器架构或者仅采用解码器架构的LLM。该系统接收包含查询三元组(h, r, ?)的连续文本片段作为输入,并将其映射至尾实体t的具体文本内容。

GenKGC[99]采用了大型语言模型BART[5]作为主干架构。该系统受到GPT-3[60]所采用的上下文学习方法启发,在数据关联上构建了系统的知识表示能力,并在此基础上提出了基于关系引导的知识图谱生成(KG-G)方法框架。该框架通过整合多模态信息与动态推理机制,在生成能力方面实现了显著提升。为了实现这一目标,在设计过程中采用了模块化体系结构方案,并基于先进的预训练语言模型构建了高效的参数共享机制。 KG-S2S[152]则作为一个全面的知识图谱生成框架,在支持不同类型知识图谱生成任务方面展现出强大的适应性与灵活性特征:它能够同时处理静态知识图谱生成任务、时态知识图谱生成任务以及少样本知识图谱生成任务(即零样本与一阶近邻)。 KG-S2S通过引入额外的信息编码机制,在传统的三元组表示基础上构建了一个四元组表示(h, r, t, m),其中m代表额外的条件属性元素;这种设计不仅能够统一不同知识图谱生成任务的需求特征,还能够有效提升系统的推理能力和泛化性能水平。 KG-S2S框架整合了多种先进的知识表示与推理技术:包括基于实体描述的知识表示方法、软提示引导的信息融合机制以及Seq2Seq解码策略;同时结合约束性解码算法实现了对生成实体质量的有效控制与提升。此外,在具体应用中还结合了基于提示工程的设计理念;例如对于闭源大语言模型(如ChatGPT和GPT-4)而言,则是通过设计定制化的提示工程来指导其完成特定的任务需求;如图所示的具体实现方案中包含以下几部分:首先是一个清晰的任务描述说明;其次是一些具有代表性的示例案例;最后则是一个具体的测试输入输出接口;这些组件共同构成了一个完整的提示式调用方案系统架构设计框架

5.2.3 PaE与PaG的比较

作为编码器(PaE),LLM在LLM编码表示顶部增加了额外的预测模块。从而使得PaE框架更容易进行参数优化,并且由于我们只能优化预测头而必须固定LLM编码器。此外,在集成现有知识图谱构建工具(KGC)函数时可以很容易地指定其输出形式,并从而能够应用于多种不同的知识图谱构建任务。然而,在推理过程中,PaE需要以kg为单位计算每个候选项对应的分数值。这可能导致计算成本显著增加,并且这些计算结果仅限于可见实体范围内的应用。此外,在某些情况下PaE还需要依赖LLM的具体表示输出结果来进行运算操作;但值得注意的是,在一些情况下(例如GPT-41这样的最新模型),这些模型本身是闭源的且不允许访问其内部表示输出信息。

另一方面,在基于LLM的知识图谱构建框架(PaG)中不需要预测头部实体(即尾部),因此该框架能够直接使用LLM而不必进行微调或访问表示层。因此,在知识图谱构建任务中该框架具有广泛的应用性。此外,在PaG框架下可以直接生成尾部实体,并且其结果具有高效性。给定头部实体和关系信息后可以从候选对象中预测出对应的尾部实体(从100个候选对象中选择):头部:《霹雳天使》;关系:尾部类型:喜剧;GB;头部:《霹雳天使》;关系:尾部前传;《霹雳天使》全速运行图20.基于提示的知识图谱构建完成PaG框架后,在推理过程中不需要对所有候选对象进行排序操作,并且这一方法也容易扩展到不可见实体的情况。然而,在PaG框架中存在一些挑战性问题:首先生成的结果可能多样化,并且这些结果不一定存在于知识图谱中;其次由于采用了自回归机制生成结果而导致单个推理过程耗时较长;最后如何构建一个有效的提示机制使得知识图谱能够被直接输入至LLM仍是一个未解难题。
因此尽管在知识图谱构建任务上该框架显示出良好的潜力表现,
但在选择合适的基于LLM的知识图谱构建框架时,
必须权衡模型复杂度与计算效率之间的关系。

5.2.4模型分析

Justin团队[189]就LLM与知识图谱增强(KGC)方法展开了系统性研究。他们深入考察了现有嵌入表示的质量特征,并发现这些表示对于提升实体检索效能仍存在显著局限性。基于此观察结果,研究者们开发了若干技术手段来优化嵌入在候选检索环节的表现效果。此外该研究还重点考察了影响模型性能的关键因素维度包括:向量提取模块、实体检索模块以及模型架构选择部分,并在此基础上构建了一个完整的LLM应用框架以实现其在知识图谱补全中的实际价值

全部评论 (0)

还没有任何评论哟~