Exploring Large Language Models for Knowledge Graph Completion
文章目录
-
- 题目
- 摘要
- 简介
- 相关工作
- 方法
- 实验
- 结论
- 局限性
- 例子
题目
探索用于知识图谱补全的大型语言模型

论文地址:https://arxiv.org/abs/2308.13916
项目地址: https://github.com/yao8839836/kg-llm
摘要
在众多人工智能领域中, 知识图谱扮演着极其关键的角色, 但它们常常面临着数据完整性方面的挑战. 本研究致力于运用大型语言模型 (LLM) 来构建或完善知识图谱. 我们将知识图中的三元组视为文本序列, 并提出了一种名为 KGLLM 的创新框架来建模这些三元组. 这种方法采用提示机制, 利用生成响应来进行预测. 通过多个基准测试, 我们的系统展现出超越现有方法的性能水平. 此外, 微调规模较小的模型(如 LLaMA-7B 和 ChatGLM6B)比近期流行的 ChatGPT 和 GPT-4表现出更好的效果.
简介
大型知识图谱(KG),例如Freebase(Bollacker等学者于2008年)、YAGO(Suchanek等学者于2007年)以及WordNet(Miller 1995),为众多关键的人工智能任务提供了坚实的支撑。这些包括语义搜索、推荐系统(Zhang等人于2016年)以及问答系统(Cui等人于2017年)。
通常情况下,知识图谱表现为多关系网络结构,在此架构中以节点代表实体、边表示实体间的关联。每条边都被描述为一个三元组(头实体、关系、尾实体)的形式(简记作(h,r,t)),用来表示两个实体之间的关联。尽管知识图谱在很多方面表现得非常出色,在此领域仍存在诸多未完善之处。
许多研究致力于探索知识图谱补全的方法。目前广泛采用的知识图谱嵌入方法主要基于观察到的三元组事实的结构信息,并因此导致数据稀疏性问题。近年来的研究们发现整合文本信息有助于提升知识表示能力,并提出了多种融合策略(Socher et al, 2013; Xie et al, 2016; Xiao et al, 2017; Wang and Li, 2016; Xu et al, 2017; An et al, 2018)。我们之前的icularly KG-BERT模型(Yao et al., 2019)首先通过预训练语言模型BERT(Devlin et al., 2019)来编码先验知识和语境信息。值得注意的是,在效率和性能方面扩展了 KG-BERT 模型的最新研究表明,在效率和性能方面扩展了 KG-BERT 模型
最近的研究表明(Zhao et al, 2023)如ChatGPT和GPT-4(由OpenAI开发)等大语言模型受到了学术界的广泛关注。(此处"关注"替换为"受关注"使其更加正式)
在本研究中,我们引入了一种基于大型语言模型的知识图谱补全创新方法.具体而言,我们将实体、关系及三元组被视为文本序列,并将知识图谱补全建模为基于序列的输入输出问题.为此,我们采用开放式LLM框架(包括LLaMA项目(Toutron等人,2023)和ChatGLM项目(Du等人,2022))来处理这些文本序列,并根据其生成结果评估三元组或候选实体/关系的有效性.该方法已在多个知识图谱完成任务中展现出显著优势.完整的源代码已在GitHub上公开.我们的主要贡献包括:
- 本研究开发了一种新型的语言建模技术以支持完整知识图谱的构建。据我所知,在这一领域中尚未有其他系统性地将大型语言模型应用于知识图谱补充的任务。
- 在多个基准测试中进行的结果分析表明,在三元组分类以及关系预测任务上我们的方法表现出了卓越性能。
我们还进行了研究发现,对规模较小的模型(例如 LLaMA-7B、ChatGLM-6B)完成微调训练能够超越了当前主流的大模型架构。
相关工作
(Wang等人, 2017)与(Ji等人, 2021)对知识图谱补全技术进行了系统性综述。(基于这些技术所定义的三元组(h,r,t))的评分函数特征,则可将其划分为两大类:一类是基于平移距离模型的方法(例如TransE),其代表作是Bordes等人于(?)年的研究;另一类则是基于语义匹配机制的方法(例如DistMult),其代表作是Yang等人于(?年)?月的研究。此外,在这一领域中还应用了卷积神经网络这一方法,在该领域的应用同样取得了显著成效(Dettmers等人于?年及Nguyen等人于同一年等的研究均有所建树;Nathani等人也有相关成果))
上述方法主要依据三元组中的结构信息来进行知识图谱补全。然而,在整合不同类型的外部信息时(包括实体类型、逻辑规则以及文本描述),能够进一步提升系统的性能(Wang et al, 2017; Ji et al, 2021)。对于文本描述部分而言,在早期研究中(Socher et al, 2013),他们最初通过计算实体名称中词嵌入的平均值来表示单个实体。这些词嵌入都是从外部语料库中学习得到的。
Wang et al (2014a) 推荐通过将 Wikipedia 锚点与实体名称对齐,并将实体和单词嵌入到同一个向量空间中以实现信息整合。Xie et al (2016) 则采用卷积神经网络(CNN)来处理实体描述中的词语序列,并对其进行编码提取特征。在这一领域已有多项研究取得进展(包括 Xiao et al, 2017;Wang and Li, 2016;Xu et al, 2017;An et al, 2018)。Yao et al (2019) 提出了 KG-BERT 模型,并利用预训练语言模型(PLM)改进了现有技术。
近期研究表明,Wang et al(2021、2022)以及Lovelace和Rose(2022)通过升级KG-BERT中的交叉编码器结构,实现了双编码器设计,并显著提升了模型性能和推理效率。类研究中,KGT5(Saxena等人,2022)和KG-S2S(Chen等人、 )将补全知识图谱的任务建模为序列到序列学习框架。值得注意的是,在这些研究中所采用的预训练语言模型规模相对较小。
相较于现有的其他方法而言,在采用了更为强大的大型语言模型后,
我们的方法不仅具备上下文学习能力、指令执行能力以及逐步推理能力等独特优势,
而且能够有效提升KG填充任务的表现。
在KG填充方面表现出色的LLM最近,
将知识补全描述为LLM的一项基本评估指标。
近期两篇相关的研究论文(Xie et al., 2023;Zhu et al., 2023)
分别对ChatGPT和GPT-4在知识图谱中的链接预测任务进行了深入研究。
我们从这些研究中汲取了宝贵的经验,
并在此基础上提出了更为全面的知识图谱填充方案,
并对对话生成、问答系统以及复杂推理这三个主要任务进行了优化改进。
方法
在本章中阐述了知识图谱补全的任务及其相关工作方法
提示格式将是"Steve Jobs 和 Apple Inc. 之间的关系是什么?请从下面提供的选项中选择您的答案:出生于 | 成立 | 是公民 | ... | 办公地址."而期望的答案将是"Steve Jobs 创立了 Apple Inc." 实体(链接)预测任务。给定一个头实体和一个关系,在这种情况下是"史蒂夫·乔布斯"与"创立"的关系,请预测与之相关的尾实体,在这种情况下是"苹果公司". 实体(链接)预测任务分为两种类型:一种是给定一个头实体和一个关系,在这种情况下是"史蒂夫·乔布斯"与"创立", 请预测与之相关的尾实体, 在这种情况下是"苹果公司"; 另一种是给定一个尾实体和一个关系, 在这种情况下是"苹果公司", 请预测其对应的头实体, 在这种情况下是"史蒂夫·乔布斯". 实体(链接)预测任务询问的方式有五种类型:"史蒂夫·乔布斯创立", "苹果公司成立", "谁/什么创立苹果公司", "为什么苹果公司被创立", "在什么地方苹果公司被创立". 理想的回答应该是"史蒂夫·乔布斯创立了苹果公司."
为了实现KG与LLM的有效结合,在知识图谱领域具有重要研究价值的前提下

图 1:用于知识图谱(KG)补全的大型语言模型(LLM)图示。
实验

数据集与设置部分


表 2:多样化的方案在 FB13 数据集上展示了各算法在三种粒度级别的三重分类精确度(百分比)。其参考数据来源自相关文献。
表 3:基于 FB13 数据集的 100 个测试样本中展示了不同 LLM 在三种粒度级别的三重分类精确度。
我们对多种KG嵌入方法进行了系统对比分析:包括TransE及其扩展形式(如TransH、TransD、TransR、TransG和TranSparse)(Wang et al, 2014b; Ji et al, 2015; Lin et al, 2015; Xiao et al, 2016; Ji et al, 2016),神经张量网络NTN(Socher et al, 2013),以及Dist-Mult及其扩展形式DistMult-HRS(Zhang et al, 2018)。此外,还探讨了基于上下文的KG嵌入模型DOLORES(Wang et al, 2018);包含文本信息的KG嵌入TEKE(Wang and Li, 2016)、DKRL(Xie et al, 2016)[采用BERT编码器]以及AATE(An et al, 2018)。同时研究了预训练语言模型领域相关的方法:如KG-BERT(Yao et al, 2019)、StAR(Wang et al, 2021)、KGT5(Saxena et al, 2022)和KGLM(Youn and Tagkopoulos, 2023)。最后将这些方法与ChatGPT和GPT-4进行了性能对比
对于 ChatGLM-6B 的指令调整与推理功能, 本研究采用了其公共实现中的默认参数设置方案。在LLaMA 模型的配置中, 本研究采用了 Transformers Python 库的具体实现方案。为了方便查阅详细信息, 完整的内容可以在我们的源代码库中获取。对于 KG 完成模型部分, 则采用了其原始论文的结果数据或通过其官方实现还原出相应配置方案;而对于 KGT5 模型来说, 则基于我们自定义化的提示输入与响应输出机制进行了训练, 在其他配置方面则保持了与官方实现一致的设定;最后将自定义化的提示内容导入到 GPT-4 以及 ChatGPT 的在线界面系统中以获取最终结果。
表格 2 展示了 WN11 和 FB13 数据集上的三重分类模型准确率数据。当基础事实成立且响应包含肯定用语(如'是')时,在被评估实例中生成肯定判断;当基础事实成立但生成否定判断(如'否'),或者基础事实不成立但生成肯定判断时,则在被评估实例中生成否定判断。我们发现 LLaMA-7B 和 LLaMA-13B 在这两个基准数据集上的性能均未达到预期目标。然而,在特定知识图谱推理任务中接受过专门训练后(即处理 KG 数据时),KG-LLaMA 的性能表现出了显著提升效果。具体而言,在 KG-Llama2-7B 基础模型上经过优化后,在 KG-Llama2-7B 基础模型上表现最为突出,在 KG 数据集上取得了最佳的分类准确率数据。表 3 则展示了不同 LLM 模型在 FB13 测试集上的具体分类准确率数据对比情况:通过人工评估不同 LLM 的回答质量,并将每条测试实例的结果标记为正确或错误;最终统计结果显示 KG-Llama2 模型在 Fibre 等类别的推理能力上有明显优势,并且其性能表现与 GPT-4 接近并略占优胜


表 4 列举了多种方法下实体及其对应的链接进行预测的结果指标为 Hits@1。
表 5 列出了各关系间的预测评估得分为 Hits@1。
表4比较了多种预训练语言模型在WN18RR与YAGO310上的link prediction hit rates@1值。这些数值是首实体与尾实体的平均得分。对于LLM而言当其回答包含标签词则被判定为正确答案结果表明我们的方法显示出有潜力的表现因为KGLLaMA因指令转换而展现出显著的提升效果结合知识结构信息也能显著提高结果水平

表 6:不同 LLM 的示例输出。第一行取自 FB13-100,第二行取自 YAGO3-10-100。
表6展示了当输入内容一致时LLM与KG-LLM之间的响应差异。我们发现原始模型的回答不尽如人意,并通过指令调整可以让模型学习模仿训练三元组的方式并更加深入地理解事实。1).相较于仅具有少量预训练语言模型能力的系统来说LLM积累了更为丰富的通用知识。2).通过指令调整我们成功弥补了LLM在预训练权重与KG三元组描述之间的知识缺口
结论
在本文中, 我们开发了一种创新性的KG-LLM方法. 该方法在多种知识图谱补全任务中实现了卓越的SOTA性能分类及关系预测. 我们计划将KG-LLM作为具备知识增强功能的语言模型应用于多个NLP领域. 我们致力于优化现有的LLM快速构建技术.
局限性
虽然现有方法在利用LLM完成KG方面已展现出良好的效果,但目前该方法在处理仅凭实体或关系描述而缺乏实体名称或描述的KG时仍存在不足.此外,我们尚未充分利用高阶KG结构信息,这可能显著改善结果,尤其是在实体预测任务中
例子
请从以下选项中选择您的答案:以...闻名 | 属于...的人 | 涉及金钱交易 | 有子女 | 与其打来往 | 担任学术顾问 | 在性别方面有所成就 | 为其创作音乐作品 | 演艺生涯中有演出经历 | 去世于...地 | 在电影中出现过 | 参与活动 | 获得艾美奖 | 性别方面有所表现(如演员或导演)| 在...领域有所影响
