Advertisement

Retrieve-Rewrite-Answer: A KG-to-Text Enhanced LLMs Framework for Knowledge Graph Question Answering

阅读量:

文章目录

    • 题目
    • 摘要
    • 方法
    • 实验
    • 消融

题目

获取并处理-修改和优化-回复:针对解决知识图谱相关问题的将知识图谱转换为增强型文本的LLMs框架

图片名称

论文链接:ArXiv页面
项目GitHub链接:GitHub仓库

摘要

尽管大型语言模型(LLMs)在知识密集型任务中表现优异但在记忆所有世界知识尤其是长尾知识方面仍显不足。本文探讨了针对丰富世界知识的提示功能的知识图谱问题解答(KGQA)任务中的方法开发。研究表明检索知识图谱数据以提升语言模型对KG信息的理解能力可显著提高其在KGQA中的表现效果然而现有方法未能有效处理幼稚园级别的口语表达即未能充分理解从书面形式到口语化的转换过程为此我们提出了一个以答案敏感为导向的"KG-to-Text"方法该方法能够将KG数据转化为高度参考价值的语言化陈述基于此我们构建了一种专门用于解决KGQA任务的语言模型框架经过多个KGQA基准测试该新型KG到文本增强型LLMs不仅在答案准确度上表现优异而且生成的知识语句实用性也得到了显著提升

方法

大型语言模型(LLM)凭借其出色的能力在各领域展现出巨大的影响力,在NLP领域逐渐得到广泛认可。
然而,在零点场景中展现出色能力的同时,在多个高知任务上却表现欠佳。
这一发现表明LLM拥有庞大的参数量不足以容纳全球所有知识。
研究表明,在回答问题方面LLM仍存在问题如幻觉与事实准确性不足。
具体而言,在执行特定类型的知识密集型任务时(例如KGQA),LLM的表现尤为欠佳。

为了解决这一问题, 最近的研究致力于通过外部知识提升LLM的能力. 其中一项研究重点是在大规模语料库中持续训练LLM. 然而, 这种方法要求投入大量文本数据、计算资源和时间. 前期的一些研究则试图利用外部知识(如知识图谱和网络内容)旨在显著提升LLM在下游任务中的性能. 这种做法旨在解决模型在事实知识方面的不足. 受此启发, 其他研究则通过预先向问题中加入相关事实信息来构建强化提示机制, 从而以更加直接的方式增强了LLM的知识储备. 尽管这种方法已被证明是有效且经济的手段之一, 但它忽略了对知识表征的关注.

在本文中

图片名称
图片名称

检索增强的任务可用下述方式描述。对于一个基于知识的任务数据集(例如开放域QA问题),我们定义数据集D为{(x_i, y_i)}_{i=0}^{N}。其中x代表输入问题,y表示预期输出的答案。我们的系统由三个主要步骤组成。(i) 查询转换:基于输入x生成所需知识的查询表达式x˜;(ii) 检索操作:在文档集合中检索相关文档doc;(iii) 解读与预测:通过分析输入x及其相关文档集合[doc, x]来推断预期输出yˆ。一种直接而有效的方法是要求LLM对查询进行优化和扩展重组,能够显著提升信息检索效果。通过提示LLM对查询进行优化和扩展重组,并允许其生成零到多个新的搜索查询作为结果。

我们构建了一个新型的增强型 LLM 框架 KGQA-RWA(Retrieve-Rewrite-Answer),专为从知识图谱(KG)向文本延伸而设计。相较于以往KG增强型LLMs框架,在KG转文模块上实现了突破性进展:该模块采用经过微调训练的人工智能模型将检索到的关键子图转化为具有高度参考价值的文本化语句。针对KG至文本注释数据稀缺的问题,我们开发了一种自动化生成KG至文本语料的方法:通过基于问题相关性筛选关键子图,并采用GPT-3.5作为辅助生成工具,在模型对回答进行反馈优化的基础上自动生成高质量知识描述用于标注数据集。我们采用开源LLM对所生成语料进行了多版本微调训练,并系统研究了不同LLM输出文本质量对其KGQA性能的影响程度。在四个典型KGQA数据集上进行了系统评估:实验结果显示,在主流LLM选择下我们的框架均展现出显著的有效性优势:这不仅验证了其方法论创新的价值所在;同时也揭示了不同知识表示形式对KGQA任务效果的影响规律:最终证实了所提出的框架所产出的知识表示是最具实用价值的一种

知识图谱(KG)是由主语𝑠、关系𝑟以及客体𝑜构成的三元组(𝑠、𝑟、𝑜)集合表示为𝐺 = {(𝑠, 𝑟, 𝑜)|𝑠, 𝑜 ∈ 𝐸, 𝑟 ε 𝑅},其中𝐸和𝑅分别代表实体集与关系集。KG-to-Text是一种基于知识图谱的知识驱动型文本生成技术。给定 KG 的子图𝐺 ′ = {(𝑠, 𝑟, 𝑜)|𝑠,{o} ∈𝐸 , r ε R} , KG-to-Text 的目标是生成与子图𝐺 ′语义一致的文本序列𝑋 = (𝑥1 ,𝑥2 , … ,𝑥𝑛 ) 。知识问答(KGQA)则是指在知识图谱基础上回答自然语言提出的问题的任务:给定一个问题𝑞及主题实体𝑒ℎ ,其任务是生成能够正确回答该问题的答案𝑎 。

图片名称

该框架包含三个主要步骤:子图检索、KG-to-Text 和知识文本增强推理。该模块由三个步骤构成:包括跳数预测、关系路径预测以及三重采样,请参见下图以获取详细信息。在跳跃预测阶段,我们的模型旨在推断问题所需的步数,并据此指导后续的关系路径识别。在跳跃预测阶段中,在跳跃阶段中,在跳跃阶段(jump stage),我们的模型旨在推断问题所需的步数,并据此指导后续的关系路径识别。我们将跳跃预测建模为一种基于预训练语言模型(PLM)的任务,在此过程中,在这一过程中,在这一过程中,在此过程中(during this process),我们通过构建一个基于PLM的分类任务来实现对跳数的推断。

图片名称

给定问题𝑞, 我们通过PLM对问题𝑞进行编码以获取其向量表示, 然后将该编码输入至线性分类器以预测潜在跳数𝐷′ℎ的概率分布, 其中𝑑′ℎ𝑐代表在给定问题表示𝑞下跳数ℎ𝑐的概率. 我们选择具有最高概率的跳数ℎ作为预测结果. 在训练阶段, 真实分布𝐷ℎ被表示为一个单热向量, 其中真实跳数ℎ𝑔𝑜𝑙𝑑的概率被设定为1, 其余情况的概率值设为0. 采用交叉熵损失函数𝐿𝐶𝐸用于评估模型性能, 并通过该损失函数引导模型更新其参数.

图片名称

对于给定的问题 𝑞 和预期跳跃次数 ℎ ,我们将通过 ℎ 次预测来实现跳跃关系的逐步推导。在步骤 𝑡 的过程中 ,我们利用 KG 中的关系推理框架以及预训练语言模型( PLM )对第 𝑡 跳关系进行分类预测 。具体而言,在步骤 1 中 ,我们将输入问题 𝑞 进行编码处理以生成向量表示 𝑞𝑣 。随后将该向量传递至线性分类层中计算 KG 中与之相关的顶级 K 关系路径 // ,这些路径将作为初始的一跳关系结果 // 。在后续步骤中 ,我们将上一步骤的结果路径与当前输入数据相结合并进一步推导新的跳跃关系路径 // 。具体而言,在步骤 t (t > 1 ) 中 ,我们将 (t − 1 ) 跳跃路径中的各条候选路径分别与当前输入数据进行融合并计算其匹配概率值 // 。通过这种方式 ,我们能够逐步构建起完整的跳跃关系推理路径集合 // 。经过全部 h 步的推导后 ,我们可以获得最终的最佳 h 跳跃路径集合 //{ 对于每一条生成的关系路径其得分值即为所有关系概率值乘积的结果 //{
为了提高推理效率 我们采用了三重采样策略:首先按照得分值由高到低排序所有候选路径;其次依次从 KG 知识图谱中抽取对应三元组构成推理序列;最后重复上述过程直至获得 M 条有效的推理序列 //{ 这些优化后的推理序列将作为增强 KGQA 模型知识的重要补充信息 //{

图片名称

我们的重写模块主要功能在于通过KG-toText模型将结构化的三元组数据转化为自由格式的中文文本内容。具体而言,在训练过程中我们采用了与问题相关联的知识图谱数据集(即公开获取的法学硕士知识库)。在此过程中我们需要完成的主要工作包括以下几个方面:第一部分我们将利用给定的知识图谱𝐺以及对应的自由格式输出𝑦进行操作;第二部分我们将通过模板𝑇1将生成的中间结果𝑥转化为具体的图文提示>p1:“你的任务是以自然语言的形式将知识图谱转化成一段或多段连贯的文字描述。知识图谱的具体内容如下:{三元形式文本𝑥};请按照逻辑顺序将其转化为清晰易懂的文字描述。”随后我们将根据这一提示对LLM进行微调以生成相应的描述性文字输出;最后我们将所有输出结果整合成一个完整的段落作为最终的回答输出结果

在模型训练的过程中我们会采用教师强制策略来进行监督学习操作;具体来说我们会在每一步骤中使用当前的提示𝑝1以及之前生成的内容作为输入并将其与真实的目标输出𝑦进行对比从而不断优化模型参数以提高其预测能力

图片名称

通过强化知识表示能力, 为了将生成的知识体y与问题q进行整合, 我们设计了一个模板T2用于整合. 该模板构建了一个用于整合的事实框架, 并提出了相关的问题. 接着将增强提示p2输入到问答模型中, 并获取预测的答案a.

图片名称

目前现有的 KGQA 基准中尚未提供专门针对问答任务的图文对照数据集。基于此背景,我们开发了一种基于 KGQA 任务导向的语料生成方法。该方法以 ChatGPT 为工具,在生成能力方面展现出显著优势,并因此被选作语料生成的核心引擎。整个过程可划分为三个主要环节:首先是从 KG 数据中提取相关子图;其次是对这些子图进行文本化处理;最后是对生成文本的质量进行评估并优化。具体而言,在处理带关系路径标注或推理三元组的 KGQA 基准时,我们通过注释引导 KG 数据抽取相关子图;而对于采用 SPARQL 注释的基准,则需修改相应的 SPARQL 查询以获取中间实体并构建与问题相关的子图结构。在处理阶段,则是将给定的问题 𝑞 转换为与之相关的三元形式文本 𝑥,并通过模板系统将其映射到相应的图文转换提示 𝑝1 上;最后将这些提示输入 ChatGPT 并根据输出结果生成自由格式回答 𝑦。由于缺乏标准标注体系的支持,在评估生成文本质量时我们不得不依赖于BLEU、METEOR 和 ROUGE 等指标中的部分特性指标来进行间接评估(具体细节见下文)。然而鉴于目标是提升 LLM 在 KGQA 任务中的表现效果,在实际应用中我们更关注于通过问答模型对生成文本质量和相关性进行直接反馈与指导优化(此处需注意的是LLM通常会输出一段段的回答而非单一答案实体)。为此我们引入了一个基于 hit@1 的新指标来衡量预测答案 𝑎 是否正确:只要预测结果中包含至少一个与问题相关的答案实体,则判定回答为正确(此处需注意的是在这种情况下我们需要同时收集三重格式文本 𝑥 和自由格式回答 𝑦 作为训练数据中的样本对

实验

MetaQA 是基于电影领域的大型多跳 KGQA 基准系统,在该系统中包含了丰富的知识资源。具体而言,在该知识库中存储了总计超过40万个三元组数据,并整合了大约4.3万的电影实体以及9种核心关联关系类型。这些数据被按照问题跳跃次数划分为三个系列:Meta-QA-1hop系列涵盖所有单步推理场景(共计约6.5万条数据),而Meta-QA-2hop系列则包含了超过一 lakh 条双步推理案例(其中包括约6.5万道训练题、1.4万道开发题和约6.5千条测试题)。每个查询项都附加了头部实体名称、答案信息以及推理过程中涉及的相关实体类别信息。在本研究中,默认采用 Meta-QA-2hop 数据集作为基准,并将其视为"原始"版本的问题集合进行后续实验验证工作;此外,在实验过程中还利用提供的实体类别信息筛选出最佳的关系路径配置方案

WebQSP 是一个 KGQA 基准,在 KG 的基础上具有更大的规模。它通过 SPARQL 查询对 WebQuestions 进行筛选,并排除无法直接回答的问题。剩下的 4,737 个问题中包含 3,098 个训练案例和 1,639 个测试案例(其中包含一跳或两跳推理的问题),这些问题均具备相应的主题实体及其推理链,并伴随相应的 SPARQL 查询。我们通过精简 KG 突出其中与问题相关的具体关系及提及实体的二跳范围内的三元组。精简后的 KG 包含了总计约180万个实体、627个关系以及570万条三元组信息。

WebQ采用Google Suggest API从网页上收集相关问题;基于这一基准的一个子集;我们的研究依赖于关系路径或SPARQL查询的注释信息;因此,在构建模型时,我们采用了来自WebQSP中的SPARQL查询结果;实验数据显示总共有4,737个样本(其中包含3,098个训练样本和1,639个测试样本);在知识图谱构建方面,则采用了与WebQSP相同的策略。

之江问答(ZJQA)源自之江实验室,并涵盖共计20,491个中文KGQA数据问题。我们将这些题目划分为训练集、开发集和测试集(共计14,999道训练题、2,147道开发题以及3,345道测试题)。这些问题主要涉及机器人领域的一跳或多跳问题。每个问题均提供一个头实体、答案以及一条黄金关系路径。此外,该数据集还包含了超过11千个三元组、约9千个实体以及39条关系。

我们的框架构建了两个依托LLM的组件:KG-toText模块和问答系统。为了实现这一目标,在构建过程中我们采用了多种先进的技术方案,并结合了多个主流模型进行优化。具体来说,在KG-toText模块方面主要采用了Llama-2(7 billion参数版与13 billion参数版)、Flan-T5(3 billion参数版)等模型进行开发;而在问答系统方面则应用了Llama-2(7 billion参数版与13 billion参数版)、T5(拥有0.8 billion到3 billion不等的参数配置)、FlanT5(80 million到3 billion不等的参数配置)以及T0(拥有3 billion与11 billion参数配置)。值得注意的是,在实际应用中我们对所有模型进行了全面调优,并特别针对特定场景进行了优化设计。此外,在构建过程中我们还参考了现有的相关技术方案,并在此基础上实现了创新性的改进。

图片名称

表中展示了我们提出框架的整体效果与WebQSP及WebQ基准的表现。我们采用Llama-2-chat(13B参数)构建了KG-to-Text模型。对于问答模块的选择上,则采用了以下几种方案:首先是在WebQSP领域分别采用了T5(0.8亿、3亿、11亿参数版本)、T0(3亿、11亿参数版本)以及Flan-T5(80 million、3亿、11亿参数版本)。与此同时,在WebQ任务中也采用了T0(3亿、11亿参数版本)。通过这些配置组合可以看出,在多个法学领域中我们的框架显著超越了基准方法的表现。值得注意的是,在T5模型上我们的框架表现出最显著的优势。此研究表明将三重格式文本转换为自由格式文本有助于提升LLM对事实知识的理解能力,并增强了其在KGQA任务中的表现

T5 是一种以文本到文本格式针对多个任务进行预训练的编码器-解码器模型。继之后,我们使用 T5 的 LM 适配版本作为 WebQSP 上的问答模型,以确保公平比较。Flan-T5 是 T5 的扩展,它是在从现有数据集中自动生成的指令的大规模集合上进行进一步指令调整的。我们使用 Flan-T5-XL (3B) 作为 MetaQA 的 KG-to-Text 模型,使用 Flan-T5-Small (80M)、Flan-T5-XL (3B)、FlanT5-XXL (11B) 作为 MetaQA 的问答模型网络Q。我们不将这个模型用于ZJQA,因为它不支持中文。T0 在T5 的基础上根据各种提示进行了微调,以提高零样本泛化性能。我们使用 T0 (3B, 11B) 作为问答模型,将我们提出的框架与之前在 WebQSP 和 WebQ 上的工作进行比较。ChatGPT4是OpenAI开发的基于GPT-3.5构建的大型语言模型。它经过了巨大的语料库和人类注释的预先训练,并且擅长理解和生成类似人类的文本。具体来说,我们在本实验中使用GPT-3.5 Turbo。我们无法微调 ChatGPT,因为它尚未开源。因此,我们通过API访问它,并将其用作问答模型。

基于生成式KGQA之前的评估机制中

WebQSP/WebQ 我们分析SPARQL查询以识别每个问题的关键关系路径,并选用bert-base-uncased这一模型来进行跳跃次数与关系路径预测的任务划分。为提升准确性,在构建每个问题的关键子图时我们进行了SPARQL查询的优化以获取中间实体信息。为了提高训练效率我们将来自分割集的所有问题是用来构建语料库的基础数据来源之一并且通过生成超过12,000对图形文本数据实现了监督微调的目标效果最终剔除了无法提供有效回答的答案样本共11例

MetaQA 我们省去了跳跃性预测步骤,并直接采用了实际提供的跳跃次数。我们将bert-base-uncased用作关系路径预测的分类模型。从训练分割中随机选取了17,000个问题来构建语料库,并制作了超过13,000对图文本数据用于KG至文本的微调过程。

我们基于bert-base-chinese模型的研究目标在于实现跳数预测与关系路径识别的任务探索,并在训练数据分割的基础上随机选取了约14,000个问题用于构建语料库,在此基础上获得了超过13,000份KG-to-Text标注样本

在子图检索过程中,在处理WebQSP与WebQ时,我们配置了K=5(即每个预测关系路径后续可参考的候选关系数量设定为5)以及M=5(即每个问题样本最多允许有5条推理路径)。而对于MetaQA与ZJQA系统,则采用了较小规模的K=3与M=5参数组合。我们的问答模型框架基于Pytorch6平台构建,并整合了Transformers7技术和Peft库8的支持。通过LoRA技术实现高效微调过程。实验环境中,在4台NVIDIA Tesla V100 GPU上运行了KG到文本模型的训练任务,并进行了10个epoch的学习迭代工作,默认批量处理规模设定为128批。随后,在单独的一台NVIDIA Tesla V100 GPU上对KG到文本模型以及问答系统的推理性能进行了评估测试。整个优化过程采用了AdamW优化算法,并设置了初始学习率为1e-4的标准参数设置。此外,在LoRA机制下实现了精确度指标值分别为64、128及0.05的关键性能指标。

开放域质量保证基准是由问题及其对应答案组成的集合...表示为{(q_i, a_i)}。我们采用了ChatGPT来构建阅读器和冷冻改写器系统。采用精确匹配(EM)指标和F1分数作为评估标准来衡量生成结果的质量。在RL框架中设计奖励机制时,在检索结果中发现正确答案会给予正面反馈;若未发现正确答案则施加负面评价。综合考虑EM指标、F1评分及Hit机制的表现后计算总分

图片名称

上表阐述了我们提出的框架基于不同LLM的不同性能表现差异与Flan-T5-XL相比Llama-2-chat在KG-to-Text方面更具优势这种差异可能源于模型参数量的不同从尺寸上看与7B13B的Llama-2-chat相比3B的Flan-T5-XL规模较小这可能是其性能较弱的原因双参数版本的Llama展现出良好的性能表现我们认为这是由于KGto-Text与其他NLG任务相比相对简单7B参数量足以满足需求在问答模型中Llama-2-chat(13B)在MetaQA上的表现最优而ChatGPT的表现最差值得注意的是即使在无知识支持的情况下ChatGPT的表现优于包括7B13B参数的Llama-2-chat这表明由于其参数规模远超前者 ChatGPT保留知识的能力更强然而它并未像Llama-2-chat那样高效利用相关知识在此研究中我们采用了Chinese-Alpaca-2中文版模型它是基于Llama-2架构通过大量中文语料及教学数据进行过量微调而成尽管参数规模与Flan-T5-XL存在显著差异但Chinese-Alpaca-2在ZJQA上的表现不仅不低于ChatGPT甚至略胜一筹这凸显持续预训练的重要性Chinese-Alpaca-2(13B)在各种知识表示格式中均展现出色但在行程任务中却未能超越ChatGPT

我们在MetaQA实验的基础上深入探讨了不同方法生成的知识对问题解答模型的影响。重点考察了这些方法所生成的知识在促进或阻碍问题解答过程中的双重作用,并构建了两个基准体系:完全未知状态(无先验知识)和基础强化学习框架(三重强化),并将其与其他变种版本进行系统对比分析。通过统计发现,在促进有效率的问题解答方面, 基于现有先验条件的方法相较于完全未知状态能带来显著提升, 同时其可能带来的负面影响也相对可控;而在信息提取效率上, 基于强化学习优化所得文本摘要的质量表现最佳

相同的三元组以不同形式检索对知识图谱问答表现出显著影响。未结合外部知识时,问答模型的表现最差。这表明基于大规模参数量的事实存储存在问题导致事实准确性不足与知识缺失的问题。其他增强型LLM方法均表现远超该基准线,证明整合与问题相关的知识图谱的有效性,其中MTL的进步相对有限.这是因为MTL仅在多数据至文本数据集上进行预训练,其自然语言理解和生成能力尚欠完善.因此从子图至文本的转换过程易丢失语义信息而导致增强有限.基于最小生成器(MVP)的知识与三元形式的知识在问答任务中显示出可比性.其原因在于 MVP经过多NLG任务预训练并在此基础上进一步微调于数据至文本数据集,相较于MTL拥有更强的文本理解和生成能力.但因缺乏特定领域内知识图谱至文本语料库的微调而未能达到与三元组相似的效果.传统三元形式的知识是以往工作中最常用的方案.然而实验结果表明即使LLM也无法有效从三元组中提取语义信息.这表明法学硕士更倾向于接受基于文本的知识而非结构化三元组,因为他们在接受大量语料库预训练后已获得较强的专业素养,而将三元组视为其中一部分认识是片面的.我们提出的框架融合了多种KG到Text模型超越了现有所有问答模型基准线的成绩表明确保了我们KG到Text方法能生成答案导向性强的文字型知识同时也凸显了我们框架对主流LLM的强大适配能力

消融

我们系统性地对多类表征形式展开对比分析,并基于相关法学硕士数据集中的多个样本构建出一个完整的框架体系。这项消融实验的主要目的是探讨表征形式与法学硕士在KGQA任务中相互作用的关系

具体而言,在本研究中我们采用了Llama-2-chat(7B/13B)以及Flan-T5-XL(3B)两种大语言模型分别用于KG-to-Text 模型中,并同时用于问答系统中。为了全面评估不同知识表示方法的效果,在实验设计中我们设置了以下三种对比基准:一是无知识状态下LLM直接处理查询;二是基于三重知识图谱构建的知识表示;三是现有条件下采用的KG-to-Text 模型生成的知识表示方法。通过这种方法学设置旨在评估KG增强方法在提升LLM处理KGQA任务中的效果。

在以往的研究中,三重知识被广泛采用作为一种核心方法。我们首先对检索到的三元组去除冗余以消除重复信息,并通过构建主谓宾的结构来简化每个三元组的表达。

为了验证微调过程的有效性, 我们将 MVP 设定为空闲可用的 KG-to-Text 模型。MVP 是一种基于语言模型的知识生成工具, 首先是在监督模式下对包含 11 种不同语言生成 (NLG) 任务的数据集进行系统性的预训练, 然后是在针对各任务提供软提示的情况下进一步优化模型性能, 达成特定任务的能力目标。随后, 我们将 MVP-data-to-text 视为 MVP 的一个版本, 这种变体通过在带标签的数据到文本数据集上进行专项优化, 能够在未来实现 KG 到文本转换功能, 并且能够在零样本环境下完成这一转换过程。值得注意的是, 我们不适用于 ZJQA 的中文处理需求, 因此选择了其他知识表示格式

MTL 知识我们采用 MTL-data-to-text 模型作为一个现成可用的 KG-to-Text 框架实现方案。此模型基于 MVP 的不同变种设计而成,在标记数据至文本数据集的混合预训练过程中展现出良好的性能表现。相比之下 MVP 数据至文本模型则缺少其他 NLP 任务相关的微调能力以及基于任务的具体软提示预训练阶段的支持这一缺陷导致我们无法直接应用该方案最终呈现了基于各种 LLM 作为问答系统的不同知识表示格式的研究成果与现有方法相比在 KGQA 评估指标下我们的框架在多个 LLM 上均展现出了更好的性能表现

图片名称

全部评论 (0)

还没有任何评论哟~