Advertisement

A Survey of Knowledge-Enhanced Pre-trained Language Models

阅读量:

本文属于LLM系列的文章,针对《A Survey of Knowledge-Enhanced Pre-trained Language Models》的翻译工作。

知识增强的预训练语言模型综述

摘要
1 引言
2 背景
3 KE-PLMs在自然语言理解任务中的应用
4 KE-PLMs在自然语言生成任务中的应用
5 未来研究方向
5.1 整合同质与异质数据的知识
5.2 深入探索多模态知识
5.3 提供可解释性支持
5.4 实现持续学习能力
5.5 提升知识整合效率
5.6 扩大生成多样性

  • 6 结论

摘要

预训练语言模型(PLM)基于自监督学习策略在大规模文本语料库中进行训练,在NLP领域的各类任务中均取得了显著的性能表现。尽管拥有庞大参数规模的PLM能够有效地积累从海量训练文本中提炼出的丰富知识,并在微调阶段为下游任务提供有益支持,但其缺乏外部知识积累的能力导致推理能力相对薄弱。为此,研究者持续致力于将外部知识融入PLM,以解决上述局限性。在本文中,我们对知识增强预训练语言模型(KE-PLM)进行了全面综述,旨在为这一快速发展领域提供清晰的分析框架。我们分别从自然语言理解(NLU)和自然语言生成(NLG)两个主要任务出发,为KE-PLM引入了科学的分类体系。对于NLU任务,我们将知识类型划分为语言知识、文本知识、知识图谱以及规则知识四类。在NLG任务中,KE-PLM主要可分为基于知识图谱的方法和基于检索的方法。最后,我们探讨了KE-PLM在一些具有潜力的发展方向。

1 引言

2 背景

3 KE-PLMs用于NLU

4 KE-PLMs用于NLG

5 未来的方向

在本节中,我们对未来KE PLM可能的研究方向进行了探讨,并阐述了其潜在的研究重点。这些研究方向可能涉及解决现有问题和挑战的各个方面。

5.1 整合来自同质和异质来源的知识

现有的研究大多局限于单一知识源的利用,例如知识图谱或网络资源等。因此,如何整合异构知识源的知识,仍然是未来研究领域的重要方向。在上一节中,我们介绍了若干先前研究,这些研究致力于通过整合不同知识类型来提升问答系统的效果。例如,UniKQA将外部知识整合到知识库中,包括文本、表格和三元组关系。通过将知识库中的三元组和半结构化表等异构知识源线性化处理,作为文本生成的基础,将知识库中的结构化知识与文本中的非结构化知识相结合,从而扩展了外部知识的来源。UDT-QA则将知识图谱和表格等结构化知识引入开放域问答领域,并以线性序列的形式呈现,作为文本生成任务的输入。在开放域问答领域,提升PLM对多个知识源的集成能力,不仅能够显著提高知识覆盖率,还能使模型生成更加可靠和准确的答案。

5.2 探索多模态知识

现有研究主要聚焦于单一模态知识的获取,即来自文本或列表信息的知识来源。然而,除了文本和列表信息外,图像、视频和音频等多模态数据同样可以作为知识抽取的来源,这有助于提升基于预训练语言模型(PLM)的知识抽取性能(KE PLM)。一些研究已开始探索整合多模态知识的方法。其中,KB-VLP和ERNIE-VIL是具有代表性的研究工作。KB-VLP通过从外部知识库中提取知识信息,并将其作为额外的输入,来增强模型的语义对齐能力以及知识感知能力。ERNIE-VIL则通过将图像的输入描述文本解析为结构化场景图,并设计跨模态预训练任务,来关注视觉和语言模态之间的详细语义对齐。值得注意的是,由于图像和相关文本中蕴含着丰富的语义信息,通过注入这些不同知识模式以及对细节语义的关注,可以实现它们的相互补充和强化,从而显著提升PLM在自然语言理解(NLU)和自然语言生成(NLG)任务中的性能。

5.3 提供可解释性证据

尽管许多现有的知识表示语言模型(KE PLM)在一系列文本生成任务中表现出显著成效,但不容忽视的是,生成过程若涉及常识性知识推理,模型的性能将受到显著影响。

5.4 持续学习知识

现有工作多为在预训练阶段基于固定或未经更新的数据进行模型训练。然而,当模型面临新任务时,它们可能会忘记之前学到的基础知识,这可能导致灾难性遗忘问题。随着知识异质性不断扩大,探索既能有效获取新知识又不遗忘旧知识的方法成为提升模型能力的关键,这需要持续学习(即终身学习)以实现知识的有效整合。

ELLE提出了一种增强模型规模和复杂度的扩展模块,使其能够更有效地获取新知识并保留旧知识。K-adapter和KB-adapter通过在PLM中添加适配器模块,存储事实和语言知识,从而持续地将更多知识融入PLM中。

知识整合是未来研究的重要方向之一。持续的预训练应用将显著提升PLM的通用性,并在知识获取与遗忘之间实现平衡,从而有效解决灾难性遗忘问题。

5.5 优化将知识整合到大型模型中的效率

近年来,预训练模型和知识注入的规模持续扩大,计算效率和计算资源面临着由预训练模型和知识注入带来的重大挑战。尽管现有的大多数工作在各种预训练任务中都取得了显著成果,但知识融合过程中的成本问题却鲜有涉及。

5.6 增加生成的结果的多样性

生成多种可能的输出结果是自然语言生成(NLG)研究中的一个重要方向,也是生成式常识推理任务中追求结果多样性的核心目标。现有研究,如MoKGE方法,通过利用多样化常识知识图谱进行知识推理,从而实现NLG任务的多维度生成。在分析人类标注数据的基础上,将与输入信息相关的概念与生成过程中的关键环节相结合,并采用专家方法的混合使用,以实现生成结果的多样化。

6 结论

在一项系统性综述中,我们对KEPLM从NLU和NLG两个维度进行了全面分析,并分别对NLU和NLG提出了专门的分类体系,以突出其各自的重点。此外,我们深入探讨了分类法中的代表性研究。最后,基于现有研究的不足,我们展望了KEPLMs未来可能的研究方向,以期为相关领域的发展提供参考。

全部评论 (0)

还没有任何评论哟~