Advertisement

Continual Learning of Large Language Models: A Comprehensive Survey

阅读量:

本文属于LLM系列文章中的内容,并对《Continual Learning of Large Language Models: A Comprehensive Survey》这一论文进行了深入的翻译工作。

大型语言模型的持续学习:综合调查

  • Abstract
  • Introduction
  • Preliminary Section
  • Overview of continuous large language model learning stages
  • Continuous large language model learning stages
  • Protocol for evaluation protocols and datasets
  • The Discussion Section
  • Conclusion

摘要

有效且高效的将静态预训练大型语言模型(LLM)应对不断演变的数据分布挑战仍然处于核心位置。当特定需求驱动下对LLM进行定制时,在先前知识领域往往展现出显著性能退化现象被称作"灾难性遗忘"。尽管持续学习(CL)领域已展开广泛研究但这一问题在LLMs领域呈现出新的表现形式。本研究全面概述并深入探讨了CL背景下LLMs的研究进展除了基础介绍外本研究主要分为四个关键部分首先描述了基于持续学习LLMs的整体框架包含两个维度:垂直连续性即从一般能力向特定能力逐步适应以及水平连续性即跨时间和领域范围内的持续适应(第3节)。在此基础上我们总结了现代CL背景下学习LLM的主要三个阶段:连续预训练(CPT)、领域自适应预训练(DAP)及连续微调(CFT)(第4节)。随后我们概述了评估协议及其可用数据来源(第5节)。最后我们探讨了与LLM持续学习相关的若干前沿问题(第6节)。这项调查揭示了当前对持续预训练适应与微调大型语言模型研究相对薄弱之处表明学术界有必要给予更多关注。当前亟需关注的关键议题包括构建实用易获取的评估基准开发专门方法对抗遗忘并在动态发展的LLM学习范式下促进知识迁移。本研究列出的所有相关论文可在https://github.com/Wang-ML-Lab/llm-continual-learning-survey中查阅。

1 引言

2 前言

3 持续学习与大型语言模型:概述

4 连续大型语言模型的学习阶段

5 评估协议和数据集

6 讨论

7 结论

在本研究中

全部评论 (0)

还没有任何评论哟~