Advertisement

Instruction Tuning for Large Language Models: A Survey

阅读量:

目录

  • Abstract

  • 1. Introduction

    • 好处:
    • 挑战:
  • 2. 方法

  • 3. 数据源

  • 4. LLM 指令微调技术

  • 5. 多模态指令微调技术

  • 6. 领域特定指令微调技术

  • 7. 高效参数优化方法

  • 8. 性能评估及改进分析

    • 8.1 HELM 评估框架
    • 8.2 基于低资源条件下的指令优化方法研究
    • 8.3 小规模指令数据集应用研究
    • 8.4 指令优化数据集评估指标体系构建
    • 8.5 IT 学习模式复制性研究深入探讨
    • 8.6 特殊领域LLM模仿行为特征解析

Abstract

本文探讨了快速发展的指令调优(IT)领域的研究进展。这一技术是提升大型语言模型功能与可控性的重要技术手段。具体而言,在包含(instruction, output)对的数据集上通过监督学习的方式进一步训练LLM的技术路径即为指令调优的过程。这一方法旨在填补LLM下一词预测目标与用户期望行为之间的鸿沟。在本研究工作中我们系统回顾了相关文献资料涵盖一般方法论数据集构建模型训练以及多模式应用等多方面的内容并分析了当前存在的潜在问题及批评意见并致力于揭示现有战略和技术体系中的现有不足

1. Introduction

一个主要问题是大型语言模型(LLM)的训练目标与用户的期望之间存在不一致:LLM通过优化在大规模语料库上预测上下文单词的错误来实现这一目的;然而用户期望模型能够'有效地且可控地执行他们的指令'。针对这一不一致的问题,指令调优(IT)作为提升大型语言模型能力及控制性的技术手段,在实际应用中具有重要意义。

好处:

(1) 在指令数据集上对 LLM 进行优化策略 ,减少了其在执行下一步骤时与用户之间信息传递不匹配的风险;
(2) IT 提供了更加可控和可预知的模型行为模式,并通过指定指令来约束模型输出范围;这些指令确保了系统输出始终符合所需特征或领域知识要求,并为人类干预提供了明确渠道;
(3) IT 拥有较高的计算效率优势 ,能够显著提升在特定领域内的适应速度,并且完全避免了传统LLM需要进行大量重训练或架构修改的需求。

挑战:

(1) 难以制定正确涵盖所需目标行为的高质量指令 :现有指令数据集通常在数量、多样性和创造力方面受到限制;
(2) 人们越来越担心 IT 只能改进 IT 训练数据集中大力支持的任务
(3) 人们强烈批评 IT 只捕捉表面的模式和风格而不是理解和学习任务
人们对LLM的分析和讨论越来越感兴趣,包括预训练方法、推理能力、下游应用,但很少涉及 LLM 指令微调的主题。这项调查试图填补这一空白,整理这个快速发展领域的最新知识。具体来说:
第 2 部分介绍了IT中采用的一般方法
第3 节概述了常用IT 代表性数据集 的构建过程。
第4 节介绍了具有代表性的指令微调模型
第5 节回顾了用于指令调整的多模态技术和数据集 ,包括图像、语音和视频。
第6 节回顾了利用IT 策略使LLM适应不同领域和应用程序 的工作。
第7 节回顾了使指令微调更加高效 的探索。
第8 部分介绍了对IT 模型的评估、分析 以及不足

2. Method

论文在这节描述指令调优的工作流程。

pipeline

(1)构建指令数据集:由以下三个元素构成:每条指令;可选输入以补充说明指令内容;以及基于指令与输入所预期的结果。
构建该数据集一般有两种方法:
①基于带注释自然语言数据集的数据集成:通过模板将带有文本标签对的数据转换为(指令, 输出)对,并从现有带注释的自然语言数据集中收集(指令, 输出)对。
②利用 LLM 生成输出:快速获取特定指令所需输出的另一种方法是使用 GPT-3.5-Turbo 或 GPT4 等 LLM 生成。
对于涉及多轮对话的 IT 数据集,在大型语言模型中让其模拟扮演不同角色(用户与AI助手),即可自动生成符合格式的消息。
(2)基于收集到的 IT 数据集,在全监督学习模式下可以直接对预训练模型进行微调训练:给定具体的指令与输入信息后,在序列预测输出标记之间逐步训练模型。

3. Dataset

IT datasets

4. 指令微调的 LLM

在本节中

IT LLM

5. 多模态指令微调

multi-modal
Video-LLaMA
InstrucrBLIP

6. 特定领域的指令微调

在本节中,论文描述不同领域和应用程序中的指令调整。

domain-specific

7. 高效的调优技术

先进的微调策略旨在通过不同途径(包括基于加法、基于规范以及基于重新参数化)优化有限数量的模型参数以适应各种下游任务需求。其中一种基于加法的方法通过附加额外可训练参数或功能模块来实现这一目标;例如,在适配器调整中对模型进行增益层设计;而基于提示的方法则通过引入特定类型的辅助信息来引导学习过程;另外一种基于规范的方法则允许在不显著影响模型整体架构的前提下聚焦于特定类型的学习操作;例如,在BitFit算法中对偏置项进行了独立优化;最后一种重新参数化方法则致力于将权重表示转换为更为高效的形式以实现更加精准的学习操作。

  • LoRA: 通过低秩更新实现 LLM 的高效适应性机制。该技术采用 DeepSpeed 作为训练骨干架构,并基于其核心观点指出:新任务适应所需的 LLM 权重变化主要集中在低维子空间中。
  • HINT: 将指令优化的广泛优势与按需微调相结合以避免冗余处理。该方法本质上基于超网络模型,在处理自然语言指令时能高效生成适应参数模块,并通过减少对常规微调或输入串联方法的依赖来提升效率。
  • QLoRA: 综合最佳量化方案与内存优化策略以实现高效微调目标。该方法引入了 4 位 NormalFloat(NF4)量化方案,在处理 LLM 权重时实现了典型正态分布下的量化优化,并利用统一内存功能将部分状态转移至 CPU 内存以缓解 GPU 内存压力。
  • LOMO: 通过梯度计算与更新操作的融合实现有限资源下的全参数微调能力。该技术的本质在于反向传播过程中的梯度计算与参数更新步骤合并为单一操作以减少完整梯度张量存储的需求,并结合梯度裁剪、范数计算通道优化以及动态损失缩放等手段以保证训练稳定性。
  • Delta-tuning: 提供了理论分析框架下的最优控制视角以指导子空间优化过程。从技术角度来看,增量调整是一种限制在低维流形上的子空间优化方法,在保证模型行为一致性的同时实现了对下游任务的最佳参数调节。

8. 评价、分析和批评

8.1 HELM 评估

HELM是一种针对语言模型(LM)的整体评估方法,其主要目标是增强对语言模型内部机制的理解,并提供更为全面的能力、风险及局限性分析。与传统评估方法相比,在关注对象和评估标准上存在显著差异:首先强调的是任务多样性覆盖;其次采用的是从多维度进行评估;最后则是通过标准化手段确保结果的一致性和可比性

8.2低资源指令调优

评估 IT 模型在各类应用场景中与当前监督学习领域的最优模型(SOTA)对应所需的最低基础训练数据量。

8.3 较小的指令数据集

IT需要大量的专业指令数据进行训练

8.4 评估指令调优数据集

IT模型的高度依赖性源自于其基于IT数据集的设计。目前,在研究这类IT数据集时仍然存在诸多挑战与不足

8.5 IT 只学习模式复制吗?

为了解决模型通过指令调优获得的具体知识存在模糊性的问题,Kung 和 Peng 比较了更改指令与原始指令在优化过程中表现的不同,深入分析了当前 IT 模型中观察到的显著性能改进可能归因于它们提取表面模式的能力,例如学习输出格式以及进行猜测,而不是理解和学习具体任务

8.6 专有 LLM 模仿

LLM 模拟被用来从更强大的系统中获取输出数据,并从而用于对开源 LLM 进行微调训练。通过这种方式的应用而言,开源 LLM 被用来获得与其专用系统相当的能力。研究人员应当致力于提升基础模型的质量以及指令示例的标准,并非单纯地模仿专有系统。

全部评论 (0)

还没有任何评论哟~