AI:大语言模型训练
步骤
- Self-Supervised Learning Process (SSLP),简称SSL
- Supervised Fine-Tuning Process (SFFT)
- Learning Mechanism from Human Feedback (LMHF)
Self-Supervised Pre-Training
通过从输入中推断其组成部分的技术称为自监督预训练(Self-Supervised Pre-Training, 简称SPT)。这种技术是一种机器学习方法,在模型能够基于自身输入的不同部分预测这些部分的过程中发挥作用。由于未标注的数据量通常更大且较为充足,在利用未标注的数据时这种方法尤其有效。以下是该概念的总结:
目标:
通过在充足的数据中进行模型训练,在无标签环境中使其获得有用的特征表示;这些特征表示随后可用于特定任务的微调过程。
过程:
- 数据增强采用的方式包括对输入数据进行各种方式进行增强(如图像旋转、文本遮罩),从而创造一种监督形式的数据集。
- 预文本任务设计采用辅助任务的方式,在此过程中模型必须预测增强样本的相关属性(如给定带有遮罩词的句子时的任务可能是预测遮罩词)。
- 对比学习中发现的方法也被用来训练模型使其能够区分相似与不相似样本的情况,并促进其学习具有意义的特征。
- 在预文本任务的基础上使用损失函数评估模型解决这些特定问题的能力来进行后续的模型训练工作。
- 经过预训练后使用模型学到的知识进行下游的任务处理工作。
优点:
- 采用无标签数据,相较于标注数据更容易获取。
- 这有助于生成更强大的具有更强泛化能力的模型。
- 在标注数据有限的情况下提升下游任务的表现。
挑战:
- 开发高效且具有挑战性的预文本任务, 以便获取高质量的表征.
- 进行大规模训练时所需的大规模模型.
- 保证所学得的表征能够迁移至多种多样的任务领域中.
应用:
- 自然语言处理(NLP):基于BERT和GPT等预训练模型,通过自监督学习以理解语言为任务。
- 计算机视觉:包括SimCLR和MoCo在内的模型通过无监督地学习图像表征。
- 语音识别:这些模型具备能力从过去的数据中推断出未来声音变化模式。
在人工智能领域中,自监督预训练已经成为一个坚实的基础,在这一过程中,模型得以从大量未标注的数据中自主学习,并带来了广泛而深远的影响。
Supervised Fine-Tuning
监督学习方法(Supervised Fine-Tuning, 简称SFT)是一种广泛应用于机器学习领域的核心技术方法,在特别是在自然语言处理(NLP)和计算机视觉等前沿领域得到了广泛应用。以下是对这一概念的详细介绍:
定义:
基于监督学习的方法称为监督式微调策略,在一个已有的预训练模型基础上,在利用标注数据集的情况下对其进行额外训练,并以满足特定下游任务的需求为目标。这一过程一般会在预训练模型已经掌握了通用特征与表征之后开展。
过程:
预训练过程: 模型经过大规模的数据量学习,在采用语言建模或图像遮罩预测等技术下完成了预训练阶段。
数据准备: 为特定的任务准备好经过人工标注的数据集合,其中包含输入样本及其对应的标签信息。
结构修改: 对原有预训练架构进行了适当的修改以适应后续的具体任务需求。
监督学习: 通过人工标注的方式对选定的数据集合实施分类任务的学习过程。
性能评估与优化: 在独立测试集中对当前模型的表现进行评估,并根据实验结果调节超参数或重新设计网络结构来提升预测效果。
优点:
- 主要依靠预训练模型积累的通用知识,可以减少对大量标注数据的消耗。
- 微调过程在计算资源与时间投入上相对较少,这是因为模型主要通过针对特定任务进行优化来提升性能。
- 能够显著提升模型在特定任务上的性能。
挑战:
- 预训练模型可能需要进行较大的规模优化工作才能有效适应某些特定的下游任务。
- 当下游任务的标注样本数量有限时, 模型容易出现严重过拟合现象。
- 必须确保预训练任务与下游任务之间具有高度的相关性, 以便于微调过程的有效开展。
应用:
- 在自然语言处理领域中, 包括BERT RoBERTa以及GPT在内的预训练模型均可进行微调, 适用于情感分析 文本分类 以及命名实体识别等多个应用场景。
- 在计算机视觉领域中, 预训练的卷积神经网络(CNN)也可用于图像分类 目标检测 和图像分割等多个应用场景。
- 监督式微调已成为当前深度学习应用中的一个重要技术环节, 它显著提升了模型在特定应用场景下的性能水平。
Learning from Human Feedback
学习来自人类反馈(Learning from Human Feedback, 简称LfHF)是一种机器学习范式
该方法的核心优势在于其能在缺乏明确奖励定义的情况下实现有效的学习效果
基本概念:
- 人类反馈: 既可以是对模型输出的具体评分或矫正方式的具体说明,也可以是从用户行为或偏好数据中间接获取的反馈信息。
- 强化学习: 该种技术通常与强化学习(RL)相结合应用,在这种框架下智能体通过与环境互动来自主优化并实现最佳行为策略。
- 安全性和可解释性: 该种方法有助于提升模型的安全性和可解释性能力,并且使人类能够直接参与指导其学习过程。
过程:
- 初始化: 基于预训练模型或随机初始化的方法作为起点。
- 交互: 模型在指定环境下完成任务并生成相应的输出或行为。
- 收集反馈: 人类评估者提供的反馈信息包括奖励信号、错误纠正和偏好排名等多种形式。
- 更新模型: 通过应用强化学习算法进行调整以优化模型参数。
- 迭代: 循环以上步骤直至循环终止条件满足为止。
方法:
- ** reward modeling ( 奖励建模 ) :** 利用训练后的模型能够准确预测人类给予的各种状态下的 rewards 信号,并将其作为强化学习算法中的 reward 函数进行应用。
- ** preference learning ( 偏好学习 ) :** 在 direct 的 reward 信号获取存在困难的情况下 ,可以通过建立和比较不同 model 输出之间的偏好关系 ,从而实现对 reward 信号的学习。
- ** inverse reinforcement learning ( IRL ) :** 该技术的核心在于通过对 human 行为模式的分析 ,反推出潜在的 reward 函数表达式。
应用:
- 对话系统: 基于人类反馈掌握对话流程和用户偏好。
- 机器人控制: 针对复杂物理场景利用人类指令优化执行策略。
- 推荐系统: 基于用户互动数据学习偏好并提供个性化推荐。
挑战:
- 主观性和不一致性: 人类反馈往往带有主观色彩,在不同的个体之间也可能出现意见分歧。
- 样本效率: 基于人类反馈的学习过程通常会耗费大量时间与资源。
- 安全性和偏见: 当所获得的反馈数据中存在偏差或错误信息时,可能导致模型学到不当行为。
LfHF作为人工智能领域中的一个重要研究方向,在推动构建符合社会规范的人工智能系统方面发挥着关键作用。
