Advertisement

人工智能的技术概念解释

阅读量:

SFT被称为监督微调(Supervised Fine-Tuning)的一种缩写。这是一种广泛应用的深度学习策略,在预训练的大规模语言模型中主要被采用。

参考该文

该文章源自什么是大模型微调?微调的分类、方法、和步骤

什么是大模型微调?

大型语言模型的微调训练(Fine-tuning)是指,在经过大规模预训练的基础上,利用指定的数据集进行额外的训练步骤,以便使模型更适合特定的任务或领域。

其基础原理在于这些机器学习模型本质上只能反映并基于它所接收的数据集的逻辑与认知。然而对于那些未被其处理过或未包含在训练数据中的样本这些模型往往表现出较差的表现能力无法有效地识别和理解这些未知样本。同样地在大模型的情况下也无法很好地回答特定情境下的问题同样无法在特定情境下提供有效的解决方案或答案。

例如,在一个通用大模型中包含了多种语言的信息,并能实现自然的交流对话功能。然而,在医药领域希望开发出能准确解答患者的用药咨询问题的应用系统,则必须对这一通用大模型投入大量新的数据来进行训练与理解支持工作。比如,在这种情况下我们就可以举个例子问大家:布洛芬能否与感冒药一起服用?为了确保该系统能够提供准确的回答就需要对手上原有的基础模型进行针对性的优化与微调工作。

为什么大模型需要微调?

经过预先训练的预训练模型(Pre-trained Model)能够完成诸如回答问题总结数据以及编写代码等任务;然而目前尚无一个单一的大模型能够解决所有类型的问题。尤其是在那些涉及行业专业问答或与某个组织自身信息相关的领域中存在无法被通用大模型处理的情况。因此在这些特殊情境下我们需要通过利用专用数据集优化适合的基础架构从而实现针对具体任务或问题的有效应对而这种技术手段已成为解决复杂问题的核心工具

大模型微调的两个主要方法

我们已经探讨了微调的概念及其重要意义。让我们来介绍两种主要的微调策略。基于微调对预训练模型整体调整的程度, 全局fine-tuning是一种全面优化的方法, 而知识重用则是另一种重要的策略:

  1. 全微调(Full Fine-tuning):全微调是指对整个预训练模型进行微调,包括所有的模型参数。在这种方法中,预训练模型的所有层和参数都会被更新和优化,以适应目标任务的需求。这种微调方法通常适用于任务和预训练模型之间存在较大差异的情况,或者任务需要模型具有高度灵活性和自适应能力的情况。Full Fine-tuning需要较大的计算资源和时间,但可以获得更好的性能。
  2. 部分微调(Repurposing):部分微调是指在微调过程中只更新模型的顶层或少数几层,而保持预训练模型的底层参数不变。这种方法的目的是在保留预训练模型的通用知识的同时,通过微调顶层来适应特定任务。Repurposing通常适用于目标任务与预训练模型之间有一定相似性的情况,或者任务数据集较小的情况。由于只更新少数层,Repurposing相对于Full Fine-tuning需要较少的计算资源和时间,但在某些情况下性能可能会有所降低。

选择全微调还是迁移精简则需依仗任务属性及可用资源而定。若任务与预训练模组间存在显著差异或必要求模组具备高度自适应才力,则全微调方案较具适宜性可被选中;反之若任务与预训练模组间相类性较著且资源受限则可采用迁移精简方案更为经济实用。于实证应用范畴内当权衡各项因素后可依照实验数据及具体应用场景挑选出最契合之微调手法以实现最优效能

大模型微调的两个主要类型

此外,在基于所使用的数据集类型的不同基础上进行分类后的大模型微调中,则主要可分为两种:一种是基于监督学习的策略进行参数优化...另一种则是基于无监督学习的技术进行特征提取...

  1. 监督微调(Supervised Fine-tuning):监督微调是指在训练过程中使用标注过的训练数据集。这些标注信息明确了模型应输出的目标结果,在监督学习中通常会采用具有特定任务的数据集进行训练。例如,在分类任务中使用的带有标签的任务特定数据集能够帮助模型更好地适应特定的任务需求。
  2. 无监督微调(Unsupervised Fine-tuning):无监督学习中的参数调整过程被称为无监督微调。这种方法仅利用未标注的输入样本进行学习和优化操作,在这一过程中模型无法直接获得明确的目标输出指导。

监督微调通常应用于具有标签的任务专用数据集从而能够提升模型性能的效果显著。无监督微调则侧重于归纳提炼无标签数据中的特征学习与表示学习进而归纳提炼出更有价值的特征表示并有助于提升模型泛化能力。两种方法既可以单独应用也可以结合使用具体情况取决于任务以及可用数据的数量性质

大模型微调的主要步骤

大模型微调如前所述涉及多种方法,并且每种方法均涉及独特的流程、方式、准备工作以及所需周期。然而大多数大模型微调都包含以下主要阶段,并需做好相关准备。

  1. 数据准备:根据目标任务需求收集相关训练数据,并对其进行系统性整理和预处理。
  2. 模型选择:基于目标任务特性和数据特点,在众多候选模型中筛选出最适合当前场景的架构。
  3. 策略设定:综合考虑任务需求与资源限制因素,在微调过程中采用最优策略配置。
  4. 超参数配置:明确微调过程中的关键参数设置,并根据实验结果动态调整优化策略。
  5. 参数初始化:基于预训练权重设定初始值,并在全微调模式下重新分配所有层的权重参数。
  6. 微调启动:按照设定方案对选定模型展开迭代优化过程。
  7. 评估反馈机制建立后定期对模型性能进行测试评估
  8. 最终测试阶段通过独立测试集全面检验最终模型表现
  9. 部署前进行全面性能评估并据此进行针对性优化

这些步骤涵盖了通用的大模型微调方法,在具体实施时的任务与需求决定了步骤与细节的具体内容。基于具体情况分析后,在必要时可以根据实际效果进行适当调整以实现最佳效果。

然而,在实施过程中虽然相较于训练基础模型而言已经显著减少了所需的时间和资源消耗(相较于训练基础模型而言),但尽管如此,在实施过程中仍需积累丰富的经验和掌握必要的技术(尽管如此),以及管理与开发的成本(以及管理与开发的成本)。

//------------------------------------------------------------------------------------------------

2、强化学习(Reinforcement Learning)

强化学习是一种基于"试错过程"的学习机制,在这个过程中智能体(Agent)通过与环境(Environment)互动所获得的奖励(Reward)来引导其行为(Action),其最终目标是实现对系统的最优控制并最大化地获取奖励(Reward)

2)强化学习与监督学习存在显著差异,在强化学习中无需依赖高质量标签数据或大量标注数据;其独特之处在于无需依赖高质量标签数据或大量标注数据;更重要的是,强化学习通过自身机制生成训练数据集,并并利用生成的数据集进一步优化模型参数 ,从而实现最优策略的学习。

3、通过人类反馈强化学习(Reinforcement Learning fromHuman Feedback)发挥的作用是,在训练过程中融入了人类反馈这一机制。这类似于专业人士之间经验传递的方式:通过与他人的互动对话中获得知识。RLHF构建了一座连接人机的经验桥梁,在这种模式下AI能够迅速掌握宝贵的人类经验。在强化学习框架中结合了人类反馈机制后,在生成模型中使生成图像与文本提示实现充分对齐

监督微调需要调整参数,强化学习不需要调整参数。

RLHF旨在通过环境中的互动来提升智能系统的性能,并使其能够实现特定目标的优化。该方法利用"奖励"与"惩罚"机制引导系统自主探索环境并优化其行为模式。与传统的监督学习不同的是,在强化学习中无需人工标注数据即可通过反馈信号逐步调整系统的行为策略。

4、迁移学习,参考该文

迁移学习(Transfer Learning)是一种机器学习技术,在完成特定任务A的基础上训练好的模型可以被将其应用到完成特定任务B的过程中进行优化与调整。其核心在于从已掌握的相关知识领域中提取经验和模式来提升对新领域的理解和能力;尽管大多数机器學習算法都是专為解題单一問題而設計,但促進_TRANSFER_LEARNING_算法的研究與開發仍然是 machine learning 社区持續关注的重要課題

在数据标注资源有限的情况下(虽然有大量的数据),机器学习模型的训练效果仍然受限

第5章、supervised learning and unsupervised learning, [reference this article]( "reference this article")

在有监督学习中使用的训练数据集合是带有标签的数据集合,在这种情况下相当于向模型提供了正确的答案信息,并且会使用测试集合(作为训练集合的一个子部分)来进行预测操作。相反,在非监督学习场景下,模型将被提供未加标签的数据集合来进行建模过程。

6、注意力机制,参考该文

始注意力模型!

在卷积神经网络中,最大汇聚机制通过考察一块空间区域内的特征,并选择只保留一个特征来实现。这种设计对应于一种“非此即彼”的注意机制,在这一过程中其核心是通过筛选选出最重要的局部特征信息并进行集中处理

(2)TF-IDF规范化是基于每个词元所包含的信息量来评估其重要性分数的过程。该过程的核心在于对重要性高的词元给予更高的权重值,在此基础上构建相应的权重矩阵并进行进一步的处理运算。尽管存在多种注意力机制,在基本层面上它们都需要对一组特征进行重要性评估。具体计算方式和处理策略则取决于具体的算法设计。特征相关性越大... 如图11-5所示。

全部评论 (0)

还没有任何评论哟~