Llama 3.1 技术研究报告-6
6 推理
我们对两种核心技术进行了深入研究,并致力于提升 Llama 3 405B 模型的推理速度:(1) 流水线并行机制和 (2) FP16/FP8量化方案。我们的 FP8量化实现已正式开源。
6.1 流⽔线并⾏
当采用BF16格式表示模型参数时

当采用流水线并行进行训练时
我们对推理⼯作负载中的两个微批处理进行了评估,在推理的关键值缓存预填充阶段以及解码阶段实现了输入与输出的关系:输入令牌数量为4,096个单位(token),输出令牌数量减少至256个单位(token)。结果表明,在保持相同本地批量大小的前提下(如视图24所示),采用微批处理显著提升了系统的推理吞吐量(Throughput)。这一改善源于对两个关键阶段的优化——通过并行执行提高了效率;然而,在带来性能提升的同时也带来了额外的同步开销(latency),尽管如此,在吞吐量与延迟之间的权衡上仍实现了优势
6.2 FP8 量化
我们采用了 H100 GPU 原生支持 FP8 算法来进行低精度推理操作。为了启用低精度推理过程,我们在模型内部的主要矩阵乘法运算中应用了FP8量化技术,特别是在前面的部分自注意力层进行了参数与激活量化的处理,这部分内容大约占据了推理计算时间的一半左右。未对模型后端自注意力机制相关的参数进行量化处理。通过优化我们的 CUDA 核心算法版本15(简称为CUDA Kernel v15),成功降低了计算比例相关的开销,从而提升了整体效率表现。研究表明,在某些特定类型的量化设置下, Llama-3-405B 模型的表现可能会受到影响,并采取了一些技术调整来提升其输出的质量。
- 如同 Zhang 等人的研究(2021),本研究不包括第1层及最后一层 Transformer 层中的量化操作。
- 具有高困惑度的标记符(如日历标记符)可能会导致较高的激活值。反过来,这可能造成 FP8 格式中的高动态缩放因子以及大量下溢现象而导致解码错误。为此方案,我们将动态缩放因子的上界设定为 1200。

- 通过行量化策略, 用于计算各行为之间的缩放因子(见图25)。经对比实验表明, 在性能指标上优于张量量化方法
量化误差的表现 。通过一系列标准基准测试可以看出,在不采取任何缓解措施的情况下(即FP8推理与BF16推理相当)。然而,在评估FP8量化带来的影响时(即模型性能的变化),我们发现这些常规测试并不能充分反映其潜在问题。在缩放因子无上限的情况下(即没有限制缩放因子大小),模型偶尔会出现异常响应现象(即损坏的输出结果)。尽管这些常规测试表现出色(即在某些方面表现优异),但我们发现它们在评估量化对模型响应分布的影响方面(即具体到模型输出的变化)并非最佳选择。我们发现,在评估量化对模型响应分布的影响方面(即关注模型输出的变化情况),依赖于常规测试分析的方法可能不够全面。图26展示了我们量化方法的具体效果(即通过图表直观展示效果)。从图中可以看出(从图表中可以看出),我们的FP8量化方法对模型的整体响应影响较小(即对模型输出的影响较小)。
实验结果通过图 27 展示,在预填充和解码阶段利用 Llama 3 模型(405B 参数)执行 FP8 算法时所达到的吞吐量与延迟的权衡关系。该对比分析基于第 6.1 节中所述的 BF16 方法论基础之上构建的两台测试设备。实验结果显示,在预填充阶段的最大吞吐量提升了约50%,而在解码环节则实现了显著提升的效果。

7 视觉实验
我们展开了多项实验,在两个阶段整合了视觉识别能力到Llama 3系统中。首先,在大规模的图像-文本对数据集上引入并训练了一组交叉注意力模块(Alayrac等人, 2022),将预训练的图像编码器(Xu等人, 2023)与预训练的语言模型成功整合在一起。这一过程构建了图28所示的系统架构。其次,在大规模的视频-文本对数据集上引入了时间聚合模块以及额外的视频交叉注意力层以促进模型对视频中时序信息的学习
采⽤组合⽅法进⾏基础模型开发有⼏个优点 :
(1) 它使我们能够同时构建视觉和语言建模能力;
(2) 它缓解了视觉数据集标记、不同模态标记不一致以及模态间竞争带来的联合预训练复杂性;
(3) 该方法确保了模型在仅依赖文本任务上的性能不受引入视觉识别能力的影响;
(4) 交叉注意力架构确保我们无需在日益增长的大型语言模型(尤其是每个变换器层中的前馈网络)中使用高分辨率图像来消耗计算资源,从而使推理过程更加高效.我们注意到我们的多模态模型仍在开发中,尚未准备好发布.
在第 7.6 及后续的 7.7 节之前阐述我们的实验结果时,请介绍用于训练视觉识别能力的数据处理流程、各视觉组件的模型架构设计及其扩展方式,并提及相应的预训练与后处理方案。
7.1 数据
我们分别描述了我们的图像数据和视频数据。
7.1.1 图像数据
我们基于图像-文本对构建了图像编码器及适应器,并通过复杂的数据处理流程生成了训练集。为了构建这一数据集, 我们采用了多阶段的数据处理系统, 包括四个关键环节: 首先进行质量过滤以去除低质量样本; 其次进行感知级重复检测以去除冗余样本; 然后进行重采样以平衡类别分布; 最后应用光学字符识别技术提取文本信息。在此实验过程中, 我们默认启用了多方面的安全防护措施
我们开发了一套先进的质量筛选系统,在研究中参考了Radford等人(2021)基于CLIP分数的启发性策略的基础上建立了模型框架

通过大规模数据集的清洗来提升感知模型的效果,在减少冗余数据上的计算量和内存消耗的同时也降低了存储需求(Esser 等人, 2024;Lee 等人, 2021;Abbas 等人, 2023)以及潜在的安全风险(Carlini 等人, 2023;Somepalli 等人, 2023)。为了兼顾效率与隐私保护的需求,我们采用了最新版本的SSCD复制检测机制来进行图像清洗工作。具体而言,在所有图像中我们首先利用SSCD模型提取512维特征向量,并基于这些嵌入值执行最近邻搜索(余弦相似度作为距离度量)。当搜索结果中出现相似度超过设定阈值的情况时,则将该图像视作冗余样本并标记为重复项。接着我们通过连通分量算法将所有重复项分组,并在每组中选取具有代表性的图像-文本配对进行进一步分析与优化以确保数据质量的同时减少存储开销与计算开销。具体优化措施包括:(1) 利用k-means聚类算法实现数据预处理;(2) 采用FAISS索引加速最近邻搜索过程
重采样策略。我们借鉴了Xu等人(2023)、Mahajan等人(2018)以及Mikolov等人(2013)的研究方法来实现图像与文本对的多样性保障。随后我们将高质量文本来源进行解析并构建n-gram词典。接着计算了数据集中每个词汇的n-gram频率值之后按照以下方式执行重采样操作:如果标题中的任何n-gram在词典中出现次数少于T次则保留相应的图像与文本配对;否则独立按照概率pT/fi从标题中抽取每个n-gram ni其中fi表示该n-gram出现的频率;若某一个n-gram被选中则保留对应的图像与文本配对这一策略有助于提升模型在低频类别和细粒度识别任务上的性能。
光学字符识别 。通过从图中的文本获取并将其匹配至语音提示,并进一步提升了我们的图像-文本数据。采用专有的OCR系统提取书面文本。经实验发现,在依赖OCR功能的任务上(如文档理解),将OCR数据加入训练集能显著提升性能。
语音识别技术 ⌛ 文档
安全方面, 我们致力于确保图像识别系统的预训练数据集中不含非法内容, 包括性虐待等非法信息(Thiel, 2023)。为此, 我们采用了感知哈希算法(PhotoDNA, Farid, 2021)以及内部专有分类器, 对所有训练样本进行遍历筛选. 此外, 我们开发了一套特有的风险检测流程, 能够识别并剔除被认为是不适合的内容. 我们认为降低此类素材在整个训练集中的流行程度能够显著提升模型的安全性能, 同时不会影响其实际应用价值. 最后, 我们为所有图片进行了面部模糊处理. 在模型测试阶段, 我们采用了由人类生成的提示指导模型工作, 并参考了附加的图片资料.
我们采用n-gram方法对图像-字幕配对进行重采样, 构建了一个规模达3.5亿条的退开水样本库
文本定位 。我们将文中涉及的关键名词短语与图像中的边界框或遮罩进行关联匹配。通过两种途径,在图像-文本对中完成这一定位信息的表示:第一种途径是直接在图像上叠加带有特定标记的边界框或遮罩,并借助于文本文中的参考标记系统(类似于现有的标记集合系统 Yang等, 2023a)。第二种途径则是直接将标准化的(xmin,ymin,xmax,ymax)坐标值通过特定分隔符嵌入文本文本内容中。
分析屏幕上捕获的内容
分析屏幕上捕获的内容
问题-答案对:我们采用了这一系列的问题-答案对,并因此能够有效地处理难以直接利用的大规模数据集。
视觉效果:我们整合了由模型早期阶段生成的合成字幕作为视觉内容的一部分。与原始字幕相比,在实验结果中我们揭示了合成字幕在描述复杂场景方面的显著优势。
生成具有结构性的图像内容 。我们涵盖多个领域中的合成生成图形,并包含图表、表格、流程图、数学公式以及文本数据。这些图形借助于结构化的表示方法如Markdown或LaTeX符号进行辅助表达。不仅提升了模型在这些领域的识别能力,并且发现这些数据对于通过文本模型微调问题-答案对的效果也很有帮助。
7.1.2 视频数据
在视频预训练过程中, 基于大量精心挑选的视频-文本配对构建的数据集. 该数据集合经过多轮筛选、精炼与优化形成. 采用基于规则的启发式过滤机制进行去噪处理, 并确保文本最低长度不低于设定阈值以及纠正大写字母错误. 随后利用自然语言处理技术识别并剔除非英语语种的内容. 最后通过OCR检测技术去除画面中过度叠加的文字内容.
为了保证视频与文本之间的合理对应关系,在本研究中我们采用了基于CLIP架构(Radford等研究者于2021年提出)的图像-文本对比模型进行实验。具体而言,在实验过程中首先通过分析每帧图像与对应的文本内容的相似度来计算其数值指标,并将相似度较低的结果予以剔除;随后进一步剔除对比度较低的配对以提高实验结果的有效性。其中一部分数据集包含静止状态或运动较弱的画面;采用基于运动评分的方法(Girdhar等研究者于2023年提出),去除了这类场景的数据以避免可能引入的影响因素;而关于视觉质量的问题,则未做任何额外限制处理
我们覆盖了平均每长21秒的视频。其中一半达到了中间长度。有超过99%的视频在完成一分钟。它们的空间分辨率在320p和4K之间呈现出明显差异。70%以上的视频具有大于720像素的短边。这些视频呈现出多种纵横比。大多数(一半以上)video aspect ratios fall within a 1:2 to 2:1 range.
7.2 模型架构
我们的视觉识别模型主要由三个核心组件构成:其中包含以下三个关键组件:(1) 图像编码模块(Image Encoder),用于从输入中提取特征信息;(2) 特征提取模块(Feature Adapter),负责对提取到的信息进行进一步加工;以及 (3) 视频处理模块(Video Adapter),确保对动态输入数据的有效响应。
图像编码器 。我们的ViT-H/14图像编码器经过训练用于处理250亿图像-文本对,并在224×224分辨率的图像中进行预训练。图像被划分为16×16大小的块(即每块大小为14×14像素)。与先前研究(如ViP-Llava等)相比,在仅使用最后一层特征提取时难以保留细粒度定位信息的现象下,我们采用多层特征提取策略。具体而言,在交叉注意力层之前插入了8个门控自注意力层(总计40个变换器块),从而更好地学习特定特征。最终模型参数从630M增加至850M,并通过提取第4、8、16、24和31层特征进一步优化了性能。每个生成的16×16=256块均生成7680维表示。在后续训练阶段未冻结图像编码器参数,并发现这显著提升了性能(尤其是在文本识别领域)。
图像适配器 。我们将图像编码器生成的视觉标记表示与语言模型生成的标记表示之间结合使用交叉注意力机制(引用Alayrac等人于2022年的研究)。该结构在核心语言模型每隔四个自注意力块后实施。与语言模型自身相似地, 该结构采用广义查询注意力机制来提高效率。具体而言,在Llama 3-405B架构中, 我们设计的这一模块包含了约10^11个可训练参数。我们将图像适配器分为两个阶段进行预训练:第一阶段是基础预训练, 第二阶段是退火过程。
- 初始阶段进行预训练。基于上述描述的大约60亿图像-文本对的数据集,在该数据集上开展我们的图像适配器预训练工作。
为提升计算效率,在处理过程中将所有输入图片统一调整尺寸至最多支持四个不同比例的图片块(如384\times 384像素),并根据需要支持多种不同的宽高比(如768\times 768像素、768\times 384像素及1536\times 720像素等)。 - 在后续分析中提到的大约5亿图像数据集上执行退水操作,并在此过程中提高每个图片块的高度分辨率以优化相关任务的表现。
例如,在涉及信息图表理解等高精度需求的应用场景中展现出显著效果。
视频适配器 。我们的模型接受多达 64 帧(从完整视频中均匀采样),每帧都由图像编码器处理。我们通过两个组件对视频中的时间结构进⾏建模:(i) 编码后的视频帧由时间聚合器聚合,将 32 连续帧合并为⼀个,(ii) 在每四个图像交叉注意⼒层之前添加额外的视频交叉注意⼒层。时间聚合器实现为感知器重采样器(Jaegle 等⼈,2021; Alayrac 等⼈,2022)。我们使⽤每个视频 16 帧(聚合为 1 帧)进⾏预训练,但在监督微调期间将输⼊帧的数量增加到 64。对于 Llama 3 7B 和 70B,视频聚合器和交叉注意⼒层分别有 0.6B 和 4.6B 参数。
7.3 模型扩展
在将视觉识别组件添加到 Llama 3 之后, 模型包括自注意力层、交叉注意力层以及一个 ViT 图像编码器
为了在训练参数分别为8亿比特(8B)和70亿比特(70B)的有效适配器时, 我们发现通过数据与张量同步处理的方式实现了最佳性能。对于这类规模, 传统流水线并行并未带来效率提升, 因为计算资源主要被参数聚合所占据。然而, 在针对参数规模达405亿比特(405B)的情况进行适配器设计时, 我们特别采用流水线架构而非同步数据与张量处理的方法, 这带来了除第3.3节所述之外的新挑战:首先是模态间的异构性问题……
模型的计算异构性
Data Heterogeneity . Data exhibits heterogeneity characteristics, as typically a single image contains significantly more annotations than an associated text document: a single image possesses 2,308 annotations, whereas the average text document only contains 192 annotations. Consequently, the computational complexity of cross-attention mechanisms surpasses that of self-attention mechanisms in terms of both time and memory requirements. To address this challenge, we have incorporated sequence parallelism into the image encoder design, ensuring that each GPU processes approximately equivalent annotation quantities. Additionally, given that the average text length is relatively concise, we have opted to increase the batch size to 8 units (rather than 1).
数值不稳定现象 产生于模型架构调整过程中。具体而言,在引入图像编码器后发现,在 bf16 环境下执行梯度累积操作会导致数值不稳定现象。这一结果最可能的原因是:图像标记会通过所有交叉注意力层传递到语言嵌入中。进一步分析表明:由于图像标记表示中的数值偏差会对整体计算产生显著影响(因为错误会不断累加),因此我们不得不采取措施来改善这一问题。解决方案在于将梯度累积操作从 bf16 转换至 fp32 环境中执行以减少误差积累的影响
7.4 预训练
图像 的初始化过程基于预训练的文本模型与视觉编码器权重。其中,视觉编码器未被冻结状态而文本模型权重则维持初始设置并未修改。首先我们将每个图像进行尺寸调整以适应四个分辨率均为336×336像素的共计60亿张图片与文本配对的数据集进行模型训练工作。在这一过程中我们采用了全局批量大小为16,384并结合余弦学习率计划策略其中初始学习率为1.0×10−4且归一化权重衰减系数设定为0.01这两个参数均通过小规模实验确定基础参数设置完成后我们发现当面对长时间训练时模型损失值未能进一步下降因此每隔一段时间我们会降低一次学习率策略效果较为显著在此基础上我们将图片分辨率进一步提升并在此数据集上持续进行相同的权重参数优化工作通过预热阶段重新初始化优化器的学习率设定为2.0×10−5随后继续遵循余弦学习率计划完成整个训练过程
对于视频预训练任务而言,在之前的图像预训练基础上进行了扩展。具体而言,在架构设计中增加了视频聚合器和交叉注意力层,并采用了随机权重初始化策略。在模型优化过程中,在保持原有图像预训练成果的基础上,在新增的聚合器和交叉注意力层部分进行了微调优化,并采用了与退火权重相同的训练超参数设置。在数据处理方面,在完整视频序列中均匀采样16帧,并对每一帧进行四区块划分(每个区块尺寸为448×448像素)。在聚合操作中设定16倍因子以生成有效帧长,并在此基础上实现了文本标记与交叉注意力机制的有效结合。此外,在批处理过程中采用了全局批量大小为4096、序列长度为190个标记的设置方案,并在整个训练过程中采用学习率1e-4进行优化调整
7.5 后训练
本节详细阐述了我们的视觉适配器后训练策略。经过预训练后,在精心设计的多模态对话数据集上进行微调,并以此实现聊天功能的功能激活。随后实施直接偏好优化(DPO)技术,并通过该方法显著提升了人类评估效果;同时采用拒绝采样策略来增强多模态推理能力;最后引入了一个质量调整阶段;随后继续使用一组极小但高质量的对话数据进行进一步微调;这一过程不仅保留了基准测试性能水平,在提升人类评估表现方面也取得了显著成效;以下将详细展开每个步骤的具体实现细节
7.5.1 监督微调数据
我们分别阐述了针对图像与视频能力的监督微调(SFT)技术。
注:改写后的内容保持了原文的核心意思和结构安排,并通过调整表达方式使表述更加丰富多样
- 学术数据集 。我们使⽤模板或通过 LLM 重写,将⾼度筛选的现有学术数据集转换为问答对。LLM 重写的⽬的是通过不同的指令增强数据,并提⾼答案的语⾔质量。
- ⼈类注释 。我们通过⼈类注释者收集多模态对话数据,涵盖⼴泛的任务(开放式问答、字幕、实际⽤例等)和领域(例如,⾃然图像和结构化图像)。注释者被提供图像,并被要求编写对话。为确保多样性,我们在不同集群中均匀地聚类⼤规模数据集和采样图像。此外,我们通过 k最近邻扩展种⼦,为⼀些特定领域获取额外的图像。注释者还被提供了现有模型的中间检查点,以促进模型在循环中的注释⻛格,使模型⽣成可以作为注释者提供额外⼈⼯编辑的起点。这是⼀个迭代过程,其中模型检查点将定期更新为在最新数据上训练的更好执⾏版本的模型。这增加了⼈类注释的体积和效率,同时也提⾼了它们的质量。
- 合成数据 。我们探索使⽤图像的⽂本表⽰和⽂本输⼊ LLM ⽣成合成多模态数据的不同⽅法。⾼层思路是利⽤⽂本输⼊ LLM 的推理能⼒,在⽂本领域⽣成问答对,并将⽂本表⽰替换为其相应的图像,以产⽣合成多模态数据。⽰例包括将问答数据集中的⽂本呈现为图像,或将表格数据呈现为表格和图表的合成图像。此外,我们使⽤现有图像的字幕和 OCR 提取来⽣成与图像相关的额外对话或问答数据。
视频 。类似于图像适配器的一种技术手段,在我们的研究中使用包含预先标注的学术数据集(这些数据集已预先包含了相关注释),并将其转化为适合的文本指令与目标反馈系统。这些目标则可呈现为开放式的回答形式或者多项选择选项(具体情况具体分析)。为了实现这一目标设定,在实际操作中我们采用了以下方法:通过指示问题及其对应答案的形式对人类注释者进行标注指导,并确保这些注释工作能够准确反映观察者的理解和判断能力。
7.5.2 监督微调配⽅
我们分别描述了⽤于图像和视频能⼒的监督微调(SFT)配⽅。
图像 。基于预训练图像适应器的初始化策略中包含了一个关键步骤:通过热交换机制整合了预训练语言模型与指令调整语言模型的参数权重。在保持语言模型权重冻结的状态下实现仅文本性能的目标,并具体而言,在视觉编码器和图像适配器参数上实施了相应的更新策略。
我们的微调方法借鉴了Wortsman等人的研究(2022)。首先,在超参数优化过程中, 我们采用了多组随机数据子集、不同学习率以及可变权重衰减因子来进行网格搜索, 对比分析各组性能指标后完成初步筛选, 最终构建了一个集成最优表现者的均值权重矩阵, 其中K值的选择基于综合评估各组平均性能, 并选取表现最为突出的一组作为基准进行后续迭代优化运算。实验结果表明, 在预测精度方面, 集成学习方案优于单个最佳候选模型; 同时值得注意的是这种方法在一定程度上降低了对超参数调节的需求
视频 。对于视频 SFT 来说,在构建视频聚合器及交叉注意力层时采用了预训练参数初始化策略。剩余参数即图像权重以及 LLM 均源自相应模型的微调阶段设置。类比于视频预训练流程,在完成这一基础后我们专注于对视频 SFT 数据集进行精细微调以优化特定参数配置。在此过程中我们将视频长度扩展至 64 帧并采用 32 的聚合因子以获取两个连续的有效帧数。此外为了保持一致性我们将各块区域的空间分辨率相应提升使其与图像相关的超参数设置保持一致
7.5.3 偏好数据
我们为奖励建模和直接偏好优化构建了多模态成对偏好数据集。
- 人类注释 。偏好数据则基于两个不同模型输出的对比进行分类,并根据评分等级进行标记(分为"选择"与"拒绝"两类)。生成器则从最佳近期模型池中即时选取,并根据实际应用需求赋予各自独特的特征值。我们定期更新模型库以保证时效性。此外,在注释过程中还要求人工编辑人员可选参与(作为补充步骤),以修正可能存在的不准确判断(因为视觉任务对于不准确性的容忍度较低)。需要注意的是,在实践中人工编辑是一个可选步骤,在权衡体积与质量时需权衡取舍。
- 合成数据 。合成偏好的生成可以通过依赖于文本的LLM编辑来实现,并在监督微调数据集中故意引入可控错误(如修改对象属性或加入计算错误等)。我们将对话内容作为输入,并通过LLM引入这些微妙但有意义的修改项;修改后的响应将被用作负面样本中的"拒绝"类别,并与"选择"类别的原始监督微调样本配对。
- 拒绝采样 。为了获取更多的策略内负样本,在现有基础上我们采用迭代式的拒绝采样方法收集额外的数据集。这部分内容将在后续章节详细阐述我们的实验设计与结果分析方法。总体而言,在这一层次上我们采用拒绝采样的机制是为了持续地从高质量生成内容中提取负样本;同时所有未被选中的生成结果都可以作为负面案例加入到拒绝样本中,并进一步丰富了我们的偏好数据来源。
7.5.4 奖励建模
基于视觉SFT模型与语言RM等基础之上, 我们训练了一个新的视觉奖励模型(RM)。其中, 视觉编码器以及交叉注意力层是从视觉SFT模型中初始化的, 并且在训练过程中被解冻; 而自注意力层则从语言RM初始化, 并始终保持冻结状态。经实验发现, 在需要依据语言RM的知识或语言质量进行判断的任务中, 冻结语言RM部分通常能够带来更高的准确率; 同时采用与语言RM相同的训练目标, 并引入了一个加权正则化项, 该项作用于批处理中的平均奖励logits平方上, 这一设计有助于防止奖励分数发生偏移
在第7.5.3节中的人类偏好注释被用于训练视觉RM模型。我们依照第4.2.1节关于语言偏好数据的做法创建了两组或三组具有明确优先级的配对(编辑 > 选择 > 拒绝)。此外,在与图像中的信息相关联的文字中加入随机干扰词或短语的方法也被用来增强负面响应效果。从而促使视觉RM模型能够根据实际图像内容做出判断
7.5.5 直接偏好优化
类似于第4.1.4节中介绍的语言模型
研究表明,并非固定保持参考模型完全冻结状态,在每隔 k 步采用指数移动平均更新策略能够显著提升模型从数据中学习的效果,在人类评估指标上展现出更好的性能表现。整体上而言,在每次微调迭代的过程中进行EMA更新的方式能够使视觉DPO模型相较于SFT方法具有更优的表现效果
7.5.6 拒绝采样
大部分可⽤的问答对仅限于提供最终答案,并未涵盖训练能够泛化推理任务所需完整的思维链解释。我们通过拒绝采样技术为这些⽰例生成缺失的部分,并提升了模型进行推理的能力。
针对一个问题-答案配对,在不同系统的提示下或者采用温度采样的方式对模型进行微调后会生成若干个候选回答;随后借助启发式方法或者基于LLM的判断机制会将这些候选回答与真实参考进行对比分析;最终会将正确的参考信息补充到微调数据集中并重新优化模型参数;经过实验研究发现持续保留每个问题下的多个正确参考信息会对提升模型性能产生积极作用
为了防止将低质量的例子意外加入训练集, 我们采取了两条主要防护策略
7.5.7 质量调整
我们组织并构建了一个精心选择并优化的小而高度精选的SFT数据集
