新型大语言模型的预训练与后训练范式,Meta的Llama 3.1语言模型

前言: 大型语言模型(LLMs)的发展历程可以说经历了漫长的时间跨度,在这一过程中经历了从最初仅关注预训练阶段到如今囊括预训练与后训练全过程的发展。
早期阶段仅聚焦于预训练阶段的学习任务,在这一基础上逐步扩展至包含监督指导微调与参数对齐等后续流程。
随后引入了监督指导微调与参数对齐的关键步骤,在这一过程中 ChatGPT 成为了最知名的应用案例。
从 ChatGPT 的发布至今, 训练方法学一直在稳步发展。最近几期的文章内容将聚焦于过去一年期间预训练与后训练方法学的最新发展。
概述LLM开发与训练流程的整体情况,并重点分析本文中提出的新型预处理和适应性优化策略
每个季度都会产生数百篇关于LLM的新论文提出各种新技术与新方向
在本文之中, 我将着重阐述以下模型中的 Meta 的 Llama 3.1 语言模型的预训练与后训练过程:
• 阿里巴巴的 Qwen 2
• 苹果的 智能基础语言模型
• 谷歌的 Gemma 2
• Meta AI 的 Llama 3.1
我会全面且详细地介绍列表中的所有模型;其发布日期则决定了介绍的顺序;这恰好吻合于它们的字母顺序。
4. Meta AI的Llama 3.1
Meta公司发布的Llama LLM新版本备受关注。这次发布伴随着一份92页的技术报告:《Llama 3模型集合》。在本节中,我们将研究上个月发布的第四份重要模型论文。
4.1 Llama 3.1概述
除了推出一个具有4050亿参数的模型之外,Meta还对之前的80亿和700亿参数模型进行了优化,并使其在MMLU性能上有所提高

MMLU基准测试不同模型的表现。
然而,在采用群组查询注意力方面与其它最新的LLM并无显著差异。然而,在采用滑动窗口注意力以及混合专家方法这一点上却表现出截然不同的态度。换句话说,在Llama 3.1中可以看到明显的传统痕迹,并且其重点明显体现在预训练与后训练阶段而非架构上的创新举措。
类似于之前的Llama版本(如Llama 2),其权重值可自由获取。同时, Meta宣布他们对Llama 3进行了许可更改,并表示现在允许研究人员利用该模型进行合成数据生成以及知识蒸馏以提升其他模型的效果
4.2 Llama 3.1预训练
该模型在规模宏大的15.6万亿标注数据集上进行了训练,并且相较于Llama 2的1.8万亿标注规模实现了明显增长。研究人员指出该模型能够支持不少于八种语言(也能处理多达二十种语言),显示出更强的语言处理能力。
Llama 3的一个值得注意的一点是其vocabulary size达到了128,000,并采用了OpenAI开发的tiktoken subword tokenizer。(对于那些关注 tokenizer performance 的读者而言,在这里我已经进行了一个简要的基准对比分析。)
在预训练数据质量控制方面上,Llama 3采用了依靠启发式的方法以及依赖模型的质量过滤机制,并利用包括Meta AI的fastText在内的快速分类工具以及基于RoBERTa的技术进行处理.此外,这些分类工具还能够帮助确定训练过程中所使用的不同数据混合背景下的内容类别.
Llama 3的预训练包含三个主要阶段。第一部分采用了15.6万亿标记的数据进行基础级别的预训练任务,并采用了一个8千词的上下文窗口。在第二个阶段中继续进行扩展训练,并扩大了上下文窗口至128,000词。第三个主要阶段则通过降温过程优化模型性能
4.2.1 预训练I:标准(初始)预训练
在他们的训练设置中
此外,在整个训练过程中研究人员并未采用固定的数据混合策略
4.2.2 预训练II:继续预训练以延长上下文
相较于其他一种逐步扩大上下文窗口的方法,Llama 3.1的上下文延长采用了更为系统的方式:研究人员按照六阶段逐步提高上下文长度至128,000个标记.这种分阶段增长的方式可能会使模型更平滑地适应更大的语境范围.
此过程使用的训练集涉及8000亿标记,约占总数据集大小的5%。
4.2.3 预训练III:在高质量数据上退火
对于后续阶段的预训练工作,在一个少量但高质量的混合上进行模型训练时研究人员发现这一做法有助于提高基准数据集上的性能水平。例如,在GSM8K和MATH训练集中退火能够带来相应的GSM8K和MATH验证集上的明显改善
在论文的3.1.3节中, 该研究团队表明退火数据集规模为40亿样本; 其中占总数据集约千分之一的比例, 该规模的数据用于评估数据质量. 在3.4.3节中, 他们指出实际退火操作仅限于4千万样本; 占退火相关样本约千分之一的比例.

Llama 3.1预训练技术总结。
4.3 Llama 3.1后训练
在经过后训练的过程中
他们进行了深入分析,并指出这类强化学习方法相较于现有技术而言具有鲁棒性不足且难以进一步优化。值得注意的是,在多轮迭代优化后处理流程中融合了人工生成数据与合成数据。
在描述更多细节之前,他们的工作流程如下图所示。

来自Llama 3.1论文的带注释的图表,描述了后训练过程。
请注意,在应用DPO的同时(虽然他们在应用DPO),他们还开发了一个类似于RLHF中的奖励模型(虽然他们在应用DPO)。最初(最初),他们在预训练阶段的一个特定检查点上进行了奖励模型的训练(虽然他们在应用DPO),并利用了人工标注数据(虽然他们在应用DPO)。这个奖励模型随后(之后)被用于拒绝采样过程(虽然他们在应用DPO),以选择合适的提示来进行后续的优化(虽然他们在应用DPO)。
在每一轮训练中,在处理奖励机制的同时他们还采用了综合最近与历史模型参数的技术来处理SFT与DPO两种架构
对于那些对模型平均技术细节有浓厚兴趣的读者而言,在我之前的文章中深入探讨了这一主题。我曾在一篇早期文章中讨论过这一主题,并将其标题命名为《模型融合、专家混合以及向更小LLM的迈进》。
总体而言,在本研究中所关注的核心是基于相对标准的SFT + DPO阶段。然而,在多个迭代过程中会反复出现这一现象。随后,在拒绝采样过程中引入了奖励机制,并参考了现有的技术如Qwen 2和AFM的设计思路。此外,在集成方法上采用了类似于Gemma的方法进行集成;值得注意的是这种方法的应用不仅仅局限于奖励机制本身而是扩展到了整个系统架构。

Llama 3.1后训练技术总结。
4.4 结论
该模型采用了较为标准的方法,在架构设计上与前一代的Llama 2架构相似,并引入了一些独特的创新手段。值得注意的是,在规模宏大的15万亿参数级别进行训练的数据集支撑下使得该模型在性能上与其它主流架构显著不同。值得指出的是,在开发初期就借鉴了苹果公司开发的AFM架构作为灵感框架的一类多任务预训练方法
与其他最近的大型语言模型不同
5. 主要收获
本文将介绍探讨的这四个模型:阿里巴巴旗下的Qwen-2、苹果公司的基础模型(AFM)、谷歌推出的Gemma-2以及元宇宙技术公司开发的Llama-3
这四个模型在预训练和后培训过程中采用了稍有差异的方法。值得注意的是尽管这些方法论存在重叠但没有任何一个具体的培训流程是完全相同的。就预培训而言其共同点在于采用了多阶段预训练策略其中核心部分通常是经过核心预训练后进行上下文扩展有时还会加入高质量的降温步骤如图所示清晰展示了各模型在这一环节的具体应用情况。

预训练所用技术概述
在后训练过程中,并没有一个固定的流程是完全相同的。可以看出,在当前的研究实践中,拒绝采样的应用已成为一个重要的研究方向。然而,在涉及DPO(数据隐私评估)或基于强化学习的人工智能(RLHF)时,则尚未形成统一的认识或偏好(一种隐晦的双关)。

后训练所用技术概述
因此,在总结上述观点后可知,并不存在一种统一的方法能够适用于所有情况;相反地,存在多种途径可供选择以实现高效的人工智能模型。
在结束时 ,这四个模型的表现较为接近 。遗憾的是 ,其中一些模型尚未跻身LMSYS和AlpacaEval排行榜 ,因此我们目前还没有直接比较到它们的表现 。除了在MMLU和其他多项选择基准上的得分外 ,我们仍无法进行直接比较
