源2.0 M32大模型 github项目
源2.0 M32大模型
访问 ModelScope 个人资料页面并带有 YuanLLM 标签的访问地址
以下是您需要完成的任务:在代码仓库中对所有现有项目进行代码审查
Chinese Simplified | English Version
0. Latest News 🎉🎉
- [2024-06-18] 发布 INT8量化版本模型 (Yuan2.0-M32-HF-INT8),高性能推理、精度无损 🎗️🎗️🎗️
- [2024-06-18] 发布 INT4量化版本模型 (Yuan2.0-M32-HF-INT4) 🎗️🎗️
- [2024-05-28] 发布源2.0 M32大模型
1. Introduction
该研究团队开发的"源2.0 M32"大模型采用稀疏式混合专家架构(MoE),以Yuan2.0-2B模型为基础构建基底模型,在创新的门控网络机制(Attention Router)驱动下实现了32个专家子网络之间的协同工作与任务调度机制设计,在显著降低了模型推理计算负担的同时,其在代码生成能力和数学问题解答能力等关键指标上均展现出显著优势;该系统通过多维度评测指标对其代码生成能力、数学问题解答能力、科学问答能力以及综合知识运用能力等关键指标进行了系统性评估。评测结果显示,在多项专业评测任务中,该系统均展现出超越LLaMA 3-700亿规模模型的先进性能水平;关于 Yuan2.0-M32 大模型的具体参数和技术细节,请参考附录部分。
- 模型总参数规模: 40B
- *专家集合规模:
- *可激活专家数量:
- 激活总参数规模: 3.7B
- 训练样本规模: 2000B个tokens
- 最大序列长度限制: 16K tokens
与此同时
Fig.1: Yuan 2.0-M32 架构图
2. Model Downloads
我们提供多种模型格式的下载链接:
| 模型 | 序列长度 | 模型格式 | 下载链接 | |||
|---|---|---|---|---|---|---|
| Yuan2.0-M32 | 16K | Megatron | ModelScope | HuggingFace | 百度网盘 | 始智AI |
| Yuan2.0-M32-HF | 16K | HuggingFace | ModelScope | HuggingFace | 百度网盘 | 始智AI |
| Yuan2.0-M32-GGUF | 16K | GGUF | ModelScope | HuggingFace | 百度网盘 | 始智AI |
| Yuan2.0-M32-GGUF-INT4 | 16K | GGUF | ModelScope | HuggingFace | 百度网盘 | 始智AI |
| Yuan2.0-M32-HF-INT4 | 16K | HuggingFace | ModelScope | HuggingFace | 百度网盘 | 始智AI |
| Yuan2.0-M32-HF-INT8 | 16K | HuggingFace | ModelScope | HuggingFace | 百度网盘 | 始智AI |
- ** Yuan2.0-M32-HF-INT4** :模型推理方法,参考Yuan2-M32基于AutoGPTQ的量化和推理。
3. Evaluation Results
3.1 Benchmarks 测试 🏆
Yuan2.0-M32 模型在与多个闭源与开源基准模型的对比中展现出良好的精度水平。我们采用 Humaneval 数据集进行评测,并结合 GSM8K 和 MMLU 数据集来评估其知识检索能力。此外,在 Math 以及 ARC-Challenge 数据集中进一步考察其数学计算与推理能力。通过这些测试指标可以看出 Yuan2.0-M32 在自然语言理解能力和知识库检索能力等方面均有显著提升,在各项评估任务中均显著优于 Llama-3-8B 及 Mistral-7B 八倍版本等其他主流模型。
我们推出了多款评估脚本包:包括HumanEval、GSM8K、MMLU、Math以及ARC-C等资源包》,旨在帮助用户轻松复现实验结果并进行深入分析研究。
| Model | HumanEval | GSM8K | MMLU | Math | ARC-C* |
|---|---|---|---|---|---|
| Llama3-70B | 81.7% | 93% | 80.3 | 50.4% | 93.3% |
| Llama3-8B | 62.2% | 79.6% | 68.4% | 30% | 78.6% |
| Phi-3-medium | 62.2% | 91.0% | 78.0% | - | 91.6% |
| Phi-3-small | 61% | 89.6% | 75.7% | - | 90.7% |
| Phi-3-mini | 58.5% | 82.5% | 68.8% | - | 84.9% |
| Mistral-8*22B | 45.1% | 78.6% | 77.8% | 41,8% | 91.3% |
| Mistral-8*7B | 40.2% | 58.4% | 70.86% | 28.4% | 85.9% |
| Yuan2.0-M32 | 74.4% | 92.7% | 72.2% | 55.9% | 95.8% |
-
ARC-C : ARC-Challenge作为 ARC 数据集中的高阶测试问题,在设计上要求模型具备较强的逻辑推理能力以及广博的知识储备以应对复杂的推理任务
-
ARC-C : ARC-Challenge 是 ARC 数据集中设计的一种复杂性较高的推理任务,在该数据集上要求模型具备较强的逻辑推理能力和广博的知识储备
3.2 模型算力效率
| Model | Params (B) | Active Params (B) | GFLOPs/token (Inference) | GFLOPs/token (Fine-tune) | Mean Accuracy | Mean Accuracy GFLOPs per token (Inference) |
|---|---|---|---|---|---|---|
| 参数量 | 激活参数量 | 算力消耗/token (推理阶段) | 算力消耗/token (微调阶段) | 平均测评分数 | 模型算力效率 | |
| Llama3-70B | 70 | 70 | 140 | 420 | 79.25 | 0.57 |
| Llama3-8B | 8 | 8 | 16 | 48 | 64.15 | 4.00 |
| Mistral-8*22B | 141 | 39 | 78 | 234 | 72.38 | 0.93 |
| Mistral-8*7B | 47 | 12.9 | 25.8 | 77.3 | 60.83 | 2.36 |
| Yuan2.0-M32 | 40 | 3.7 | 7.4 | 22.2 | 79.15 | 10.69 |
4. Quick Start
4.1 环境配置
我们建议使用yuan2.0-M32的最新docker。
我们可以通过下面命令启动容器:
4.2 数据预处理
我们已发布了基于数据预处理说明文档的数据预处理代码。
4.3 模型预训练
我们提供了预训练所需的基础文档以及example代码示例(example), 其中包含完整的使用方法说明, 欢迎查阅详细的预训练指导文档(pretrain.md)获取详细指导信息
4.4 推理服务
- 完整的部署方案可通过查阅 vllm 获取。
- Yuan2.0-M32-HF-INT4 模型的推理方式可参考 基于AutoGPTQ的量化与优化。
5. Statement of Agreement
使用源2.0代码及模型需遵循Apache 2.0开源协议(Apache 2.0)以及《源2.0模型许可协议》([《源2.0模型许可协议》](https://github.com/IEIT-Yuan/Yuan2.0-M32/blob/main/LICENSE-Yuan "《源2.0模型许可协议》")》,源2.0模型可用于商业用途无需额外授权,请建议您先了解相关条款后再进行使用;同时禁止将开源模型用于可能危害国家安全或社会秩序的用途;此外不得将其用于未经安全评估的服务。
尽管我们在训练模型时已采取一系列措施努力保证数据的合规性和准确性, 但该模型由于其规模庞大且容易受到概率因素的影响, 我们无法完全保证输出结果的真实可靠, 此外该系统还可能受到用户的输入指令的影响, 本项目方声明对该开源模型及其相关的代码开发成果...的相关风险, 用户明确表示同意并承诺完全承担所有相关责任与后果.
6. Developer Program
源大模型共训计划 🚀
我们旨在让开源的模型更好地满足开发者在实际应用中的需求。为此我们启动了源大模型协同训练项目。该计划鼓励开发者提供与自身业务相关的应用场景或技术需求我们将负责收集相关应用场景下的高质量训练数据并对其进行针对性优化经过优化后的新版本模型将重新开放供社区使用
每隔一日六次会收集上个月开发者提出的具体需求;经评审确定后纳入该月模型训练计划;训练完成后会在该月月底发布至开源社区。开发人员只需提供需求说明即可;我们将负责数据准备与模型训练,并将成果开源。请开发人员在GitHub上的'源大模型共训计划'相关问题中提交详细的需求说明。
🕙 以下是提出需求的一些示例:
1. 场景需求 :在特定业务场景下自动生成相关的内容,并对其所涉及的场景进行具体说明。输入端口:用户提交的问题;输出端口:系统返回的答案。
2. 场景需求 :我希望让大模型具备处理一个领域内多篇论文的能力,并根据这些论文生成综述研究报告、研究热点总结以及未解决的问题汇总报告以辅助学术研究。 输入内容为单个领域的多篇论文文本内容(如多篇PDF文件),输出则为包含三个维度的研究成果报告:综述性研究报告、研究热点总结报告以及未解决问题汇总报告等三种形式的研究成果文档集合体。
3. 场景需求 :...... 能够反应场景的典型特性即可
7. Contact Us
向我们发送邮件:air_service@ieisystem.com(mailto: air_service@ieisystem.com)
扩展阅读:
Pre-training of MOE Yuan²⁰, which is available at Yuan²⁰-M³²/examples/pretrain_yuan²⁰_moe_₂ₓ³²B.sh on Blog
