Advertisement

Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model

阅读量:

本文是LLM系列文章,针对《Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model》的翻译。

中文微型LLM:预训练以中文为中心的大型语言模型

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 预训练
  • 4 监督微调
  • 5 从人类偏好中学习
  • 6 评估
  • 7 结论

摘要

在这项研究中,我们介绍了CT-LLM,这是一个2B大语言模型(LLM),它说明了在开发LLM时优先考虑汉语的关键转变。CT-LLM独特地从头开始,它与传统方法不同,主要结合了中文文本数据,利用了12000亿个token的广泛语料库,包括8000亿个中文token、3000亿个英文token和1000亿个代码token。这种战略组合有助于该模型在理解和处理中文方面的卓越能力,通过对齐技术进一步增强了这一能力。CT-LLM在CHC Bench上表现出色,擅长中文任务,并通过SFT展示了其英语熟练程度。这项研究挑战了主要在英语语料库上训练LLM,然后将其适应其他语言的主流范式,拓宽了LLM训练方法的视野。通过将训练中文LLM的全过程开源,包括使用获得的大规模适当预训练中文语料库(MAP-CC)、精心选择的多学科中文硬案例基准(CHC Bench)和2B大小的中文微型LLM(CT-LLM)的详细数据处理程序,我们的目标是促进学术界和工业界的进一步探索和创新,为更具包容性和通用性的语言模型铺平道路。

1 引言

2 相关工作

3 预训练

4 监督微调

5 从人类偏好中学习

6 评估

7 结论

我们开发了CT-LLM,这是一个为中文量身定制的大规模语言模型,在8000亿个token上对其进行预训练,以增强中文处理和多语言适应性。与之前严重依赖英语数据集的模型不同,CT-LLM代表了LLM研究的一个新方向,专注于中文,包括英语和代码token。我们使用SFT等技术来提高中英文性能,并引入CHC Bench来评估模型在复杂任务中的能力。CT-LLM的主要贡献包括提供高质量的中文语料库和CHCBench,解决偏见,推进以中文为重点的LLM。这促进了更广泛的NLP研究、创新和对开源社区的贡献。

全部评论 (0)

还没有任何评论哟~