Datasets for Large Language Models: A Comprehensive Survey
这篇论文专门针对《Datasets for Large Language Models: A Comprehensive Survey》这本书的内容进行解读与分析。
大型语言模型的数据集:一项综合调查
- 摘要
-
引言
-
预训练数据集
-
指令微调数据集
-
偏好数据集
-
评估数据集
-
传统NLP数据集
-
挑战与未来方向
-
7.1 预训练数据集
- 7.2 指令微调数据集
- 7.3 偏好数据集
- 7.4 评估数据集
-
8 结论
-
摘要
本文深入探讨了大型语言模型(LLM)的数据集,在推动LLM发展方面具有不可替代的作用。这些数据集合被视为核心基础设施,并类比于构建LLM发展的基础框架。因此,在当前研究中对该数据集进行全面审视已成为当务之急。为了填补现有研究在全面概述与深入分析方面的空白,并深入了解其发展动态及未来走向,在本研究中我们从五个维度对LLM数据的基本要素进行了系统整合与分类:(1)预训练语料库;(2)指令微调数据集;(3)偏好数据集;(4)评估数据集;(5)传统NLP数据分析库。通过这项调查不仅揭示了当前面临的主要挑战,并指出了未来研究的方向性建议;同时我们还进行了全面的数据资源审查工作,在包含444个不同数据集中统计了涵盖8个语言类型与32个相关领域的丰富信息,并从20个维度对其进行了详细统计分析。其中被调查的预训练语料库总存储量已超过774.5TB规模,在其他指标上也均达到了700 million以上水平。本研究旨在全面展现LLM文本数据分析库的整体面貌,并为相关领域的研究人员提供详实的研究参考材料;同时为推动后续研究工作奠定理论基础并提供实践指导建议
1 引言
自ChatGPT发布以来,在短短几个月内大型语言模型(LLM)领域掀起了广泛关注与研究热潮。目前已有不同规模和参数的LLM模型已陆续开源并投入实际应用。这些模型按参数规模可分为几十亿级别、千亿级别甚至更大规模等多种类型。其中 notable 的代表性模型包括 LLaMA、Phi、ChatGLM、QWen 和 Baichuan 等多种主流产品级模型。在模型训练与优化方面普遍采用了基于微调策略的技术路径,并通过大规模的数据标注与训练实现了性能指标的重大突破。近年来随着强化学习(RL)技术的不断演进以及多维度评估体系的确立 LLM 的性能表现持续得到显著提升与优化。这些进步在很大程度上得益于训练与测试数据质量及多样性水平的显著提升 但这一过程也伴随着诸多挑战性问题亟待解决。例如:如何构建科学合理的评价体系以全面衡量不同 LLM 模型的能力?如何平衡算法效率与结果质量之间的关系?这些问题仍需进一步探索与完善
LLM 数据集的发展经历了几个阶段 包括从早期的人工标注任务数据到当前以生成能力为核心的系统级数据架构转变。在20世纪60年代至80年代 人工标注的任务型数据仍然是 NLP 领域的主要研究对象 并且主要集中在语义理解、机器翻译等基础任务上 其规模相对较小 覆盖范围也较为局限 在一定程度上限制了研究深度与广度 与此同时 相关领域研究者开始关注信息检索系统中的关键组件 包括实体识别、关系抽取等核心任务 并在此基础上逐步形成了标准化的数据集合框架
进入21世纪后 NLP 研究逐渐向智能化方向迈进 并伴随着深度学习技术的成功应用 这使得数据分析能力得以显著提升 同时对计算资源的需求也在不断提高 在这一背景下 LLM 数据集朝着更加多样化和复杂化的方向发展 同时也出现了多种新型数据形式 如综合性能评估数据、对话场景导向的数据以及零样本/小样本学习相关的专用数据等 这些新型数据类型不仅丰富了研究素材 还为模型开发提供了更加多样化的实践环境
进入2022年底 随着大语言模型技术的进一步突破 LLMM 数据集迎来了新的发展阶段 研究者们开始将注意力集中在多维度多阶段的学习机制上 每个 LLM 模型在其生命周期的不同阶段均会经历预训练、微调迁移等多个关键节点 在这一过程中 对应形成了预训练语料库指令微调集合偏好引导集合以及评估基准四大类别的系统化分类框架

2 预训练语料库
3 指令调整数据集
4 偏好数据集
5 评估数据集
6 传统NLP数据集
7 挑战和未来方向
本节重点介绍了几个方面:预训练语料库、微调指令数据集、偏好数据集以及评估数据集。
7.1 预训练语料库
数据选择
及时性
质量评估
数据预处理
7.2 指令微调数据集
在指令微调阶段中构建高质量的数据集对于提升模型性能与拓展应用场景至关重要。当前多支挑战对指令微调数据集的发展前景提出了严峻考验。以下我们将深入探讨当下指令微调数据集存在的主要挑战并展望未来发展方向
7.3 偏好数据集
偏好数据集的重要性在于为模型的输出决策提供关键的训练数据。下面,我们简要讨论偏好数据集目前面临的挑战,并展望未来的发展方向。
资源有限 。RLHF已被OpenAI、Anthropic、Google等领先的行业公司广泛研究和应用。然而,由于缺乏高质量、公开可用的偏好数据集,开源社区在RLHF的研究和实践方面仍然滞后。目前,开源偏好数据集并不多,大多数都是英文的。非英语和特定领域的偏好数据集极其稀缺。资源稀缺的一个原因是相对繁琐的注释过程和所涉及的高成本。因此,可以尝试探索弱监督学习方法,使用简单的标签,如用户点击量、支持量,而不是手动注释,或者利用GPT-4等高质量模型来帮助投票和评分。另一方面,其他语言和垂直领域对偏好数据集的关注度较低,导致相关工作较少。
偏好评估方法设置 。最常用的偏好评估方法仍然是投票法,但许多偏好数据集缺乏严格统一的评估标准,仅从单一维度提供反馈信息。人类在现实世界中的偏好是多样的,为了更全面、更高质量地反映它们,需要建立相应的标准来减少主观差异,并从多个维度进行细粒度的评估。建议采用各种评估方法进行综合评估。定义这些标准是一个复杂的问题。此外,偏好数据集通常不能提供一些答案更受人类青睐的明确原因,这给模型学习过程带来了不确定性。因此,建议在偏好评估中包括文本解释,说明评估的原因,并提供改进回应的建议。超反馈的构建相对更科学规范,对促进未来发展发挥了积极作用。
7.4 评估数据集
评估数据集在确保LLM的可靠性、实用性和安全性方面扮演着至关重要的角色。它们为研究人员和从业者提供了深入理解LLM优势与劣势的机会,并推动了持续改进与优化工作。当前关于评估数据集的研究重点集中在揭示存在的挑战及其未来发展方向上。
构建高质量的评估数据集 。在特定领域开发评估数据集时需考虑以下几个关键要素。(1) 数据来源的选择与管理问题。人们越来越重视确保评估过程的公平性与可靠性,并特别关注如何防止在评估过程中出现的数据污染或泄露风险。周等人首次发现并验证了LLM在预训练或提示微调过程中从评估数据中无意获取的知识点这一现象后发现,在后续的评价过程中这种潜在风险依然存在导致评价结果出现偏差甚至泛化能力下降的问题。为了有效缓解这一情况建议:一是在提供训练数据组成信息的同时应尽量披露相关细节;二是应采取措施减少来自非公开或人工生成的数据对评价结果的影响以确保测试环境的安全性。(2) 问题设计的质量与多样性问题。开发高质量的评估任务需要综合考虑多个维度包括任务规模、问题类型及主题分布等多方面因素并据此制定科学合理的评价标准体系。
优化评价体系 。针对当前存在的评价体系中的不足之处提出以下改进措施。(1) 在资源有限领域推进标准化研究工作特别是在一些新兴领域如电子商务和地球科学等领域需进一步完善相应的基准测试体系。(2) 扩大语言资源覆盖范围特别是在非英语国家地区推广基于多语言模型的语言理解能力测试框架。(3) 强化对多回合对话能力的考察通过引入多轮交互机制来提升模型的实际应用效果。(4) 采用动态化的评价方法避免静态化带来的局限性一方面能够提高模型训练效率另一方面也能更好地反映模型的真实性能水平。
探索新型评价技术 。基于模型的方法尽管具有一定的科学性但其应用仍面临一些局限性特别是针对开放性较强的问题难以获得全面而准确的结果因此探索更加高效可靠的自动化评分系统具有重要意义。
构建统一的综合评测平台 。针对现有评测体系中存在的复杂性和多样性问题提出以下解决方案:一是在评测流程上实现高度标准化使评测过程更加便捷;二是在评测对象上建立统一的数据存储平台;三是在评测机制上实现全自动化操作从而提高整体效率并使评测结果更具参考价值。
8 结论
人工智能领域的广阔版图上
