论文翻译:arxiv-2024.Kaijie Zhu.DYVAL: DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS FOR REASONING TASKS
https://arxiv.org/pdf/2309.17167
DYVAL: DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS FOR REASONING TASKS
DYVAL: 大型语言模型推理任务的动态评估
文章目录
- DYVAL: 大型语言模型推理任务的动态评估
- 摘要
- 1 引言
摘要
大型语言模型(LLMs)在各类评估基准测试中均展现出色性能。然而,研究者们担忧其庞大的训练语料库可能含有数据污染问题。此外,在现有基准测试中采用静态特性和固定复杂度可能无法充分反映LLMs持续改进的能力。本研究旨在介绍DYVAL协议:一种通用而灵活的设计用于动态评估LLMs。基于我们开发的一个框架,在此基础上构建了一种基于图结构的DYVAL方案:通过有向无环图的优势实现动态生成可控复杂度的评估样本集。该方案涵盖了数学推理、逻辑推理及算法问题等多个推理领域,并能生成具有挑战性的评估集。实验涵盖了从Flan-T5-large到GPT-3.5-Turbo及GPT-4等多种LLMs模型类型。结果表明,在DYVAL生成的不同复杂度评价样本上:大多数模型表现欠佳:这凸显出动态评价机制的重要性。此外:我们还深入探讨了失败案例及其不同提示策略效果:DYVAL生成的标准不仅限于评价集构建:还能辅助模型微调过程以提升其在现有基准测试中的性能水平:我们相信这种创新思路将为未来LLMs评价体系的发展提供有益启示:代码可通过以下链接获取:https://github.com/microsoft/promptbench
1 引言
近年来,在多样化的应用场景中,大型语言模型(LLMs)展现出了显著的性能提升。
1
当前评估基准测试面临两个关键挑战。首先,在评估过程中存在的问题是数据污染。许多现有的基准测试的数据来源互联网,这可能导致与LLMs训练时使用的庞大语料库存在重叠,并引发了关于模型能力来源的广泛讨论(Bender等人, 2021; Magar & Schwartz, 2022; Carlini等人, 2023; Biderman等人, 2023)。这些研究探讨了以下问题:模型的回答是否基于真实的能力还是仅仅依赖于训练数据的记忆?Zecević等人(2023)最近通过一个实例展示了LLMs如何根据看到的数据得出对温度影响的高度推断;类似的发现表明,在某些情况下LLMs可能会误导评价者对其能力的理解。其次,在评估过程中存在的问题是静态数据集和固定复杂度。随着大型语言模型的发展速度不断加快,请注意保持原有段落顺序并继续阅读后续内容
在本文中,我们详细阐述了一种新型、通用且灵活LLM动态评估协议系统DYVAL(第3.1节)。该协议的核心机制在于动态生成具有多样性的评估样本,并避免固定数据集收集。DYVAL由三个关键组件构成:生成算法G用于创造多样的测试样本;调节参数C用于控制样本复杂度与有效性;以及转换函数F将生成样本翻译成自然语言描述。基于上述架构体系,在第3.2节中我们提出了基于图论模型的DYVAL方案(图1),该模型利用有向无环图(DAG)结构来组织基本元素以构建复杂问题。该方法参考了编译器原理领域相关研究(Alfred V等人, 2007)、解析树分解复杂度分析(Klein & Manning, 2003;Vinyals等人, 2015)以及图论基础理论(Thulasiraman & Swamy, 2011),通过节点化表示将基本单元组合成多层次复杂问题模型。这种基于图论的设计不仅提升了系统的可扩展性与随机性特征,并使层次化属性更适合多步推理任务如逻辑推理等需求。DYVAL系统要求用户具备深入的问题理解能力而非仅仅依赖记忆能力,并模仿人类逐步推理解决问题的过程特点。该系统不仅实现了与现有基准测试工具的有效共存与进化过程,在性能指标上也取得了显著提升效果
我们开发出了DYVAL系统整合了7项推理能力1,并对以下领域进行了详细研究:第一部分是数学领域中的算术与线性方程研究;第二部分则聚焦于逻辑推理技术的开发与应用;第三部分则是算法优化方面的深入探讨。随后我们进行了跨模型性能评估工作范围涵盖从Flan-T5-large(Chung等人, 2022)、phi-1.5(Li等人, 2023d)、Xwin-13B团队(2023)、Llama2-13B-chat Touvron等人(2023)、Vicuna-13B-v1.3 Chiang团队(2023)及WizardMath13B Luo团队(2023),一直到当前最先进的LLMs GPT-3.5-Turbo (OpenAI, 2023a)及GPT-4 (OpenAI, 2023b)的表现分析。在此基础上我们还进行了系统性测试涵盖了近期兴起的一系列提示方法包括Few-shot Brown等人(2020)、CoT Wei等人(2022)、Least to Most Zhou等人(2023b)、自动提示工程 Zhou等人(2023d)以及上下文技能提示 Chen团队(Chen等人, 20XX)等创新应用。在上述研究的基础上我们还设计并实施了一个包含8位专业研究人员参与的人机协作实验项目通过DYVAL系统生成的数据集进行评估与微调训练工作最终得到了实验结果表明该方法能够显著提升现有基准测试中LLMs的表现无需额外数据收集即可实现预期效果并进一步展示了DYVAL系统的灵活性与适应性
• DYVAL评估所得结果与现有基准测试结果并不完全一致(第4.2节)。例如,在DYVAL上表现不佳的模型包括phi-1.5、WizardMath-13B和Xwin-13B;而这些模型在现有基准测试上则声称取得了显著的进步。
• 当问题难度提升时(第4.2节),LLMs的表现逐渐下降;它们之间的性能差距愈发明显地凸显出当前LLMs缺乏组合能力以及发展复杂度评价的重要性。
• 通过DYVAL评估中出现的错误分析(第4.3节),我们揭示了多种失败模式;这些发现为我们进一步优化LLMs提供了宝贵的启示。
• 到目前为止(第4.4节),在所有评估集中优化提示工程的方法尚未取得理想效果;相反地,在模型规模扩大时其性能往往能得到显著提升。
• 进一步利用DYVAL作为工具来进行训练数据生成(第5节);这种技术在微调Llama2模型时已在6个基准测试中展现了显著的优势。
总的来说, 本文的主要贡献体现在以下几个方面:
• DYVAL协议: 该协议旨在通过动态生成测试样本来减轻数据污染和静态复杂度问题。
• 基于图论的方法构建了一个用于评估LLMs推理能力的新框架: 我们将7个典型的推理问题从数学、逻辑推理到算法组合成一个有向无环图(DAG)结构。
• 系统性的实验研究: 通过系统性的实验研究, 我们获得了关于LLMs性能和优化方向的重要见解。

