Rapidly Developing High‑quality Instruction Data and Evaluation Benchmark for Large Language Models
本文属于LLM系列文章,并基于《Rapidly Developing High‑quality Instruction Data and Evaluation Benchmark for Large Language Models with Minimal Human Effort: A Case Study on Japanese》进行了翻译工作。
尽可能少的人力投入下高效地开发高精度度量的大规模的语言模型指令数据集及其评估基准——以日语为例说明
- 摘要
- 1 引言
- 2 相关工作
- 3 方法
- 4 实验设置
- 5 结果分析
- 6 附加分析
- 7 结论
摘要
为大型语言模型服务的指令数据与评估基准的生成通常需要大量的人工标注。当快速开发非英语语言如日本语等领域的资源时这一挑战尤为突出。我们不采用直接跨性别的流行做法将现有的英语资源转换为日语(例如 Japanese-Alpaca)而是提出了一种基于GPT-4的高效自学习方法。我们首先将少量英语说明文内容翻译成日语版本并对其进行后期手动校对以获得母语水平的质量水平。然后 GPT-4利用这些作为示范自动生成日语指令数据集。此外我们还构建了一个包含8个类别共80个问题的新评估基准使用GPT-4无需人工参考的情况下自动评估LLM响应质量实证结果显示在所有三个基础预训练模型中根据我们的GPT-4自学习数据微调的模型显著优于Japanese-Alpaca我们的GPT-4自学习数据使LLaMA 13B模型以54.37%的优势击败GPT-3.5 Davinci-003人类评估显示GPT-4评价与人类偏好高度一致我们的高质量指令数据与评估基准已在此发布
1 引言
2 相关工作
3 方法
4 实验设置
5 结果分析
6 附加分析
7 结论
本文提出了一种通过最小化人力投入开发日语等非英语语言资源的有效模式。
通过将少量英语指令翻译成日语并进行后期编辑以达到本机质量标准, 我们利用GPT-4生成了日语指令数据。
此外, 我们创建了一个评估基准包含80个分属八个类别的问题, 并利用GPT-4自动评估大型语言模型而无需人工参考。
实验结果显示, 在经过微调后的基于自身指导的数据驱动模型始终优于现有方法。
此外, 在分析过程中发现指令数据的质量比数量更为重要, 并可能对未来指令调整研究提供进一步的指导。
