Rapidly Developing High‑quality Instruction Data and Evaluation Benchmark for Large Language Models

阅读量：

本文属于LLM系列文章，并基于《Rapidly Developing High‑quality Instruction Data and Evaluation Benchmark for Large Language Models with Minimal Human Effort: A Case Study on Japanese》进行了翻译工作。

尽可能少的人力投入下高效地开发高精度度量的大规模的语言模型指令数据集及其评估基准——以日语为例说明

摘要
1 引言
2 相关工作
3 方法
4 实验设置
5 结果分析
6 附加分析
7 结论

摘要

为大型语言模型服务的指令数据与评估基准的生成通常需要大量的人工标注。当快速开发非英语语言如日本语等领域的资源时这一挑战尤为突出。我们不采用直接跨性别的流行做法将现有的英语资源转换为日语（例如 Japanese-Alpaca）而是提出了一种基于GPT-4的高效自学习方法。我们首先将少量英语说明文内容翻译成日语版本并对其进行后期手动校对以获得母语水平的质量水平。然后 GPT-4利用这些作为示范自动生成日语指令数据集。此外我们还构建了一个包含8个类别共80个问题的新评估基准使用GPT-4无需人工参考的情况下自动评估LLM响应质量实证结果显示在所有三个基础预训练模型中根据我们的GPT-4自学习数据微调的模型显著优于Japanese-Alpaca我们的GPT-4自学习数据使LLaMA 13B模型以54.37%的优势击败GPT-3.5 Davinci-003人类评估显示GPT-4评价与人类偏好高度一致我们的高质量指令数据与评估基准已在此发布

1 引言

2 相关工作

3 方法

4 实验设置

5 结果分析

6 附加分析

7 结论

本文提出了一种通过最小化人力投入开发日语等非英语语言资源的有效模式。
通过将少量英语指令翻译成日语并进行后期编辑以达到本机质量标准, 我们利用GPT-4生成了日语指令数据。
此外, 我们创建了一个评估基准包含80个分属八个类别的问题, 并利用GPT-4自动评估大型语言模型而无需人工参考。
实验结果显示, 在经过微调后的基于自身指导的数据驱动模型始终优于现有方法。
此外, 在分析过程中发现指令数据的质量比数量更为重要, 并可能对未来指令调整研究提供进一步的指导。

全部评论 (0)

还没有任何评论哟~

Rapidly Developing High‑quality Instruction Data and Evaluation Benchmark for Large Language Models

本文是LLM系列文章，针对《RapidlyDevelopingHigh‑qualityInstructionDataandEvaluationBenchmarkforLargeLanguageMode...

OMGEVAL：An Open Multilingual Generative Evaluation Benchmark for Large Language Models

本文是LLM系列文章，针对《OMGEVAL：AnOpenMultilingualGenerativeEvaluationBenchmarkforLargeLanguageModels》的翻译。

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

本文也是LLM系列相关文章，针对《MME:AComprehensiveEvaluationBenchmarkforMultimodalLargeLanguageModels》的翻译。

DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models

本文是LLM系列文章，针对《DiaHalu:ADialoguelevelHallucinationEvaluationBenchmarkforLargeLanguageModels》的翻译。

FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models

本文是LLM系列文章，针对《FineMath:AFineGrainedMathematicalEvaluationBenchmarkfor ChineseLargeLanguageModels》的翻译...

MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models

本文是LLM系列文章，针对《MTEval:AMultiTurnCapabilitiesEvaluationBenchmarkforLargeLanguageModels》的翻译。

EVALUATION METHODOLOGY FOR LARGE LANGUAGE MODELS FOR MULTILINGUAL DOCUMENT QUESTION AND ANSWER

本文是LLM系列文章，针对《EVALUATIONMETHODOLOGYFORLARGELANGUAGEMODELSFORMULTILINGUALDOCUMENTQUESTIONANDANSWER》的翻...

A LARGE LANGUAGE MODEL EVALUATION BENCHMARK AND BASELINE FOR CHINESE PUBLIC SECURITY DOMAIN

本文是LLM系列文章，针对《CPSDBENCH:ALARGELANGUAGEMODELEVALUATIONBENCHMARKANDBASELINEFORCHINESEPUBLICSECURITYDOM...

Instruction Tuning for Large Language Models: A Survey

本文是LLM系列文章，针对《InstructionTuningforLargeLanguageModels:ASurvey》的翻译。大语言模型指令调整：综述摘要 1引言 2方法 3数据集 4指令微...

Instruction Tuning for Large Language Models: A Survey

目录 Abstract 1\.Introduction 好处：挑战： 2\.Method 3\.Dataset 4\.指令微调的LLM 5\.多模态指令微调 6\.特定领域的指令微调 7\.高效的调...

是否确定退出登录?

Rapidly Developing High‑quality Instruction Data and Evaluation Benchmark for Large Language Models

尽可能少的人力投入下高效地开发高精度度量的大规模的语言模型指令数据集及其评估基准——以日语为例说明

摘要

1 引言

2 相关工作

3 方法

4 实验设置

5 结果分析

6 附加分析

7 结论

全部评论 (0)

相关文章推荐

Rapidly Developing High‑quality Instruction Data and Evaluation Benchmark for Large Language Models

OMGEVAL：An Open Multilingual Generative Evaluation Benchmark for Large Language Models

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models

FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models

MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models

EVALUATION METHODOLOGY FOR LARGE LANGUAGE MODELS FOR MULTILINGUAL DOCUMENT QUESTION AND ANSWER

A LARGE LANGUAGE MODEL EVALUATION BENCHMARK AND BASELINE FOR CHINESE PUBLIC SECURITY DOMAIN

Instruction Tuning for Large Language Models: A Survey

Instruction Tuning for Large Language Models: A Survey