Advertisement

Exploring the Impact of the Output Format on the Evaluation of Large Language Models

阅读量:

本文属于LLM系列文章,是针对《Exploring the Impact of the Output Format on the Evaluation of Large Language Models for Code Translation》的翻译工作。

探讨输出格式对代码翻译大型语言模型评价的影响

  • 摘要
    1. 引言
    1. 背景及相关研究综述
    1. 研究框架与方法
    1. 研究问题一:LLM及其提示输出格式的特性分析
    1. 研究问题二:提示工程与轻量级后处理对LLM输出格式的控制能力评估
    1. 研究问题三:输出控制策略对LLM报告性能的影响机制分析
    1. 讨论与分析
    1. 对研究有效性的潜在威胁因素分析
    1. 结论与展望

摘要

代码翻译作为软件工程中的核心问题,不仅有助于提升传统系统的现代化水平,还能确保跨平台兼容性,从而优化软件性能。随着大型语言模型(LLM)及其在代码翻译中的应用的最新进展,人们越来越认识到对这些模型进行全面评估的必要性。在本研究中,我们对五种语言(包括C、C++、Go、Java和Python)的3820个翻译对进行了实证分析,考察了11个流行的指令调整LLM的生成输出,参数范围从1B扩展至46.7B。分析结果表明,在我们评估的LLM生成代码中,26.4%至73.7%需要后续处理,因为这些翻译通常包含代码、引号和文本的混合内容,而非纯粹的源代码。若忽视模型输出的格式规范,可能会无意间低估其实际性能。采用基于执行的评估指标(如计算精度(CA))时,这一问题尤为突出。研究结果表明,提示工程与正则表达式结合的战略,能够有效从模型生成输出中提取源代码。特别地,我们的方法可帮助选定模型实现92.73%的平均代码提取成功率。本研究不仅揭示了代码翻译的前沿技术,也为未来研究提供了重要启示,有助于构建更加可靠的LLM基准。

1 引言

2 背景和相关工作

3 研究设置

4 RQ1:LLM和提示的输出格式有什么特点?

5 RQ2:通过提示系统和辅助处理机制,LLM的输出格式在多大程度上可以被影响?

6 RQ3:输出控制对LLM报告性能的影响是什么?

7 讨论

8 对有效性的威胁

9 结论

在本研究中,我们采用了3820对翻译数据,对代码翻译任务中11种流行指令调优大型语言模型(LLM)生成的输出格式进行了实证研究。我们的研究结果表明,这些LLM的输出格式具有显著的可变性特征。尽管研究者们在提示工程中采用了不同的指导方针,但这些提示均遵循了LLM官方推荐的策略,然而我们发现,模型生成的输出中存在额外的文本内容,或以引用或部分引用的方式呈现代码内容,这会直接影响编译效率。针对这一问题,我们提出了一种输出控制方法,该方法通过结合特定提示设计与正则表达式技术,实现了从输出中提取高质量代码内容。通过对全部3820对翻译对的案例进行分析,我们发现该方法显著提升了模型的整体匹配成功率,从52.58%提升至93.40%。此外,该方法还显著提升了模型的平均计算精度,将原来的4.92%提升至31.92%。

全部评论 (0)

还没有任何评论哟~