Exploring the Impact of the Output Format on the Evaluation of Large Language Models
本文属于LLM系列文章,是针对《Exploring the Impact of the Output Format on the Evaluation of Large Language Models for Code Translation》的翻译工作。
探讨输出格式对代码翻译大型语言模型评价的影响
- 摘要
 - 
- 引言
 
 - 
- 背景及相关研究综述
 
 - 
- 研究框架与方法
 
 - 
- 研究问题一:LLM及其提示输出格式的特性分析
 
 - 
- 研究问题二:提示工程与轻量级后处理对LLM输出格式的控制能力评估
 
 - 
- 研究问题三:输出控制策略对LLM报告性能的影响机制分析
 
 - 
- 讨论与分析
 
 - 
- 对研究有效性的潜在威胁因素分析
 
 - 
- 结论与展望
 
 
摘要
代码翻译作为软件工程中的核心问题,不仅有助于提升传统系统的现代化水平,还能确保跨平台兼容性,从而优化软件性能。随着大型语言模型(LLM)及其在代码翻译中的应用的最新进展,人们越来越认识到对这些模型进行全面评估的必要性。在本研究中,我们对五种语言(包括C、C++、Go、Java和Python)的3820个翻译对进行了实证分析,考察了11个流行的指令调整LLM的生成输出,参数范围从1B扩展至46.7B。分析结果表明,在我们评估的LLM生成代码中,26.4%至73.7%需要后续处理,因为这些翻译通常包含代码、引号和文本的混合内容,而非纯粹的源代码。若忽视模型输出的格式规范,可能会无意间低估其实际性能。采用基于执行的评估指标(如计算精度(CA))时,这一问题尤为突出。研究结果表明,提示工程与正则表达式结合的战略,能够有效从模型生成输出中提取源代码。特别地,我们的方法可帮助选定模型实现92.73%的平均代码提取成功率。本研究不仅揭示了代码翻译的前沿技术,也为未来研究提供了重要启示,有助于构建更加可靠的LLM基准。
1 引言
2 背景和相关工作
3 研究设置
4 RQ1:LLM和提示的输出格式有什么特点?
5 RQ2:通过提示系统和辅助处理机制,LLM的输出格式在多大程度上可以被影响?
6 RQ3:输出控制对LLM报告性能的影响是什么?
7 讨论
8 对有效性的威胁
9 结论
在本研究中,我们采用了3820对翻译数据,对代码翻译任务中11种流行指令调优大型语言模型(LLM)生成的输出格式进行了实证研究。我们的研究结果表明,这些LLM的输出格式具有显著的可变性特征。尽管研究者们在提示工程中采用了不同的指导方针,但这些提示均遵循了LLM官方推荐的策略,然而我们发现,模型生成的输出中存在额外的文本内容,或以引用或部分引用的方式呈现代码内容,这会直接影响编译效率。针对这一问题,我们提出了一种输出控制方法,该方法通过结合特定提示设计与正则表达式技术,实现了从输出中提取高质量代码内容。通过对全部3820对翻译对的案例进行分析,我们发现该方法显著提升了模型的整体匹配成功率,从52.58%提升至93.40%。此外,该方法还显著提升了模型的平均计算精度,将原来的4.92%提升至31.92%。
