Advertisement

Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation

阅读量:

本文属于LLM系列文章,针对《Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation》的翻译工作。

迷失在源语言中:大型语言模型如何评估机器翻译的质量

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 粗粒度分数预测
  • 4 细粒度错误检测
  • 5 结论
  • 局限性

摘要

大型语言模型(LLM)在机器翻译评估任务中展现出显著的成效,但在如何有效利用提供的数据进行评估方面仍存在知识上的鸿沟。本研究旨在探究LLM在评估翻译时如何利用来源和参考信息,最终目标是更深入地了解LLM的工作机制。为此,我们设计了多种输入模式和不同模型类型下的受控实验,并通过粗粒度和细粒度的提示来区分源信息与参考信息的价值。令人出乎意料的是,我们发现参考信息在提高评估准确性方面发挥了显著作用,而来源信息有时反而会产生负面效果,这表明LLM在进行机器翻译评估时缺乏跨语言能力。我们进一步对LLM的翻译错误检测机制进行了元评估,发现类似的现象依然存在。这些发现为LLM的研究提供了一个新的研究方向,即如何充分利用LLM的跨语言能力,以进一步提升机器翻译评估任务的表现。

1 引言

2 相关工作

3 粗粒度分数预测

4 细粒度错误检测

5 结论

在本研究中,我们系统性地考察了大型语言模型在翻译评估任务中如何综合运用来源信息与参考信息的能力,并在方法设计上采用了粗粒度与细粒度两种提示策略。通过模拟不同输入方式,我们对开源与闭源LLM的性能表现进行了测试。研究结果表明,现有LLM在翻译评估过程中未能充分挖掘来源信息的潜力,甚至在某些情况下可能对翻译质量产生负面影响。此外,我们的研究工作在细粒度评估方法中进行了深入的元分析,系统地考察了跨度与类别等关键指标。这些发现不仅为深入理解大型语言模型在翻译评估中的能力与局限性提供了深刻的洞见,而且为后续的理论研究奠定了基础。未来,我们计划将这些分析框架扩展至其他自然语言生成任务的研究范畴。

局限性

在本节中,我们将讨论我们工作的局限性和未来的研究方向。

  • 在实验中,我们主要使用先前工作中的提示。这些提示可能不是能够充分激发LLM执行此任务的能力的最佳提示。需要注意的是,我们的结论可能不适用于所有提示。然而,目前流行的简单要求LLM预测分数或细粒度错误的提示可能会受到来源的负面影响。设计能够更好地激发LLM跨语言能力的提示是未来研究的主题。
  • 由于资源有限,我们不评估其他已闭源的LLM,如GPT-4。我们的实验中消耗的token记录在附录E中。我们将用更多的测试数据评估额外的LLM作为未来的工作。
  • 在这项工作中,我们只关注翻译评估任务,这是NLG评估任务的一个子领域。未来的研究应侧重于将这些分析扩展到其他NLG评估任务。

全部评论 (0)

还没有任何评论哟~