Advertisement

Argument Quality Assessment in the Age of Instruction-Following Large Language Models

阅读量:

本文属于LLM系列文章,并基于《Argument Quality Assessment in the Age of Instruction-Following Large Language Models》开展相关翻译工作。

指令跟随大型语言模型时代的论证质量评估

  • 摘要
  • 1 引言
  • 2 近期研究综述
  • 3 论证质量的LLM
  • 4 真实世界的机遇
  • 5 结论
  • 6 道德声明

摘要

考虑到其对意见形成、决策过程以及写作教育等方面的影响,在NLP领域中关于有争议论点的计算处理问题一直受到广泛的关注。在这一立场文件中我们从论点质量研究的基本情况进行阐述在研究过程中我们发现质量概念的多样性及其感知的主观性是当前论点质量评估面临的主要挑战之一为此我们认为应当充分发挥大型语言模型(LLM)的能力使其能够跨上下文地利用知识从而实现更加可靠的评估效果。与其仅通过微调LLM来提高其在评估任务中的性能不如系统地指导它们理解和应用理论论证框架以及解决相关论证问题的方法在此基础上我们探讨了现实世界机遇所引发的一系列伦理问题

1 引言

2 近期研究综述

3 论证质量的LLM

4 真实世界的机遇

5 结论

论证质量评估已成为计算论证NLP研究的核心任务,因为它在各种应用中具有重要意义,从辩论技术和论证搜索到讨论节制和写作支持。然而,所涉及的质量概念的多样性及其感知的主观性往往阻碍了可靠的评估。在这份基于调查的立场文件中,我们提出了一个问题,即如何推动指令跟随大型语言模型(LLM)的研究,以提高论点质量,从而大幅发展现有技术。
我们对83篇最近论文的调查证实,除了计算评估和提高论点质量外,论点质量研究通常针对概念质量概念和影响这些概念的因素。我们认为,如果LLM不仅仅被简单地提示进行论点质量评估,而且如果找到了在指令微调期间指导LLM进行论点质量的系统方法,那么先前工作的许多局限性是可以克服的。这是因为在基于机器学习的NLP研究中,遵循LLM的指令首次明确了任务的输入和输出之间的联系,即通过指令。因此,LLM在预训练和微调过程中处理的所有知识都可以在任务和上下文中共享。
为了指导未来朝着这个方向的工作,我们描绘了如何处理教学微调过程的蓝图。这一过程的实现可能会带来进一步的问题,并非所有问题都是可以预见的。此外,有效预测人类对论点质量感知的LLM直接引发了人们的担忧,如我们下面的伦理声明所述。尽管如此,我们相信,为论证质量的LLM可持续研究所做的协调努力将使社区能够在计算论证的核心愿景上取得进展——无论是关于克服过滤泡沫的方法,还是关于论证学习者的个性化支持。手头的论文试图为这项研究奠定基础。

6 道德声明

全部评论 (0)

还没有任何评论哟~