Advertisement

THE HUMAN FACTOR IN DETECTING ERRORS OF LARGE LANGUAGE MODELS

阅读量:

This is a comprehensive review in the LLM series, specifically translated as an introduction to The Human Factor in Detecting Errors of Large Language Models: A Systematic Literature Review and Future Research Directions.

在大型语言模型的错误检测技术中存在显著的人为干预因素:本研究系统性综述了现有研究,并对未来研究方向进行了深入探讨

  • 摘要
  • 1 引言
  • 2 方法
  • 3 研究范围
  • 4 主题概念化
  • 5 文献研究
  • 6 文献分析与综合
  • 7 讨论

摘要

在2022年11月时,OpenAI发布了ChatGPT系统

1 引言

2 方法

3 研究范围

4 主题概念化

5 文献研究

6 文献分析与综合

7 讨论

综合显示,LLM的使用,以及通过发生LLM错误而使用LLM的缺点,目前在医疗保健/医学领域讨论最多,因为当医疗状况被误诊或虐待时,错误的LLM创建的医疗建议可能对人类有害。这在神经外科等高级医学专业中尤其重要。综合表明,LLM错误通常是一个需要解决的问题,并证实了LLM错误的两种普遍类型——错误事实的幻觉和相关事实的遗漏,这两种类型在所有分析的论文中都进行了研究。处理幻觉、遗漏和错误的机制应纳入LLM系统。综合表明,目前的一些研究偏向于讨论第一种LLM错误类型(幻觉–16篇论文),而不是第二种(遗漏–8篇论文)。自2023年以来,通过质量测试LLM误差来解决LLM误差问题是一个活跃的研究领域,其重要性也越来越高,这表明该主题的论文数量“爆炸式增长”。目前,LLM质量绝大多数是由人工在环方法测试的,尽管存在ROUGE-L、METEOR或BLEU等较旧但可自动化的方法。对于人在环方法,建议采用行为科学方法,为“人类与人工智能”提供新的见解。没有现成的自动评估指标专门用于评估LLM系统生成的响应的真实性。一种潜在的方法是开发能够检测并自动纠正错误的算法。一种这样的新方法是RelD,这是一种专门用于评估LLM质量的ML模型,建立在专门的RelQA数据集设计之上。

全部评论 (0)

还没有任何评论哟~