THE HUMAN FACTOR IN DETECTING ERRORS OF LARGE LANGUAGE MODELS
This is a comprehensive review in the LLM series, specifically translated as an introduction to The Human Factor in Detecting Errors of Large Language Models: A Systematic Literature Review and Future Research Directions.
在大型语言模型的错误检测技术中存在显著的人为干预因素:本研究系统性综述了现有研究,并对未来研究方向进行了深入探讨
- 摘要
- 1 引言
- 2 方法
- 3 研究范围
- 4 主题概念化
- 5 文献研究
- 6 文献分析与综合
- 7 讨论
摘要
在2022年11月时,OpenAI发布了ChatGPT系统
1 引言
2 方法
3 研究范围
4 主题概念化
5 文献研究
6 文献分析与综合
7 讨论
综合显示,LLM的使用,以及通过发生LLM错误而使用LLM的缺点,目前在医疗保健/医学领域讨论最多,因为当医疗状况被误诊或虐待时,错误的LLM创建的医疗建议可能对人类有害。这在神经外科等高级医学专业中尤其重要。综合表明,LLM错误通常是一个需要解决的问题,并证实了LLM错误的两种普遍类型——错误事实的幻觉和相关事实的遗漏,这两种类型在所有分析的论文中都进行了研究。处理幻觉、遗漏和错误的机制应纳入LLM系统。综合表明,目前的一些研究偏向于讨论第一种LLM错误类型(幻觉–16篇论文),而不是第二种(遗漏–8篇论文)。自2023年以来,通过质量测试LLM误差来解决LLM误差问题是一个活跃的研究领域,其重要性也越来越高,这表明该主题的论文数量“爆炸式增长”。目前,LLM质量绝大多数是由人工在环方法测试的,尽管存在ROUGE-L、METEOR或BLEU等较旧但可自动化的方法。对于人在环方法,建议采用行为科学方法,为“人类与人工智能”提供新的见解。没有现成的自动评估指标专门用于评估LLM系统生成的响应的真实性。一种潜在的方法是开发能够检测并自动纠正错误的算法。一种这样的新方法是RelD,这是一种专门用于评估LLM质量的ML模型,建立在专门的RelQA数据集设计之上。
