A Literature Review and Framework for Human Evaluation of Generative Large Language Models
本文属于LLM系列文章,基于《A Literature Review and Framework for Human Evaluation of Generative Large Language Models in Healthcare》的翻译。
医疗保健中生成式大型语言模型的人类评估文献综述和框架
- 摘要
- 1 引言
- 2 方法
- 3 结果
- 4 案例研究:在急诊科患者分诊中使用 LLM
- 5 讨论
- 局限性
摘要
随着生成式人工智能(AI),尤其是大型语言模型(LLM)的不断渗透,其在医疗保健领域的应用日益广泛。在医疗保健中,除了依赖自动评估系统外,人工专家评估的引入对于确保评估的全面性具有重要意义。评估生成文本的含义对于保障评估体系的安全性、可靠性和有效性至关重要。然而,人工评估的复杂性、耗时性以及缺乏统一标准,使得在实践中推广LLM带来了诸多挑战。本研究系统回顾了现有文献,聚焦于医疗保健领域中大型语言模型的人类评估方法。研究强调了标准化和一致评估方法的迫切需求。在文献检索方面,本研究遵循PRISMA指南,系统涵盖了自2018年1月至2024年2月发表的出版物。这篇综述全面梳理了医疗保健应用中的人体评估方法。从多个医学专业领域考察LLM的人类评估,研究考察了评估维度、样本类型和大小、评估者的选择和招募、评估框架和指标、评估过程以及结果的统计分析等因素。基于这些研究中提出的各类评估策略,我们构建了一个全面而实用的生成式LLM人类评估框架,命名为QUEST:信息质量、理解和推理、表达风格和角色、安全与伤害、信任与信心。该框架旨在通过明确的评估维度和详细指南,提升LLM在医疗保健应用中的人类评估的可靠性和适用性。
1 引言
2 方法
3 结果
4 案例研究:在急诊科患者分诊中使用 LLM
5 讨论
在临床应用领域,LLM 已经成为不可或缺的重要组成部分,其核心功能在于能够生成文本以回应用户查询。尽管LLM在实际应用中发挥着关键作用,但其内部工作机制仍存在不透明性,这使得它们被形象地比喻为“黑匣子”。研究显示,针对这些“黑盒”模型的评估体系通常依赖于人工评估和手动测试,这凸显出一个亟待解决的问题:缺乏可追溯性、可靠性和信任度。关键细节,如文本来源的可追溯性、生成文本中的推理过程以及与医疗相关的证据可靠性,往往未能得到充分关注。此外,传统NLP评估方法在信息提取(IE)和问答(QA)等明确任务中表现良好,但对LLM的性能评估却显得力不从心。这种不足主要源于LLM生成文本的新颖性,使得传统评估方法难以有效应对。随着医疗领域对LLM的应用日益广泛,建立符合人类价值观的评估框架的需求愈发紧迫。为此,我们提出了一套LLM的人类评估指南。然而,该指南也存在局限性,主要体现在评估规模、样本量和评估标准的限制上,这些因素都会影响评估的深度和广度。此外,专有模型的主导地位加剧了这一问题。在计算资源受限的环境下,信息学研究人员难以深入探索LLM的潜力。这种现状需要医学界、计算机科学界和主要科技公司携手合作,共同开发全面的评估方法,以提升临床应用中LLM的质量和可靠性。我们相信,通过各方协作,可以弥合现有差距,促进LLM在医疗领域的广泛应用,使其成为既透明又负责任的工具,从而满足临床应用的高标准需求。
