2024.9 用于疾病诊断的大型语言模型:范围综述
Large Language Models for Disease Diagnosis: A Scoping Review
https://arxiv.org/abs/2409.00097
当前基于大语言模型(LLMs)的疾病诊断研究中存在显著不足之处:针对LLMs在应用于各类疾病类型、临床数据库、核心技术及其评估指标等方面的系统阐述尚不充分。例如:目前已有哪些特定的疾病类别及其相关医疗数据库被成功应用于LLM-诊断系统(Q1)?在具体应用过程中采用了哪些LLM核心技术及其适用性策略(Q2)?采用何种科学评估指标来衡量系统的性能表现(Q3)?
- 挑战 * 信息收集与整合难题 * 大多数研究在诊断过程中未能充分整合多模态数据 * 这与实际临床场景中患者信息多模态性的特点不符 * 从而可能导致误诊 * 这些研究通常假设患者的医疗信息较为完整 但实际情况中在初始诊疗阶段或复杂疾病诊断过程中常因信息不足而导致误诊的发生 * 大部分研究忽视了临床诊疗指南的指导** 未能有效结合实验室检测结果进行综合分析和解读从而存在明显不足。
- 决策过程挑战 :在诊断决策过程中,诸多研究未能充分考虑模型可解释性以及人文关怀等关键要素。
- 技术层面挑战 * 多模态数据集成不仅面临数据噪声和技术难题,在融合异构数据的同时还需要解决高效学习等复杂问题。
- 由于领域特定LLMs的参数规模相对较小,在训练阶段容易出现性能瓶颈,并可能因训练数据量有限而导致性能受限。
- LLMs容易产生幻觉现象(即所谓的"幻觉"),这会直接影响诊断系统的可靠性。这种幻觉既可能与输入的数据相关联(data-induced hallucinations),也可能源于训练过程中的偏差(training-induced hallucinations)。
- 诊断系统的开发受限于公共医疗数据库资源匮乏及高质量标注数据的稀缺性问题,并且缺乏统一化的评估指南作为支撑。
- 此外,在实际应用中,LLMs的表现稳定性存在欠缺,在移动设备环境下难以保证可靠的预测能力,并且在早期诊断等特定场景下也面临着诸多限制因素
- 技术层面挑战 * 多模态数据集成不仅面临数据噪声和技术难题,在融合异构数据的同时还需要解决高效学习等复杂问题。
- 创新点 对LLMs在疾病诊断中的应用进行了系统性综述(从疾病类型到临床专业领域展开分析),覆盖了数据(即技术手段)、技术手段(即评估体系)等多个维度,并未见其他研究对此领域进行过如此全面地聚焦。
- 深入探讨了现有技术与评价指标的优势与局限,并基于不同应用场景的需求提出了针对性解决方案。
- 多维度梳理当前研究进展(涉及现象背后的原因探究以及原因解析),并提出了未来发展方向建议。
- 贡献 * 知识总结 :全面梳理了大语言模型(LLMs)在疾病诊断领域的应用情况,详细归纳了疾病类型、临床专业、数据来源以及技术手段等核心要素。
- 方法比较与建议 :深入分析对比了主流LLMs的技术架构及其评估指标,在此基础上提出了以满足个性化医疗需求为导向的具体优化建议。
- 现象剖析与展望 :对当前研究热点进行深入探讨,并明确指出了未来研究方向及技术发展重点,在理论层面为该领域研究提供全面指导。
该系统采用LLM技术分类体系对疾病诊断任务进行建模与求解,在具体实现过程中主要包含以下几大模块:首先是基于提示信息的模型构建模块(涵盖零样本学习、少样本学习、思维链推理以及自洽性训练等提示形式),其次是基于检索机制的模型构建模块(支持文本检索、文本-图像检索以及时间序列检索等多种数据模态下的检索方法),再次是基于微调优化的模型构建模块(包含监督微调方法SFT以及强化学习人类反馈RLHF等训练策略),最后是基于预训练语言模型的迁移学习模块(支持预训练语言模型到特定任务的学习过程)。对于系统的性能评价体系,则主要围绕诊断任务中的关键指标展开设计与实现:首先是基于自动评价指标的性能评估机制(包括分类准确率、多标签分类F1值以及风险预测AUC等量化指标),其次是基于人工评价机制的人工诊断质量评估(依托领域专家团队完成诊断案例的多维度质量打分),最后是基于LLM替代人类专家进行的结果验证与分析机制(通过LLMs模拟人类专家行为并进行结果对比)。
- 指标 * 自动评估指标 :包括准确性(accuracy)、精确度(precision)、召回能力(recall)、F1分数(F1-score)、AUC曲线值(AUC values)、AUPR值(AUPR scores)、Top-k准确性(top-k accuracy)以及Top-k精确度(top-k precision),这些量化标准主要用于从定量角度评价模型性能的各个方面。
-
人工评估指标 :涵盖必要性和可行性(necessity and feasibility),通过多维度分析模型输出的质量与应用价值。
-
LLM 评估指标 :如正确性和一致性(correctness and consistency)、清晰度(clarity)、专业性(expertise)、完整性(completeness)、满意度(satisfaction)以及排除幻觉或不合理结果的能力等综合标准,则能够全面衡量LLM的表现质量。
- 模型结构 :论文未提及具体的单一模型结构,而是对不同类型的 LLM 技术及其在疾病诊断中的应用方式进行了阐述,如 prompt 技术中指令、上下文、输入数据和输出指标的构成,RAG 中外部知识的来源和融入方式,fine - tuning 的两个阶段及操作,pre - training 的过程及对模型知识获取的作用等。
- 结论 * 总结了 LLMs 在疾病诊断领域的研究现状,包括应用范围、技术应用情况和评估方法等。
- 分析了当前研究的局限性,如在信息收集与整合、决策过程 、技术层面和实际部署等方面面临的挑战。
- 基于现状和局限性,对未来研究方向提出了建议,如改进数据收集与处理、加强模型性能提升、完善评估体系 和推动实际应用等。
可以通过引入患者间的相似性来进行辅助研究
论文未明确指定具体的数据显示类型(如临床记录、X射线图像、病理切片、心电图、超声波检查、遗传信息、实验室检验结果等),特别关注了不同类型的数据显示特征(如文本型、图像型、视频型等)以及其获取来源(包括隐私保护状态),并探讨了这些显示资料在临床各领域以及疾病诊断中的应用前景
原文
抽象。
在临床实践中展现出越来越重要的价值。大型语言模型 (LLM) 的出现引发了人工智能领域的根本性转变,在诊断任务方面展现了显著的优势与潜力。尽管这一领域受到了越来越多的关注与投入,但整体研究仍显不足——许多关键问题尚待深入探索:包括基于LLM实现疾病诊断的具体方案、所采用的人工智能技术类型以及评估指标体系等具体要素之间的关系尚不明确:此外还存在诸多限制条件尚未被充分突破——本文旨在系统回顾基于LLM的疾病诊断方法与技术发展现状:我们从多维度系统地梳理了现有研究资料,并着重分析了当前研究中存在的主要问题与挑战:同时提出了若干可行的研究建议与未来发展方向:目前尚无同类研究能对基于LLM的医学诊疗进行全面系统回顾
介绍
疾病自动化诊断被视为临床环境中一个至关重要的任务。它基于医疗数据作为输入,并通过识别模式,在最少干预或无需干预的情况下生成潜在的诊断结果。其在医疗保健领域的重要性是多方面的。首先,在提高诊断准确率方面发挥了重要作用:这不仅有助于医生做出更可靠的临床决策,还能通过提供更高质量的诊疗服务来解决医疗可及性方面存在的差异。其次,在提升健康护理效率方面具有显著作用:对于管理大型参数化面板(PA panels)的专业医生而言尤其如此。
随着年龄的增长及多种疾病率的提升
人工智能(AI)的发展为自动化诊断系统带来了重要突破,在第10至第13阶段被划分为两个部分。起初,在疾病分类方面主要采用支持向量机与决策树等机器学习方法[14,15]。这些技术通常包括数据预处理、特征提取以及模型优化等多个环节来实现疾病预测目标[16]。随后随着数据量的增长与计算能力的进步[2,16] ,深度学习方法逐渐成为该领域的主要应用方向[2,16] 。基于深度神经网络(DNN)的方法包括卷积神经网络(CNN)、递归神经网络(RNN)以及生成对抗网络(GAN)[1,7,9] ,这些架构能够实现端到端式的特征提取与模型训练过程[8,9] 。例如,在心律失常诊断方面拥有34层深度的卷积DNN已能达到心脏病专家级的表现[20] 。然而这些模型通常都需要大量标注数据来进行监督式训练,并且是任务特定的模式[7,8] ,这限制了其在跨任务应用或应对新需求方面的灵活性。
近年来,人工智能的模式已从以深度学习为主的传统方法演变为基于监督学习的大型语言模型(LLMs)这一新形态。这些模型通常由数十亿个参数构成,在语言处理方面表现突出,并能适应多种任务。如今,在临床应用场景23中展现了显著的效果,并被广泛应用于问答(QA)24、信息检索等任务。
搜索系统获取了 25 和临床报告生成 26,27。最近的研究越来越多地验证了 LLM 在诊断任务中的有效性。例如, PathChat 是一种视觉语言通才LLM,经过数十万条指令微调,在人类病理学领域取得了最先进性能的表现。Med-MLLM 是经过广泛预训练和微调的多模态LLM,基于胸部X光片、CT扫描以及临床记录等医疗数据,在COVID-19诊断任务中展现出了显著准确性水平。此外,Kim 等人通过使用快速工程构建的GPT-4模型发现,其在识别强迫症方面的表现超过了心理健康专业人员的能力范围,这一发现凸显了LLM在心理健康相关诊断领域的巨大潜力
尽管这一研究领域虽受到广泛关注,但仍存在许多关键问题尚未深入探讨。例如,在基于LLM的诊断任务(Q1)中探讨了哪些疾病及其相关医疗数据?有哪些LLM技术被用于疾病诊断,并探讨如何选择合适的诊断技术(Q2)?如何选择适合的评估指标来衡量模型性能(Q3)?尽管有多篇综述论文回顾了LLM在医学领域的应用(30-37号文献),这些综述通常涵盖了多种临床应用场景,并未聚焦于疾病诊断。虽然有多篇综述论文回顾了LLM在医学领域的应用(30-37号文献),这些综述通常涵盖了多种临床应用场景,并未聚焦于疾病诊断。尽管有多篇综述论文回顾了LLM在医学领域的应用(30-37号文献),这些综述通常涵盖了多种临床应用场景,并未聚焦于疾病诊断。 Pressman等人(38)对LLM潜在临床应用方面进行了全面总结
本综述旨在概述利用大语言模型(LLM)进行疾病诊断的研究进展。该综述详细探讨了各种疾病类型及其临床相关领域,并分析了现有的LLM技术及其应用效果。此外,在数据准备阶段以及技术选择方面提出了相应的建议,并针对诊断任务采用了合理的评估策略。此外,在现有研究的基础上提出了若干关键问题及未来研究方向的展望,并对未来工作进行了深入讨论。据我们了解,在这一领域尚无系统性研究专门聚焦于LLM在疾病诊断中的应用,并对现有研究进行了全面梳理与总结。


可以看到,还是有两个技术用知识图谱检索的
从表1的技术应用情况来看,在疾病诊断领域仍存在两种先进技术基于知识图谱的知识检索方法

结果
范围概述
本节阐述了我们综述的内容。图2不仅说明了疾病类型及其对应的临床专业,并且涵盖了各种类型的临床数据类型以及所采用的数据模态(Q1)。此外还介绍了应用LLM技术和评估方法(Q2/Q3),从而回答上述关键问题。具体而言我们系统地考察了涵盖多个临床专业的疾病诊断相关临床数据,并深入分析这些临床数据的主要呈现形式包括但不限于文本型图像型视频型音频型时间序列型以及多模态病例类型。通过表1我们可以清晰地总结出当前LLM技术在疾病诊断领域的主要分类模式。通过图4可以看出在所纳入的研究论文中各临床领域与不同LLM技术之间的关联情况这些统计数据充分反映了LLM技术在疾病诊断领域的应用现状

图 2 对调查范围进行了概述。该研究说明了涉及的临床专业、临床数据类型以及数据获取方式,并采用了LLM技术作为分析工具,并结合了评估方法以验证结果的有效性。研究仅涉及部分临床专科以及若干具有代表性的疾病案例


图 3 屾示出基于大语言模型(LLM)的诊断研究范围审查中的信息元数据。a 部分展示了这些诊断研究按季度划分的情况。由于 2024 年第三季度的数据存在缺失现象,因此统计数据仅覆盖了该年的第二季度内容。b 部分列出了主要采用的前五个通用性较高的 LLM 模型。c 部分则依据区域对相关数据源进行了分类整理。d 部分详细介绍了采用的不同评估方法(需要注意的是,一些论文可能会综合运用多种评估指标)。e 部分则是按照数据集所处隐私保护状态对已使用的数据集进行了细致分类

图 4 收录论文中临床专业(左)、数据模态(中)和 LLM 技术(右)之间的关联总结。
基于提示的疾病诊断
自定义提示一般包括四个组成部分:指令用于指定任务;上下文定义了场景或领域;输入数据标识需要处理的数据;输出指示符引导模型到所需的样式或角色。超过60%的研究纳入基于提示的方法。我们确定了五种不同的技术,并将其分为两大类:硬提示与软提示。硬提示包含零发、少发、思维链(CoT)以及自洽等方法。这些方法具有静态性与可解释性,并采用自然语言编写的形式,在输入与输出结构明确时特别有效109。另一方面,在软提示中,则是由小型可训练模型生成连续向量嵌入后馈送到LLM中,并将其作为特定于任务的应用110。
在提示研究领域中,默认由单一指令构成的无标签提示是最常见的类型 111,112 。基于CoT的方法以其将复杂问题分解为可管理的小模块的独特性著称,并按步骤逐一解决这些子问题 55,59,60 。这种循序渐进的学习方式使模型能够在推理过程中整合上下文信息以实现最终诊断结果 63,66 。与无标签提示相比 65 ,少标签提示通过引入少量标记实例来提升任务性能 59 。自洽性提示的研究通过生成多条推理路径增强了LLM的可靠性和稳定性 78 。例如Kim等人采用自洽性提示预测抑郁评分(PHQ-4)时 78 ,综合运用人口统计学数据、文献资料、症状报告和可穿戴设备数据等多个来源的信息以选择最一致的回答 78 。软提示通过在LLM输入前对其进行训练来调节模型的行为模式 78 ,并主要用于编码多模态电子健康记录(EHR)中的医学图像、临床记录和实验室结果等信息 78 。该方法的一个显著优势是能够有效整合外部领域知识(如医学概念嵌入)与个体化临床信息之间的关联关系 78 ,从而生成细致而精确的疾病诊断解释报告以适应复杂的临床应用场景
基于提示的研究往往聚焦于单峰数据探索,在这一领域中大多数仅涉及文本数据分析
随着多模态大语言模型(LLM)技术迅速发展,越来越多的研究开始探索利用这些模型来进行疾病诊断以及相关工程应用.在这一领域的重大进展在于视觉语言模型(VLM),如GPT-4V、LLava及Flamingo等,这种架构使得图像与文本结合成为当前多模态大语言模型的主要输入形式.相较于单一峰值型的大语言模型,VLM能够提供更为详尽的整体医疗情况描述,包含更多的具体决策依据.根据现有研究,医学影像分析系统通过整合眼科专家意见及其相关上下文信息能够显著提升GPT-4V在弱视诊断方面的准确性.研究团队75号的研究表明,在眼动图象分析中整合眼科专家意见及其相关上下文信息能够显著提升GPT-4V在弱视诊断方面的准确性.
更为先进的多模态大语言模型(LLM),例如GPT-4o与Gemini-1.5 Pro版本,则推动基于提示的研究突破传统局限,并囊括疾病诊断领域的多种多元数据模式的应用场景。具体而言,许多研究利用音频与视频数据以促进神经系统疾病的诊断以及神经退行性疾病的研究,在自闭症(编号43,132)与痴呆症(编号44,68)等方面取得了显著进展。进一步地,在罕见遗传病(编号133)及阿尔茨海默病(编号134)领域,则考察了通过组学数据分析揭示相关机制的可能性。此外,在广泛的风险预测任务中,则倾向于在早期阶段整合多模态数据以提高诊断准确性
警告信息指出以下关键数据类型:涉及时间序列数据的具体案例包括心电图信号(46,47,135)以及可穿戴传感器采集的数据(58,63)。同时还有表格形式的数据记录如用户人口统计(134,136)与实验室测试结果(66,137)。这些研究涵盖了抑郁症及焦虑症的筛查(63)、急诊分诊(138)以及心律失常的检测(46,135,139)。此外,在神经系统疾病的诊断中,研究人员进一步结合了多模态大语言模型(LLM)与医学概念图。(注:数字未作修改)
用于诊断的检索增强 LLM
旨在提升诊断的准确性与可靠性,并解决幻觉等问题的基础上,确定 LLM 能够无需重新训练即可存储相关的医学知识。近期研究将外部医学知识纳入了诊断任务中,并引用了论文集如…等资源。此外,在数据库方面,则主要来源于…;而针对知识图谱部分,则主要涉及…等部分。根据数据模态的不同类型,在基于 RAG 的研究中大致可以分为三种类型:一种是基于纯文本的数据驱动方法;另一种则是结合了图像信息进行处理;第三种则侧重于时间序列分析。
在基于文本的 RAG 中,大多数研究 74,78,79,140,142,143,145,148,149,151–153 都采用了 ba
在SiC检索策略中,外部知识通过预训练的句子转换器(如OpenAI的text-embedding-ada-002)以向量形式表示,并被用作检索源。随后利用预先设计好的提示将这些组合信息输入到LLM中进行处理,并能够基于查询向量与源向量的相似度来识别并提取最相关的信息从而生成相应的诊断结果。值得注意的是多篇论文均采用了LLM这一技术手段:Zhenzhu等(144)开发了一种基于指南的GPT代理系统用于总结和检索创伤性脑损伤康复相关的问题内容;McInerney等(146)则利用LLM从以往笔记中提取证据片段以评估癌症、肺炎及肺水肿的风险因素;此外在知识库中共提取出与四项研究相关的边缘图示信息
评估肺动脉高压的准确性达到了141分。与以往仅依赖单一LLM来进行诊断的研究相比较不同的是?其中Wang et al. 80的研究团队采用了多支LLM每支LLM都配备了专门的医学知识库通过协同诊断实现了精准判断
在文本图像数据处理领域中有一种常用的方法 卷积神经网络等模型结合了自监督学习与对比学习的思想 将高维的空间关系编码转化为可学习的向量表示
LLM基于提取的文档来提高诊断准确性
微调 LLM 以进行诊断
微调 LLM 主要包含两个关键阶段:基于监督的微调(SFT)以及通过受人类反馈指导的强化学习(RLHF)。在 SFT 阶段中,在任务相关的特定指令 - 响应对上进行训练,并使模型能够解析指令并跨多模态生成响应。此阶段旨在为构建对模型的基础理解奠定基础,并有效处理输入并生成所需输出的过程。在此之后,请问是否需要继续?
医学SFT显著提升了LLM在上下文学习、推理、规划和角色扮演方面的综合能力,并进而提高了诊断性能。在这一过程中,在LLM的词嵌入空间中整合了来自各数据模态的信息。遵循LLaVA156所描述的方法,在将视觉信息转换为视觉标记嵌入的过程中。这些视觉标记嵌入与Lan的维度相匹配
然后将gauge token嵌入到LLM中进行端到端训练。在综述中涉及多个研究方向关注医学文本的处理与分析。(梅迪CAL文本包括临床记录84,95,157;临床问答84,104,158-160;医学对话100,161-164;以及医疗报告90,102,165-167等类型。)许多研究尝试整合了医学文档与图像信息以提升诊断性能(例如X射线图像 0.16.18: RI图像 2.3: 和病理图像 92,4:)。此外还开发了基于医学视频的疾病检测系统(例如90:95: 和93:97:)。
其中,在视频帧中实施采样,并将其转换为视觉标记嵌入。在执行 SFT 时需要特别关注的是收集到针对特定任务的高质量指令。这些指示必须具有明确性与多样性并重,并覆盖广泛的情境以实现彻底的训练目标。
RLHF方法可划分为两大类:在线与离线。其中在线RLHF以ChatGPT173的成功应用为核心环节,并通过拟合奖励模型到提示数据与人类偏好数据集,并运用基于PPO算法对LLM进行强化学习训练以最大化奖励模型效果。一些研究初步表明,在线RLHF方法有助于提升医学领域大模型的诊断能力(97-99)。例如,Zhang et al. 98他们的模型在医生特征识别方面表现出一致性,并在广泛范围内的医疗问答任务中展现出稳定的性能表现,包括病情诊断与病因分析等关键指标。然而,在线RLHF的整体表现往往受到奖励模型质量的影响,期望通过准确给予LLM响应给予反馈,但相关研究指出,奖励模型可能会出现过度优化(175)以及初始数据分布偏移(176)等问题同时,强化学习训练过程通常面临不稳定性和控制挑战(177)。DPO178等离线RLHF方法则通过将强化学习问题转化为优化分类损失的问题而避免上述局限性,这些方法具有更高的稳定性和计算效率,并在医疗LLM应用中取得了显著成效(ment96,101,179)。Yang等人 101发现若去除离线RLHF相关限制条件,其模型在儿科基准评估中的性能会显著下降以确保生成高质量提示与响应数据集对于训练可靠的奖励模型(无论是基于人类专家还是AI生成的强大模型)至关重要
随着大型语言模型规模的增长, 它们的功能也随之提升
用于诊断的预训练 LLM
在这个广泛的语言材料库中接受预训练后的能力提升过程中
此外,在医学视觉领域已通过预训练技术成功地将知识注入到一个多模态LLM系统中。例如,在视觉问答(VQA)数据集上开展了一系列研究。具体而言,在这项研究中Chen等人(参考文献编号105)采用了现有的多模态LLM技术将PubMed数据库中的图像-文本配对重新组织成为适合VQA任务的数据样本,并用于训练他们的模型。为了提升图像编码器的效果和性能,在现有研究中常见的选择是在平铺级别或幻灯片级别重建图像(参考文献编号106),以及对齐相似的图像或图像-文本配对(参考文献编号88)。
评估策略
为了有效评估诊断性能,我们对诊断任务的评价体系进行了系统性的总结与分析。通常情况下,默认采用以下三种分类方式:自动判断、人工判断以及基于大语言模型的方法(如表2所示)。图5详细阐述了各类评价策略的优势及局限

大多数研究采用基于自动计算的方法来评估诊断的有效性。这些自动指标大致可分为三类**。第一类主要依赖于分类任务的指标如准确率精确率和召回率等这些指标常用于单一疾病预测任务例如Liu等人(27)应用AUC准确性以及F1评分来评估COVID-19的确诊效果第二类方法通常应用于多标签场景其中预测涉及多个潜在的疾病类别例如top-k准确性和top-k精确度两种指标如Tu et al.(194)所采用的例子所示第三类方法则适用于风险预测任务其中平均绝对误差(MAE)或均方误差(MSE)则衡量了预测值与真实值之间的平均差异程度
14,196个案例中可见一斑。
总体而言,在时间和成本效率、易用性等方面展现出显著优势的表现形式及其在处理大数据方面的适用能力。
然而,
它们对真实答案的确切依赖往往难以满足现实需求。
此外,
这些指标普遍缺乏对人因因素的关注,
例如,
它们未能充分考虑预测结果的有效性和实用性。
值得注意的是,
在评估复杂情况时往往达不到预期的效果,
例如确定诊断推理过程在医学上是否正确这一具体问题
208
基于大量研究的数据,在24,209次人工努力的基础上评估了诊断性能
此外,一些研究利用 LLM 来取代人类专家进行诊断评估

图 5 诊断任务的评估策略总结。
tion210–212。LLM评估将融合以人为本评估的优势与自动化指标效率。
然而这种方法并未对真实值设定严格要求 205,212却通过纳入进一步提升了LLM评估的可靠性 209。
常用的用于此类评估的LLM包括GPT-3.5、GPT-4以及LLaMA-3。
受限于所采用LLM性能这些模型容易受幻觉影响 205。
此外基于LLM的评估可能在复杂临床情境中存在挑战 213。
综合以上分析可知, 每种评价策略都有其独特的优势与不足. 精确评估与成本效益之间的平衡关系会因具体情境的不同而有所差异. 其中的分析结果可见于图5中, 为此类问题提供了便利, 并满足各种应用的要求.


讨论
本节概述了纳入研究的主要发现,并探讨了主流大语言模型(LLM)的数据准备过程。同时强调了主要挑战以及未来可能的研究方向。综上所述,在对现有研究进行分析后发现,在疾病诊断中LLM能够迅速适应并提供有效的解决方案。这一现象的原因在于:其一,在实现这一目标时只需要最小量的数据支持;这些数据包括零样本和少数样本的情况。
TEMs 仅包含几十个案例 39,214。此外,在提示方法中采用易于使用的界面设计,并设定最低限度的配置要求。该方法显著帮助研究者获取机器学习专业知识。该方法大幅降低了计算负担。合理利用大模型如GPT-4或GPT-3.5等具备广泛医学知识的大型LLM,在各种医疗诊断任务中展现出卓越性能
图 6 中对纳入论文的主要 LLM 技术进行了归纳,并阐述了其优势及局限性的同时也涉及到了相关数据准备的内容。一般来说,在开发诊断系统时所采用的 LLM 技术往往会受到可用数据数量与质量的影响
具体而言,在注释数据有限的情况下,默认情况下提示工程具有高度的灵活性与有效性[24]。通常情况下设计一个适当的指令并辅以几个典型示例即可实现提示功能[214]。为了将RAG技术有效应用于诊断任务中,则必须构建一个全面且高质量的知识库[79,78,143,70]。这种知识库可以采用数据库、语料库或知识图谱等形式呈现[214]。有效的微调需要标记明确且领域特定的数据集[27];该数据集应包含反映目标诊断任务的关键标记实例(如带有标记的临床记录或医学图像),同时包含大量样本数量(27)。预训练阶段则需要使用广泛且多样化的数据源[54,94];这些数据源应涵盖丰富的医学信息资源(如临床笔记、医学文献)以及结构化数据(如实验室测试结果)。值得注意的是预训练数据的质量与多样性对于模型基础知识积累及其泛化能力至关重要。
虽然预训练与微调方法能够达到预期的性能水平(27,190),但它们却需要大量的资源支持,如高性能计算设备以及数十万个医疗数据集。然而这些资源通常难以获取。相比之下,并因此在许多情况下无需达到专家级别的性能即可实现易于诊断的效果。包括但不限于大规模筛查(8,215)、移动设备上的健康风险警报(58)以及公共卫生教育(30,32)等场景。当权衡准确性与成本效益时需根据具体情况决定。
尽管基于大型语言模型(LLM)的疾病诊断方法已取得显著进展 但通过范围界定审查确定了其在临床应用中面临的主要障碍(图7)。在信息收集环节中 显著局限性在于 只有较少研究整合了全面的数据来源 例如文本 图像 时间序列和其他模态 216 如邓等人217 所述 他们开发了一种多模态LLM 包括文本 图像 视频和语音等 多维度用于自闭症谱系障碍筛查 这种设计与现实世界中的诊断场景形成明显的对比 在真实场景中 患者信息通常跨越多种数据模式160 尤其是对于影响多个器官的复杂疾病 这就需要未来研究更加注重从不同数据模式中收集和整合信息 从而更好地模拟真实场景
另一个主要问题是大多数研究默认患者的医疗记录足以支持疾病诊断。然而这一假设通常难以成立特别是在初次评估或面对复杂病例时由于 incomplete data可能导致 incorrect diagnosis参考文献 218 219 在实践中医疗记录的采集是一个逐步优化的过程它始于基于患者的主诉症状来缩小可能的诊断范围随后结合医学检查进一步确认病情并完善相关信息参考文献 220 此外临床医生通常依赖丰富的经验和广泛的专业知识来完成这一繁重的工作为了解除对专业医疗人员的高度依赖 研究者正尝试利用多轮对话系统辅助Nosticdiag来辅助医生更高效地分析患者的病情参考文献 221 222
例如,在临床医疗领域中,AIME 采用大型语言模型(LLM)进行病例病史收集和临床诊断对话。相比之下,MEDIQ 则通过提出后续问题来获取临床推理所需的基本信息。基于这一趋势的研究方向,则可以考虑将不完整信息意识纳入到诊断模型中,并开发出能够自动处理诊断查询的高级方法。
信息集成过程中存在着一定的挑战或障碍。然而,在医疗场景中严格遵守临床指南的重要性不容忽视;仅有少数研究对此因素进行了深入探讨或关注。例如,研究者如Kresevic等人(参考文献143)旨在通过精确解读相关医学指南来优化临床决策支持系统。未来的研究可以致力于整合开发诊断系统的临床指南;同时,在提升医疗服务质量方面取得新的进展将是必要的目标之一。此外,在整合与解释实验室测试结果方面也具有重要意义;例如,在参考文献225中提到的研究表明:利用大语言模型(LLM)生成与实验室测试相关的响应能够帮助患者更好地理解检测结果并获得相应的信心支持;这不仅有助于提高患者满意度还可能进一步促进其对医疗机构的信任感形成和发展。未来的研究方向将致力于利用LLM技术向专业人士和患者清晰地解释实验检测结果从而推动相关领域的高质量发展
深入研究临床医生、患者与诊断系统的互动关系是一个重要研究方向 221,222,226
另一个挑战在于决策阶段。尽管许多研究重视诊断的准确性,并且强调了模型的可解释性以及患者隐私权 30,230,231。然而,在临床实践中仅提供诊断预测结果往往不够完善,因为大型语言模型(LLM)作为黑箱系统往往会削弱公众的信任感 205,208。因此,在提供诊断建议时必须注重其解释性和合理性 208。例如,Dual-Inf框架通过提示不仅生成潜在诊断结果还揭示了其背后的核心原理 209. 在隐私保护方面,相关研究必须遵守《健康保险流通与责任法案》(HIPAA) 和《通用数据保护条例》(GDPR) 等法规 25,232. 然而迄今为止只有少数系统深入探讨了这一问题 80,233.例如,SkinGPT-4 是一款专为皮肤病学设计的智能诊断工具旨在实现本地部署从而保护患者隐私 233. 公平对待患者同样面临严峻挑战,这要求确保诊断不受性别、年龄或种族等因素影响 230. 目前关于LLM在公平性问题上的研究仍显不足 234,235. 因此未来的研究应当将这些以人为本的医疗系统整合进来以解决上述关键问题
注
涉及多个临床专业的复杂疾病病例的临床讨论 80,241,242。艾迪
尽管如此,在LLM领域中消除幻觉是一项长期存在的挑战(参见文献编号:243)。为了减轻与数据相关的幻觉影响,在现有研究中通常将这一问题归因于误植现象或由于训练数据与知识之间的差距所导致的问题(参见文献编号:79,143)。未来的改进方向应包括探索改进知识编辑的方法以及结合外部知识资源进行优化以解决此类问题(参见文献编号:79,143)。针对由LLMs架构或训练策略限制导致的相关幻觉问题(参见文献编号:245),未来研究应重点关注开发更具创新性的模型架构和优化预训练策略(参见文献编号:239,246)。
另一个重要领域是诊断系统开发技术的研究。多数研究依赖于内部数据集,受隐私保护限制,通常无法获取这些原始资料[143,247]。然而,在推动诊断技术进步方面的一个主要障碍是缺乏公共数据资源的支持。这一挑战还体现在高质量标注数据的匮乏上,这对这一领域的研究和发展构成了瓶颈问题[209]。因此,构建和发布高质量标注基准数据库将对医学研究界产生深远影响[209]。此外,标准化评估指标体系的确立至关重要
在实践中部署诊断系统仍然面临巨大困难。多项研究报告表明,在临床环境中使用LLM存在局限性:例如Hager等人(231)发现,在临床环境中使用LLM可能导致诊断准确性发生显著变化:然而,在临床情况下确保系统的稳定性至关重要:未来的研究可以探索如何通过优化算法提升LLM的稳定性:另一个值得探索的方向是向移动设备转移诊断功能:这些设备能够连续自动采集人体生理指标如脑电图节律心电图节律等信息并发送相关警报以实现早期预警:此外对早期诊断的关注度日益提高:例如一项研究发现早期肺腺癌检测可使患者五年生存率提升至52%:然而目前只有少数研究致力于利用LLM进行相关检测:这一主要问题在于许多疾病在早期通常缺乏明显症状难以识别因此未来的研究应进一步探索如何通过优化算法提升LLM在这些领域的应用效果
本研究对基于LLM(大语言模型)的疾病诊断技术进行了系统性概述与分析,并对其发展现状与应用前景展开了深入探讨。其贡献体现在以下几个方面:首先,在梳理疾病诊断技术的基本框架时, 我们详细阐述了各类疾病类型及其对应的临床专业领域, 并结合临床数据特征, 层解说明了不同LLM模型在该领域的具体应用方式; 其次, 通过对比主流LLM技术与评估方法的优劣特点, 我们为开发智能化医疗决策支持系统提供了理论指导; 再者, 根据研究发现的现象特征, 我们不仅进行了总结, 还深入探究了这些现象背后的本质规律; 最后, 在总结现有研究的基础上, 我们指出了当前领域面临的主要挑战与未来发展方向
方法
检索策略和选择标准
该范围综述遵循系统评价与综萃分析的首选报告指南(PRISMA)原则(见图1)。基于多种资源的系统性搜索方法旨在获取发表于2019-01-01至2024-07-18期间的相关研究文献。本研究对PubMed、CINAHL、Scopus、Web of Science、Google Scholar、ACM Digital Library及IEEE Xplore等七个电子数据库进行了文献检索操作。检索关键词系经共识专家意见制定并应用于各数据库查询(参阅补充数据集1)。
我们采用了双重筛选机制,默认聚焦于适用于人类疾病诊断的大型语言模型 (LLM)。该流程分为两个关键步骤:首先通过分析论文标题和摘要来初步筛眩
此外,在诊断方面还包括抑郁症识别研究(第8项)和自杀风险预测研究(第9项)。为了进一步拓展其应用范围,请参考补充数据集。我们排除了那些基于未包含文本模态的基础模型的研究。经过至少两名独立审查员的评估后确定最终资格。对于出现分歧的情况,则由共识或第三方成员来协调解决。
数据提取
文章中所包含的信息分为四个类别:第一类是基本信息部分涵盖文章标题、发布地点及时间(年月)、通信区域等相关内容;第二类涉及数据相关方面具体涉及大洲范围内的数据来源及类型分类;第三类主要介绍模型相关内容涵盖基础LLM模型类型及其参数规模和技术特性;第四类则围绕评估体系展开讨论具体涉及自动或人工评价值以及准确性等评价标准;此外关于数据分析表格的具体信息请参考补充表1
数据合成
我们整合了数据分析方面的见解,并旨在突显基于LLM(大语言模型)的疾病诊断核心主题。在介绍综述范围时, 我们涉及到了与疾病相关的临床领域, 临床数据, 数据结构以及LLM技术的应用. 同时, 我们深入分析了元信息的统计特征, 包括趋势分析结果, 最常用的大语言模型类型及其数据来源分布情况. 最后, 我们归纳分析了多种基于LLM的技术及其评估指标.
RATION 策略
数据可用性
本文涵盖了所分析的数据。在本研究完成并获得 acceptance 后, 汇总数据将被发布。
