Advertisement

借助医疗保健专用的 LLM提高诊断支持与准确性

阅读量:

概述

研究表明

这些模型对于提示设计极其敏感

尽管在临床环境中推广大规模语言模型存在诸多困难。例如,在处理具有高复杂性的任务时,则需要依赖先进的提示技术。尽管现有研究主要关注于大规模语言模型的独立应用,在实际医疗环境中, 人类决策者(如医生)必须做出最终决定。为了确保系统的实用性和可靠性, 必须深入理解医生在与人工智能辅助系统互动时的具体行为模式。

本文深入研究了大型语言模型在医疗领域的应用效果及其有效性。特别关注的是,在医生发表意见后由大型语言模型进行询问这一场景,并旨在探讨大型语言模型如何能够在不直接质疑专家意见的前提下提供高质量的回答内容。此外,在讨论中还涉及到了提示设计对于纠正医生误判及促进医学推理的作用机制,并重点分析了根据医生提供的输入信息动态调整大型语言模型的方法与策略。

该研究首次介绍了二进制PubMedQA数据集的特点与价值,并详细阐述了其有效性。此外,在突出提示设计的重要性方面取得了一定成效:提示设计能够纠正医生的误判、清晰阐述医学推理过程、根据医生的输入进行优化调整,并最终显著提升了大规模语言模型在医疗领域的应用效能。这一发现为理解如何使大规模语言模型更高效地应用于医疗实践提供了理论支持与实践指导

算法框架

本文探讨了大规模语言模型在医疗领域问题解答任务中的应用效果。分别在医生提供答案与解释的情况下以及未提供相关情况下,对模型性能进行了系统性评估分析。先前的研究发现提示语设计对模型反应产生重大影响,本研究通过模拟真实医疗环境下的多样化学习情境来深入分析这一影响,具体涉及以下几个方面:一是模拟真实医疗场景下的自然对话交互,二是构建基于专家知识库的知识引导学习情境,三是设计多维度反馈机制以优化用户体验等多维度指标进行考察比较

  • 基准阶段:基于简单问题(如基本问答Q&A)的阶段,在此阶段医生不做回答。

  • 案例 1:在该案例中,医生会给出"是"或"否"的回答,并根据其准确性运行四种不同的情景。

    • 情景 1a:在所有情况下医生都会正确回答。
    • 情景 1b:在所有情况下医生都会错误回答。
    • 情景 1c:无论问题是什么医生都会给出"是"的回答。
    • 情景 1d:无论问题是什么医生都会给出"否"的回答。
  • 病例 2:采用二分法(yes/no)进行判断,并在回答中附带详细解释说明;根据准确性高低分为四类。

  • 案例 2a:医生表现一致且提供准确答案。

  • 案例 2b:医生提供的答案始终存在错误。

  • 案例 2c:所有回答均为yes。

  • 案例 2d:所有回答均为no。

  • 案例3:在面对"是/否"问题时,正确答案的概率会出现波动。

  • 分析多个概率值(包括70%至95%,步长为5%,其中两次出现80%)的医生专业知识水平差异。

下图显示了提示模板。

例如,在案例 1 中,首先要明确大规模语言模型的任务指令,如下图所示。

接下来,医生和大规模语言模型将进行模拟对话,如下图所示。

这些对话的顺序会受到不同场景中例子出现次序的影响。最终提示将基于包含具体问题描述、相关背景信息以及医生回答的内容进行生成。

如图所示, 案例2仍采用GPT-4 API为每个问题输出正确的与错误的答案. 在案例2a中, 临床医师均提供标准解答, GPT-4据此进行模拟反馈训练. 而在案例2c中, 医生则持续回答"是", GPT-4将根据问题的标准解答是否为"是"来生成相应的模拟反馈. 这种方法有助于通过模仿临床医师的标准解答进行模拟反馈训练,从而提升真实医疗对话的效果.

实验和结果

本文件旨在回答以下问题

  • 问题 1:大规模语言模型是否能够在必要时修正医生的决定?
  • 问题 2:大规模语言模型是否能够解释其回答所依据的原则?
  • 问题 3:大规模语言模型是否可以根据医生所提出的论据进行调整?
  • 问题 4:当使用基于医生回答的大规模语言模型进行评估时,它是否能比独立运行或与医生直接比较时表现更好?

本实验采用‘PubMedQA 数据集’作为研究基础。它是由PubMed摘要中提取生成的一种生物医学问答数据库系统,在常规应用中通常会返回‘是/否/可能’三种类型的回答结果。在此实验中将其转换为二进制格式(仅包含‘是/否’两种答案选项),并总共包括了445个测试样例。通过这些数据集对GPT-4进行训练时,在每个问题上都会生成一个合理的正确答案以及一个合理的错误回答选项。

所采用的模型涉及最近发布的几种人工智能模型,其中包括Meditron-7B、Llama2-7B Chat以及Mistral7B-Instruct(由Jiang及其团队的研究人员在2023年提出)。这些实验主要借助 Harness 框架完成,并且其源代码可通过网络访问。

关于及时性设计的关键作用已通过实验验证。具体实验结果如表1所示。在提升大型语言模型性能方面,经过精心设计的提示机制发挥了重要作用,尤其是在提升医疗专家的回答准确性方面展现出显著优势。例如,经过优化设计后提出的提示能够显著提高模型在模拟临床决策场景下的表现效果,尤其是在面对医疗专家的回答失误这一关键环节上取得明显改善效果.例如,在案例1d中,实验数据显示Mistral模型在模拟临床决策场景下表现出色,其中真实场景中'不'的回答比例仅为38%,这显示出其局限性与改进空间.与之相比,Llama2和Meditron等模型对提示策略的变化更为敏感,但在某些特定条件下表现出更好的适应能力.

我们进行了系统的解释能力验证,并将具体测试结果显示于表格之中

研究揭示了不同医生提供的论据所发挥的作用

相反方面来看,在依赖医生提供的论据这一点上相较于LLama2而言更为突出。相比之下,在稳定性方面具有更强的优势。其提示的变化幅度相对较小。尤其是在案例2d这一特定情境下,Mistral无论是在何种情况下(无论是在何种情况下),该系统均展现出出色的能力,在医生提供错误答案和论据时也能够进行有效纠正

下一轮验证结果与其解释的有效性和一致性紧密相关。从案例 2 各模型的 ROUGE_L 得分分析显示,LLama-2 和 Mistral 模型在引入包含医生意见的提示后产生了更具效果且范围更广的解释。相比之下,Meditron 强调依赖医生的意见,而这种意见在很大程度上影响了解释的质量。此外,各模型提供的答案在一致性和可靠性上存在差异,LLama-2 和 Mistral 倾向于提供合理且可靠的解释,而与医疗专家的观点无直接关联

此外, 研究还指出, 虽然提供专家回复的大规模语言模型有助于提升其性能, 但其表现仍难以超越专家自身的专业能力. 对案例研究3的数据分析(如表所示)显示, 尽管大规模语言模型在不同场景下的基本水平相当, 但在特定条件下却能展现出显著提升. 比如, 在医生诊断准确率达到80%的场景2中,Meditron实现了超越基线水平的表现;而在医生诊断准确率达到85%的所有场景中, LLama2同样实现了显著超越.

在案例三中, 医生的回答会对Mistral模型产生显著影响, 常常会削弱其性能. 这表明大规模语言模型的性能与医生提供的信息质量密切相关.

此外,在参考医生的建议下对规模较大的模型(如70B模型)进行评估过程时发现提示效果呈现下降趋势。这一现象进一步揭示了规模较大的模型在提升系统能力方面存在局限性。具体而言,在MEDQA多选数据集上的准确率仅为54.8%左右,这一结果表明大尺寸的语言模型并非提升性能的关键因素。

总结

本文的观点指出,在大规模语言模型中,提示语的设计对其性能发挥着至关重要的作用。该类模型对提示语的变化表现得非常敏感,并且能够通过适当的澄清说明和具体示例来有效地纠正医生回答中的错误。

若提示语经过精心设计,则可使这类模型具备解释性回应的能力;这类模型通常可为医生的回答提供理论支持依据,并且其结果受到示例呈现顺序的显著影响尤其在少数情形中。

研究表明,在大型语言模型(70B参数)中,并非总是能够达到理想的效果;而提升性能的关键因素则是其提示质量。研究结果促使进一步探讨提示设计及其对系统性能的影响。本研究表明,在医疗人工智能领域中,提示的作用至关重要;它不仅影响着大规模语言模型的表现能力,在与医疗专家之间的互动中也发挥了不可替代的作用。

全部评论 (0)

还没有任何评论哟~