AI在医疗领域:MEDIC 全面评估大模型在医疗领域的应用
随着医疗领域中大型语言模型(LLMs)的快速发展,公众对其评估的需求也在不断攀升,要求能够超越现有的USMLE等评测工具,从而更加全面地反映出这些模型在真实应用场景中的性能表现.然而,现实世界的评估虽然对于检验模型的实际应用价值具有重要意义,但因其往往落后于LLMs的技术革新,这可能使得现有评估标准难以适应新的技术需求.
_本文_**** _提出了MEDIC框架,该框架从五个关键临床能力维度对LLMs进行全面评估:医学推理、伦理与偏见、数据与语言理解、情境学习以及临床安全。MEDIC的核心创新在于其独特的交叉审查机制,能够在无需参考输出的情况下,量化评估LLMs在内容覆盖率和幻觉检测等方面的表现_ 。
1 MEDIC 框架

1.1 五个关键维度
- 医学推理:考察LLMs在临床决策过程中的表现能力及其对医学数据进行解析、制定鉴别诊断标准以及为患者提供基于证据的支持意见的能力。
- 伦理与偏差:探讨医疗AI系统中涉及的公平性、公正性和伦理问题的本质,并评估LLM在不同人口统计特征患者群体中的适用效果。
- 数据与语言处理:分析LLMs对各类医学数据及语言信息的理解能力包括对专业术语临床用语及临床记录文献的解读能力。
- 情境学习机制:研究模型在面对特定临床情境时的学习与应用新知识的能力以及其整合最新指南建议的能力。
- 临床安全风险评估:重点考察模型在医疗实践中保障患者安全并识别潜在风险点的能力包括识别药物相互作用禁忌症等内容。
1.2 评估任务
MEDIC 框架包含多种评估任务,以评估 LLMs 在不同维度上的表现:
- 封闭式问题: 基于医学知识测试数据集考察LLMs的知识广度与准确性。
- 开放式问题: 利用临床问答数据集系统性地考察LLMs的推理能力、解释能力和安全性。
- 文本摘要: 通过整合临床试验数据集合问总结的数据集系统性地考察LLMs的信息提取与总结能力。
- 结构化响应: 基于临床笔记的数据样本分析LLMs生成结构化医疗文档的效果。
1.3 评估指标
MEDIC 框架使用多种评估指标来量化 LLMs 的表现,包括:
- 准确性: LLMs 答案与正确答案的一致性程度。
- 相关性: LLMs 答案与问题内容的相关性程度。
- BERTScore: 衡量生成文本与参考文本之间的语义相似性。
- 覆盖率: LLMs 答案中包含的原始文本信息比例。
- 毒性: LLMs 答案中包含有害内容的程度。
1.4 评估方法
本文引入了一种具有创新性的'交叉审查'框架。该框架采用三步评估方法首先从原始文档及其(生成)摘要中构建封闭式的问答对。随后实施'交叉审查'步骤将文档/摘要派生出的问题应用于摘要/文档文本中并预测相应的答案。最后通过比较交叉审查步骤中所预测的答案与相关问题的真实答案能够计算出四个关键指标:包括一致性得分、覆盖率评分、准确性指数以及简洁度评分。

- 一致性(Consistency):该分数度量摘要中事实信息与原文本的一致性程度。通过基于文档内容预测得到"不知道"(IDK)回答的比例来确定一致性高低。一致性越高,则表明摘要中的事实错误或虚构信息含量越少。
- 覆盖率(Coverage):该分数反映摘要对原文本内容的涵盖程度。通过计算基于摘要内容预测得到"不知道"回答的比例来确定覆盖率高低。覆盖率越高,则表明摘要能够提取出原文本中更多的细节信息。
- 符合性(Conformity):也被称为非矛盾分数,该指标评估摘要是否避免与文档产生不一致的情况。通过检测摘要与文档之间存在不一致的问题所占比例来计算其值。符合度越高,则表明摘要与文档之间的整体一致性越好。
- 简洁性(Conciseness):该分数反映了摘要的精炼程度。通过减少从原始文档到摘要的词级标记数量来计算其值。简洁性分数越高,则表示在保持原有信息的基础上成功提炼了原始内容的核心信息。
2 评估任务
2.1 封闭式问题 (Closed-Ended Questions)
评估 LLMs 的医学知识广度和准确性。
2.1.1 数据集
- MedQA类似于USMLE的问题并涉及多种医学领域。
- MMLU以及MMLU-Pro涵盖了涉及医学的不同层次的知识。
- MedMCQA旨在为医学入学考试提供大规模的选择题答案数据集。
- PubMedQA源自PubMed摘要数据库并用于评估LLMs对生物医学文献的理解能力。
- ToxiGen是一个专门评估LLMs避免有害内容能力的基准测试。
2.1.2 评估指标
- 准确率 (Accuracy): 衡量模型在回答问题时正确回答问题的比例,在 MedQA、MMLU、MedMCQA 等数据集上应用该指标时需注意其表现。
- MMLU 和 MMLU-Pro: 评估模型在医学知识理解方面的综合能力(涵盖基础至专业高级的知识领域)。
- MedMCQA: 评估模型在医学概念理解和逻辑推理方面的综合能力(类似于医学院入学考试中的考核标准)。
- PubMedQA: 评估模型对生物医学文献的理解能力和问题解答能力。
- ToxiGen: 检测模型是否产生有害内容或危险信息的能力(例如识别药物相互作用或禁忌症)。
2.1.3 方法
使用 LLM-as-a-Judge 技术,评估 LLMs 对问题的回答概率。
2.2 开放式问题 (Open-Ended Questions)
评估 LLMs 的推理能力、解释能力和安全性。
2.2.1 数据集
- MedicationQA: 医疗行业真实用户的药物相关健康问题数据集。
- HealthSearchQA: 由Google发布的消费者问题数据集。
- ExpertQA: 专业的医学专业领域权威的数据集合。
2.2.2 评估指标
准确率、相关性、BERTScore 等。
2.2.3 方法
2.2.3.1 绝对评分
使用 Prometheus-2 模型对每个回答进行评估,根据 12 个维度进行评分,包括:
- 依据数据:答案依据可靠的数据支持
- 符合行业规范:答案遵循当前医疗实践标准
- 确保正确的诊断方案:提供的诊断信息具有高度准确性
- 包括全面信息:回答涵盖了所有关键要素
- 目标导向:回答直接针对提出的问题
- 实施可行性:建议措施具有可操作性
- 维护隐私与客观性:回答避免主观倾向并保护隐私
- 建议专业帮助:回答鼓励寻求进一步医疗指导
- 明确的风险管理:回答识别并预防潜在风险
- 使用简洁语言:回答表达方式清晰易懂
- 符合专业交流标准:语言风格适合临床沟通需求
- 结构逻辑性强:回答组织合理、层次分明
2.2.3.2 成对比较
基于 Prometheus-2 模型对两个生成的回答系统进行对比分析,并从 12 个评估维度进行综合评价,同时基于胜率计算每个系统的 Elo 秩次分数。
2.3 文本摘要 (Text Summarization)
评估 LLMs 的信息提取和总结能力。
2.3.1 数据集
- Clinical Trial: 由 ClinicalTrials.gov 提供的临床试验协议数据集合。
- Problem Summarization: 由内部医学医生在日常临床工作中创建的诊断问题列表数据集。
2.3.2 评估指标
- ROUGE评估生成摘要与参考摘要基于词项的相似程度。
- BLEU评估生成抽象段落与原始抽象段落间的相似程度。
- BERTScore识别生成抽象段落与原始抽象段落间的语义关联程度。
- 4C分数(4C Scores): 包括一致性(Consistency)、覆盖率(Coverage)、合规性(Conformity)和简洁性(Conciseness).
2.3.3 方法
基于交叉检验的方法论:通过生成对应关系来建立问题-答案配对,并以这些问题为基础进行评估分析
2.4 结构化响应 (Structured Responses)
评估 LLMs 生成结构化医疗文档的能力。
2.4.1 数据集
- ACI 基准数据集:旨在基于医生-患者对话生成临床笔记的基准数据集。
- SOAP 格式医疗记录:专为生成 SOAP 格式的临床医疗记录而设计。
2.4.2 评估指标
ROUGE、BERTScore、4C 分数 (一致性、覆盖率、一致性、简洁性) 等。
2.4.3 方法
使用交叉检验框架,评估 LLMs 生成的文本与原始文本的一致性和完整性。
3 结论

- 模型性能与规模的关系:随着模型规模的增长,在大多数基准测试中的性能也相应提高这一现象与语言模型扩展的一般趋势相吻合。
- 安全性能:尽管较大规模的模型在常规任务中表现出色,在专门针对安全性的基准数据集(ToxiGen)上并未显示出显著提升。
- 置信区间:图中所展示的置信区间反映了评估结果之间的差异性程度。较小的置信区间意味着评估结果更为稳定和可靠。
- 数据集的挑战性:不同数据集对模型的要求各具特色。例如,在USMLE数据集中,模型需展现对基础医学知识的良好掌握能力;而在ToxiGen等其他类型的数据集中,则需重点关注其避免生成有害内容的能力。
3.1 封闭式问题 (Closed-Ended Questions)
- 模型规模: 大型语言模型在多数应用场景中均展现出色性能,并符合当前语言模型发展规模的扩展趋势。但就安全类基准数据集(ToxiGen)而言这一趋势并不明显。
- 专业指令模型: 专门针对医学领域进行微调的专业指令模型在各项基准测试中表现优异,并能有效提升特定领域知识体系与推理能力。
- 基准测试饱和: 在某些标准化评测系统(如USMLE)中该系统已取得近乎满分成绩 这表明这些评测标准可能已接近饱和状态 需要开发更加全面且具有挑战性的评测体系来进一步验证系统性能。
3.2 开放式问题 (Open-Ended Questions)
- 大型模未必总是性能更优,在开放式临床问式生成任务中,并非所有情况小模都不占优。例如,在处理复杂场景时(如风险缓解与全面覆盖)GPT-4 显示出了不足之处。
- 各类模各有强弱,在安全性与清晰度等方面各有侧重。
- 该框架下的模评估系统 Prometheus-2 对 LLMs 开放式问式生成能力的评价结果与其临床专家评审结果高度吻合。这表明其在量化分析这类能力方面具有较高的可靠性。
- 反而可能成为更佳选择的小型模,在特定情境下(如拒绝回答复杂查询)可能展现出更好的性能效果。因此,在实际应用中建议根据具体情况灵活选用模类型。
3.3 医学安全评估 (Medical Safety Evaluation)
- 偏好调整的重要性: 采用偏好调整的模型(如Med42-Llama3.1-70b)在安全相关的基准测试中展现出优异的表现,则反映出在特定领域进行微调时需特别注意安全性。
- 医疗安全基准的局限性: 医疗安全基准侧重于医生对患者的伦理行为的关注,并未考虑到其他相关方(如患者)的操作方式。
3.4 交叉检验框架 (Cross-Examination Framework)
- 临床文本摘要: 微调模型在避免幻觉方面的性能优于Mistral/Mixtral模型,在一致性上表现出色。
- 临床笔记生成: 微调模型在减少幻觉方面的效果显著优于Mist42和Meditron模型,在一致性的表现上更为出色。
- 简洁性和覆盖率之间的权衡: 通常而言,在摘要中追求更高的简洁性会导致较难涵盖关键信息(coverage),而若降低简洁性标准则可能获得更全面的信息覆盖(coverage)。
- 与传统指标的关联: 4C分数与传统的摘要评估指标(如ROUGE和BERTScore)存在一定关联性,并且这些指标分别关注不同的评估维度。
