开源医疗大模型汇总
| 数据增强 | (继续)预训练 | 微调 | 偏好对齐 | 知识增强 | |
|---|---|---|---|---|---|
| DoctorGLM | × | × | √ | × | × |
| **BenTsao (**本草) | √ | × | √ | × | × |
| **BianQue (**扁鹊) | √ | × | √ | × | × |
| **HuatuoGPT (**华佗) | √ | × | √ | √ | × |
| QiZhenGPT 【中医】 | √ | × | √ | × | × |
| **ShenNong-TCM-LLM (**神农) | √ | × | √ | × | × |
| MedicalGPT | × | √ | √ | √ | × |
| PMC-LLaMA | √ | √ | √ | × | × |
| ChatDoctor | √ | × | √ | × | × |
| IvyGPT | × | × | √ | √ | × |
| **HuangDI (**皇帝) | × | √ | √ | × | × |
| **ZhongJing (**仲景) | √ | × | √ | × | × |
上表按照自己理解整理获得,如有错误欢迎评论指出。
1**、**DoctorGLM
基于ChatGLM-6B的中文问诊模型,通过中文医疗对话数据集进行微调,实现了包括lora、p-tuningv2等微调及部署。
·较早的使用中文的医疗模型(占坑,后面模型多与该模型对比)
技术:
·Lora高效微调
优点:
·训练和部署成本低
缺点:
·后期训练时候能力损失(效果下降)
·存在复读现象(会重复输出多次相同的结果)
·响应输出慢
·不能量化
·性能随训练时间延长而下降
项目地址:https://github.com/xionghonglin/DoctorGLM
论文地址:https://arxiv.org/abs/2304.01097
2**、****BenTsao (**本草)
该项目开源了经过中文医学指令微调的大语言模型集,包括LLaMA、Alpaca-Chinese、Bloom、活字模型等。我们基于医学知识图谱以及医学文献,结合ChatGPT API构建了中文医学指令微调数据集,并以此对各种基模型进行了指令微调,提高了基模型在医疗领域的问答效果。
技术:
·使用知识图谱生成指令数据
·监督微调
优点:
·训练和部署成本低
·提出了SUS(生物医学领域的评估指标)
缺点:
·没有真实世界的数据(来自华佗论文的相关工作说明)
·有使用中医理论或者中医数据
·LLaMA及Alpaca中文语料有限,且知识结合的方式较为粗糙,模型运行的结果不同、效果有限
项目地址:https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese
论文地址:https://arxiv.org/abs/2304.06975
3**、Med-ChatGLM**
该项目开源了经过中文医学指令微调的ChatGLM-6B模型,微调数据与BenTsao相同。
·除中文能力较好外,其余基本同上
项目地址:https://github.com/SCIR-HI/Med-ChatGLM
4**、****BianQue (**扁鹊)
该项目开源了生活空间健康大模型。结合当前开源的中文医疗问答数据集(MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、MedDG、cMedQA2、Chinese-medical-dialogue-data),分析其中的单轮/多轮特性以及医生问询特性,结合自建的生活空间健康对话大数据,构建了千万级别规模的扁鹊健康大数据BianQueCorpus,基于扁鹊健康大数据BianQueCorpus,选择ChatGLM-6B作为初始化模型,经过全量参数的指令微调训练得到BianQue。
技术:
·使用多轮对话数据集进行指令微调
优点:
·模型主动提问能力强(能主动引导对话)
缺点:
·医疗诊断/建议能力弱(不专业)
·模型主动提问时可能会涉及用户隐私问题(安全性)
·模型生成的建议未经严格审查和校对
项目地址:https://github.com/scutcyr/BianQue
5**、HuatuoGPT (**华佗)
该项目开源了医疗大模型HuatuoGPT,包括基于Baichuan-7B训练得到的HuatuoGPT-7B和基于Ziya-LLaMA-13B-Pretrain-v1训练得到的HuatuoGPT-13B。
技术:
·使用混合数据(来自GPT的数据与来自医生的数据)
·监督微调
·混合反馈强化学习(基于RLHF(人类反馈)和RLAIF(人工智能反馈))
优点:
·交互式诊断
·遵循指令能力强
·聊天更流畅
·回答更详细
缺点:
·仅依赖公开医疗数据集,模型效果受数据集质量影响
项目地址:https://github.com/FreedomIntelligence/HuatuoGPT
论文地址:https://arxiv.org/abs/2305.15075
6**、QiZhenGPT** 【中医】
该项目利用启真医学知识库构建的中文医学指令数据集,并基于此在Chinese-LLaMA-Plus-7B、CaMA-13B、ChatGLM-6B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果。
技术:
·真实医患知识问答数据、药品知识数据、疾病知识数据
·Lora高效微调
·知识库辅助生成答案(提高大模型回答质量)
优点:
·训练和部署成本低
·真实数据有效提高问答准确性
缺点:
·存在复读现象
·当要求其回复比较精准时,模型“复读”的现象比较严重(部分模型);
·在解决“复读”的问题时,其回答的事实性很差(数据幻想严重)(部分模型)
项目地址:https://github.com/CMKRG/QiZhenGPT
7**、ChatMed**
该项目开源了中文医疗大模型ChatMed-Consult,以中文医疗在线问诊数据集ChatMed_Consult_Dataset的50w+在线问诊+ChatGPT回复作为训练集,基于LlaMA-7b采用LoRA微调得到。
技术:
·数据:在线问诊+ChatGPT回复
·Lora高效微调
优点:
·训练和部署成本低
·回答更丰富,具有更多可行的建议
缺点:
·存在复读现象
·基于开源数据,知识有限
项目地址:GitHub - michael-wzhu/ChatMed: ChatMed: 中文医疗大模型,善于在线回答患者/用户的日常医疗相关问题!
8**、ShenNong-TCM-LLM (**神农)
该项目开源了中文中医药大模型ShenNong-TCM-LLM,以开源的中医药知识图谱为基础,采用以实体为中心的自指令方法,调用ChatGPT得到2.6w+中医药指令数据集ChatMed_TCM_Dataset,基于该数据集以LlaMA为底座,采用LoRA微调得到。
技术:
·基于中医药知识图谱创建指令数据
·Lora高效微调
优点:
·训练和部署成本低
·回答更丰富,具有更多可行的建议
·针对回复中医药相关问题效果更好
缺点:
·存在复读现象
项目地址:https://github.com/michael-wzhu/ShenNong-TCM-LLM
9**、**XrayGLM
该项目开源了中文多模态医学数据集及模型,其在医学影像诊断和多轮交互对话上显示出了非凡的潜力。
技术:
·QLora高效微调
优点:
·多模态(可用于医学影像诊断和多轮交互对话)
·训练和部署成本低
缺点:
·存在复读现象
10**、**MedicalGPT
该项目开源了医疗大模型MedicalGPT,实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化)。
技术:
·增量预训练(二次预训练模型)
·Lora高效微调
·RLHF(基于人类反馈的强化学习)
·DPO(直接偏好优化,实现对模型的精确控制,有效学习到人类偏好)
优点:
·训练和部署成本低
·输出更准确,同时更符合人类偏好
缺点:
·在涉及事实性的指令上可能会产生违背事实的错误回答
·对于具备危害性的指令无法很好的鉴别,由此会产生危害性言论
·一些涉及推理、代码、多轮对话等场景下模型的能力仍有待提高
项目地址:https://github.com/shibing624/MedicalGPT
11**、****Sunsimiao (**孙思邈)
该项目开源了中文医疗大模型Sunsimiao,该模型基于baichuan-7B和ChatGLM-6B底座模型在十万级高质量的中文医疗数据中微调而得。
技术:
·Lora/QLora高效微调
优点:
·训练和部署成本低
缺点:
·对基座模型进行微调得来,没有评测、没有其余细节说明、效果难以保证
项目地址:https://github.com/thomas-yanxin/Sunsimiao
12**、****CareLlama (**关怀羊驼)
该项目开源了医疗大模型CareLlama,同时它收集了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型以促进医疗LLM快速发展。
技术:
·QLora高效微调
优点:
·训练和部署成本低
缺点:
·基于公开数据与各类技术,属于资源整合性质,并不是专门以优化医疗效果为目的训练微调,也未经评测,效果难以保证
项目地址:https://github.com/itsharex/CareLlama
13**、**DISC-MedLLM
该项目是由复旦大学发布的针对医疗健康对话式场景而设计的医疗领域大模型与数据集,该模型由DISC-Med-SFT数据集基于Baichuan-13B-Base指令微调得到,有效地对齐了医疗场景下的人类偏好,弥合了通用语言模型输出与真实世界医疗对话之间的差距。
技术:
两阶段监督微调
·第一阶段从大规模样本中学习领域知识与医学对话能力
·第二阶段从精心挑选的符合人类偏好的数据集训练学习,使得模型行为模式、有用性等方面符合人类偏好。(仍是监督微调)
优点:
·训练和部署成本低
·回答可靠性高(不依赖模型生成医学知识,知识均来自可靠数据源)
·拥有多轮查询能力,可有效询问和澄清医疗问题
·符合人类偏好(互动时提供更多的信息和帮助,表现出同理心(不冷冰冰))
缺点:
·知识受限于使用数据,适应性差
项目地址:https://github.com/FudanDISC/DISC-MedLLM
论文地址:https://arxiv.org/abs/2308.14346
14**、PMC-LLaMA**
该项目开源了医疗大模型PMC-LLaMA,包括预训练版本的MedLLaMA_13B和指令微调版本的PMC_LLaMA_13B。
项目地址:https://github.com/chaoyi-wu/PMC-LLaMA
论文地址:https://arxiv.org/abs/2304.14454
优点:
- 模型参数小,易于部署。
- PMC-LLaMA模型的训练提供了两个训练阶段,分别是预训练阶段和指令微调阶段,通过预训练阶段可以提高基座模型llama的医疗知识储量,进而得到一个在医疗领域上效果比较好的模型(测试在普通医疗问题上效果超过chatgpt)。
缺点:
- PMC-LLaMA模型对中文的支持性很差。
- 受限于训练使用的数据,模型在中医上的效果不好。
15**、ChatDoctor**
该项目开源了医疗大模型ChatDoctor,在LLaMA的基础上训练得到。
项目地址:https://github.com/Kent0n-Li/ChatDoctor
论文地址:https://arxiv.org/abs/2303.14070
优点:模型参数小,易于部署。
缺点:
1、ChatDoctor是在llama的基础上微调的到,只经历了微调的阶段,而且本身模型对中文的支持性很差。
2、而且在特定医疗领域(比如中医领域)效果也很差。
3、不支持多模态。
16**、****MING (**明医)
项目地址:https://github.com/189569400/MedicalGPT-zh
该项目开源了医疗大模型MING,基于bloomz-7b指令微调得到MING-7B,支持医疗问答、智能问诊等功能。
优点:模型参数小,易于部署。
缺点:模型只有微调阶段,只支持单模态,模型输出结果的准确性、完整性或相关性都不能保证。
17**、**IvyGPT
该项目开源了医疗大模型IvyGPT,它在高质量的医学问答数据上进行了监督微调,并使用人类反馈的强化学习进行了训练。
项目地址:https://github.com/WangRongsheng/IvyGPT
优点:
- 支持在医疗问答LLM上全流程训练:监督训练、奖励模型、强化学习 (RLHF);
缺点:
1、模型本身不支持多模套;疑似删库跑路了,模型效果难以验证。
18**、**PULSE
该项目开源了中文医疗大模型PULSE,该模型使用约4,000,000个中文医学领域和通用领域的指令微调数据进行微调,支持医学领域的各种自然语言处理任务,包括健康教育、医师考试问题、报告解读、医疗记录结构化以及模拟诊断和治疗。
项目地址:https://github.com/openmedlab/PULSE
优点:
- PULSE-7b模型基于bloomz-7b1-mt进行微调,参数小,易于部署。
缺点:
1、PULSE-7b模型只经历了微调阶段,模型输出结果的准确性、完整性或相关性都不能保证。
19**、****HuangDI (**皇帝)
该项目开源了中医大模型HuangDI (皇帝,该模型首先在Ziya-LLaMA-13B-V1基座模型的基础上加入中医教材、中医各类网站数据等语料库,训练出一个具有中医知识理解力的预训练模型,之后在此基础上通过海量的中医古籍指令对话数据及通用指令数据进行有监督微调,使得模型具备中医古籍知识问答能力。
项目地址:https://github.com/Zlasejd/HuangDI
优点:
- HuangDI模型的训练被分为了两个阶段,第一个阶段是继续预训练中医数据(纯文本语料)约0.5G,第二个阶段是有监督微调(其中包括DPO优化模型的步骤)。
- 模型参数小,易于部署。
缺点:
- HuangDI模型的第一个训练阶段使用的数据太少了,难以有效提升太多基础模型的效果。
- 模型回答风格偏向于中医知识科普类型,在中医辩证开方上面效果不好,容易出现回答重复的现象。
20**、****ZhongJing (**仲景)
该项目开源了中医大模型ZhongJing (仲景,该模型旨在阐明中医博大精深之知识,传承古代智慧与现代技术创新,最终为医学领域提供可信赖和专业的工具。
项目地址:https://github.com/pariskang/CMLM-ZhongJing
优点:参数比较小,易于部署,与同参数模型相比,在中医妇科临床领域效果较好。
缺点:
- ZhongJing中医大模型只是在已有预训练语言模型的基础上进行了高效微调,在遵循人类指令和准确度等方面效果有待提升。
- ZhongJing中医大模型在妇科以外中医问题上回答不准确或者不完全。
21**、**TCMLLM
该项目拟通过大模型方式实现中医临床辅助诊疗(病证诊断、处方推荐等)中医药知识问答等任务,推动中医知识问答、临床辅助诊疗等领域的快速发展。目前针对中医临床智能诊疗问题中的处方推荐任务,发布了中医处方推荐大模型TCMLLM-PR,通过整合真实世界临床病历、医学典籍与中医教科书等数据,构建了包含68k数据条目的处方推荐指令微调数据集,在ChatGLM大模型上进行微调得到。
项目地址:https://github.com/2020MEAI/TCMLLM
优点:
1、 TCMLLM模型是基于ChatGLM-6B在十几万条真实医疗数据上微调得到,与ChatGLM-6B相比TCMLLM在中医处方推荐上准确率有提升。
2、 参数小,易于部署。
缺点:
- TCMLLM模型只经过了微调阶段,而且使用的基座模型chatglm性能比较一般,导致TCMLLM模型效果也一般。
- 不能处理多模态数据。
22**、**OpenBioMed
该项目开源了若干多模态生物医学大模型,包括多模态生物医药大模型BioMedGPT、多模态小分子基础模型DrugFM和MolFM、细胞表示学习模型CellLM等。
项目地址:https://github.com/PharMolix/OpenBioMed
论文地址:https://arxiv.org/abs/2308.09442
其中的代表模型BioMedGPT-10B、DrugFM和MolFM:
优点:
- 该项目由多个模型组成,不同的模型分别在不同的下游任务微调过,每个小模型针对各自的下游任务都有不错的效果,具体涉及到的下游任务分别是跨模态抽取、分子描述生成、基于文本的分子生成、分子问答、蛋白质问答、细胞类型注释、单细胞药物敏感性预测、分子性质预测、药物-靶点亲和力预测和蛋白质关系预测。
- 整个项目在生物医药专业问答能力比肩人类专家水平,在分子和蛋白质跨模态问答中表现出强大的性能,在抽取与某个小分子相关性最强的文本任务上也有很好的性能。
- 模型参数小,更易于部署。
缺点:
- 该项目的每个模型都只在各自的很小的领域有不错的效果,单个模型能够应用的范围比较小。
- 在处理复杂任务的时候可能需要多个小模型协作完成,但是怎么有效的调用多个模型处理复杂任务还有待解决。
- BioMedGPT-LM-7B模型只是针对llama2模型进行了下游领域的微调,这他微调的下游领域与参数量更大的通用模型相比并不一定占优势。
23**、荀子古籍大模型**
基于Qwen大模型微调而得,提供古籍智能标引、古籍信息抽取、诗歌生成、古籍高质量翻译、阅读理解、词法分析、自动标点等支持。
技术:
·指令微调
优点:
·
缺点:
·
项目地址:https://github.com/Xunzi-LLM-of-Chinese-classics/XunziALLM/tree/main
24、 MedChatZH
基于Baichuan-7B在中医书籍数据和医疗指令对话数据上训练,使其具备较强的中文医疗对话能力,能够理解中医问题 。
技术:
·指令微调
优点:
·
缺点:
·
项目地址:tyang816/MedChatZH: 中文医疗问诊大模型MedChatZH,具有中西医问诊、优秀的对话能力 (github.com)
