分割大模型论文阅读——Medical SAM Adapter Adapting Segment Anything Model for Medical Image Segmentation
The MedicalSAMAdapter is designed to adapt the SegmentAnything Model specifically for MedicalImageSegmentation applications.
- 期刊分析
-
-
摘要
-
引言
-
相关工作
-
- 交互式分割
- 参数高效的微调
-
方法
-
- 初步:SAM 架构
- Med-SA 架构
- SD-Trans
- HyP-Adpt
- 训练策略
-
研究目标
【
* 总结
期刊分析
期刊名: arXiv
代码: https://github.com/KidsWithTokens/Medical-SAM-Adapter

摘要
Segment Anything Model (SAM) 因其卓越的分割能力而受到图像分割领域的广泛关注。该模型不仅展现出令人印象深刻的性能水平,并且其基于提示的界面设计也相当出色。尽管如此,在近期的研究和个别实验中发现,在医学图像分割任务中,SAM的表现略显不足。这引出了一个问题:如何进一步提升SAM对医学图像分割能力?在本研究中,我们并未对原始SAM模型进行微调优化。相反地,我们开发了一种称为Medical SAM Adapter(Med-SA)的新方法——一种高效轻量的适应技术——用于将专业领域的医学知识融入到分割模型中以提升其表现力。具体而言,在Med-SA架构下,我们提出了空间深度转置(SD-Trans)这一创新技术来实现2D SAM算法向3D医疗影像的有效迁移;同时又引入了超提示适配器(HyP-Adpt)这一新思路来优化提示条件处理过程。为了全面评估其效果与适用性,在本研究中我们选择了17种不同类型的医学图像数据集进行测试。结果显示,在多个典型应用案例上(如心脏CT、肝脏超声等),我们的方法均显著超越了现有最先进算法的表现(SOTA),并且仅更新了模型参数总量约2%即可达到预期效果
引言
最近的研究关注了分割任何模型(SAM),该技术由Kirillov等人于2023年提出,并因其强大的视觉分割功能而受到广泛关注。该方法能够基于用户的提示生成多样化的详细分割掩模,在处理自然图像时表现出色;然而,在医学图像分割领域却面临局限性(Deng et al., Roy et al., He et al., 2023)。尽管互动式系统采用类似的技术具备巨大的临床价值;这些系统能够根据临床医生的具体指示优先考虑患者关注的区域,并提供更加直观且个性化的体验。例如,在单个眼底图像中,我们经常面临血管、视盘、视杯以及黄斑等复杂结构之间的重叠与错综复杂关系;因此,在区分目标组织与其他复杂结构时需格外谨慎与精准。鉴于大规模标注数据获取的巨大挑战,在临床应用中采用基础交互型技术显得尤为关键。
受限于缺乏专门的医学知识,SAM 在处理医学图像时表现出一定的局限性。这些局限性主要体现在以下几个方面:图像对比度较低、组织边界模糊以及难以识别微小病变区域等难点。当前最先进的方法(SOTA)是基于大量通用数据预训练后专门针对医疗数据进行优化和重新训练的经典 SAM 模型(Ma 和 Wang 2023)。然而,在计算资源和内存需求方面都非常高昂。尽管如此,全面微调是否有必要值得商榷?因为已有研究表明:基于大量通用数据预训练的视觉模型在医疗图像处理中展现出良好的可移植性(Raghu et al. 2019;Xie and Richmond 2018)。
在本文中
然而,在医疗领域直接应用适应技术存在诸多挑战。第一个挑战源于许多医学图像是三维的(如CT和MRI扫描),而这些图像与自然图像在二维属性上存在显著差异。目前尚不清楚如何将基于二维的SAM模型成功应用于3D医学图像分割任务中。第二个挑战则体现在当前关于Adaption技术的研究进展上——尽管Adaption在自然语言处理(NLP)领域取得了显著成功(例如使其具备强大的跨语言理解和自适应能力),但将其原理和方法系统性地迁移至视觉模型领域仍是一个相对新兴的研究方向,并且对于交互式视觉模型而言尚处于初步探索阶段。在交互式视觉模型中,用户提供的视觉提示信息对预测结果的影响尤为突出——如何能够有效地将这一关键反馈机制与现有的适应性技术相结合仍需进一步研究。
为了解决上述问题,我们创新性地设计出了一种称为医疗 SAM 适配器 (MedSA) 的新型自适应框架。在 MedSA 中,该技术被用来实现2D到3D的自适应。在 SD-Trans 中,我们采用重新排列输入嵌入的空间维度为深度维度的方法,使其能够处理不同维度的信息。此外,我们还提出了超提示适配器(HyP-Adpt)来实现提示条件的自适应。其中,在 HyP-Adpt 方法中,视觉提示会被用来生成一系列可应用于适应嵌入权重的有效权重序列,并促进广泛且深入的提示与自适应交互。
修改说明
我们开发了一种通用适用于医学图像分割的方法。我们的框架 Med-SA 是基于基础架构 SAM 的一个简单而强大的扩展,在保持基础架构完整性的同时显著提升了其医疗应用能力,并且仅增加了总参数量的2%。
为了应对复杂的高维(3D)医学数据分割问题, 我们开发了一种新的解决方案 SD-Trans, 其主要目标是解决传统方法面临的挑战。
为了更好地满足医疗领域的多样化需求, 我们提出了 HyP-Adpt 框架, 这种能够快速响应变化的技术架构特别关注于接受并利用用户提供的关键提示信息。
我们在一项包含多种图像模态的真实世界挑战中进行了系统性评估, 并通过大量实验验证了 Med-SA 在性能上的显著优势。特别是在采用标准基准测试 BTCV 的腹部多器官分割任务中, 我们的模型表现优异: 在 Swin-UNetr 基础上提升了2.9%, 超出了 vanilla SAM 34.8%以上的性能水平, 完全微调版本 (MedSAM) 则比其高9.4%以上。
相关工作
交互式分割
历史悠久的交互式分割技术最初被视为优化技术的一种研究手段(Grady 2006;Gulshan et al. 2010;Kim、Lee 和 Lee 2010;Rother、Kolmogorov 和 Blake 2004)。Dios系统(Xu 等人, 2016)作为开创性工作通过整合深度学习方法并结合正负样本的距离图进行处理从而实现了对交互式分割的重大突破。随后的研究工作主要集中在如何通过多预测结果的选择机制来解决分割过程中的不确定性问题(Li、Chen 和 Koltun, 2018年;Liew 等人, 2019年)。为此Chen等提出的CDNet方法引入了自注意力机制以生成更为一致且可靠的预测结果进一步提升了交互式分割的效果。为增强预测结果的稳定性和准确性Sofiiuk等提出的RITM方法采用了基于前一个预测结果作为输入的学习策略同时Forte等提出的AccuracyNet则通过引入新的网络架构实现了对分割精度的有效提升。最近Roy等提出的SAM方法不仅显著提升了零样本分割性能而且为其在医学图像领域的重要性提供了新的理论支撑(Roy et al. 2023)。尽管交互式医学图像分割技术在临床应用中发挥着关键作用但其研究关注度却相对较低。例如在一个眼底图像中可能需要同时识别多个目标区域包括血管、视网膜中心区域视杯边缘以及黄斑区域等特征点位为此Med-SA平台为我们这一领域的研究工作提供了一个良好的起点旨在推动相关领域的进一步探索。
参数高效的微调
PEFT 已被广泛认可为一种专为特定应用场景微调大型基础模型的有效策略(Zaken、Ravfogel 和 Goldberg 2021)。相较于全面微调方法,在PEFT中保留了大部分模型参数,并且仅可训练少量可变参数(通常不到总参数量的5%),从而实现了高效的训练过程与快速的更新频率(Zaken、Ravfogel 和 Goldberg, 2021)。研究结果表明,在性能上PEFT优于全面微调方法:这种差异源于其能够有效避免灾难性遗忘问题,并在跨域场景下展现出更强的泛化能力(尤其是数据资源有限的情况下)(Zaken、Ravfogel 和 Goldberg, 2021)。在现有的PEFT策略中,“Adaption”(Hu et al. 2021)脱颖而出作为一项极具优势的方法:它不仅能够为大规模基础视觉模型提供微调支持,在自然语言处理领域也展现出广泛的应用潜力;更关键的是,在计算机视觉领域同样展现出卓越的效果(He et al. 2022;Chen et al. 2022)。基于这些观察与技术优势,“Adaption”被认为是将SAM引入医疗领域最适宜的技术方案之一。我们有理由相信,“简单而高效的Med-SA方法”将为医学模型的基础开发带来前所未有的可能性。
方法
初步:SAM 架构
首先,我们概述 SAM 架构。 SAM 包含三个主要组件:图像编码器、提示编码器和掩模解码器 。图像编码器基于 MAE 预训练的标准 Vision Transformer (ViT)。具体来说,我们使用 ViT-H/16 变体,它采用 14×14 窗口注意力和四个等距全局注意力块,如图 1 (a) 所示。图像编码器的输出是输入图像的 16 倍下采样嵌入。提示编码器可以是稀疏的(点、框)或密集的(掩模)。在本文中,我们仅关注稀疏编码器,它将点和框表示为位置编码,并与每种提示类型的学习嵌入相加。掩码解码器是经过修改以包括动态掩码预测头的 Transformer 解码器块。解码器使用双向交叉注意力来学习提示和图像嵌入之间的交互。之后,SAM 对图像嵌入进行上采样,MLP 将输出标记映射到动态线性分类器,该分类器预测给定图像的目标掩模。

Med-SA 架构
本研究旨在通过微调优化 SAM 架构以提升其在医学图像分割任务中的医疗应用能力。我们仅调整了部分参数而未对全部参数进行更新,并保留了预训练后的 SAM 参数不进行更新。为了实现这一目标我们构建了一个适配器模块并将其整合到指定位置。该适配器模块由下投影层、ReLU激活层和上投影层依次构成如图 1 (b)所示。其中下投影层采用多层感知机(MLP)对输入嵌入进行降维处理以降低维度随后经过 ReLU 激活函数引入非线性特性最后通过上投影层将嵌入信号扩展回原始维度以完成特征重建过程
SAM编码器中采用了两个适配器应用于每个ViT块。针对标准ViT块架构(参考图1(a)),第一个适配器排列于多头注意力机制后方与残差连接前侧(参考图1(b))。第二个适配器被安置在MLP层残差路径上,并紧接着该模块后方立即通过应用缩放因子s来放大嵌入空间(Chen et al. 2022)。

在 SAM 解码器中,我们为每个 ViT 块集成了一个新的融合模块。该融合模块的第一个组件负责整合提示嵌入信息,并通过创新性地开发了一种称为超级提示适配器(HyPAdpt)的新颖结构来实现这一目标。在解码器中设置的第二个组件(Adapter)采用了与编码器相同的配置策略,并能够有效增强ViT块中的MLP模型性能。第三个组件则被安置在图像embedding残差连接之后的位置,并通过促进交叉注意力机制的建立来提升整体性能。经过这些操作后完成前馈传播,并最终输出结果
SD-Trans
由于2D图像与MRI、CT等流行的3D模式在尺寸上存在差异,在医学图像分割领域应用自适应采样机制(SAM)面临诸多挑战。临床应用中识别切片间的相关性对于准确决策至关重要。尽管SAM方法能够处理各个切片以实现分割目标,在处理体积数据时却未能充分考虑立体医学图像固有的体积相关性问题(Hatamizadeh等人, 2022b,a; Xing等人, 2022)。基于此限制我们开发了一种名为SD-Trans的新方法其灵感源自于图像到视频转换技术的研究(Liu等人, 2019)。如图1所示该架构设计体现了这一创新思路
如图所示,在每个块中,我们将注意力操作划分为两个分支:空间分支与深度分支。对于给定的深度为 D 的 3D 样本,在其 N \times L 维的空间维度上应用多头注意力机制以捕获空间相关性并将其编码为嵌入表示。在深度分支中,则将输入矩阵转置以获得 N \times D \times L 的结构,并施加相同的多头注意力机制以学习深度相关性并将其编码为嵌入表示。随后将各分支的结果分别还原至其原始形状后进行叠加整合

HyP-Adpt
尽管适应技术已在先前的一些作品中被应用于视觉模型,然而,在交互式视觉模型中的应用仍未能得到充分的探索。源任务与下游任务之间的互动行为可能存在显著差异,因此,为了确保这一关键环节的有效性,在交互式模型中起到关键作用的视觉提示纳入适配器变得尤为关键。在此,我们提出了一种名为 HyPAdpt 的解决方案旨在实现即时条件适应
HyP-Adpt 的核心灵感源自 HyperNetworks 研究(Ha、Dai 和 Le 2016)。该方法通过一个主网络生成辅助网络的权重以调节知识状态。在此基础上我们进行了创新性设计使其能够在功能层面实现有效的应用。具体而言我们通过投影和重塑操作从提示嵌入中提取了一系列权重矩阵随后将这些权重矩阵直接应用于适配器嵌入层中的矩阵乘法运算相较于构建完整的新架构而言这种方法不仅能够实现多层次特征之间的广泛交互还显著降低了所需的参数数量


训练策略
在模型训练过程中, 我们采用了点击提示和边界框(BBox)提示来实现交互式分割的技术。用于生成边界框(BBox)提示时, 则采用了与SAM一致的技术方案。值得注意的是, 在原始SAM论文中并未提供关于点击提示具体生成机制的详细说明, 因此我们在其基础上进行了创新性改进, 并在此将我们的创新性方法予以介绍。
我们的点击提示生成过程的核心机制基于正点击指示前景区域与负点击标识背景区域。我们采用随机和迭代点击采样策略以根据这些提示进行模型训练。首先, 我们采用随机采样方法完成初始提示设置,随后并采用迭代采样过程整合多次采样结果。这种迭代采样方法模拟真实用户交互模式,因为每次新的样本点都会被放置于由先前样本点预测的错误区域之中。具体而言,我们参考(Lin et al. 2020)进行随机采样的基础工作,并参考(Mahadevan、Voigtlaender 和 Leibe 2018)构建迭代采样的完整流程框架.有关详细实现,请参考公开发布的代码库.
实验


数据集
我们进行了针对五个不同医学图像分割数据集的实验研究,并将其划分为两类以便后续分析。其中一类侧重于评估常规分割性能,在此背景下我们选择了腹部多器官分割作为代表。其被认为是医学图像分割中最具挑战性的领域之一,并基于 BTCV 数据集(Fang 和 Yan 的研究)进行验证。该基准库是一个广泛采用且公开可用的标准测试库,并以12种典型解剖结构作为基准评估标准。
其他四项任务用于检验模型在不同模式下的泛化能力,并涵盖眼底图像中的视盘和视杯分割、脑MRI图像中的脑肿瘤分割、超声图像中的甲状腺结节分割以及皮肤镜图像中的黑色素瘤或痣分割。具体而言,在 REFUGE2 数据集中进行了实验研究(Fang 等人, 2022)。基于 BraTs 2021 数据集(Baid 等人, 2021)的研究中,我们进行了相关实验。TNMIX 基准数据集被采用,并包含来自 TNSCUI (Ma 等人, 2017) 的4554张图像以及来自 DDTI (Pedraza 等人, 2015) 的637张图像作为混合数据来源。我们的实验则基于 ISIC 2019 数据集(Milton, 2019)展开

实施细节
在本研究工作中,我们主要依据官方ViT-H/SAM GitHub存储库采用了Med-SA管道进行2D医学图像训练。对于3D医学图像训练,我们采用了较小的批量大小为16。针对REFUGE2、TNMIX和ISIC数据集,模型经过40个epoch的训练;而对于BTCV和BraTs数据集,则将训练周期延长至60个epoch。与完全微调相比,我们选择了较低的学习率以期观察到模型在当前设置下的更快收敛效果。在交互模型构建过程中,我们尝试了四种不同的提示策略:第一种策略为随机选取1个正样本(1-point);第二种策略为选取3个正样本(3-point);第三种策略是在目标区域放置一个与之有50%重叠度的边界框(BBox 0.5);第四种策略则采用与目标区域有75%重叠度的边界框(BBox 0.75)。所有实验均基于PyTorch平台完成,并在4块NVIDIA A100 GPU上实现了并行计算。基于默认参数配置完成了所提出方法的各项比较实验
腹部多器官分割与SOTA的比较
用于评估我们提出的 Med-SA 模型的整体性能,在对比实验中将该模型与 BTCV 数据集上的现有 SOTA 方法进行了系统性对比。具体结果可见图1。在表中列出并比较了包括以下几种先进医学图像分割算法在内的多种对比基准方法:nnUNet (Isensee et al. 2021)、TransUNet (Chen et al. 2021a)、UNetr (Hatamizadeh et al. 2021a)、UNetr (Hatamizadeh et al. 2022b)、Swin-UNetr(Hatamizadeh 等人, 2022a)、EnsDiff(Wolleb 等人, 2021)以及 SegDiff(Amit 等人, 2021)。此外还包含了普通 SAM 和完全精细化的 SAM(即 MedSAM)(Ma 和王, 2023)。其中Dice分数被用作量化评估分割性能的标准。
从表中可以看出,在仅通过单个提示机制的情况下,Med-Sa 的性能较之 Sam 显著提升。值得注意的是,在 Baidu-Tsinghua Vision(BTCV)数据集上,单点 Med-Sa 在所有 12 个器官上的表现均达到 SOTA 水平,并且其整体性能优于其他现有方法。随着我们引入更细致的提示机制,在实验结果持续优化的基础上逐步改进了模型性能。具体而言,在 BBox 度量下评估的结果显示:Dice 系数达到了89.8%,远高于Swin-UNetr的2.9% SOTA水平。(BBox 的具体值为0.75)。值得注意的是,在参数规模方面:Swin-UNetr由138百万可旋转参数构成而我们仅更新了总可旋转参数的约2%(即13 million与636 million之间的比例),这一显著的技术优势进一步凸显了所提出方法的有效性。此外,在动态变化检测任务中我们的模型表现甚至超越了完全微调的 MedSam 模型 baseline。
当我们对比这些交互式分割模型(如SAM、MedSAM和MedSA)在不同提示下的性能时,在多个测试指标上发现采用三点提示相比单点提示表现出略微的优势。具体而言,在BBox指标达到0.75时的表现通常与采用三点提示相当甚至更优;然而需要注意的是,在BBox指标达到0.5时的表现低于预期标准值这一现象的发生;这凸显了精确边界框标注在提升性能方面的重要性;而更为有趣的是,在所有测试中表现一致的现象出现在这些交互式模型中
鉴于1号段落中对SAM性能的描述, 我们研究发现, 在目标医学图像分割任务中, SAM 的零样本性能普遍强于全训练模型吗?尽管这种对比可能显得不公允, 但当我们将 SAM 的零样本性能与全训练医学图像模型进行对比时, 发现其迁移性效果相对较差, 这一发现已在多篇文献中得到印证: Deng et al., Roy et al., He et al., 等人的研究都证实了这一现象的存在
图 3 对比展示了 Med-SA 和 SAM 在性能上的定性分析。观察图表可知,Med-ESA 在人眼难以识别的关键区域实现了精准分割,而当多个器官边界具有视觉清晰度时,SAM 却出现了失效现象.这一发现进一步突显了为医学图像建立通用分割模型并通过微调优化以达到最佳性能必要性的关键作用.
与多模态图像上的 SOTA 进行比较
此外,我们还将 Med-SA 方法与三种针对不同医学图像模态的具体优化分割方法进行了对比分析。实验结果如表2所示,在表中详细列出了 ResUnet(Yu et al. 2019)和 BEAL(Wang et al. 2019)这两种算法分别用于视网膜血管腔段分割;而 TransBTS(Wang et al. 2021b)则分别用于视网膜静脉腔段以及视网膜动脉腔段的分割工作;EnsemDiff(Wolleb et al. 2021b)和 EnsemDiff(Wolleb et al. 2019)则分别用于视网膜静脉腔段和动脉腔段的多模态分割研究;对于脑肿瘤区域,则主要采用了 MTSeg(Gong et al. 2021)、UltraUNet(Chu 等人 2021)等算法进行研究;而在甲状腺结节相关研究中,则主要采用了 FAT-Net (Wu 等人 2022)、BAT (Wang 等人 2021a)等算法进行探索;针对黑色素瘤领域的研究,则主要采用了 SegDiff、nnUNet、TransUNet、UNetr 和 Swin-UNetr 等算法进行深入分析。为了全面评估各算法性能表现,在实验阶段我们采用了 Dice 系数、IoU 指标以及 95% Hausdorff 距离等评估标准来评估这些算法在医学图像分割任务中的性能表现。
通过查看表格数据可知, 这些经过专门优化的方法在各自领域内通常表现出色, 但在其他领域的应用效果则会有所下降。例如, UltraUNet 在甲状腺结节的分割任务中达到了之前的研究成果的最高水平, 相较于其他方法而言, 在视网膜(视盘)的分割任务中表现最为薄弱。此外, 通用方法虽然能在大多数模式下取得良好效果, 但在特定任务(如脑肿瘤分割和甲状腺结节分割等)上却无法超越专用方法。
将我们聚焦于交互式模型 SAM 和 MedSAM 的应用与比较。我们发现零样本 SAM 在处理医学图像中的边界不明确的器官或组织方面存在局限性,在如视网膜 Disc/杯状体分割或甲状腺结节分割等场景下表现不佳。对于完全微调的 MedSAM 来说,受限于其对三维图像处理能力的局限,在脑肿瘤分割任务中表现欠佳。然而,在广泛使用的 BraTs 基准测试中,通过引入有限参数自适应架构(Med-SAM),我们在所有分割任务上均达到了 SOTA 水平,并显著提升了性能表现:其 Dice 分数较之前的 SOTA 模型 Swin-UNetr 提高了 2.1%,同时在 HD95 指标上也优于后者达 1.86 个单位,并且采用了远低于 10% 的可转动参数数量。
消融实验

我们进行了系统性消融实验以评估所提出的SD-Trans和HyP-Adpt方法的有效性如图3所示其中基线设置代表了SAM技术和原始自适应方法的基本组合方式在此框架下3D图像被分解为多个独立的2D图像进行单独处理而自适应过程并未引入额外提示信息根据表中的数据与基于3D数据集(BTCV与BrainTumor)的传统SAM技术相比我们的2D至3D设计方案显著提升了性能这一改进结果凸显了我们提出的方法在三维重建方面的优势在提示条件下的自适应机制中我们将HyP-Adpt与两个更为简单的替代方案进行了比较包括加法型与串联型组合方式用于整合提示嵌入虽然加法型与串联型方式同样具备一定的有效性但它们所带来的性能提升较为有限相比之下采用HyP-Adpt方案能够显著提升模型性能这一发现进一步验证了我们提出的方法具有更高的适用性和优越性
总结
在本文中,我们拓展了 SAM(一种强大的通用分割模型)以解决医学图像分割问题,并采用了 Med-SA. 通过结合简单而高效的 SD-Trans 和 HyPAdpt 参数实现自适应优化,我们在原有 SAM 模型基础上实现了实质性的提升. 我们的这项研究在包含 5 种不同图像模式的 17 项医学图像分割任务中,达到了当前最佳性能 SOTA. 我们相信这项工作将为推进基础医学图像分割领域奠定坚实基础,并为新型微调技术的发展提供重要支持.
