Advertisement

Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation

阅读量:

论文信息

标题 :Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation
会议 :CVPR 2024
作者 :Md Mostafijur Rahman, Mustafa Munir, Radu Marculescu
单位 :The University of Texas at Austin
代码开源https://github.com/SLDGroup/EMCAD


创新点

  1. 高效多尺度解码器(EMCAD) :提出一种新型轻量化解码器,显著降低计算成本(仅需1.91M参数和0.381G FLOPs),同时通过多尺度卷积和多分辨率特征融合提升分割性能。
  2. 多尺度卷积注意力模块(MSCAM) :基于深度可分离卷积(Depth-wise Convolution)设计,结合通道注意力和空间注意力,同时支持多尺度上下文信息捕捉,计算效率优于现有模块。
  3. 大核分组注意力门(LGAG) :使用分组卷积(3×3)替代传统逐点卷积,扩大局部上下文感受野,降低计算复杂度。
  4. 性能突破 :在12个医学图像分割数据集(涵盖6类任务)上达到SOTA性能,参数减少79.4%,FLOPs降低80.3%。

摘要

医学图像分割中,高效解码机制对计算资源受限的实际场景至关重要。针对现有方法计算成本高的问题,本文提出EMCAD 解码器,通过多尺度深度可分离卷积(MSCB)和混合注意力机制,大幅优化性能与效率的平衡。核心创新包括:

  1. MSCB模块 :在轻量化设计下,通过并行多尺度卷积(核尺寸1×1、3×3、5×5)增强特征表达能力。
  2. 混合注意力 :融合通道注意力(CAB)和空间注意力(SAB),结合分组大核注意力门(LGAG),突出关键区域并抑制冗余信息。
  3. 广泛的实验验证 :在息肉分割、皮肤病灶分割等12个数据集上,EMCAD平均DICE分数达91.10%,显著优于UNet、TransUNet等方法,计算量仅为CASCADE解码器的20%以下。

研究意义

  1. 推动轻量化分割模型 :EMCAD在保持SOTA性能的同时大幅降低计算负荷,为边缘设备(如移动医疗终端)部署提供可能。
  2. 增强模型通用性 :适配主流编码器(如PVTv2、Swin Transformer),支持多任务分割(息肉、器官、细胞等),具有广泛临床应用价值。
  3. 理论贡献 :提出多尺度卷积与注意力融合的新范式,为后续高效分割网络设计提供参考。

提出的方法

1. 整体架构
  • 编码器 :采用PVTv2、Swin等层次化视觉编码器,提取多阶段特征金字塔(X1-X4)。
  • 解码流程 :分阶段融合特征,每个阶段包括:
    • MSCAM :多尺度卷积和混合注意力细化特征。
    • LGAG :通过分组卷积生成空间注意力掩膜,融合编码器跳跃连接特征。
    • EUCB :高效上采样模块(深度可分离卷积+1×1卷积)。
    • SH :分割头输出各阶段预测图,最终叠加生成分割结果。
2. 核心模块
  • MSCAM模块 (图2d):

    • CAB :自适应池化+通道注意力,突出重要通道。
    • SAB :空间注意力(7×7大核卷积),增强局部上下文。
    • MSCB :结合多尺度深度卷积(1/3/5×5核),通过通道重排(Channel Shuffle)提升特征交互。
  • LGAG模块 (图2g):

    • 分组卷积处理跳跃连接特征,生成注意力系数,减少75%的FLOPs。

关键数据

  • 计算效率 :PVTv2-B2编码器+EMCAD仅需1.91M参数(比CASCADE减少79.4%)和0.381G FLOPs。
  • 性能优势 :在Synapse多器官分割数据集上平均DICE达83.63%,在ACDC心脏分割任务中达92.12%,均超越TransUNet和SwinUNet。
  • 可扩展性 :适配轻量级编码器(如PVTv2-B0),在保持性能(DICE 81.97%)的同时仅需0.506M参数,适合资源受限场景。

总结来看,EMCAD通过轻量化设计和多尺度注意力机制的创新平衡了效率与精度,为医学图像分割领域提供了一种高效、通用的解决方案。

全部评论 (0)

还没有任何评论哟~