EMCAD: Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation
EMCAD通过高效的多尺度卷积增强特征图,同时使用通道、空间和分组(大核)门控注意力机制来整合复杂的空间关系和局部注意力。EMCAD由高效多尺度卷积注意力模块(MSCAM)组成,用于稳健地增强特征图;大核分组注意力门(LGAG)用于通过门控注意力机制融合跳跃连接来精炼特征图;高效上卷积块(EUCB)用于上采样并随后增强特征图;以及分割头(SH)用于产生分割输出。
2.1.1********总体架构

使用四个MSCAM来精炼从编码器四个阶段中提取的金字塔特征(即图2中的X1、X2、X3、X4)。在每个MSCAM之后,我们使用一个SH来产生该阶段的分割图。随后使用EUCB对上采样后的精炼特征图进行上采样,并将其与来自相应LGAG的输出相加。最后将四个不同的分割图相加,以产生最终的分割输出。
2.1.2 大核分组注意力门(LGAG)********(skip部分)
大核分组注意力门(LGAG)结合了3×3核分组卷积、批归一化(BN)、ReLU激活函数以及Sigmoid激活函数,以生成注意力系数并控制特征图的融合。

LGAG接收两个输入:门控信号g(来自跳跃连接的特征)和输入特征图x(上采样特征)。首先,它分别对g和x应用单独的3×3分组卷积GCg(.)和GCx(.),以捕获不同尺度的特征信息。然后,使用批归一化(BN)对这些卷积后的特征进行归一化处理,并通过逐元素加法将它们合并。
接下来,合并后的特征图通过ReLU激活函数进行非线性变换,以增强其表达能力。之后,再应用1×1卷积和BN层,将特征图的通道数减少到单通道.
最后,将所得单通道特征图通过Sigmoid激活函数传递,以生成注意力系数。这些注意力系数用于通过逐元素乘法缩放输入特征图x,从而生成注意力门控特征LGAG(g, x)。
2.1.3********多尺度卷积注意力模块(MSCAM)
多尺度卷积注意力模块(MSCAM)结合了通道注意力块(CAB)、空间注意力块(SAB)和高效多尺度卷积块(MSCB)来增强特征图,同时保持上下文关系。




首先通过通道注意力块(CAB)对输入特征图的通道进行加权,以强调重要通道并抑制不相关通道。接着,空间注意力块(SAB)捕获局部上下文信息,进一步细化特征图的空间结构。最后,高效多尺度卷积块(MSCB)通过多尺度深度卷积和通道混洗操作来增强特征图,同时保持上下文关系。
MSCB的设计基于MobileNetV2中的倒置残差块(IRB),但进行了改进以适应多尺度特征提取的需求。在MSCB中,首先使用点卷积(1×1)扩展通道数,然后通过批归一化和ReLU6激活函数进行非线性变换。接着,使用多尺度深度卷积(MSDC)捕获多尺度和多分辨率上下文信息。由于深度卷积忽略了通道间的关系,因此引入通道混洗操作来整合通道间的信息。最后,再次使用点卷积和批归一化将通道数转换回原始数量,同时编码通道间的依赖性。
在多尺度深度卷积(MSDC)中,采用并行或顺序的方式处理不同核大小的特征图。并行MSDC对不同核大小的特征图进行独立处理,并将结果相加。而顺序MSDC则递归地更新输入特征图,将输入特征图与之前的深度卷积结果进行残差连接,以实现更好的正则化效果。
2.1.4********通道注意力块(CAB)与空间注意力块(SAB)
通道注意力块(CAB)首先通过自适应最大池化和自适应平均池化对空间维度(即高度和宽度)进行处理。接着,对于每个池化后的特征图,使用点卷积和ReLU激活函数分别将通道数减少到原来的1/16。然后,使用另一个点卷积恢复原始通道数。将两个恢复后的特征图相加,并应用Sigmoid激活函数来估计注意力权重。最后,通过Hadamard乘积将这些权重与输入特征图x相结合。
空间注意力块(SAB)首先沿着通道维度对最大值和平均值进行池化,以关注局部特征。然后,使用大核(如7×7)卷积层来增强特征之间的局部上下文关系。接着,应用Sigmoid激活函数来计算注意力权重。最后,将这些权重与输入特征图x相结合(使用Hadamard乘积)。
2.1.5********高效上卷积块(EUCB)与分割头(SH)
高效上卷积块(EUCB)被设计用于逐步上采样当前阶段的特征图,以匹配来自下一个跳跃连接的特征图的维度和分辨率。

EUCB首先使用上采样操作(UpSampling U_p(·)),其缩放因子为2,对特征图进行上采样。接着,应用3×3深度卷积(DW C(·)),随后是批归一化(BN(·))和ReLU激活函数,以增强上采样后的特征图。最后,使用1×1卷积(C_{1×1}(·))将通道数减少到与下一阶段相匹配的数量。由于使用了深度卷积而不是标准的3×3卷积,EUCB在计算上非常高效。
分割头(SH)用于从解码器的四个阶段的精炼特征图中产生分割输出。SH层对具有n个通道的精炼特征图应用1×1卷积(Conv1×1(·)),并产生输出。对于二值分割,则输出1个通道。
