Advertisement

SA-Net:用于医学图像分割的尺度注意网络 A scale-attention network for medical image segmentation

阅读量:

本研究提出了一种新型深度学习网络SA-Net,用于医学图像分割任务。SA-Net通过引入尺度注意力模块,能够有效提取多尺度特征,从而提升模型在不同组织分割任务中的性能。实验结果表明,SA-Net在视网膜血管检测、动脉/静脉分类、囊胚分割等任务中表现优异,显著优于现有方法。该网络在保持高效计算的同时,实现了对医学图像中复杂结构的精准分割,为医学图像分割领域提供了新的解决方案。

医学图像的语义分割构成了后续任务的基础,为图像分析和理解提供了关键支持。在深度学习技术迅速发展的背景下,传统的U-Net分割网络已在多个领域实现了广泛应用。研究表明,多尺度特征在医学图像分割中发挥着至关重要的作用。本研究中,我们提出了一种尺度注意力深度学习网络(SA-Net),该网络在残差模块中整合了不同尺度的特征提取,并通过注意力机制增强了尺度注意力能力。实验表明,SA-Net能够更高效地学习多尺度特征,并在多种医学图像中实现了精确的分割。此外,本研究在多个数据集上进行了实验验证。结果表明,SA-Net在视网膜血管检测、肺部分割、视网膜动脉/静脉分类以及囊胚分割等方面均展现出卓越的性能[1]。为了便于研究人员的使用,本研究的代码实现已正式公开。

近年来,围绕医学图像分割的不同任务,已经开发了多种U-Net变体。傅等人使用CRF提取多阶段特征,以改善血管检测结果。M-Net作为U-Net的一种变体,通过深度监督和多尺度输入的结合,被提出用于联合分割视盘和视杯。阿洛姆等人提出了RU-Net,这种架构通过引入循环卷积来增强性能。奥赞等人通过注意力机制提升了U-Net的表现。西蒙等人提出了Tiramisu架构,其中密集块卷积替代了传统U-Net卷积层。此外,还引入了其他一些变体,例如PSPNet和DeepLab,这些架构在语义分割基准任务中取得了卓越的性能。尽管出现了多种U-Net变体,但U-Net仍然是医学图像分割中应用最广泛的架构,这一原因在于其编码器-解码器结构(配合跳跃连接)能够有效促进信息传递,且在数据量有限的情况下也不会性能下降。

U-Net及其同类模型在医学图像分割方面展现出显著的应用潜力,但在目标器官在不同患者中呈现显著形状和大小变化时,这些模型的性能将显著下降。因此,设计良好的多尺度特征对于医学图像分割至关重要。然而,创建多尺度表示需要特征提取器使用具有较大变化的感受野来详细说明所有可能尺度的部分、对象或上下文。CNN提取从粗到细的多尺度特征的自然方式是利用卷积算子堆栈。这种提取多尺度特征的能力使得CNN在处理大量医学图像分析任务时表现出良好的表示。

为了处理尺度变化的问题,Adelson 等人。[ 11 ] 直观地利用了多尺度图像金字塔,以及一种在基于手工特征 [12、13] 和 CNN 特征的方法中非常常见技术有具体证据 [ 14 , 15 ] 表明多尺度特征学习可能对深度学习检测器有益 [ 16 , 17 ]。灵敏的非线性迭代峰值 (SNIP) 算法 [ 18 , 19] 通过为每个图像尺度选择性地挑选合适尺寸的训练对象来实现尺度归一化。该算法避免了极端尺度的物体,即分别在相对较小或较大尺度下的小物体或大物体。然而,图像金字塔方法的计算量高的推理时间使得这些方法实际上不可行。CE-Net [ 20 ] 架构采用密集空洞卷积 (DAC) 块来创建多尺度网络,以更好地理解医学图像。Atrous/Dilated convolution [ 10 ] 通过在稀疏采样位置进行卷积来扩展卷积核。空洞卷积经常用于语义分割以解释大规模上下文信息 [ 21 ,22 ]。但是,它仍然存在一些潜在的缺点,例如可能导致某些像素永远不参与计算,这对像素级预测不友好。此外,虽然空洞卷积在没有额外参数的情况下保证了更大的感受野,但对于一些不需要这么大感受野的小物体来说却是极其不友好的。此外,与传统的 FCN 相比,ResNet-101 [ 23 ] 有 23 个 Dilated FCN 的残差块(有 69 个卷积层),需要 4 倍的计算操作和内存资源,而 3 个残差块(有 9 个卷积层)需要资源增加 16 倍。最近,Res2Net [ 24] 已被构建为单独的残差块,其中每个块具有分层的残差连接。Res2Net 采用多尺度特征的粒度级表示,并扩大了每个网络层的感受野范围。然而,在不利用不同尺度的信息的情况下,许多冗余信息也被传输到大规模特征。

在上述方法的推动下,我们做出了以下主要贡献:

我们开发了一种创新性新型的深度学习网络架构,整合了残差模块与注意力机制(SA-Net),该网络能够精准地实现医学图像的多尺度分割任务。为了解析医学图像中不同组织的结构与功能,我们特意引入了有效的 Scale-Attention (SA) 模块。所开发的方法经过了系统评估,在肺部分割、视网膜血管检测、动脉/静脉 (A/V) 分类以及囊胚分割等多个关键任务上均表现优异。与现有的竞争性方法相比,实验数据显示了在各类任务中的卓越性能。

在本文的其余部分,结构安排如下。首先,我们在"方法"章节中详细阐述了所提出的深度学习框架。其次,对实验设置进行了详细描述,并对实验评估和结果部分进行了深入介绍。最后,主要结论将在"讨论"和"结论"部分进行阐述。

方法

本节重点阐述了用于医学图像分割的尺度注意力网络的设计方案。首先,我们采用一个基础的 U-Net 作为主干网络。其次,在 U-Net 的连接部分增加了 SA 模块,该模块能够有效提取多尺度的残差特征,从而实现对医学图像中不同组织的尺度关注目标。图 1 概述了该框架的结构。

方法

本节重点阐述了用于医学图像分割的尺度注意力网络的设计。首先,我们采用一个基础的 U-Net 作为主干网络。其次,在 U-Net 的连接部分,我们引入了 SA 模块,该模块能够有效提取多尺度残差特征,从而实现对医学图像中不同组织的尺度注意力网络进行分割。图 1展示了 SA-Net 的整体架构。

图 1.提议的 SA-Net 示意图。

图1对SA-Net在医学图像分割任务中的性能表现进行了系统性比较分析。

我们核心任务是生成一个特征图,以有效学习输入医学图像中不同组织尺度的表示。例如,在图2所示的视网膜眼底图像中,主要血管分支多为微血管,且图像中血管直径范围为1至35个像素单位。图2显示微血管的频率显著高。因此,掌握多尺度变化的规律对研究具有重要意义。

多尺度特征

在这项工作中,我们使用 Res2Net [ 24 ] 的功能来学习和理解不同尺度的图像特征。[我们没有像 ResNet 23 ] 瓶颈块中那样使用一组 3×3 过滤器来提取特征(如图 3(A) 所示),而是提出了一种具有更好的多尺度特征提取能力的 Res2Net 变体,大致为相同的计算成本。3×3 过滤器组被替换为以分层残差型方式连接的较小过滤器组。如图3(B) 所示,经过 1×1 卷积后,特征被分成 k 个子集,记为 x i ,其中 i ∈{1,2,…, k}。虽然所有子集具有相同的空间大小,但每个子集的通道数是输入特征图的 1/k 倍。每个子集 x i (除了 x 1)都有一个 3×3 卷积滤波器 F i ()。

图 3。

对比 Res2Net 和 ResNet 模块(尺度维度k设为4):(a)传统构建块。Res2Net模块采用了3×3尺寸的滤波器组。通过引入注意力模块,SA模块提升了对尺度信息的捕捉能力。

PLOS ONE期刊: PLOS ONE: SA-Net模型: 一种基于尺度注意力机制的网络架构,专门用于医学图像的分割任务。该研究通过引入多尺度特征和注意力机制,显著提升了医学图像分割的准确性。该模型在多个医学图像分割基准测试中表现优异,展现出强大的泛化能力和鲁棒性。该研究为医学图像分割领域提供了新的研究方向和方法论支持。

在SA模块中,我们引入了注意力模块以强制执行规模注意力能力。该模块的结构如图4所示。首先,通过最大池化和平均池化获取每个通道的全局信息,从而自动突出相关特征通道并抑制不相关通道。然后,将各通道的输出相加后输入1×1卷积层,随后应用sigmoid激活函数。最后将该模块的输出与输入进行乘法操作以生成最终输出。

图 4.注意力模块示意图。

如图所示,注意力模块同时利用了最大池输出和平均池输出。

PLOS ONE期刊:基于尺度注意力网络的医学图像分割方法。https://doi.org/10.1371/journal.pone.0247388.g004

尺度注意模块

为了将有用的小尺度视野特征尽可能高效地转移到大尺度特征,我们开发了一种基于尺度感知(SA)的模块,如图3(C)所示。该模块通过引入具有参数_y_i_的注意力机制(A_i())来增强特征表示能力,具体效果如图4所示。随后,我们通过将注意力图A_i(y_i)与x_i+1进行连接来生成中间特征,随后将该中间特征输入到F_i()中进行进一步处理。为了在减少参数数量的同时允许子集_k的数量增加,我们采用了跳过x1处3×3卷积的策略。基于此,_y_i_的计算公式可以表示为:

每个3×3卷积操作 F i 可能从特征子集 { x j , ji } 中获取信息。当特征子集 x j 通过3×3卷积操作处理时,输出结果可能具有扩大后的感受野。高组合复杂性导致SA模块输出呈现不同数量和大小比例的感受野组合。

采用多尺度方法处理SA模块中的特征子集,其中获取了局部和全局信息。各个子集均通过1×1卷积进行连接和处理,以实现不同尺度上的信息融合。通过这种拆分和连接策略,实现了特征卷积的显著提升。为了减少参数数量,采用特征重用策略,其中第一个子集的卷积被省略。

在本文中,尺度尺寸k被用作控制参数。较大的k值可能有助于学习具有更丰富感受野大小的特征,并且在计算和内存使用方面,由于微不足道的连接所导致的开销可以忽略不计。

实验评价和结果

实验设置

本节阐述了图像预处理和数据增强过程在图像网络训练中的应用。此外,本节还详细介绍了与实验设置相关的各种技术细节。

在训练过程中,为了防止模型过拟合,需要对数据进行转换和扩展。在医学成像领域,输出图像的逼真性是这些转换的基本要求。为了在保证真实性的前提下增加数据的多样性,我们仅对每个训练批次进行二维旋转处理(通过随机角度)。我们发现,不同眼底图像的背景色调和照明条件会导致像素强度发生显著变化。这种自然存在的数据多样性是生成训练数据集的一个固有特征。通过对比度增强,可以有效减少这种可变性,从而提升图像预处理的质量。此外,为了减少个体差异带来的影响,我们建议使用灰色视网膜图像而非彩色图像进行处理[ 2 , 25]。在本研究中,我们选择在训练过程中,损失值在20个epoch内的波动小于0.01的最后一个epoch作为最终测试模型。

我们的系统基于 Ubuntu 16.04 操作系统,集成 2.40 GHz 处理器、256 GB内存,搭配 Intel Xeon Gold 6148 CPU,配备 NVIDIA Tesla V100图形处理器,采用 PyTorch 作为后端框架,并集成 cuDNN 9.0技术实现。

效果展示:

link

全部评论 (0)

还没有任何评论哟~