Advertisement

ERDUnet: An Efficient Residual Double-codingUnet for Medical Image Segmentation

阅读量:

ERDUnet:一种用于医学图像分割的高效残差双编码单元

摘要

医学图像分割在临床诊断中有着广泛的应用,基于卷积神经网络的分割方法已经能够达到较高的准确率。然而,提取全局上下文特征仍然很困难,而且参数太大,无法临床应用。为此,我们提出了一种新的网络结构来改进传统的编码器-解码器网络模型,在保持分割精度的同时节省了参数。通过构造一个能够同时提取局部特征和全局连续性信息的编码器模块,提高了特征提取效率。设计了一种新的注意力模块,在优化分割边界区域的同时提高训练效率。改进了解码部分的特征传递结构,充分融合了不同层次的特征,更精细地还原了空间分辨率。我们在7个不同的医学分割数据集上评估了我们的模型,这些数据集分别是2018年数据科学碗挑战赛(DSBC2018)、2018年病变边界分割挑战赛(ISIC2018)、结肠组织学图像中的腺体分割挑战赛(GlaS)、KvasirSEG、CVC-ClinicDB、Kvasir-Instrument和polygen。大量的实验结果表明,我们的模型在保持较少的参数和计算量的情况下,可以获得良好的分割性能,进一步促进理论方法在临床实践中的推广。

我们的代码将在https://github.com/caijilia/ERDUnet上发布。

1 介绍

医学图像分析是现代临床疾病诊断的一项基础性工作。分割结果可以从医学图像提供的大量病理信息中识别出疾病诊断所需的病变区域,便于医生进一步对病变进行评估。准确的分割可以帮助医生获得可靠的形态学统计数据,用于疾病诊断。例如,在染色组织切片图像中检查不同组织学分级腺体的形态,判断腺体组织是否癌变[1]。及时诊断可以帮助医生及早干预治疗,避免病情恶化,降低死亡率。例如,皮肤癌可以通过皮肤镜来识别

早期及时诊断可使95%的患者平均生存率提高5年[3]。

目前,大多数医院依靠经验丰富的医疗专业人员用肉眼进行视觉识别。这是一项耗时费力的任务。与此同时,人工分割带来的另一个问题是缺乏统一的标准和指南,往往只依靠临床经验,不同的人在处理同一目标时可能产生不同的分割结果[4]。医疗资源分布不均将加剧这一现象的后果。由于缺乏高水平的医生进行诊断,即使患者可以使用显像机获得足够的病理图像,也可能错过最佳的治疗时机。

计算机辅助诊断(CAD)系统是解决这一问题的重要途径,它利用计算机视觉技术协助医疗专业人员进行高质量的临床诊断。医学图像分割技术是计算机辅助设计的重要组成部分。它负责从医学图像中自动分割病变区域,用于后续的诊断和分析。在实际的医学场景中,用于诊断的病理图像的模态是不均匀的。病灶区域的形状往往不规则,分割目标与背景的对比度差异往往不是很明显[5]。此外,更具体的一点是,病变区域的大小可以根据个体患者的差异而有很大差异。

医学图像中这些目标特征给分割算法的设计带来了很大的挑战。

为了克服这些挑战,基于深度学习的医学图像分割方法正发挥着越来越重要的作用[6]-[9]。然而,这些方法通常具有大量的参数和较高的计算负荷[10]-[13],使得理论模型难以推广到临床实践。因此,我们的研究动机是在保持分割精度的同时降低模型复杂度,从而设计出一种适合临床实践的高精度、高效的分割网络模型。

因此,我们提出了一种新的分割网络结构。首先,我们在编码部分提出了一种新的上下文增强编码器(Context Enhanced Encoder, CEE)模块,该模块包括两个分支,分别负责提取局部空间细节特征和全局上下文连续性特征。在解码部分,我们提出了一种新的特征重用融合解码器(FFD)模块,该模块使用多个跳过连接构建密集连接的模式。这种方法融合了编码部分的浅层特征,提高了编码效率

网络使用效率和解码精度。为了消除编码和解码子网之间的语义差距,我们设计了一个接收域聚合(MRA)模块作为转换链路。最后,我们利用这些模块设计了两个相互独立的小参数编解码器网络。为了实现分割性能的进一步突破,我们构建了一种新的两层网络范式,允许两个独立的网络协同使用,以提高最终的分割性能。根据平衡模型性能和计算负荷的设计原则,我们最终实现了一个学习效率高、节约资源的双网络模型。我们提出的分割模型可以准确分割困难的病变区域,其准确率与经验丰富的医生手工分割的准确率相当,甚至在一些不明显的样本上也能取得更好的效果。同时,深度学习方法可以更好地提取不同患者之间个体独立的疾病一致性特征。因此,它可以为诊断结果的形成提供可靠的数据支持,帮助医生做出更准确的诊断,设计更有针对性的治疗方案。同时,基于该模型可以形成一个自动化的分割流程,减少医生的工作量。本文的主要贡献如下:1)设计了一种差分区域注意机制,该机制侧重于根据不同阶段特征中的不同区域提取高级语义,从而优化分割结果中的边界区域,提高模型学习效率。

2)从特征提取和融合的角度对经典u型结构进行综合改进,提高了编码效率和解码信息量,从而在降低模型参数尺度的同时提高了分割性能。

3)本文提出了一种新的双网络模型,以获得更精细的分割结果。在七个公开的医疗数据集上进行的大量实验显示了非常好的性能,验证了模型的有效性和鲁棒性。

2 相关工作

A.基于卷积神经网络的医学图像分割

基于卷积神经网络的方法广泛应用于医学图像分割领域,其中Unet[6]是最经典的方法,被广泛用作各种分割任务的主干。基于该编码器-解码器框架,开发了一系列改进模型,其中提出了各种改进。Unet++[10]提出在原有结构上增加一系列嵌套的跳过连接,克服编码部分和解码部分之间的语义差距,提高性能。

Unet3+[11]延续了这一思路,提出了全尺寸密集连接,以充分挖掘特征图的细节

不同尺度,提高了对不同尺度器官的分割效果。ResUnet++[14]利用残差块解决了网络深度加深时容易出现的退化问题,在数据集较少的情况下可以很好地应用。MSRF-Net[4]综合利用多尺度融合和残差块,对编码部分输出的浅层特征设计了信息交换模块,以捕获不同目标的可变性。Double-Unet[12]从整体层面考虑,提出将两个Unet结构叠加组合,以更有效地提取更有效的信息。

然而,所有这些基于卷积的模型都存在感知场有限的问题。我们通过在特征编码中引入特征嵌入方法来解决这一问题,以实现卷积操作感知领域的进一步扩展。

B.基于Transformer的医学图像分割

基于变压器的模型由于具有较好的全局特征提取能力而得到了广泛的应用。其中,TransUnet[15]将变压器模块作为卷积层编码输出的补充,丰富了编码结果的全局上下文信息。Transfuse[16]将传统的u型结构扩展为两支路并行结构,通过将基于卷积的路径和基于变压器的路径并行融合,提高分割性能,为原变压器方法提供空间诱导偏置信息。为了降低模型的复杂性,Colonformer[17]引入了轻量级Mix变压器[18]模块,最终在计算负荷和精度上取得了很好的折衷。swwin -transformer是对Visiontransformer的改进。SwinUnet[19]利用该模块实现了一个完全基于变压器的分割网络,实现了从局部到全局的自关注编码,能够更好地适应目标尺度的变化。SSFormer[5]提出以原有的Swin Transformer为主干构建分层架构,通过图像patch的合并和位移窗口的使用实现参数约简,通过集成Multilayer Perceptron (MLP)作为解码器完成分割任务,最终实现整体模型的轻量化。

尽管基于transformer的方法已经显示出良好的结果,但是它需要大量带注释的数据来保持训练的有效性,这是非常劳动密集型的,并且很难实现。因此,我们的模型仍然是基于卷积运算实现的,但其中设计了一种补偿机制,可以增强全局上下文信息的特征学习。本设计提高了性能,打破了对数据的要求,使其更适合医学图像分割任务。

C.注意机制

注意机制是深度神经网络中一种常用的优化技术,它可以提高特征提取的效率。CBAM[20]提出了通道注意[21]与空间注意相结合的方法,得到了广泛的应用

用于各种视觉任务。SLSM-CA[22]提出为背景区域设计两个注意分支,分别完成像素级注意和补丁级注意,以克服基于卷积的注意机制的局限性。在医学图像领域,分割边界是医学诊断的重要信息。在以往的工作中,人们通常在网络结构中加入条件随机场(Conditional Random Fields, CRF)方法来增强边界的强化[23]。

然而,注意机制的使用允许这种强化过程分布在模型的优化过程中,从而更好地增强了边界和形状信息的捕获。attent - unet[24]提出了一种注意门机制,可以增强模型对不同形状和大小的病变目标的学习能力。PraNet[25]通过聚合解码部分的高级特征生成导图,并配合反向注意加强边界的细化。ConlonFormer[17]结合反向注意[26]和剩余轴向注意[27],构建优化模块,实现分割边界的增量校正。MSRF-Net[4]提出了一种门控形状流模块,该模块使用三重注意块来提高分割结果的空间精度。我们在注意机制中加入了交叉意识的概念,扩大了输入信息的数量。利用特征间的空间差异提取目标一致性特征,提高了分割精度和网络学习效率。

D.多尺度语境融合

多尺度上下文融合是提高特征质量的一种有效手段,通常通过将同一路径或不同路径的不同层之间的特征映射进行拼接来实现。RDN[28]提出了一种可应用于整个特征学习过程的残差密集块(Residual Dense Block, RDB),它利用密集连接和残差学习模式构建不同深度之间的特征融合。RDUN[29]将该RDB模块引入到Unet的基本结构中,以丰富局部空间信息。多尺度上下文融合的思想最常体现在医学图像特征学习中,其形式是设计具有多个感知场的特征提取路径[30]-[32]。然后使用特征融合来解决大规模变化的分割任务。CANet[33]提出了一种多尺度上下文融合(Multi-scale Context Fusion, MCF)模块,加入通道关注机制来改进融合以学习更多的上下文,最终在不进行预处理和后处理的情况下获得良好的分割性能。MCFNet[34]提出了基于注意的残差属性卷积(HARA)模块和多尺度特征记忆(MSFM)模块来融合不同层次的信息,提高Unet在各种分割任务中的性能。u型网络的另一个问题是编码器和解码器之间的语义差距。多尺度特征融合可以改善这一问题。MCRNet[35]提出了一个上下文细化块来选择性地捕获多尺度信息,这些信息可以嵌入到跳过连接中,以自适应地减少之间的语义差距

编码器和解码器功能。这些工作没有考虑要使用的最佳特征融合范围。由于在不同网络深度下获得的特征具有不同的语义深度,我们通过实验确定了最适合医学分割任务的特征融合范围,以获得更好的融合效果。

3 方法

A.差异区域关注模块DRA

在医学领域,医生进行诊断的重要依据之一就是病变区域的形状、大小等外观特征,这就要求我们的自动分割模型能够准确地识别和分割病变区域的主体和边界。

提出了一种新的差分区域注意(Differential Regional Attention, DRA)模块,该模块可以在提高模型训练效率的同时增强分割边界的细化。

医学图像分割是从整个图像的像素空间中寻找目标像素的密集分类过程。

虽然分割模型中不同阶段的特征输出侧重点不同,但始终存在病灶区域主区域的提取。因此,不同阶段特征之间的空间差异往往存在于目标与背景之间的边界区域,这是一个重要的信息。存在这些差异的区域是模型有优化空间的关键区域,应该给予更高的权重以提高训练效率。

从中提取更高层次的一致语义有助于模型突破性能瓶颈,实现更准确的分割边界区域预测。通过该模块,可以将病灶区域的边界细化过程扩散到整个模型的训练过程中,从根本上加强了对病灶区域边界的学习偏好。这有利于提高模型的最终分割性能,且不需要引入额外的信息。

我们将不同阶段的feature map作为DRA的输入,根据学习水平对它们进行F1in, F2in配对。对每个特征进行独立的卷积运算,完成当前级别的分割掩码映射,并设置映射置信度阈值作为超参数。对每对掩模自适应激活具有空间差异的区域,并以激活结果为权重调整当前特征图中不同区域的重要程度。

其中,TJ表示根据置信阈值进行判断,只保留特征值大于阈值的像素。conv表示卷积模块,由卷积、批归一化和Gelu激活函数组成。

B.上下文增强编码器

与传统的卷积网络结构(如Resnet)相比,我们优化了信息流

编码器模块的结构。提出了一种新的上下文增强编码器(CEE),它是一种有效的编码结构,可以充分利用特征提取过程中产生的内部阶段特征信息。基于卷积运算整体设计了两条下采样路径P1和P2,在编码时实现了不同区域之间的局部连续性补偿和全局范围内的空间上下文补偿。

在P1中,我们侧重于局部特征的学习。使用核大小为3和1的卷积和步长为2的最大池化提取空间维度上的信息,然后下采样,得到初步的特征局部编码结果,见式(3)。此外,P2的设计弥补了上下文连续性的特点。我们首先使用核大小为3,步长为2的卷积运算来获得下采样结果,见式(4)。

这种重叠采样方法首先保证了获取不同空间区域之间的局部相关上下文。为了进一步补偿全局范围内的上下文特征,我们将下采样结果线性嵌入,然后以数据驱动的方式获得匹配的全局位置嵌入P E。将P E赋值给线性嵌入的结果后,将其重构为与P1的编码结果相同的大小,见eq.(5)。为了在最小化信息损失的基础上融合两个分支的编码结果,我们选择在信道维度上进行合并。设计Double Conv模块,从组合结果中提取进一步的特征,得到强调局部细节并具有全局上下文连续性补偿的特征编码结果,加强空间定位。我们在编码融合阶段加入残差连接,充分利用编码过程中不同阶段生成的特征图,在降低模型尺度的同时,也可以提高模型的泛化能力,避免过拟合,见式(6)。

式中,Fiin和Fiout分别表示使用CEE构建的分层编码子网中第i层的输入和编码结果。DC表示双CON V。LN表示层归一化。LE表示线性嵌入。“L”的意思是连接。P Ei = Gelu(Conv3(F i2)),表示编码子网络中第i层的位置嵌入结果。

C.多接收场聚合模块

随着网络深度的增加,可以得到最终的编码结果。然而,仅仅追求网络深度的增加并不能有效提高分割效果,空间分辨率的降低必然导致空间结构信息的丢失。在网络中设计一个多尺度的特征提取结构,可以进一步从空间域探索和捕获信息

不同尺度的丰富细节[36]。因此,我们构建了一个多接收场聚合(MRA)模块作为编码部分和解码部分之间的桥梁模块。在该模块中,协同利用不同阶段的编码输出进行特征融合,并对边界特征进行强化,提高分割边缘的识别能力。

将分层编码子网络中不同阶段的输出作为MRA的输入,在信道维度上连接,并通过卷积自适应融合其中的多层次空间特征,见式(7)。在多层编码结果的基础上,我们加入DRA模块,学习不同接受域下特征边界的差异,见eq.(8)。MRA的设计意义在于将更多层次的编码结果传输到解码子网中,从而在保持提取深度的同时保留更完整的空间信息。值得注意的是,虽然第一层的编码结果包含了最丰富的空间信息,但它也包含了过多的噪声信息,这将对MRA的结果产生不可忽视的影响。因此,该特征不作为MRA的输入,而是在后续的解码部分作为重要的补偿输入。

其中CAT表示输入特征映射上的连接操作。FM RA表示MRA模块的输出,MRA模块是解码子网的输入。

D.特征重用融合解码器

对于医学图像分割的密集预测任务,解码部分直接决定了能得到什么样的预测结果。为此,我们提出了一种新的特征重用融合解码器(FFD),它利用多个带有残余连接的跳过连接路径来形成密集的模式。在解码过程中,尽可能地保留准确的结构细节,并尽可能地减少上采样操作带来的噪声影响。

如前所述,编码子网的第一层输出包含丰富的信息,可以提高最终分割的准确性,作为解码的补偿。然而,重用这个f1out的成本也是不可忽略的。首先,编码器和解码器之间存在不可避免的语义差距,特别是我们选择重用的报头输出。因此,我们设计了一个特征传输模块,称为双路径增强传输(Dual-path Enhanced transfer, DET),见式(10)。这包括一条自适应激活语义的路径和一条强调空间有效性的路径,增强了其中可用的补偿信息,同时最小化了成本。头部特征图将是通过DET连接到解码层的不同阶段。

其中BN为批归一化。maxp表示最大池化。

其次,要克服混合在浅层特征中的噪声。如果不加以处理,不仅无法补偿,而且会损害网络性能。

因此,我们引入了一个图像识别增强(IRE)模块[37],包括通道注意、空间注意和像素注意,用于浅层图像特征的认知优化,见eq.(13)。值得注意的是,我们仔细考虑了重用的范围,并且没有对解码子网中所有层的输入进行补偿连接,以避免影响MRA的使用。实验结果证明了设计的合理性和有效性。

同时,借鉴Unet的成功经验,在编码子网络和解码子网络之间建立跳跃式连接,融合浅层特征中的空间信息和深层特征中的类别语义。为了进一步提高分割精度,我们还将DRA应用到跳接设计中。

其中F idin和F idout分别为第i层解码子网络的输入和输出。upp表示使用卷积和双线性插值来实现特征上采样,可以使特征的长度和宽度尺寸增加一倍,通道尺寸减半。F表示编码子网中被重用的第i个特征;

E.子模型的网络结构

利用上述设计的模块,我们提出了一种新的高效残差单编码Unet模型(ERSUnet),该模型具有学习效率高、参数规模小、节省计算量等优点。

具体网络结构如图1所示。首先,我们在整体网络输入前加入Primary Feature Conservation (PFC)模块[38],可以在保存参数的同时扩展输入图像的通道信息。然后,利用CEE模块构建分层编码子网络,增强编码过程中跨区域上下文和全局上下文信息的特征提取;输出编码结果作为从编码子网到解码子网的转换馈送到MRA模块。我们利用FFD作为基本单元实现逐步上采样,将空间分辨率恢复到原始输入大小。最后,我们将得到与输入病理图像匹配的预测掩模,该掩模包含从整个图像中分割出来的目标区域的细节。

在上述模型的设计中,我们意识到残余连接起着重要的作用。因此,我们考虑用Resnet[39]结构取代原有的基于cee的编码子网,并提出了一种新的模型,称为高效残差单编码子网变化(ERSUnet-c)。具体网络结构如图2所示。

由于模型性能和参数尺度之间的权衡,我们在输入阶段删除了PFC模块。

然后使用Resnet34构造类似ERSUnet的编码子网络结构。基于FFD模块构建了译码子网络,实现四次上采样后得到最终的分割结果。其中,我们自适应修改译码子网的结构,使用先前提出的CEE模块代替DET作为特征复用的传输模块,重点补偿全局信息,克服Resnet的局限性。

图1所示。图1 ERSUnet (Efficient Residual Single-conding Unet)网络结构输入部分使用主要特征保持(PFC)模块来扩展输入图像的通道尺寸。编码部分使用上下文增强编码器(Context Enhanced Encoder, CEE)模块构建,重点是对全局上下文信息进行补偿提取。解码部分采用特征复用融合解码器(feature -reuse Fusion Decoder, FFD)模块构建,实现了不同网络深度的有效特征融合。增加了不同区域注意力(DRA)模块,以加快培训和提高绩效。在编码和解码子网络之间增加了多接收场聚合(MRA)模块,以减小由于语义深度不同造成的语义差距。

图2所示。ERSUnet-c (Efficient Residual Single-conding Unet change)的网络结构。这是ERSUnet的一个变体结构。它的主要变化是在输入部分,编码部分和跳过连接部分。原始的PFC模块被删除,图像直接传递到编码子网。用预训练后的Resnet34网络结构代替原来的CEE模块实现特征编码。CEE模块用于跳过连接部分,以弥补Resnet中缺乏全局依赖特性的不足。其他部分与原始ERSUnet完全相同。

F。ERDUnet的网络结构

我们设计了两个具有不同细节的编码器-解码器网络,如果同时使用这两个网络,是否会有意想不到的更好的结果,这是很自然的思考。因此,我们设计了一种新的高效残差双编码Unet (ERDUnet),它是一个双u型模型,有效地结合了ERSUnet和ERSUnet-c。

具体网络结构如图3所示。

首先,我们构建了基于ERSUnetc的第一阶段网络,其基本结构保持不变。由于整体模型规模和性能之间的权衡,我们只在解码部分做了一些改变。具体来说,用于特征重用路径的CEE模块在解码层的第一层使用完整的两个分支,在解码部分的其余部分仅保留全局上下文补偿分支。第一层的输出将与原始输入图像一起作为输入特征的一部分传递给第二层。我们在实践中发现,直接将这两部分相加或连接起来并不是最好的选择。因此,我们使用初始图像作为输入特征的主体。然后,我们使用CBAM模块将第一层结构的输出转换为注意权值,增强原始图像中的空间信息和通道信息。

其次,构建了基于ERSUnet的二级结构。不同之处在于编码部分使用CEE模块来构建一个三层结构。这样的变化是由于第一阶段的存在,在后续的特征学习中没有必要使用过于深度的网络结构。在解码部分,我们直接使用第一级网络中对应级的编码输出作为复用特征对解码器进行补偿。这样更符合双编码网络的原始设计意图,可以加快模型的学习速度。特征融合的方式也发生了相应的变化。FFD模块仅用于第一次解码,然后使用Channel Attention[21]进行特征融合和优化。

这是因为前后两阶段网络使用的特征编码器是不一样的,得到的编码结果更多的是全局尺度上的特征相关性,如整体分布。最后通过拼接和卷积运算,将两层的输出进行融合,得到最终的分割结果。

四、实验

A.数据集

为了评估我们提出的ERDUnet的有效性,我们在七个公开可用的医学图像数据集上进行了验证,这些数据集是2018年数据科学碗挑战赛[40]数据集,2018年病变边界分割挑战赛[41],[42],结肠组织学图像中的Gland分割挑战赛[43],Kvasir SEG [44], CVC-ClinicDB [45], Kvasir Instrument[46]和polygen[47]。DSBC2018数据集由来自显微镜图像的细胞和每个细胞对应的分割标签组成,共670张图像。ISIC2018数据集由皮肤病图像和相应的皮肤病变区域分割标签组成,共有2694张图像。GlaS数据集来自16张H&E染色的T3期或T42期结直肠癌组织学切片,共165张图像。Kvasir SEG数据集包括1000个含有息肉的胃肠道图像和相应的分割掩码。CVC-ClinicDB是由从结肠镜检查视频中提取的帧组成的数据集,该数据集共包含612个包含息肉区域和相应分割掩码的视频帧。KvasirInstrument是一个用于胃肠道内窥镜诊断和治疗工具分割的数据集,由590个带注释的框架和相应的分割面具组成。polygen是一个从6个独立医疗中心收集的300多名患者的数据集。它包括从每个数据中心获得的1537张单帧图像和相应的分割掩码。

图3所示。高效残差双联结网络(ERDUnet)的网络结构。这是一个使用两个独立网络的结构,由ERSUnet-c和ERSUnet组成。第一层是ERSUnet-c的结构。它的输出将通过CBAM模块转换成一个注意权值,然后分配给PFC模块处理后的原始输入图像进行融合。第二层是基于ERSUnet的结构构建的。编码部分由三个CEE模块组成,在全局尺度上对第一阶段的分割结果进行细化。MRA模块用于连接编码部分和解码部分。解码子网由一个FFD模块和两个CA (Channel Attention)模块组成,在完成分段解码的同时融合两层网络之间的相似特征。这样的设计可以充分建立两层网络模型之间的信息交换,提高分割细节。

B.评价指标

我们使用平均骰子(mdevice)、平均距离(MIou)和95%豪斯多夫距离(HD95)这三个指标来验证我们提出的模型的分割性能,即同时考虑了分割结果的主体精度和边缘精度。其中,mdevice和MIou更关注的是分割后的掩模内部填充的准确性,HD95更关注的是分割后的掩模边缘的准确性。此外,我们使用参数(Para)、浮点运算(Gflops)、每秒帧数(FPS)、处理速度(PS)和延迟结果(LR)这五个指标来评估我们提出的模型的效率。这些指标是从模型本身的复杂程度和模型推理的速度两个角度来衡量不同网络的效率和实际可行性。

C.实验设置

所有实验均使用pytorch1.7.1框架在单个NVIDIA 1080ti GPU上实现。我们同时使用骰子损失和二值交叉熵损失,如eq.(16)所示。

我们使用学习率为7e-4的Adam优化器来训练所有模型。我们将批大小和epoch分别设置为32和100。在训练过程中,我们首先使用平移、缩放、旋转、水平翻转、垂直翻转和颜色抖动等数据增强方法。ISIC2018中的图像数据集大小调整为192×256。其他六个不同数据集的图像大小统一调整为256×256。

D.实验细节和结果

1)基于DSBC2018数据集的结果对比:数据科学碗挑战是显微镜图像中细胞核的分割任务,广泛用于验证模型的性能,也是典型的小目标分割任务。我们在整个数据集中随机选择10%的图像作为测试部分,其余图像通过五重交叉验证模式构建为训练集和验证集。使用DSBC2018数据集执行的结果总结在表1中。我们可以看到,我们的模型在mdevice和MIoU上实现了最佳性能。与Double-Unet相比,我们提出的ERDUnet在mdevice和MIoU上分别提高了0.88%和1.43%。与基于Transformer方法的模型相比,我们在mdevice和MIoU上分别实现了1.77%和2.84%的性能提升。在度量HD95上,我们的方法与性能最好的ssformer - s在这个度量上只相差0.6969。在模型效率方面,MedT和DCSAUnet具有较小的参数大小,而我们的ERSUnet具有更高的分割精度,并且我们的参数大小保持在一个可接受的小范围内。就在推理速度方面而言,我们的ERSUnet可以达到32.05的FPS指标,这表明它能够很好地满足实时性要求.

2)基于ISIC2018数据集的结果对比:

ISIC数据集包含最大的皮肤镜图像库,用于各种皮肤病,如黑色素瘤。我们在整个数据集中随机选择10%的图像作为测试部分,其余图像通过五重交叉验证模式构建为训练集和验证集。表2总结了使用ISIC2018进行的实验结果。我们的ERDUnet在mdevice, MIoU和HD95指标上分别达到90.75%,84.13%和11.2009的准确率。我们对这个数据集的推断非常快,两个不同大小的模型在FPS指标上分别可以达到35.71和60.24。

3)基于GlaS数据集的结果对比:

GlaS挑战,旨在根据染色玻片图像分割腺体,由于不同组织学等级的腺体形态差异很大,因此非常具有挑战性。原始数据集中已经规定了训练数据和测试数据,我们选择test A作为测试数据,剩余图像通过五重交叉验证模式构建为训练集和验证集。表III总结了使用GlaS数据集进行的实验结果。我们的模型在mdevice和MIoU指标上分别达到了92.79%和86.91%。相比之下目前最好的结果是基于PVT-Cascade,我们在mdevice和MIoU上分别获得了1.17%和1.81%的改进在HD95度量中,我们的模型仅比PVT-Cascade低0.0365。

4)基于Kvasir-SEG数据集的结果对比:

医学图像分割技术在大肠癌诊断领域的应用十分重要。如果息肉能被医生及时发现并进行干预,可以提高患者的生存率。因此,我们选择了四个流行的公开可用的结肠镜数据集进行实验。对于Kvasir-SEG数据集和CVC-ClinicDB数据集,我们使用了他们的混合数据集。训练集包括900张来自Kvasir-SEG的图像和550张来自CVC-ClinicDB的图像。测试集包括来自Kvasir-SEG的100张图像和来自CVC-ClinicDB的61张图像。对于训练集,我们使用[55]中的方法进行数据增强,最终得到了总共5800张图像和相应的掩码标记。同样,实验采用五重交叉验证法进行。基于Kvasir-SEG的实验结果如表4所示。从实验结果来看,我们的ERDUnet可以分别达到mdevice精度的90.67%和MIou精度的84.65%。虽然低于PVT-Cascade的91.83%和86.91%,但它已经是一个实际可用的精度。在HD95指标上,我们的模型获得了20.3102的精度,这也离最佳性能不远。

5)基于CVC-ClinicDB数据集的结果比较: CVC-ClinicDB是我们实验中使用的第二个结肠镜数据集。测试集数据由从原始数据集中随机选择的61张图像组成。训练集和验证集与Kvasir-SEG共享,数据增强后共包含5800张图像,并使用五重交叉验证方法进行实验。基于CVC-ClinicDB的实验结果总结于表5。我们的ERDUnet在mdevice指标上达到了92.13%的准确率,这是该指标上的最佳性能。它在MIou和HD95两个指标上分别达到87.01%和8.8844,超过了所有相同参数大小的模型。

6)基于Kvasir-Instrument数据集的结果比较: Kvasir-Instrument是我们实验中使用的第三个结肠镜数据集。原始数据集中指定了训练数据和测试数据,我们保留指定的118张图像作为测试数据,其余图像通过五重交叉验证模式构建为训练集和验证集。表6总结了基于kvasir-instrument的实验结果。我们的模型在mdevice度量上达到95.21%的精度,超过了所有其他模型。与PVT-Cascade相比,我们的模型在mdevice指标上有0.08%的改进。在MIou度量中可以达到91.56%,低于最佳结果,但超过了所有其他模型。我们的模型上HD95度量是9.6706,这是一个可以接受的精度。

7)基于polygen数据集的结果比较: polygen是我们实验中使用的第四个结肠镜数据集。原始数据集中已经指定了训练数据和测试数据,我们保留指定的88张图像作为测试数据,其余图像通过五重交叉验证模式构建为训练集和验证集。表7总结了基于polygen的实验结果。这是一个来自多个数据中心的数据集,数据之间具有很大的可变性。因此,在此数据集上应用的模型的性能在很大程度上下降。目前最优的模型是PVT-Cascade, mdevice精度达到81.94%,MIou精度达到77.25%,HD95精度达到18.0702。我们的模型在这三个性能指标上的准确率分别为79.60%、70.67%和28.0181。我们的模型的精度水平已经超过了该数据集上大多数模型的性能。

8)消融实验: 为了验证我们设计的有效性,我们基于DSBC2018数据集进行了消融实验。具体实验结果见表8。其中,AE1和AE2分别只使用ERSUnet和ERSUnet-c作为分割网络。AE3、AE4和AE5按照双网模式建模,使用两个ERSUnet框架构建ERSU-Double-net,使用ERSUnet-c构建ERSU-Double-net,分别使用两个ERSUnet框架构建ERDUnet。AE6在AE5的基础上移除DRA模块,验证其有效性。比较AE1和AE4的结果差异,AE4在mdevice和MIoU上分别提高了0.58%和0.79%。比较AE2和AE3的结果差异,AE3对mdevice和MIoU分别提高了0.11%和0.10%。这证明了我们设计的双网络合成策略的有效性,其中即使单体模型的自合成也可以提高性能。

同时,AE5在所有烧蚀实验中取得了最好的结果,并且在两个独立的网络模型协同使用后获得了最高的性能提升,这表明我们设计的两个单一模型可以相互促进,突破性能上限。值得注意的是,AE2在非常小的参数尺度下实现了与现有SOTA算法相似的性能,这可以证明我们提出的模块确实可以提高模型的效率,实现小型化。比较AE5和AE6的结果,在mdevice和MIoU上,使用或不使用DRA模块产生的差异分别为0.4%和0.55%。这表明差分区域关注确实是模型改进的关键,它可以用很少的资源来提高性能足迹。同时,AE5和AE6在HD95度量上的实验结果相差0.5992,这清楚地显示了我们的DRA模块对边缘的补偿效果,验证了我们设计思想的正确性。

9)讨论: 基于上述实验结果,我们可以看到基于transformer的方法比基于卷积的方法在HD95度量方面具有更好的整体效果。这是因为基于transformer的方法可以提取更多的全局上下文信息,从而在HD95中获得更好的性能,这是一个更关注分割边界精度的指标。我们的模型和基于Transformer的模型的实验结果在度量HD95中通常是相似的,甚至优于ISIC2018数据集上的所有Transformer方法。这表明我们提出的编码器可以有效改善卷积模型在全局特征提取能力上的不足,从而提高分割边界的精度。为了进一步测试我们提出的模型的性能,我们进一步将算法的使用扩展到息肉分割场景。总体而言,我们的模型在息肉分割任务中表现出良好的性能。这再次证明了我们的模型具有良好的通用性,可以很容易地迁移到不同的医疗场景。与基于变压器的方法相比,我们的模型更稳定,并且由于不同的数据集而没有很大的性能变化。模型具有较强的泛化性和稳定性建议我们的算法具有扩展到临床实践的潜力,为医生提供灵活可靠的智能分割工具。

在模型效率方面,我们提出的ERSUnet在参数数量和计算工作量方面具有非常小的规模。尽管MedT和DCSAUnet具有较小的参数大小,但这两个模型不能很好地泛化,并且仅在某些数据集上表现更好。模型的鲁棒性不强,在许多数据集上的结果存在较大的标准差。该模型具有较好的泛化性和鲁棒性,但其参数大小和计算量较小。这是因为我们的模型通过充分的实验得到的最优特征融合机制,为模型的性能提供了根本的保证。

在推理速度方面,我们的模型在不同的数据集上都有很高的FPS,特别是我们的ERSUnet在7个数据集上可以达到40.71的平均FPS,在ISIC2018和polygen两个数据集上甚至超过60。这表明我们的方法能够很好地满足实时性的要求。并且与比我们更快的Unet、Unet++、Unet3+和AttenenUet相比,我们的模型的性能提升是显著的,因此我们认为由此导致的推理速度的小幅下降是可以接受的。

我们给出了七个生物医学成像数据集的定性比较结果,如图4所示。从这些可视化结果可以看出,首先基于卷积神经网络的模型容易出现过分割和欠分割的问题,难以适应不规则形状物体和大尺度目标的分割任务。在具有较大病变区域的ISIC2018、GlaS和Kvasir-SEG数据集上观察到不完全识别问题。这类方法在面对前景和背景差别不大的情况时,也容易出现无法识别的问题,例如CVC-ClinnicDB上Unet++模型的分割结果。虽然基于transformer的方法可以解决这个问题,但是由于缺乏大量的数据作为训练支持,在医疗任务上的实际分割结果不是很好。对大目标的分割效果虽有改善,但仍不理想。虽然在CVCClinicDB数据集上没有识别失败,但存在定位不准确和过度分割的问题。此外,在Kvasir-Instrument和polygen数据集上还存在遗漏小目标的问题。

我们设计的ERSUnet和ERDUnet具有解决上述缺陷的能力。不存在分割失败和分割缺失的问题。在处理大型目标时,ERDUnet可以很好地恢复细节,减少区域缺失问题。在DSBC2018数据集的小而密集的分割任务中,ERSUnet表现出更好的性能,非常准确地恢复了应该分割的位置。总体而言,我们提出的模型在实际分割结果中获得了更好的性能。我们的方法也存在一些识别失败的问题,如图5所示。这主要是由于被分割目标的特征与背景特征过于相似,以及多个被分割目标之间的差异较大而导致分割失败。我们将在后续工作中着力解决这一问题。







五、结论

在本文中,我们提出了一种快速高效地执行医学图像分割任务的深度卷积神经网络模型,命名为ERDUnet。强大的特征提取模块CEE使我们的模型具有高效的特征学习能力,只需要少量的参数和浮点运算即可完成信息编码。我们提出的DRA模块能够通过识别不同层之间的特征区域差异来加速训练和优化分割边界区域。

通过构建不同层次之间的特征融合,对经典的编码器-解码器框架进行改进,提出双Ushaped框架,充分激活模型的潜在能力,提高性能。我们在七个不同的医学分割数据集上评估了我们的模型。实验结果表明,该模型在参数较小的情况下仍然具有良好的分割性能。

并且可以很容易地推广到其他医疗任务中,具有很好的分割性能。在未来,我们将进一步将我们的模型扩展到多类分割任务,并将继续致力于将深度学习技术推广到临床应用中。

全部评论 (0)

还没有任何评论哟~