MultiResUNet学习笔记(2019 Neural Networks【SCI 1区】)
摘要
近年来,深度学习在医学图像分割方面取得了突破。(背景介绍)
U-Net 是这方面最突出的深度网络,也是医学成像界最受欢迎的体系结构。(点明主题)尽管在分割多模态医学图像方面具有出色的整体性能,但从在具有挑战性的数据集上的广泛实验中,我们发现经典的U-Net架构似乎在某些方面还缺乏。(指出问题,引出研究目的)
因此,我们提出了一些修改来改进已经最先进的UNet模型。(表明本文的中心工作)
因此,在修改之后,我们开发了一种新的架构MultiResUNet作为成功的U-Net架构的潜在继承者。(研究结果 )我们在我们提出的架构MultiResUNet与经典的U-Net在大量的多模态医学图像上进行了比较。尽管在理想图像的情况下略有改进,但对具有挑战性的图像的性能已经取得了显著的提高。我们在5个不同的数据集上评估了我们的模型,每个数据集都有自己独特的挑战,并在性能方面分别相对提高了10.15%、5.07%、2.63%、1.41%和0.62%。
引言
医学背景及意义
自数字医学成像设备问世以来,图像处理技术在医学图像分析中的应用引起了广泛的关注。几十年来,多学科的研究人员一直在努力开发自动诊断系统,直到今天,它仍是最活跃的研究领域之一。计算机辅助医学图像分析工具的任务有两个方面:分割和诊断。
在一般的语义分割问题中,目标是将图像分割成一组非重叠的区域,从而允许齐次像素聚类在一起。然而,在医学图像的背景下,兴趣往往在于只区分图像的一些有趣的区域,如肿瘤区域[3],器官[4]等。这使得医生只能分析其他难以理解的多模态医学图像[5]的重要部分。此外,通常分割后的图像被用于计算可用于诊断[6]的各种特征。因此,图像分割在生物医学工程领域具有极其重要的应用意义。
2.医学图像分割发展现状
由于医学图像分割的深远意义和手工分割的复杂性,大量的医学图像自动分割方法已经发展起来,主要集中在特定模式的图像上。
💡–早期的方法
在早期,采用简单的基于规则的方法;然而,在大量数据[7]上测试时,这些方法未能保持健壮性。
因此,利用软计算[8]和模糊算法[9]的工具,依赖几何形状的先验开发了更多的自适应算法。
然而,这些方法存在人类的偏见,不能处理现实世界数据中的方差量。
💡–近期的发展
最近在深度学习[10]方面的进展已经显露了解决这类问题的希望。
在这点上,卷积神经网络(CNN)[11]是最具开创性的补充,它主导着计算机视觉领域。CNN在目标分类[12]、目标定位[13]等任务上取得了显著进步,而CNN架构的不断改进[14,15,16,17]带来了进一步的根本性进展。语义分割任务也被卷积网络彻底改变了。
由于CNN在执行对象分类方面更直观,Ciresan等人[18]提出了一个基于滑动窗口的管道,使用CNN进行语义分割。
- Long等人[19]提出了一种全卷积网络(FCN)来进行端到端图像分割,这超越了现有的方法。
- Badrinarayanan[20]等人对FCN进行了改进,开发了一种新的架构,即SegNet。SegNet由一个从图像中提取空间特征的13层深度编码器网络和一个相应的13层深度解码器网络组成,该网络对特征图进行上采样以预测分割掩码。
- Chen等人[21]提出了DeepLap并使用无卷积进行语义分割。
💡–现存问题
尽管在计算机视觉任务方面取得了突破,但CNN架构的一个主要缺点是它们需要大量的训练数据。不幸的是,在医学图像的背景下,不仅图像的获取是昂贵和复杂,准确的注释甚至增加了[22]复杂性。然而,近年来,cnn在医学图像分割方面显示出了巨大的前景,大部分归功于U-Net [24]** (引出本文核心UNet)**。
💡–介绍UNet,并夸一夸
U-Net的结构与SegNet非常相似,包括一个编码器和一个解码器网络。此外,编码器和解码器网络的对应层通过跳跃连接相联,分别在池化之前和反卷积操作之后。
U-Net在分割医学图像方面显示出令人印象深刻的潜力,即使标记训练数据很少,在一定程度上它已经成为医学图像分割[22]事实上的标准。
U-Net和U-Net类模型已成功应用于神经元结构[24]、肝脏[25]、皮肤病变[26]、结肠组织学[27]、肾[28]、血管边界[29]、肺结节[30]、前列腺[31]等生物医学图像的分割。这个应用范围不胜枚举。
3.本文工作及贡献
在本文中,我们在欣赏U-Net最流行和最成功的生物医学图像分割深度学习模型的能力的同时,仔细研究网络架构,以发现一些潜在的改进范围。我们认为并假设U-Net架构可能缺乏某些标准(什么标准? ),并基于当代深度计算机视觉的进步,我们提出了对它的一些修改(后文寻找答案 )。
在后续中,我们开发了一个名为MultiResUNet的新模型,这是U-Net的一个增强版本,我们相信它将显著提高一般多模态生物医学图像分割领域的技术水平。我们用我们的模型来测试来自不同模式的各种医学图像,甚至使用3D医学图像。通过对这组不同的医学图像进行的广泛实验,发现在所有情况下,即使参数数量略少,MultiResUNet也超过了经典的U-Net模型(MultiResUNet Vs. 经典的U-Net )。
本文的贡献可以总结如下:
- 我们深入分析了U-Net模型架构,并推测了一些进一步增强的潜在机会(有多深入?哪些机会? )
- 基于可能的改进范围,我们提出了MultiResUNet,这是标准U-Net架构的一个增强版本。
- 我们用不同模式的公共医学图像数据集进行了实验,MultiResUNet显示了较高的精度。
- 我们还实验了一个3D版本的MultiResUNet,它也优于标准的3D U-Net。
- 特别是,我们检查了一些非常具有挑战性的图像,并观察到使用MultiResUNet时比U-Net得到了显著改进。
UNet结构概述
与FCN [19]和SegNet [20]类似,U-Net [24]使用一个完全是卷积层的网络来执行语义分割的任务。该网络架构是对称的,有一个从图像中提取空间特征的编码器,以及一个从编码的特征中构造分割地图的解码器。
该编码器 遵循卷积网络的典型形成。它涉及到两个3×3卷积操作的序列,然后是一个最大池化操作,池化大小为2×2,步幅为2。这个序列重复四次,每次降采样后,卷积层中的滤波器数量将增加一倍。最后,连续两个3×3的卷积操作将编码器连接到解码器。
相反,解码器 首先使用2×2转置的卷积操作[32]对特征图进行上采样,将特征通道减少了一半。然后再次连续执行两个3×3的卷积操作。与编码器类似,这种连续的上采样和两个卷积操作重复四次,将每个阶段的滤波器数量减半。最后,进行1×1的卷积运算,生成最终的分割图。
除最后一个外的所有卷积层都使用ReLU(整流线性单元)激活函数[10];最后的卷积层使用Sigmoid激活函数。
也许,U-Net架构最巧妙的方面是引入了跳跃连接。在所有四个级别中,编码器池化操作之前的卷积层的输出被转移到解码器 。然后,将这些特征映射与上采样操作的输出连接起来,并将连接起来的特征映射传播到连续的层中。这些** 跳跃连接允许网络检索池化操作[33]丢失的空间信息**。网络架构如图1所示。

随后,通过对三维U-Net的一些修改,U-Net架构被扩展为体积分割[28]。特别是,二维卷积、最大池化、转置卷积运算被三维对应运算所取代。然而,为了限制参数的数量,网络的深度减少了1 。此外,在池化层出现之前,过滤器的数量增加了一倍,以避免瓶颈[34] 。
最初的U-Net [24]没有使用批处理归一化[35],然而,他们在3D U-Net中进行了实验,令人惊讶的是,批处理归一化有时甚至会损害性能[28] 。
动机和高角度的考虑
U-Net是医学成像界最著名的、最受欢迎的深度网络架构,定义了医学图像分割[33]的最新水平。然而,对U-Net架构的深入思考,并将其与最近深度计算机视觉的进展进行一些类比,可以得到一些有用的观察结果,如下文所述。
3.1医学图像中尺度的变化

图3:MultiRes块的发展。我们从一个简单的Inception-like Blocks开始,通过并行使用3×3、5×5和7×7卷积滤波器,并连接生成的特征图(图3a)。这使我们能够协调来自不同上下文大小的空间特征 。我们没有并行使用3×3、5×5和7×7滤波器,而是将更大更昂贵的5×5和7×7滤波器分解为3×3滤波器(图3b)。图3c显示了MultiRes块,其中我们逐渐增加了连续三层中的滤波器的数量,并添加了一个剩余连接(以及1个×1个滤波器来保存维度)。
在医学图像分割中,我们感兴趣的是细胞坏死[36]、器官[4]、肿瘤[3]等的分割。来自各种模式的图像。然而,在大多数情况下,这些感兴趣的对象是不规则的和不同的规模(同一类别有不同的表征) 。例如,在图2中,我们已经证明了在皮肤镜图像中,皮肤病变的规模可以有很大的差异。这些情况经常发生在不同类型的医学图像分割任务中。

因此,一个网络应该有足够的鲁棒性来分析不同尺度上的对象 。虽然这个问题已经在一些深度计算机视觉工作中得到了解决,但据我们所知,这个问题在医学图像分割领域仍然没有得到适当的解决。
Serre等人[37]使用了一系列不同尺度的固定Gabor滤波器来承认图像中尺度的变化。
后来,革命性的Inception架构[15]引入了Inception块 ,它利用不同内核大小的卷积层并行地检查来自不同尺度的图像中的兴趣点。这些在不同尺度上获得的感知被结合在一起,并传递到更深的网络中 。
在U-Net架构中,在每个池化层和转置卷积层之后,使用了两个3×3卷积层的序列。正如在[34]中所解释的,这个连续的两个3×3的卷积操作实际上类似于一个5×5的卷积操作 。因此,遵循Inception Network的方法,使用多分辨率分析增强U-Net的最简单方法是将3×3和7×7卷积操作与5×5卷积操作并行,如图3a所示。

因此,用类似于 Inception Blocks 替换卷积层应该有助于U-Net架构协调在不同尺度下从图像中学到的特征 。
另一种可能的选择是使用编曲卷积( strided convolutions)[38],但在我们的实验中,它被使用类似 Inception Blocks 的U-Net所掩盖。尽管在性能上有所提高,但并行卷积层增加了内存需求 。因此,我们从[34]那里借鉴了以下想法。我们将更大的、更费内存的5×5和7×7卷积层,分解成更小的、更轻量级的3×3卷积块,如图3b所示。

第2个3×3卷积块和第3个3×3卷积块的输出分别有效地近似于5×5和7×7卷积输出。(3×3卷积块可以用来替换大的卷积,如5×5和7×7的,更小更轻量! )因此,我们采用三个卷积块的输出,并将它们连接在一起,从不同的尺度中提取空间特征。从我们的实验中可以看出,这个紧凑块的结果与之前发现的Inception-like Blocks非常相似。这一结果与[34]的发现一致,因为视觉网络的相邻层预计是相关的。
尽管这种修改大大减少了内存需求 ,但它仍然要求相当高。这主要是由于在一个深度网络中,** 如果两个卷积层连续出现,那么第一个深度网络中的滤波器的数量对内存[15]有二次效应**。因此,我们没有保持所有三个连续的卷积层的相同数量的滤波器,而是** 逐渐增加这些滤波器(从1到3),以防止早期层的内存需求过度传播到网络的更深的部分**。
我们还添加了一个残余连接 ,因为它们在生物医学图像分割[33]中的有效性,并引入了1×1卷积层 ,这可能允许我们理解一些额外的空间信息 。
我们称这种排列为“MultiResUNet”,如图3c所示

3.2编码器-解码器的相应级别之间可能的语义差距
U-Net架构的一个巧妙贡献是在最大池化层和去卷积层前后分别引入了相应层之间的快捷连接 。这使得网络能够将在池化操作过程中丢失的**** 空间信息**** 从编码器传播到解码器。
尽管保留了丢失的空间特征,但跳跃连接的一个缺陷 可以推测如下。
例如,第一个快捷连接在第一个池化之前将编码器与最后一个去卷积操作之后的解码器桥接。在这里,来自编码器的特征应该是较低级的特征,因为它们是在网络的早期层中计算出来的。相反,解码器的特征应该是更高的层次,因为它们是在网络的非常深层计算的。因此,它们要经过更多的处理。因此,我们观察到被合并的两组特征之间可能存在的语义差距。(缺陷之一:低级特征与高级特征存在语义差距 )我们 推测 ,这两组不相容的特征集的融合可能会在整个学习过程中导致一些差异,从而对预测过程产生不利影响 。值得注意的是,随着我们走向后续的快捷连接,差异的量可能会逐渐减少。这可以归因于,不仅来自编码器的特征正在经历更多的处理,而且我们还将它们与许多幼层的解码器特征相融合。
因此,为了减轻编码器-解码器特征之间的差异,我们建议沿着快捷连接加入一些卷积层 。我们的假设是,这些从编码器阶段传播的特征的额外非线性转换应该解释为在解码器阶段所做完的进一步处理。此外,我们不使用通常的卷积层,而是 引入了残差连接,因为它们使学习更容易进行[17],并被证明在医学图像分析[33]中具有巨大的潜力。** 这个想法的灵感来自于使用卷积神经网络[39]进行的图像到图像的转换,其中池化层不利于信息的丢失** 。因此,我们不是简单地将从编码器阶段的特征映射连接到解码器阶段,而是首先将它们通过具有残差连接的卷积层链,然后与解码器特征连接 。我们将这条所提出的快捷路径命名为“Res path”,如图4所示。具体来说,卷积层使用3×3滤波器,残差连接使用1×1滤波器。

图4:提出的Respath。我们没有直接将编码器特征映射与解码器特征结合起来,而是将编码器特征通过一系列卷积层来传递。这些额外的非线性操作有望减小编码器和解码器特征之间的语义差距(**** 思考:如何减小编码器和解码器特征之间的语义差距?可以做进一步改进!**** )。此外,还引入了残差连接,因为它们使学习更容易,并且在深度卷积网络中非常有用。
MultiResNet结构

在MultiResUNet模型中,我们用第3.2节中介绍的MultiRes Block替换了两个连续的卷积层。对于每个MultiRes块,我们分配了一个参数W ,它控制该块内卷积层的滤波器的数量 。** 为了保持原始U-Net中的参数量与所提模型之间的可比性关系** ,我们计算W的值如下:

这里,U是U-Net相应层中的滤波器数,α是一个标量系数(即按比例α取原始U-Net中的滤波器数)。将W分解为U和α提供了一种方便的方法来控制参数的数量和保持它们与U-Net的可比性。
我们将我们提出的模型与U-Net进行比较,沿着层级方向有【32,64,128,256,512】个过滤器(通道数,即Channels),这也是我们模型中的U值。我们选择了α = 1.67 ,因为它使我们模型中的参数数量略低于U-Net。
在第3.2节中,我们指出,逐渐增加MultiRes块内连续卷积层中的滤波器的数量,而不是保持它们不变,这是有益的。因此,我们将[W/6],[W/3]和[W/2]个滤波器分别分配到三个连续的卷积层中,因为这个组合在我们的实验中取得了最好的结果。还可以注意到,与U-Net架构类似,在每次池化或去卷积操作后,W的值会增加一倍。
除了引入MultiRes块外,我们还用所提出的Res path替换了普通的快捷连接。因此,我们对从编码器阶段传播到解码器阶段的特征映射应用了一些卷积运算。在第3.1节中,我们假设编码器和解码器特征映射之间的语义间隙的强度很可能会随着我们向内部快捷路径的移动而减小 。因此,我们也逐渐减少了沿着Res path使用的卷积块的数量。特别地,我们沿着4条Res path分别使用了4、3、2、1个卷积块 。此外,为了和编码解码器中的特征图的数量一致,我们在四个Res路径的块中分别使用了32、64、128、256个滤波器 。
除输出层中使用的该网络外的所有卷积层都由ReLU(整流线性单元)激活函数[10]激活,并被批归一化[35]。与U-Net模型相似,输出层被Sigmoid激活函数激活。我们在图5中给出了提出的MultiResNet模型的图。表1描述了架构细节。

数据集

与传统的计算机视觉数据集相比,医学成像数据集的管理具有挑战性。昂贵的成像设备、复杂的图像采集管道、专家注释的必要性、隐私问题——所有这些都增加了开发医学成像数据集[22]的复杂性。因此,只有少数的公共医学成像基准数据集存在,而且每个数据集只包含少量的图像。为了评估所提出的架构的有效性,我们试图在各种图像模式上评估它。更具体地说,我们选择了尽可能彼此异构的数据集。此外,每个数据集本身都提出了一个独特的挑战(更多的细节在第7节和第8节中给出)。下面简要描述了实验中使用的数据集(概述也见表2)。
5.1荧光显微镜图像
我们使用了由Murphy Lab [36]开发的荧光显微镜图像数据集。该数据集包含97张荧光显微镜图像,这些图像中总共包含4009个细胞。一半的细胞为U2OS细胞,另一半为NIH3T3细胞。这些细胞核是由专家手工分割的。细胞核在明亮度方面是不规则的 ,而图像中经常包含明显的碎片 ,这使其成为一个具有挑战性的亮场显微镜图像数据集。图像的原始分辨率范围从1349 × 1030到1344 × 1024 ;由于计算约束,它们已被调整到256×256 。
5.2电子显微镜图像
为了观察电子显微镜图像的体系结构的有效性,我们使用了ISBI-2012: 2D EM分割挑战[40,41]的数据集。该数据集仅包含30张来自果蝇一龄幼虫腹侧神经索[41]的连续切片透射电子显微镜(ssTEM)的图像。图像面临轻微的对齐误差 ,并被噪声破坏 。这些图像的分辨率是512×512 ,但由于计算上的限制,它们已经被调整到256×256 。
5.3皮肤镜图像
我们从ISIC-2018:病变边界分割挑战数据集中获得了皮肤镜图像。该挑战的数据提取自ISIC-2017数据集[3]和HAM10000数据集[42]。所汇编的数据集共包含2594张不同类型皮肤损伤的图像,并带有专家注释。这些图像有不同的分辨率,但它们都被调整到256×192 ,保持平均高宽比,以供计算目的。
5.4内窥镜图像
我们使用CVC-ClinicDB [43],一个结肠镜图像数据库,用于我们的内窥镜图像实验。该数据集的图像是从29个结肠镜检查视频序列中提取出来的。我们只考虑了带有息肉的图像,共得到612张图像。这些图像最初的分辨率为384×288 ,但已经调整到256×192 ,保持了高宽比。
5.5 [医]磁性共振成像
前面描述的所有数据集都包含2D医学图像。为了用3D医学图像来评估我们提出的架构,我们使用了来自BraTS17竞争数据库[44,45]的磁共振图像(MRI)。该数据集包含210个胶质母细胞瘤(HGG)和75个低级别胶质瘤(LGG)的多模态MRI扫描。这些多模态扫描包括原生(T1)、对比后t1加权(T1Gd)、t2加权(T2)和T2液体减毒反转恢复(FLAIR)体积,这些体积是根据来自19家机构的不同临床方案和不同扫描仪获得的。这些图像的尺寸为240×240×155 ,但为了便于计算,其尺寸已被调整到80×80×48 。采用T1、T1Gd、T2和FLAIR这四种模式作为四种不同的通道来评估我们模型的三维变体。
实验
实验是在台式计算机上进行的,使用英特尔核心i7-7700处理器(3.6 GHz,8 MB缓存)CPU,16GB RAM,和NVIDIA TITAN Xp(12 GB,1582 MHz)GPU 。
6.1基线模型
由于提出的架构MultiResUNet旨在改进用于医学图像分割的先进U-Net架构,我们将其性能与U-Net架构进行了比较 。为了保持参数的数量与我们提出的MultiResUNet相比较,我们实现了原始的U-Net [20],具有五层深度编码器和解码器,滤波器数为32、64、128、256、512 。
此外,作为三维图像分割的基线,我们使用了U-Net的三维对应的原始论文[28]所述。MultiResUNet的3D版本是简单地用2D卷积层、池化层和卷积层转置的,没有任何进一步的改变。
模型的参数数见表3。在这两种情况下,所提议的网络需要的参数量略少(参数量的比较 )。

6.2前处理与后处理
实验的目的 是研究所提出的MultiResUNet架构优于原始的U-Net作为一个通用模型的优越性。因此,没有 执行特定于领域的预处理 。输入图像经过的唯一预处理是调整大小以适应GPU内存 ,像素值除以255,使它们到[0…1]范围 。同样,也没有 执行特定于应用程序的后处理 。因为,最后一层被一个Sigmoid函数激活,所以它产生在[0……1]范围内的输出。因此,我们应用0.5的阈值来获得输入图像的分割图 。
6.3训练方法
语义分割的任务是预测单个像素,无论它们是代表一个感兴趣的点,还是仅仅是背景的一部分。因此,这个问题最终简化为像素级二值分类问题 。因此,作为网络的损失函数,我们简单地取二进制交叉熵函数并将其最小化。
假设,对于图像X,GT分割掩码为Y,模型预测的分割掩模为Yˆ。对于一个像素的px,网络预测ˆypx,而GT为ypx。该图像的二进制交叉熵损失定义为:

对于包含n个图像的批处理,损失函数J变成,

我们最小化了二进制交叉熵损失,因此使用Adam优化器[49]训练模型。Adam自适应地计算不同参数的不同的学习速率 。这个想法,实际上结合了AdaGrad [50]和RMSProp [51]的优势;因此,Adam经常被用作默认的深度学习模型的基准选择[52]。Adam有许多参数,包括β1和β2,它们分别控制第一矩和第二矩的衰减。然而,在这项工作中,我们使用了Adam原始论文中提到的参数 。使用Adam优化器对模型进行了150个epochs 的训练。选择150个时代作为时代的数量的原因是,在150个时代之后,这两个模型都没有显示出任何进一步的改进 。
6.4 评价指标
在语义分割中,感兴趣的点通常包括整个图像的一小部分。因此,精确度、召回率等指标是不充分的 ,往往会导致错误的优越感,由于检测背景的完善而被夸大 。因此,Jaccard指数被广泛用于图像分割和目标定位算法[2]的评估和基准。两个集合A和B的Jaccard索引(** IoU系数**)定义为两个集合的交集和并集之比:

在我们的例子中,集合A表示地面真实的二进值分割掩码Y,集合B对应于预测的二进值分割掩码Yˆ。因此,我们以Jaccard指数为度量,不仅强调精确分割,而且还惩罚分割不足和过度分割。
6.5 K折交叉验证
交叉验证测试估计了一个算法在一个独立的数据集上的一般有效性,确保了偏差和方差之间的平衡 。
结果
IoU系数

MultiResUNet可以在更少的epochs内获得更好的结果

MultiResNet更好地描绘了模糊的边界

MultiResNet抗干扰性更强
作者推测在编码器特征映射上应用附加的非线性操作可以使其对扰动具有鲁棒性 。
MultiResUNet对异常值更可靠
总结
为了协调这两组不兼容的特征集,我们提出了Res path ,它引入了一些额外的处理,使这两个特征映射更加同质 。
此外,为了增强U-Net的多分辨率分析能力 ,我们提出了MultiRes块 。我们从Inception模块中获得灵感,形成了一个紧凑的类似结构 ,它很轻,需要更少的内存 。
