Non-local U-Nets for Biomedical Image Segmentation
Non-local U-Nets for Biomedical Image Segmentation
论文链接

德克萨斯A&M大学(TAMU),其缩称为TAMU。该大学成立于1876年,在德克萨斯州卡城设有主校区,并在其所在州的城市还有分校。目前 TAMU 在得克萨斯州拥有 Galveston(Texas)、Corpus Christi(Texas)、Commerce(Texas)、Kingsville(Texas)、San-Antonio(Texas)和 Doha(Qatar)等多个分校。作为享誉全球的世界百强学府之一 TAMU 继续引领学术研究与创新
北卡罗来纳大学教堂山分校(University of North Carolina at Chapel Hill),简称UNC或UNC Chapel Hill, 建于1789年, 是全球顶尖的研究型大学, 被公认为美国历史上最古老的高等教育机构之一。该校在美国享有卓越声誉, 被誉为"公立常春藤联盟"和"新型常春藤联盟"中的佼佼者。
以上改写遵循以下原则:
- 仅进行语言表达方式的优化
- 保持原文核心含义不变
- 使用更加专业的学术用语
- 增加了必要的技术细节描述
- 适当扩展了句子结构
- 增加了一些必要的修饰词

相较于U-Net,在此方法中卷积层数量有所降低,并将图像下采样比例由16:1调整为4:1;同时保留了更多的细节信息。
框架图
网络使用的3d结构,上图示例输入为两个通道,输出为4类,每一次下采样通道加倍,反之上采样通道减半,输入首先经过一个编码输入块,它提取低层特征。接着利用两个下采样块来减少空间尺寸,以此来获得高阶特征。在这之后,底层块聚合全局信息并产生编码器的输出。对应的,解码器使用两个上采样块来恢复分割输出的空间大小。
短连接采用相加操作。优点有两点:
3.1.跳跃连接不会增加特征图的数量,从而减少了参数
3.2.相加可以视作残差连接,在训练中任然有效
encoder和decoder之间的skip connections用相加的方式,不是拼接的方式,让模型推理速度更快。作者将原始u-net的concatenation -> sum的原因:1求和不会增加特征图的数量,因此会减少下一层中可训练参数的数量
。2具有求和的skip connection可以被视为远程残差连接,可以促进模型的训练。
该网络架构通过相加操作模拟远程残差连接机制,并基于全局聚合模块提出了四种不同的残差结构均采用了预激活模式。
具体而言
(a)常规残差单元 作为输入单元 输出端由该单元与一步长为1的1×1×1卷积层串联而成 在跳跃连接之后在此基础上添加一个类似的单元。
(b)下采样型残差单元 将其应用于下采样过程 恒等路径仍采用步长为1的卷积操作 但跳跃连接处采用步长为2的卷积层代替。
(c)阐述了我们所提出的底部架构 残差连接直接应用了全局聚合组件 从而实现了特征信息的有效整合。
(d)上采样型残差单元 类似于下采样单元的设计 恒等路径被步长为2的3×3×3反卷积操作替代 而跳跃连接处则采用了上采样版本的全局聚合组件 以此实现特征重构与信息融合
该模块旨在完成特征图间的全局关联整合。(与传统的卷积和反卷积等局部操作不同),该过程可采用自注意力机制从整体上捕捉图像的空间关系。
计算注意力机制通常包括三个关键步骤:
其中x代表输入空间中的坐标点;
Conv_1N: 输出通道为N的点卷积层;
QueryTransformCK(·): 生成CK维数特征图的操作;
CK,CV: 表示键向量和值向量的空间维度超参数;
假设X的空间尺寸为D × H × W × C,则对应的K,V空间维度分别为(D × H × W) × CK 和 (D × H × W) × CV。
在Unfold操作前的代码中采用了Multi-Head机制(基于Attention Is All You Need理论)。但论文中对此未作详细说明,实际上将信道划分为N个相等的部分。Unfold过程将Batch、Height、Width以及通道数N整合为一个整体结构Q;其中Query层对应于BHqWqNck形式的张量;Key层对应于BHWNck形式;而Value层则为BHWN乘以cv的结果。
在这一阶段中采用了经典的点积注意力机制,在此过程中生成了一个权重矩阵A(其维度为(D_Q×H_Q×W_Q)与(D×H×W)之间的关系)。随后又生成了一个维度为(D_Q×H_Q×W_Q)与CV相关的另一权重矩阵O。这两个权重矩阵分别用于对自注意力机制中的信息进行加权处理,并且其中分母C_k代表通道的数量。值得注意的是,在这一过程中还提出了一个关键的设计理念:通过调节权重矩阵中的数值范围以防止数值过大从而保证模型训练过程更加稳定。(这也是论文《Attention Is All You Need》中所提出的核心创新点之一)。在此基础上将两个权重矩阵进行点乘运算以获得最终结果向量(其维度为(B×H_q×W_q×N)与CV之间的关系)。从计算结果可以看出输出的空间尺寸主要取决于查询模块(Query Module),而输出的通道数量则由值向量模块(Value Vector Module)来决定。完成上述计算后将结果还原至原始的空间尺寸以完成整个解码过程。
实验结果Patch代表图像块的尺寸,在[1]中如所述原图为1024×1024像素时,默认裁剪出256×256像素的小块作为Patch进行处理
批次数(batch size)是指网络训练中每次使用的图像数量,在深度学习模型训练中占据重要地位;残差网络是一种通过引入跳跃连接来改善深层网络梯度传输效率的神经网络架构;自注意力机制则是一种能够捕捉输入序列内各元素之间相互关联性的关键组件;在计算注意力时主要包含三个步骤:首先是对每个查询与所有键进行相似性计算以获得权重系数;接着使用归一化操作将这些权重系数转换为概率分布形式;最后通过对相应值进行加权求和得到最终的注意力输出;图书管中的书籍可以被看作是一个存储空间,在其中每一个书籍都有其独特的索引编号;当我们需要了解特定主题书籍时可以通过其索引号快速定位到相关书籍;为了提高检索效率系统会对不同类型的书籍赋予不同的权重值:与主题相关的书籍会获得较高的权重而关联性较弱的内容则会给予较低的权重这样可以在有限的时间内快速获取所需信息从而实现高效的检索效果;
翻译
摘要
深度学习在各种生物医学图像分割任务中显示出了巨大的希望。现有模型通常基于U-Net,并依赖于编码器-解码器体系结构和堆叠的本地操作员来逐步汇总远程信息。但是,仅使用本地运营商会限制效率和有效性。在这项工作中,我们提出了非局部U-Nets,它配备了灵活的全局聚合块,用于生物医学图像分割。这些块可以作为保留大小的过程以及下采样和上采样层插入U-Net。我们对3D多模态等强度婴儿脑MR图像分割任务进行了彻底的实验,以评估非本地U-Net。结果表明,我们提出的模型以较少的参数和更快的计算获得了最佳性能。
简介
近年来,深度学习方法包括完全卷积网络(FCN)(Long,Shelhamer和Darrell 2015),U-Net(Ronneberger,Fischer和Brox 2015),Deeplab(Chen等人2018; Wang和Ji(2018)和RefineNet(Lin et al.2017a)不断设置图像分割任务的性能记录。特别是,U-Net已成为生物医学图像分割的骨干网。基本上,U-Net由一个下采样编码器和一个上采样解码器以及它们之间的跳过连接组成。它通过编码解码过程合并了本地和全局上下文信息。
U-Net的许多变体已经开发出来,它们在生物医学图像分割任务上实现了更高的性能。例如,残差反卷积网络(Fakhry,Zeng和Ji 2017)和残差对称UNet(Lee等人2017)通过构建具有附加短距离残差连接的基于U-Net的网络来解决2D电子显微镜图像分割任务( He et al.2016a)。此外,针对体积生物医学图像,U-Net从2D案例扩展到3D案例,从而产生了3D U-Net(C¸ic¸ek等人,2016年),V-Net(Milletari,Navab和Ahmadi,2016年),以及卷积级联的3D-FCN(CC-3D-FCN)(Nie等人,2018年)。
尽管这些研究取得了成功,但我们仍对基于U-Net的模型进行了深入研究,并观察到它们共享的两个局限性。unet编码器通常会堆叠卷积层与下采样交叉在一起,逐渐减小特征图的空间尺寸。卷积操作、下采样操作都是局部操作,(通过一定大小的卷积核作用于局部图像区域获得图像的局部信息。)运用小卷积核进行特征提取。通过级联的方式叠加卷积和下采样操作产生较大卷积核,因此能够聚集较大范围信息。无法整合全局信息,同时下采样丢失空间信息,尤其对生物医学图像不利由于生物医学图像分割通常受益于广泛的上下文信息,因此大多数模型需要深层的编码器,即堆叠更多的局部操作。这样会引入大量训练参数,影响这些模型的效率,尤其是在需要更多下采样的时候,因为通常这样特征映射的通道数会加倍此外,
其次,上采样运算符,以与编码器类似的方式构建解码器。unet解码器上采样如反卷积,反池化操作都是局部操作,上采样恢复细节信息需要全局信息。如果不考虑全局信息就很难做到这一点。
总而言之,它将提高基于U-Net的模型的有效性和效率,以开发能够执行非本地信息聚合的新运营商。由于U-Net具有保留大小的过程以及下采样和上采样层,因此新的运算符应该可以灵活地适应这些情况。
它能够对全局信息进行深度汇总编码器。该块被进一步扩展为上采样全局聚合块up-sampling global agregation block,这可以缓解第二个问题。据我们所知,我们是第一个进行此扩展的人。我们探索这些灵活的全局聚合块在3D多模式等强度婴儿脑磁共振(MR)图像分割任务中在U-Net中的应用。实验结果表明,我们提出的非本地U-Net能够以更少的参数和更快的计算速度实现最佳性能

基于该框架设计的模型架构由三个主要组件构成:不同尺寸的保留单元、系统化的下采样模块以及高效的上采样模块。这些组件协同工作以构建非本地U-Net网络结构。在详细描述每个模块的基础上,我们提出了一个全局聚合块来构建非本地U-Net架构。
对应的解码过程则采用两个上采样模块来逐步恢复分割输出的空间分辨率。每次上采样的结果都会使特征图的空间分辨率减半,从而实现更精细的空间分割目标。为了实现高效的特征重建过程,我们在解码阶段引入了跳跃连接机制,将编码器中的关键特征映射传递到解码路径中进行融合处理.与传统方法不同的是,本研究中的跳跃连接采用求和操作而非简单的堆叠(Ronneberger等2015; Yuan等人2018)。这种设计优势在于:第一种是避免增加额外的计算开销;第二种是通过求和操作实现了远距离残差连接效果.
这种创新性的设计使得整个网络架构更加紧凑高效.相对于传统的逐级堆叠方式,summation操作能够有效减少后续层中的参数规模的同时提升模型性能.
在深度学习领域中,残差连接已被实验证明有助于提升模型训练效果并显著提升性能(He et al., 2016a)。值得注意的是,在我们提出的U-Net框架中,默认情况下求和跳过链接等同于远程残余连接。为了进一步优化改进了该框架(Lee等人, 2017; Lin等人, 2017a; Fakhry, Zeng和Ji, 2017),研究也建议采用短距离残余连接策略以增强模型性能。然而这些研究未将其应用于下采样与上采样模块中,在ResNet架构中已有研究表明带残留连接的下采样模块表现优异(He et al., 2016a)。基于此本研究将在全局聚合块基础上探索创新性上采样模块设计如下所述。
在本研究提出的模型架构中采用了四个独特的残差块构建了一个全残留式网络如图所示值得注意的是所有这些模块均采用了预处理激活机制(He et al., 2016b)。图示部分显示该输入块由两个连续卷积层构成并应用了ReLU6激活函数配合批处理归一化(Ioffe和Szegedy, 2015)实现特征图标准化处理过程较为高效且稳定地传递信号到更深层网络。

该模块
该模块
负责融合全局信息:每一个输出位置都应受所有输入位置的影响。(与传统的卷积和反卷积操作不同)通过自注意力机制融合图像特征图的整体信息。其本质是将查询映射至一系列键值对。

在计算attention时的过程主要包括三个步骤:首先输入x,y分别代表输入输出变量;其次定义输出通道为n的点卷积操作为conv_1n;再次将d×h×w×c的空间展开为(d×h×w)×c维的张量;此外还包括通过unfolding操作将特征图展平并生成对应的feature maps;最后通过query transformck操作生成关键路径上的特征映射矩阵;其中ck和cv分别表示键值维度的超参数;假设输入图像x具有尺寸d×h×w×c,则对应的key和value矩阵k与v的尺寸分别为(d×h×w)×ck和(d×h×w)×cv;第一步是生成q(查询)、k(键)以及v(值)矩阵;该架构与论文“Attention Is All You Need”中所述的方法具有相似之处;输入图像x具有尺寸b,h,w,c,则经过query transform层和平移卷积处理后得到q,b,hq,wq,ck以及k,b,h,w,ck和v,b,h,wc维数分别为(b,hq,wq,ck),(b,h,w,ck)和(b,h,wc);最后通过query transform方法可采用卷积、反卷积或插值等技术实现关键路径上的特征提取,并保证输出图像的高度与宽度尺寸一致
此操作涉及将Batch, Height, Width与N个通道结合使用,在论文中并未提及其具体实现细节。实则上该过程将通道划分为N个部分,并通过Unfold函数将Batch, Height, Width与每个通道的数据进行整合处理。具体而言,Q矩阵维度为B×H×q×w×q×n_key,Q(BHqWqNck),K矩阵维度为B×H×w×n_key,K(BHWNck),V矩阵维度为B×H×w×n_value,V(BHWN*cv)。
第三步是经典的点积注意力机制的应用过程,在此过程中生成一个权重矩阵A(其维度为(Dq×Hq×Wq)与(D×H×W)之间的乘积关系)。这个权重矩阵将被用于对self-attention过程中的信息进行加权处理。具体而言,在计算过程中分母Ck代表通道的数量,并且这一设定有助于使模型训练更加稳定(这一思路同样来自论文《Attention Is All You Need》)。接下来需要将权重矩阵A与V进行点乘运算以获得最终结果(其维度为(BHqWqN)与CV之间的乘积关系)。值得注意的是,在这一过程中输出的高度和宽度由Q参数决定而输出的通道数量则由V矩阵决定
要通过块实现全局信息融合,输出特征图的每个位置都应取决于输入特征图的所有位置。这种运算与卷积,反卷积等局部运算相反,每个输出位置在输入上都有一个局部接收场。实际上,完全连接的层fully-connected layer具有此全局属性,但是,它容易过度拟合,在实践中效果不佳。我们注意到,在Transformer中使用的自注意力模块(Vaswani et al.2017attention is you need)通过关注输入的每个位置来计算一个位置的输出。,可以通过自注意块来聚合图像特征图的全局信息。
基于此见解,我们提出了全局聚合块,该块能够融合任何大小的特征图中的全局信息。我们进一步将其通用化以处理下采样和上采样,使其成为可在深度学习模型中任何地方使用的模块。
令X代表全局聚合块的输入,而Y代表输出。为简单起见,我们使用Conv 1N表示步幅为1和N的输出通道的1×1×1卷积。请注意,Conv 1N不会更改空间大小。该区块的第一步是生成查询(Q),键(K)和值(V)矩阵(V aswani et al.2017),由
Q = U nf old(QueryT ransf ormCK(X)),
K = U nf old(Conv 1CK(X)),
V = U nf old(Conv 1CV(X)),
其中,U nf old(·)将D×H×W×C张量展开为(D×H×W)×C矩阵,
QueryT ransf ormCK(·)可以是产生CK特征图的任何操作,QueryTransform可以为卷积,反卷积,插值等方法,最后的输出结果的H与W将与这个值一致
CK,CV为代表键和值尺寸的超参数。
假设X的大小为D×H×W×C。然后,K和V的尺寸分别为(D×H×W)×CK和(D×H×W)×CV。但是,Q的维数是(DQ×HQ×WQ)×CK,其中DQ,HQ,WQ取决于QueryT ransf orm(·)。图3的左侧部分说明了此步骤。在此,D×H×W×C张量tensor由D×H×W立方体表示,其体素对应于C维向量。
Q,K和V矩阵的每一行分别表示查询向量,键向量和值向量。请注意,查询向量的维数与键向量的维数相同。同时,键向量的数量与值向量的数量相同,这表示一一对应。第二步,将注意力机制应用于Q,K和V(V aswani等人2017),定义为
A = Sof tmax(QKT
√CK
),
O = AV,
注意权重矩阵A的维数为(DQ×HQ×WQ)×(D×H×W),输出矩阵O的维数为(DQ×HQ×WQ)×CV。为了了解其工作原理,我们以Q中的一个查询向量为例。在注意力机制中,查询向量与所有键向量交互,其中查询向量和一个键向量之间的点积dot-product会为相应的值向量产生标量权重scalar weight。查询向量的输出是所有值向量的加权和weighted sum,其中权重通过Sof tmax归一化。对所有查询向量重复此过程,并生成(DQ×HQ×WQ)CV维向量。此步骤在图3的方框中进行了说明。请注意,可以将Dropout(Srivastava et al。2014)应用于A,以避免过度拟合。如图3所示,该块的最后一步通过
分母Ck是通道数,作用是调节矩阵的数值不要过大,使训练更稳定(这个也是Attention Is All You Need提出的
Y = Conv 1CO(F old(O)),
其中F old(·)是U nf old(·)的逆运算,CO是表示输出维的超参数。结果,Y的大小为DQ×HQ×WQ×CO。特别地,值得注意的是,Y的空间大小是由Q矩阵的大小决定的,即由(1)中的QueryT ransf ormCK(·)函数确定的。因此,通过使用适当的QueryT ransf ormCK(·)函数,可以将全局聚合块灵活地用于大小保留,下采样和上采样过程。在我们提出的非本地U-Net中,我们设置CK = CV = CO并探索两个不同的QueryT ransf ormCK(·)函数。对于图2(c)中的全局聚合块,QueryT ransf ormCK(·)为Conv 1CK。对于上采样的全局聚合块,在图2(d)中,QueryT ransf ormCK(·)是步长为2的3×3×3解卷积。使用此块可缓解通过单个解卷积进行的上采样会丢失信息的问题。通过考虑全局信息,上采样模块能够恢复更准确的细节。
结果与讨论
我们对3D多模态等强度婴儿脑MR图像分割任务进行了实验,以评估我们的非本地U-Net。任务是将MR图像自动分割为脑脊液(CSF),灰质(GM)和白质(WM)区域。我们首先介绍实验中使用的基线模型baseline model和评估方法。然后描述了训练和推理过程。我们提供了有效性和效率方面的比较结果,并进行了消融研究,以证明我们的非本地U-Net中的每个全局聚合块如何提高性能。此外,我们基于不同的重叠步长overlapping step sizes探索推理速度和准确性之间的权衡,并分析补丁大小的影响。实验代码和数据集信息已公开可用1。
实验设置
我们使用CC-3D-FCN(Nie et al.2018)作为基准。 CC3D-FCN是具有卷积和串联(CC)跳过连接的3D全卷积网络(3D-FCN),其设计用于3D多模态等强度婴儿脑图像分割。它表现出优于传统的机器学习方法,例如FMRIB的自动分割工具(FAST)(张,布雷迪和史密斯2001),多数投票(MV),随机森林(RF)(Criminisi和Shotton 2013)和随机森林自动上下文模型(LINKS)(Wang等,2015)。此外,Nie等人(2018)中的研究表明CC3D-FCN优于之前的深度学习模型,例如2D,3D CNN(Zhang等人2015),DeepMedic(Kamnitsas等人。以及原始的3D U-Net(C¸ic¸ek等人,2016年)。因此,使用CC-3D-FCN作为我们实验的基准是合适的。请注意,我们的数据集与(Nie等人2018)中的数据集不同。



在我们的实验中采用骰子比率(DR),并提出了一种名为3D-MHD的改进型Hausdorff距离作为评估标准。这些方法仅用于评估二进制分割任务的准确性。因此需要将模型预测生成多类别分割图并转换为相应数量的一类二进制分割图以便进行评估。具体而言我们需要为每个类别构建独立的一类二进制分割图其中1表示体素属于该类别而0则表示相反的情况。在我们的实验中直接从多类别分割结果中提取出所需的二进制分割图这一过程将被用于针对CSF灰质GM质等不同组织类型的二元化分割评估。具体来说我们定义了两个变量P与L分别代表某一类别的预测二进制分割结果及其对应的参考标注集合 DR则由下式计算:DR = 2|P∩L| / (|P| + |L|)其中|·|表示集合内元素的数量而|P∩L|则是两集合共同拥有的元素数量显然DR值域为[0 1] DR越大表示两组结果越吻合。基于此我们还定义了一种改进型三维Hausdorff距离即3D-MHD它通过计算三种不同的向量化度量来综合评价两组三维数据间的差异性较小的3D-MHD值表明模型具有较高的分割精度
为了训练模型我们采用了随机裁剪的小块样本进行训练这样既能获得充足的训练样本又能在内存占用上做到相对平衡这一策略有助于提升模型的学习效率同时也能避免因样本不足而导致的学习偏差问题无需额外的数据扩增操作即可满足训练需求为了提高模型性能我们在实验中选取了大小为32×32×32的小块样本其立方体体积足以容纳必要的特征细节

如图所示,该运行段落展示了其分割结果的可视化效果。通过对比标注的区域可以看出,在此过程中我们的模型相较于基线模型捕捉了更多的细节信息。

上图呈现了我们在此模型运行过程中与基线模型相比的训练与验证曲线。

为了进一步展示我们提出模型的效率, 我们对表4中的参数数量进行了对比分析。与现有方法CC-3DFCN相比, 我们的模型在降低28%的参数数量的同时实现了更好的性能表现。同时表5提供了参考时间信息, 具体包括以下硬件配置: -GPU: Nvidia Titan Xp 12GB; 处理器: Intel Xeon E5-2620v4 2.10GHz; 操作系统: Ubuntu 16.04.3 LTS

我们通过消融研究来验证非本地U-Net各组件的有效性。具体而言,在实验中我们比较了以下模型:
Model1是一个采用了步长为2卷积和反卷积实现下采样和上采样的3D U-Net架构,在该架构中最底层仅包含卷积层。需要注意的是基准模型CC-3D-FCN在Nie等人(2018)的研究中表现优于标准3D U-Net(C¸ic¸eket al.2016)。然而原始3D U-Net并非专为当前任务设计而构建(C¸ic¸eket al.2016)。为了提升性能我们在实验中适当调节了其超参数设置。
Model2相较于Model1增加了短距离残差连接组件(见图中框状区域)。与之相似的是该模型的下采样及上采样架构均继承自Model1的设计方案
而 Model3则采用了一种新的架构方案即将其第一个上采样组件替换为了图中所示的另一种结构 Model4在此基础上进一步优化并采用了双层上采样的设计方式 最终我们又尝试了另一种创新性架构 Model5即采用了一种更为复杂的底层数组替代了传统的单层架构
重叠步长的影响


基于叠加效应原理,在跨越间隔较小时(即跨步距离较短),可以预期获得更优的空间划分效果;然而,在跨越间隔过小时的情况下,则会增加计算负担并降低分割效率;为此我们选取了四个不同的跨度值(4, 8, 16, 32)来进行实验对比;此外在前九个主题领域内进行模型训练,并将在第十个主题区域进行模型评估;每个分割区域占据的空间尺寸设定为固定值即323px;根据跨越间隔的不同设置,在推理阶段需处理相应的数量即分别为约11880, 1920, 和约387的数量级;如图7所示这些数值对应于各个跨度值下的具体分布情况;同时图6展示了不同分段模式下的性能变化曲线;另外在灾难恢复条款中发现其中某些特定参数设置能够显著提升系统的稳定性和恢复效率;其中较为理想的表现是在跨度值选择上取中间范围内的数值即取跨度值为8和16时能够实现既保证准确性又能在有限的时间内完成快速分割任务这一结果表现最佳

不同训练样本的数量会受到补丁大小的影响。
同时,在对补丁进行分段处理时,则决定了可访问的全局信息范围。
为了在非本地U-Net中找到合适的补丁大小,在前9个主题上进行训练并在第10个对象上评估后实施网格搜索。
进行了五个不同尺寸的实验方案:163像素、243像素、323像素、403像素和483像素。
结果展示于图8中。
其中发现采用尺寸为323 pixels 的方案能够获得最佳性能并被选为默认设置。
如所指出的一样,
现有的基于U-Net的方法尚缺乏一种仅通过堆叠本地运算符实现有效全局信息聚合的技术,
这限制了其性能表现。
为此,
我们提出了一种全局聚合块,
该模块能够灵活地与各种分辨率设置相结合,
从而实现高效的全局信息整合。
通过针对三维多模态婴儿脑MR图像分割任务展开测试,
我们发现采用包含全局聚合块的设计后,
非局部U-Nets不仅参数量减少约25%,
而且运行速度也提升了约1.5倍,
显著超越了现有方法。
V-NET
在每个阶段执行的卷积使用大小为5×5×5体素的体积内核。随着数据沿着压缩路径经过不同的阶段,其分辨率会降低。这是通过使用步幅2施加2×2×2体素宽的内核进行卷积来实现的(图3)。由于第二个操作仅通过考虑不重叠的2×2×2体积块来提取特征,因此所得特征图的大小减半。这种策略的作用类似于池化层,在[20]和其他不鼓励在CNN中使用maxpooling操作的工作的推动下,池化层已在我们的方法中被卷积层取代。此外,由于特征通道的数量在V-Net压缩路径的每个阶段都加倍,并且由于模型被表示为残差网络,因此我们借助这些卷积运算将特征图的数量加倍。降低分辨率。 PReLu非线性[6]应用于整个网络。
用卷积运算代替池运算还会导致网络,根据具体的实现,在训练过程中网络占用的内存可能较小。这是由于以下事实:不需要将用于将池化层的输出映射回其输入的开关进行反向传播。特别是,当仅应用反卷积而不是非池化操作时,可以对此进行分析并更好地理解[23]。下采样使我们能够减小作为输入呈现的信号的大小,并增加在后续网络层中正在计算的特征的接收场。网络左侧部分的每个阶段计算的特征数量比上一层的特征高两倍。网络的右侧部分提取特征并按顺序扩展低分辨率特征图的空间支持,并收集必要的信息以输出两个通道的体积分割。由最后一个卷积层计算出的两个特征图具有1×1×1的内核大小,并产生与输入体积相同的大小的输出,通过应用soft-max体素将其转换为前景和背景区域的概率分割
该技术的核心在于通过自注意力机制实现序列数据的学习与表示。具体而言,该方法通过将输入序列映射至连续向量空间,并在此空间内对不同位置之间的相关性进行建模,从而提取出长距离依赖关系。其基本假设是,序列中任意两个元素之间都可能存在某种程度的相关性,这种相关性可以通过自 attention 机制进行捕捉与建模。
有效性与效率方面的对比分析,并对消融研究进行了深入探讨,以验证我们的非本地U-Net架构中每个全局聚合块的具体性能提升效果。此外,在不同overlap steps的框架下评估推理速度与准确度的平衡关系,并考察片块尺寸设置对于系统性能的影响
