Advertisement

Swin-Unet医学图像分割阅读总结

阅读量:

Swin-Unet

(2021.5.12)慕尼黑工业大学, 复旦大学, 华为(田奇等人)

论文:https://arxiv.org/abs/2105.05537

代码:https://github.com/HuCaoFighting/Swin-Unet

解读·:https://zhuanlan.zhihu.com/p/371976183

开发了Swin-Unet模型;这种创新性的设计在医学图像分割领域展现出显著的应用价值。经过精心设计的标记化图像块借助跳跃连接机制被传递至基于Transformer架构构建的U型解码器模块;从而实现对局部与全局语义特征的学习与整合。

在这里插入图片描述

Swin-UNet由Encoder、Bottleneck、Decoder和跳跃连接组成。

编码器 输入图像首先划分为若干个Patch(每个Patch的尺寸定为4×4),其初始输入空间维度为H/4 × W/4 × 48。通过linear embedding技术对Patch进行初步特征提取后得到的新特征图的空间维度维持在H/4 × W/4的同时提升到C维。随后将该特征图输入两个连续的Swin Transformer模块(即Swin Transformer块),在此过程中空间分辨率与Feature Dimensionality均保持恒定状态。接着通过Patch Merging操作实现降采样并降低图像分辨率的同时将Feature Dimensionality翻倍。经过三次这样的处理过程则形成了编码器模块

在Bottleneck结构中连续采用了两个Swin Transformer块。为了避免网络过深导致难以收敛,在此过程中仅采用了两个这样的模块。因此,在此过程中特征的空间尺寸维持在H/32和W/32的比例下,并通道数固定为8倍的C不变。

Swin-UNet解码器的核心在于通过pixel-wise attention机制实现特征重建与信息融合;即为一个高度对称的设计框架;每一次放大两倍均用于上采样操作;其中核心模块包含Swin Transformer块和基于像素扩展的技术。

该方法通过融合编码器多尺度特征与上采样特征实现图像重建的目标

Patch merging layer

输入被划分为四个部分后进行拼接。经过这种处理后, 特征的空间分辨率从H×W的1/4×1/4降至1/8×1/8, 其中, 由于拼接操作导致特征维度增加到原来的四倍, 通过应用线性层进一步将特征维度压缩至原来的一半尺寸。(与swin中相同。)

Patch expanding layer

考虑解码器的第一个模块,在执行上采样之前对输入特征(尺寸为W/(348)、通道数为8C)进行线性变换以增强其表示能力。随后采用rearrange操作将其空间分辨率提升至原始分辨率的一半,并减少其通道数量至原始数量的三分之一(具体从W/(448) × C提升至 W/(88*4) × C)。这一过程可视为Patch merging操作过程中的逆过程

全部评论 (0)

还没有任何评论哟~