论文解析[8] TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation
发布日期:2021年
文章目录
-
1 摘要
-
2 相关工作
-
3 方法
-
- 3.1 Transformer作为编码器
- 3.2 TransUNet
-
4 实验
-
5 结论
-
参考资料
1 摘要
在多种分割任务领域中,U-Net已被公认为表现出卓越性能的标准架构。然而由于其卷积操作固有的局部性特征,在显式建模长距离依赖关系方面存在一定的局限性。与之相对应的是Transformer架构——专为序列到序列预测而设计、天然具备全局自注意力机制的结构体系——尽管这种架构能够捕捉到完整的上下文信息(即受限于有限细节信息),但仍会受到一定程度的空间分辨率限制。
在本文研究中提出了一种名为TransUNet的新架构,在保留各自优势的同时兼具了Transformer和U-Net的特点。具体而言,在编码阶段通过自注意力机制处理来自卷积神经网络(CNN)提取出的特征图中的局部区域;而在解码阶段通过上采样操作将编码信息与高分辨率CNN捕捉到的细节信息相结合。
我们主张,在图像分割任务中,通过将U-Net恢复定位的空间信息与细节提升相结合后,Transformer能够作为一个重要的编码工具发挥作用。
2 相关工作
融合CNN和自注意力机制
Transformer
3 方法
通过transformer的使用,将自注意力引入编码器。

3.1 Transformer作为编码器
图像序列化
首先通过图像转换的方法生成一个二维(2D)的patch序列,在其中每个patch块的高度和宽度均为 P×P 的尺寸,并且其总数则由 N=\frac{HW}{P^2} 给出。
patch 嵌入
通过一个可训练的线性投影模型,我们将经过向量化处理的 patch x_p 映射到 D 维的嵌入空间中。以编码 patch 空间的信息为目标,我们通过学习特定位置嵌入的方式加入 patch 嵌入,从而保留位置信息。

E表示patch嵌入映射,E_{pos}表示位置嵌入
具体来说, 该编码器由 L 个编码器层构成, 每个编码器层都包含多头自注意力机制 (MSA) 和多层感知机 (MLP). 其中每一层的具体输出情况如下所述

LN表示层标准化,z_L 表示编码后的图像表示。
3.2 TransUNet
为了实现分割目标,在此我们采用简单的过采样方法。该方法通过简单的上采样操作将编码后的特征表示 z_L∈R^{\frac{HW}{P^2}×D} 转换为全分辨率的空间信息。在恢复空间关系的过程中,编码后的特征需要首先从 \frac{HW}{P^2} 转换为 \frac{H}{P}×\frac{H}{P} 的尺寸。具体而言,在这一过程中,我们需要通过应用1×1的卷积层来缩减变形后的特征图的通道数量至类别数量,并随后利用双线性插值将其放大为全分辨率 H×W 的结果作为分割预测输出。
然而,在将Transformer与简单的上采样机制结合使用时,虽然能够取得一定的性能表现。但这种组合并非最佳方案。由于\frac{H}{P} \times \frac{W}{P}必然低于原始图像的空间分辨率H \times W(例如器官形态及边界等关键细节),因此必然会导致细节信息丢失。为了弥补所导致的信息丢失问题,TransUNet采用了将一个CNN-Transformer混合结构作为编码模块,并采用了级联上采样器实现精准重构的技术。
混合CNN-Transformer作为编码器
我们决定采用这种设计方案是因为1)它使得我们能够在解码过程中使用中等分辨率的CNN特征图;2)经过实验对比发现,这种编码器在性能上优于传统的Transformer架构。
级联上采样器
我们引进了一个级联上采样器(CUP),它包括不同的上采样步骤。
可以看出CUP和混合编码器构成了一个U型网络结构,在不同分辨率下通过跳跃路径传递特征。具体来说,CUP的详细架构及其跳跃连接路径均可在图1(b)中找到。
4 实验

5 结论
Transformers以其先进的自注意力机制而闻名。在本研究中,我们首次提出了一种适用于医学图像分割的Transformers架构。为了充分利用其能力,在此基础上开发了TransUNet模型。不仅可以通过将图像特征转化为序列的形式来编码全局上下文信息,在U型架构设计下也能有效利用较低层次的CNN特征提取能力。作为一种相较于基于FCN的方法更为不常见的架构设计,在与现有不同方法(如基于CNN的自注意力技术)相比时,则展现了更好的效果。
