深度学习论文: SegFormer:Simple and Efficient Design for Semantic Segmentation with Transformers及其PyTorch实现
SegFormer是一种简洁而高效的语义分割方法基于Transformer架构
1 概述
SegFormer基于分层特征表示的方法,在每个transformer层中输出的特征尺寸依次递减,在这种机制下能够捕获多层次的空间信息。此外它省去了ViT中的位置编码操作从而避免了测试图像与训练图像尺寸不一致所带来的性能下降问题 decoder模块采用了简化的MLP结构在聚合各层级变换器提取的不同尺度特征时实现了局部位置注意力与整体部位置注意力的有效结合

2 SegFormer
SegFormer由两个主要部分组成:
- (1)基于分层结构设计的分级Transformer编码器能够有效提取高层次抽象特征以及低层次细节信息;
- (2)一种高效轻量化机制驱动下的All-MLP解码器能够整合多层次编码结果,并输出对应的语义分割掩码图谱。

2-1 Hierarchical Transformer Encoder
2-1-1 Hierarchical Feature Representation
基于分辨率大小为H×W×3的输入图像, 采用patch merging方法提取多层级的特征图序列.
2-1-2 Overlapped Patch Merging
采用Overlapped Patch Merging这一技术手段来进行特征图尺寸缩减的操作,在缩减图像尺寸的同时提高其通道数量。然而该方法的一个局限性在于无法有效保持不同patch之间的连续性信息
2-1-3 Efficient Self-Attention
考虑到注意力机制(Attention)的时间复杂度与序列长度呈正比例关系,在本文中我们引入了一种降维技术(通过先对输入进行重塑处理再经过一个全连接层)来缩减序列长度。这种处理方式不仅能够有效降低计算负担还能提高模型效率
Pyramid Attention Network: A Robust Framework for Dense Predictions, aimed at achieving dense predictions while avoiding convolution operations, was introduced in Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions.
2-1-4 Mix-FFN
混合前馈网络结构通过引入一个3乘3的卷积核和一个多层感知机到传统的前馈网络中,在Transformer架构中编码位置信息。
2-2 Lightweight All-MLP Decoder

ALL-MLP Decoder包含四步:
- 将各层输出统一映射到同一维度空间。
- 对特征进行1/4比例的采样后进行拼接。
- 通过一个MLP模型对拼接后的多维特征进行综合融合。
- 最后通过另一个MLP模型生成遮罩掩码。
3 Experiments

