SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers(SegFormer)翻译
摘要
我们开发了SegFormer,在语义分割领域展现出显著的优势。该框架在简单性、高效性和强大性能之间实现了完美的平衡。其架构巧妙地整合了Transformer编码器与轻量化的MLP解码器,在不依赖位置编码的情况下实现了多尺度特征的有效提取。通过多层聚合信息提取来综合全局与局部特征,在性能指标方面取得了显著提升,并且模型规模大幅缩减。我们通过扩展该架构提出了从SegFormer-B0到SegFormer-B5的一系列模型版本,在对比实验中证实了这一设计策略的有效性:相比现有的最优方法,在ADE20K数据集上达到了50.3%的mIoU指标,并且参数规模减少了5倍;在Cityscapes验证集上达到了84.0%的mIoU,在Cityscapes-C测试集中展现了卓越的零样本鲁棒性表现。所有模型版本均已开源并可在线访问
1. 引言
语义分割被视为计算机视觉中的一个核心任务,并为此类领域提供了重要的技术基础。由于其预测结果是对每个像素进行分类而非对整个图像进行分类这一特点,在开创性研究[1]中被首次提出并得到了系统性研究。作者在该研究工作中采用了全卷积网络(FCN)作为实现手段,并因此奠定了语义分割领域的后续发展基调。自那之后的研究不断涌现,并成为了密集预测任务的主要设计范式之一。值得注意的是,在分类与语义分割之间存在着密切关联性这一事实引导着现代语义分割框架的设计思路:从早期基于VGGs[1, 2]的方法到最近提出的更具深度与强大计算能力的新型架构[3], backbone设计的进步在极大程度上推动了语义分割性能边界的发展进程。此外,在backbone之外的研究者们还探索了一条全新的思路:将语义分割建模为一种结构化预测问题,并专注于开发能够有效捕获长程上下文信息的新模块与新操作体系。其中最具代表性的便是空洞卷积[4, 5]这一方法论创新:通过巧妙设计的dilated convolution核实现了显著扩大视野范围的效果
在自然语言处理(NLP)领域取得了显著成就后不久,在视觉任务中引入Transformer引起了广泛关注与深入研究的趋势逐渐形成
本文重点介绍了一种称为SegFormer的先进模型;它是一种专注于语义分割任务的尖端Transformer架构,在效率、准确性以及抗干扰能力方面表现突出。相较于传统方法,“我们的框架重新设计了编码器和解码器。”其核心创新点体现在…
该编码器不依赖位置编码,并具备层次结构。
该解码器设计简洁高效,并基于全多层感知机(MLP)构建。它不需要复杂的模块来提升性能。
根据图1所示,在效率、准确性和鲁棒性方面 SegFormer 已经全面超越了现有水平,并且这一成果得到了三个公开可用的语义分割数据集的支持

值得注意的是,在本研究提出了一种新的编码器架构,在应对不同分辨率图像推理任务时展现出独特的优势:该编码器在处理与训练分辨率不同的图像时,并未采用位置编码插值的方法。这一特点使得我们的编码器能够轻松适应任意测试分辨率场景,并且不会对性能造成负面影响。此外,在层次结构设计中加入多级特征提取机制后,该编码器不仅能够输出高分辨率下的精细特征信息,还能够提供低分辨率下的粗糙特征描述。这种多级特征提取能力与现有技术中的ViT模型相比有着显著的区别:现有的ViT模型只能生成具有固定单一分辨率的低级别的特征图谱
此外, 我们设计了一种轻量化的MLP解码器,其核心基于Transformer诱导特征. 其中, 低层关注呈现局部特性, 而高层显示显著地非局域性. 通过整合各层次信息, 该解码器成功融合了局部位置与全面关联. 因此, 我们由此得出了一个简洁直观且具备强大表示能力的新架构.
我们系统性地展示了SegFormer在ADE20K、Cityscapes和COCO-Stuff三个公开可用数据集上的卓越性能表现,在模型规模、运行效率以及准确性等方面均展现了明显优势
2. 相关工作
语义分割本质上是从图像级别延伸到像素级别的一种技术发展。在深度学习时代[12-16]中,全卷积网络(FCN)[1]被视为语义分割的基础性研究,并通过端到端的方式实现了像素级别的分类任务。随后的研究者们在该领域进行了多项改进工作:一方面拓展了感受野的范围[17-19, 5, 2, 4, 20];另一方面深入提取了像素间的上下文关系[21-29];此外还利用边界信息辅助分割[30-37];同时探索并构建了多种注意力机制模块[38-46];还有研究者尝试将AutoML技术融入其中[47-51]。这些改进显著提升了语义分割的效果,但往往是以增加经验性组件为代价实现的:这样一来计算量显著增加且结构更为复杂。值得注意的是最近的研究表明基于Transformer架构在该领域取得了突破性进展[7, 46]但目前仍面临较大的计算负担
Transformer核心网络。ViT[6]首次展示了纯Transformer在图像分类任务中达到最优性能的能力。ViT通过将每张图像划分为一系列标记后输入至多个Transformer层进行分类工作。随后DeiT[52]深入研究了ViT的有效训练策略以及蒸馏技术的应用。近期的研究工作如T2T ViT[53]、CPVT[54]、TNT[55]、CrossViT[56]和LocalViT[57]对原有架构进行了针对性优化以进一步提升分类性能
除了分类之外,在Transformer领域PVT系列研究开创性地将金字塔结构引入Transformer架构,并首次证明了纯Transformer主干网络相较于基于CNN的模型在密集预测任务中的显著优势。随后提出了Swin系列、CvT系列等改进型架构以提升模型对局部特征的关注能力,并去掉了固定尺寸的位置编码方案以进一步优化性能表现。
针对特定任务的应用场景中使用的Transformer模型。
3.方法
在本节中阐述了SegFormer这一模型。该模型被描述为高效、坚固且功能强大,并未包含人工设计及计算资源消耗大的组件。参考图2可以看出,在该模型中包含两个核心组件:第一部分是一个多层次的Transformer编码器,在此过程中生成高分辨率的大致特征以及低分辨率的细致细节;第二部分则是一个轻量化的多层感知机解码器,在此过程中通过融合这些多层次特征来构建最终的空间语义分割掩码。

考虑一张尺寸为H×W×3的数字图像。值得注意的是,在ViT架构中通常采用16×16像素的块状采样方法。然而,在本研究中我们采用了更细粒度的小块划分策略以提升模型对细节特征的学习能力。随后我们将该图像划分为若干4×4像素的小块,并将这些小块会被层次化地编码成序列数据。接着通过全MLP解码器将这些多级特征进行融合处理,并最终生成一个分辨率降到四分之一的分割掩码图。
在这一节之后我们将详细阐述我们所设计的独特编码器与解码器架构并重点分析与其他相关模型如SETR在具体实现上的主要区别。
3.1 层次化Transformer编码器
我们开发了一款系列的Mix Transformer编码器集合(集合名称),涵盖自MiT-B0至MiT-B5的不同尺寸版本。这些编码器架构一致但尺寸有所差异;其中最小规模的编码器——MinSize——是我们专为快速推理设计的轻量级模型;而最大的编码器——MaxSize——则展现了最佳的性能水平;整个设计思路参考了ViTs的基本架构理念;并在针对语义分割任务方面进行了专门优化与调整。
多层级特征表示:与仅能输出单一分辨率特征图的ViT模型不同,在该模块中我们旨在为输入图像生成类似于CNN模型的多层次特徵集合。这些多层次特徵不仅包括高分辨率下的粗糙特徵信息,并且还包括低分辨率下的詳細特徵描述。这种多层次特徵组合能够有效提升语义分割任务的表现能力。具體而言,在一個分辨率为H×W×3的空间中输入图像时,在每一轮次中我们将分块并执行合并操作以构建一系列层次化的特徵图Fi(i∈{1, 2, 3, 4}),其分辨率为H/2^(i+1) × W/2^(i+1) × Ci,并且满足Ci依次递增的趋势。
重叠补丁合并 :在Vision Transformer(ViT)中使用的重叠补丁合并过程能够将单个N×N大小的空间域内的三维特征(N×N×3)转换为一个高度压缩的一维特征向量(即1×1×C)。这种设计不仅能够有效整合不同尺寸的空间特征(如将2k像素分辨率下的二维区域内的三维特征转换为高度压缩的一维向量),还可以通过递归整合过程来构建多尺度的空间表示关系。具体而言,在实验中我们采用K=7、S=4及P=3等参数设置,并结合K=3、S=2及P=1等参数组合来实现重叠补丁合并操作。这种设计能够在保留原始非重叠区域信息的同时提升模型对局部空间关系的学习能力
高效性机制:现代计算机架构中对编码器性能影响最为显著的部分在于其自注意力机制的设计效率。传统上采用多头结构以提高模型处理能力,在这一架构下各头间的查询(Q)、键(K)和值(V)矩阵均为N×C维度,在实际应用中可进一步优化其参数分配策略以降低计算复杂度。其中序列长度由高度H与宽度W的乘积决定,在这一基础上构建高效的并行计算框架对于提升模型训练速度至关重要。

此流程的计算开销为O(N^2), 对于大规模分辨率而言显得高估。相比之下, 我们采用了文献[8]中所提出的序列压缩方法. 该方法采用缩减比例R来缩短序列长度, 如下所示:

其中K代表需要进行缩减的序列,在ResNet架构中通过Reshape操作将K转换为大小为N/R × C·R的序列,并通过依次应用Linear层进行特征映射变换。这种设计使得模型能够在不显著增加计算复杂度的情况下实现通道数量的有效减少。具体而言,在缩减后的自注意力机制中新的K维度被设定为空间分辨率与通道数之间的平衡点即N/R × C维度的空间分辨率与压缩后的通道数之间形成了优化关系。经过实验验证我们发现该方法能够有效降低网络参数规模同时维持较高的分类准确率
Mix-FFN。ViT使用位置编码(PE)来引入位置信息。然而,位置编码的分辨率是固定的。因此,当测试分辨率与训练分辨率不同时,位置代码需要进行插值,这通常会导致精度下降。为了缓解这个问题,CPVT[54]使用3×3的卷积与位置编码一起实现数据驱动的位置编码。我们认为,对于语义分割来说,位置编码实际上并不是必需的。相反,我们引入了Mix-FFN,它考虑了零填充对位置信息泄露的影响[69],通过在前馈网络(FFN)中直接使用3×3的卷积来实现。Mix-FFN可以表示为:

其中x_in是源自自注意力机制的特征输入。Mix-FFN架构整合了大小为3×3的空间聚合层与全连接层(MLP),用于每个前馈网络(FFN)。在本研究中通过实验研究我们会证实这种设计能够有效提取空间信息并增强模型性能。
特别地,在减少模型参数量的同时提升效率方面我们采用了深度可分离卷积结构。
3.2 轻量级全MLP解码器
SegFormer采用了基于多层感知机(MLP)构建的高效轻量化解码模块,在减少复杂计算开销的同时实现了与现有方法相当甚至更好的性能表现。其关键创新在于所提出的层次化Transformer编码架构显著超越了传统卷积神经网络(CNN)类型的编码能力,在保证模型简洁性的同时获得了更大的有效感受野(ERF)。
本研究中所设计的全MLP解码器主要包含四个关键步骤。首先,在第一阶段中,来自MiT编码器的不同层级特征Fi首先经过一个MLP层进行通道维度整合。其次,在第二阶段中,这些特征被上采样至原始分辨率的1/4,并进行拼接。最后,在第三阶段中,则采用另一个MLP层来融合拼接后的特征F。这不仅实现了对复杂图像信息的有效提取与重建能力提升的同时也为后续模型优化提供了可靠的技术支撑基础。
从而构建了一个完整的解码器框架:

M代表预测掩码。同时,Linear(C_in, C_out)(·)代表输入与输出向量维度分别为C_in与C_out的线性层。分析有效感受野

对于语义分割而言,在图像分割任务中所依赖的感受野范围确实比传统模型更为宽广一直是一个关键挑战[5, 19, 20]。在这里我们将感受野定义为Effective Receptive Field(ERF)作为一个关键工具来辅助我们深入理解其在Transformer架构中的高效性这一假设进行了系统性的验证与分析在此基础上我们通过图3展示了各个编码阶段以及解码头层的具体分布情况并详细分析了其对模型性能提升的关键作用
- 在第四阶段(最深层的层级),DeepLabv3+所具有的端点表示(ERF)规模相对较小。
- SegFormer的编码器自然生成与较低层级卷积相似的局部关注机制,并在第四阶段输出高度非局域的关注模式。
- 如图3所示,在放大观察窗口时可观察到:MLP头单元(以蓝色框标注)所对应的端点表示特征显著不同于第四阶段单元(以红色框标注)。值得注意的是,在MLP头中除了非局域关注外还包含了更为强烈的局域关注成分。
- 受限于有限的感受野特性,在CNN骨干网络中难以直接扩展感受野这一限制。而我们的解码器设计则充分利用了Transformer架构中的非局域与局部关注机制,在不增加复杂度的情况下实现了更大的感受野拓展效果。值得注意的是,在CNN骨干网络上的实验表明这一优势并未显现出来——这将在表1d中稍后进行详细验证。
- 需要强调的是:我们采用的方法整合了Transformer架构中的非局域与局部关注机制,并通过将两者统一在一个框架下实现了少量新增参数下的互补增强效果。这种特性是我们在模型设计中刻意引入的关键因素之一。仅仅依靠第四层空间中的非局域关注就无法获得理想性能——表1d将会对此进行实证检验。
3.3 与SETR的关系
与SETR[7]相比,SegFormer包含了多个更高效且强大的设计:
- 我们仅在ImageNet-1K上进行模型预训练。SETR中的ViT模型则基于规模更大的ImageNet-22K数据集进行了预训练工作。
- 我们舍弃了编码器中的位置嵌入模块,在实验中发现这种设计选择能够有效提升模型性能。
- 相较于SETR中复杂的多层感知机(MLP)解码器系统,在我们的设计中采用了一种更为精简的架构方案,在保持相同性能的同时显著降低了计算复杂度。
4. 实验
4.1 实验设置
我们采用了三个可获取的基础数据集进行实验:Cityscapes[71]、ADE20K[72]以及COCOStuff[73]。其中ADE20K是一个专门针对场景理解设计的专业数据源(Scene Understanding Dataset),包含了总计超过二十万幅高质量图像(Total of over twenty thousand high-resolution images)。Cityscapes则是一个以高质量驾驶画面闻名的语义分割数据库(Semantic Segmentation Database),包含了来自不同城市环境的真实驾驶场景(Real-world driving scenarios)。而COCO-Stuff则是一项分类了172种不同物体与区域类别的系统(Object Classification System),其中开发用训练图片共约236,646张,在测试阶段分为两组各有约20,964张图片进行验证
实现细节:我们采用了mmsegmentation-1代码库,并在配置了8张Tesla V100的服务器上开展训练工作。首先对编码器进行了预训练,并随机初始化了解码器参数。在整个数据增强过程中,我们采用了以下措施:对输入图像以随机比例缩放(范围在5到8倍之间)、随机水平翻转以及随机裁剪至指定尺寸(分别为512x512像素用于ADE20K数据集、1, 城市scapes以及COCO-Stuff目标类别)的方法进行处理。根据文献[9]建议,在最大的模型B5中设置了643x643像素的裁剪尺寸用于ADE 该设置有助于提升模型在目标检测任务中的性能表现。此外,在Cityscapes数据集上的推理阶段,则采用了滑动窗口技术来实现高效的目标检测。为了全面评估系统的性能表现,在ADE 为了进一步验证系统的泛化能力,在消融研究中进行了多轮实验并记录了系统的关键指标数值
4.2 消融研究
模型大小的作用 。我们首先探讨增加编码器规模对其性能及效率的影响。图1展示了ADE20K上性能与效率随着编码器规模变化的趋势,表1a汇总了三个数据集的关键结果


首先需要关注的是解码器与编码器之间的规模对比。具体而言,在轻量级模型架构中(如SegFormer-B0),其解码器部分仅包含0.4百万参数。相比之下,在整个模型架构中所占比例仅为4%。从性能角度来看,则显示出显著的优势:通过扩大编码器规模,在多个基准数据集上均实现了显著性能提升。SegFormer-B0以其紧凑性和高效性著称,并充分证明了该方法适用于实时场景的应用需求;而最大规模版本Seg Former-B5则在所有三个测试用例上均取得了行业领先的指标成绩。这进一步凸显了我们所提出的Transformer编码方案的强大潜力。
我们深入探讨了MLP解码器中通道宽度对性能影响的研究(见第3.2节)。在表1b的数据表格中展示了不同宽度下各项指标的表现情况:训练时间、准确率以及模型复杂度等关键指标随该值的变化而变化。通过测试发现,在设置该值时(即256),模型既达到了较高的准确率又保持了较低的计算成本;然而需要注意的是,在达到一定数值后(如768),这种提升的效果会逐渐减弱甚至停滞。基于上述分析,在实际应用中我们会根据不同的需求来合理选择合适的宽度范围


对比分析了Transformer编码器在去除位置编码后采用Mix-FFN所带来的效果
实验结果如表1c所示。根据表中的数据可以看出,在固定分辨率条件下采用Mix-FFN方法相比仅依靠位置编码能够获得更高的性能。值得注意的是,在测试过程中我们发现无论测试分辨率如何变化对我们的模型性能影响较小。对比之下,在采用了Mix-FFN方案后系统性能的下降幅度仅为0.7%。综合以上分析我们可以得出结论使用提出的Mix-FFN方案能够产生更好的鲁棒性编码器而不是单纯依赖位置编码方法
评估机制:在第3.2节中深入探讨了本研究中的MLP解码器相较于其他CNN架构(如ResNet或ResNeXt)所具有的显著优势——更大的有效感受野特性。为了定量分析这种优势带来的影响,在本实验中我们系统性地将MLP解码器与基于CNN的传统编码架构进行了全面对比研究。表1d详细展示了不同组合方式下的模型性能表现:当我们将MLP解码器与传统CNN编码架构集成后其分类精度明显下降;而采用本研究所提出的新型Transformer编码架构进行集成则可获得最佳性能效果。从直觉上讲由于传统CNN架构所具有的较小感受野特性无法支撑全局范围内的推理需求因此单靠MLP解码器难以实现全局推理能力;相反通过将新型Transformer编码架构与其深度学习融合技术相结合不仅能够充分发挥两者的协同效应还能够实现超越现有方法的最佳性能水平
对比当前最先进的技术方案:通过系统性地对比实验结果表明,在多个领域验证了该评估基准的有效性和优越性。
基于ADE20K与Cityscapes的数据集(...),表2系统性地展示了我们的研究成果及其对比分析情况。具体包括这些指标:参数数量、浮点运算次数(FLOPS)、延迟时间以及分类精度。在表格的上半区域中展示了实时性能的具体表现数据(Real-time metrics)。其中包含了当前最先进算法以及我们采用MiT-B0轻量化模块所得的结果数据(Our results with MiT-B0 lightweight module)。表格下半区域专门分析了模型性能表现,并详细比较了我们提出的方法与现有相关工作的实验结果(Performance analysis and comparison)。
如表所示,在ADE20K数据集上,SegFormer-B0仅需3.8百万参数和84亿浮点运算(FLOPS)即可实现37.4%的平均交并比(mIoU),其在参数量、FLOPS及延迟方面的性能均优于当前所有实时推理方法。例如,在与DeeplabV3+(MobileNetV2)相比时,SegFormer-B0的帧率提升了7.4FPS,并且mIoU提升了高达3.4%。此外,在Cityscapes测试集上进行评估时发现,SegFormer-B5的表现最为突出——它不仅超越了之前的最佳模型SETR(并以1.6%的绝对值提高了后者的结果),还显著提升了效率水平。
基于完整的COCO-Stuff数据集对模型进行了评估。鉴于现有方法未在该数据集提供结果,在此情况下我们重新实现了最具代表性的方法(如DeeplabV3+、OCRNet和SETR)。在此情况下,该数据集上的FLOPS计算结果与ADE20K的结果一致。如表4所示,在使用84.7 million parameters时,SegFormer-B5实现了46.7%的mIoU指标。其mIoU指标比SETR高出了约0.9个百分点,并且使用的参数量仅为后者四分之一。

针对自然损坏的鲁棒性能

我们的方法在性能上显著优于传统方法,在抗噪声能力方面表现尤为突出,在高斯噪声环境下实现了较大地提升效果(高达588%),同样,在低温条件下也取得了显著的效果提升(高达295%)。结果显示,SegFormer展现出极强的抗干扰能力,并且这一技术优势将对未来安全相关领域带来重要影响(其中鲁棒性至关重要)。
5. 结论
在该文中,我们开发了SegFormer——一种简洁明了且功能强大的语义分割方案。该方案通过采用无位置编码的层次化架构作为编码器,并配备轻量化的All-MLP解码器,在保持高效性能的同时摒弃了传统方法中常见的复杂设计。实验结果表明,SegFormer不仅在常规数据集上达到了前沿水平,并且展现了卓越的零样本鲁棒能力。我们希望这一创新方法能够成为语义分割领域的可靠基准并激发后续研究工作。尽管我们的模型参数规模仅为3.7 million,在仅依赖100k内存的边缘设备芯片上运行可行性仍有待验证。
