论文学习笔记 SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
动机
这篇论文提出了一种名为SegFormer的语义分割框架,并旨在平衡现有方法中存在的效率与性能之间的矛盾。目前广泛使用的语义分割方法主要依赖于卷积神经网络(CNN)或者视觉Transformer技术,并取得了不错的成果;然而,在处理多尺度特征、提升推理效率以及适应不同分辨率测试图像方面仍存在不足。SegFormer的设计初衷是为了简化模型架构以提高计算效能,并同时保证了高性能的同时提升了模型的抗干扰能力
主要贡献
该系统采用了无位置编码的多层Transformer编码模块。无需位置码即可有效运行。该架构解决了测试分辨率与训练分辨率不匹配时性能退化的问题。
SegFormer采用了轻量级全MLP解码器这一技术,并通过整合多层次的数据以及融合局部与全局注意力机制,在生成高质量的特征表达方面表现突出。
模型系列的发展
系统性的实验验证:经过一系列广泛而深入的实验,在ADE20K、Cityscapes和COCO-Stuff等数据集上应用后,SegFormer展现了其在效率、精度和鲁棒性方面的显著优势。
创新点
无非固定形状的位置编码的分层Transformer架构:相对于传统的基于图像像素位置的传统视觉Transformer架构,在SegFormer中采用了一种不依赖固定形状位置编码的设计方案,在不同分辨率下展现出更强的适应性和鲁棒性。
轻量级的全MLP解码器设计:通过聚合Transformer编码器输出的特征信息,在不显著增加计算复杂度的前提下实现了高效的特征提取与表征能力。该方法通过优化解码器架构,在保证模型性能的同时显著降低了运算开销和资源消耗。
广大的有效感受野(ERF):其解码器架构基于Transformer的非局部注意力机制,在不提升计算复杂度的前提下显著扩大了模型的感知范围,并提升了模型对长距离依赖关系的理解能力。
实证性能与鲁棒性:通过多组数据集的实验结果表明,在精度指标上SegFormer的表现优于现有方法;此外,在对抗攻击环境下(如图像噪声、旋转等操作),该模型展现了显著的抗干扰能力
总体而言,在采用了独特的编码器和解码器设计的同时,在性能上表现出色,并带来了明显的计算效率提升。
Abstract
该论文提出了一种名为SegFormer的新方法,该方法简洁高效且功能强大,其核心在于将Transformer架构与轻量级多层感知机解码器有机地结合起来。主要具备两大显著优势:一是实现了模型参数规模与计算效率的最佳平衡;二是通过巧妙的设计提升了模型对长距离依赖关系的捕捉能力
一种创新性的多级Transformer编码架构:该架构能够提取多层次空间信息,并通过其独特的设计避免传统方法在测试阶段与训练阶段分辨率不一致时因位置编码插值引发的性能退化问题。该结构通过消除对位置信息的依赖性,在不同分辨率下提供稳定的特征表示能力。
避免复杂解码器:该MLP解码器通过综合不同层次信息并融合局部与全局注意力机制,实现了强大的特征表示能力。其简洁轻盈的设计特性显著提升了Transformer模型的分割效率和性能表现。
该研究通过扩展原有的方法论框架,在增量模型的基础上构建了包括B系列在内的多个版本模型序列
1. Introduction
语义分割被视为计算机视觉领域的一个核心任务,并广泛应用于多个 downstream应用中。由于其对每个像素进行类别预测的特点(而非对整个图像的预测),它与图像分类密切相关的一种方法。这种关联关系于一个具有里程碑意义的研究工作中被首次提出并系统性地探讨。该研究工作中首次采用全卷积神经网络(FCN)作为解决方案,并在此之后激发了后续诸多研究工作。此外,在密集预测领域的主流设计方案之一就是基于FCN的方法。
基于分类与语义分割的密切关联
近年来,在自然语言处理(NLP)领域取得成功应用的Transformer技术促使视觉领域的研究者们对该技术表现出浓厚兴趣。
SETR基于ViT构建了骨干网络,并融合了多种CNN解码器以提升特征分辨率。尽管整体效果不错,其主要问题是输出单一尺度的低分辨率特征而非多尺度特征;此外,在处理大规模图像时计算开销较大。针对这些问题,Wang团队提出了金字塔视觉Transformer(PVT),这是对ViT的一种自然延伸,采用了独特的金字塔架构设计,特别适用于密集预测任务。该架构在目标检测与语义分割任务中展现了显著优于ResNet的优势。然而,其他几种先进的模型,Swin Transformer、Twins等,虽然也在探索新型架构,但这些模型大多专注于Transformer编码器的设计理念而不重视解码器的作用
本文着重讲述了SegFormer这一新型的Transformer框架在语义分割领域的应用。该框架在实现高效性的同时兼顾了准确性与稳定性。相较于传统的其他方法而言,我们的框架在架构设计上进行了多项突破性改进。我们的研究重点集中在以下几项关键创新上:(1)引入了多尺度特征融合机制;(2)优化了注意力机制以提高计算效率;(3)采用了自适应超分辨率重建技术以增强分割效果。
- 一种基于分层无位置编码的设计理念下的创新性Transformer编码器架构。
- 一个高效轻量级的全MLP解码器架构,在不需要复杂的模块或高计算负担的情况下实现。
- SegFormer通过其在效率、精度和鲁棒性方面的卓越表现,在三个公开可用的语义分割数据集上树立了行业新标杆。
首先,在推理分辨率与训练分辨率不同的情况下
我们通过三大公开数据集ADE20K、Cityscapes与COCO-Stuff对SegFormer进行了性能评估,并重点考察了其在模型规模、运行效率与准确性方面的优势表现。实验结果表明,在Cityscapes数据集上,在不采用加速技术(如TensorRT)的情况下 SegFormer-B0实现了71.9%的平均iou值(mIoU),运行速度达到48帧每秒(FPS)。相较于ICNet相比 SegFormer-B0不仅在性能指标上实现了显著提升,在运行速度方面也快了4.2%。此外 SegFormer-B5版本则进一步突破了这一限制 在mIoU方面较SETR提升了1.8% 同时其速度是后者的大5倍。值得注意的是 在ADE20K测试中 SegFormer-B5实现了51.8%的新高记录 并较之于SETR快出了4倍之多 同时该模型展现出较强的鲁棒性特征 可靠性极佳 适用于各种安全关键的应用场景
2. Related Work 内容
语义分割
语义分割可被视为将图像级别的处理延伸至单像素级别的一种图像分类任务。随着深度学习的发展,在这一领域中Fully Convolutional Network(FCN)已成为核心模型之一,并实现了对像素级分类的一体化处理能力。随后的研究人员在此基础上不断优化与改进了这一技术方案,并探索出多种创新性解决方案以提升模型性能
- 扩大感受野: 例如, 采用扩张卷积和空洞卷积等技术手段。
- 优化上下文信息: 设计能够全面 comprehension broader context 的模块与操作。
- 引入边界信息: 大部分研究均通过 integrating boundary detection techniques 来提升 segmentation accuracy。
- 各种注意力模块的设计: 增强 model 对 diverse features 的关注能力。
- 使用AutoML技术: The use of automation machine learning techniques 能够 optimize segmentation model design.
这些方法大幅提升了模型性能,在提升效果的同时也带来了复杂的模块体系。这导致框架结构复杂化,并带来了较大的计算负担。近期研究表明基于Transformer架构的方法在语义分割任务中表现优异, 但现有方案仍存在计算负担过重, 无法满足实时处理需求 的问题
Transformer骨干网络
Vision Transformer(ViT)开创性地验证了纯Transformer在图像分类任务中的最高水平性能。该模型将每张图像分解为一系列tokens,并通过多层Transformer架构实现特征提取与分类过程。随后提出了提高训练效率及蒸馏技术以进一步优化这一模型。随后研究者们提出了一系列改进型模型如TransMorpher网络族(包括基于树状结构的Treeformer)、基于交叉注意力机制的CrossFormer系列以及局部注意力增强型的小型化网络架构等
在分类任务之外,Pyramid Vision Transformer(PVT)作为第一个整合金字塔结构到Transformer框架的工作,证实了纯Transformer骨干网络在密集预测任务中相较于CNN的潜力。随后提出的一系列模型如Swin Transformer、CvT、CoaT、LeViT和Twins等方法,在优化局部特征连续性的同时去除了固定分辨率的位置编码,在一定程度上显著提升了Transformer在密集预测任务中的性能。
针对特定任务的Transformer
DETR是首个基于Transformer构建的端到端目标检测框架,在无需依赖非极大值抑制(NMS)的情况下实现了目标检测功能。许多研究者也成功将Transformer应用于多个不同的任务领域,并取得了显著的效果。其中,在语义分割任务中研究人员开发了SETR架构,在该方法中利用ViT作为骨干网络来提取特征并展示了显著的性能优势。然而这种基于Transformer的方法计算效率相对较低难以满足实时部署需求
小结
本节深入探讨了语义分割技术的发展历程,并特别地,在FCN等传统方法的基础上延伸出了基于Transformer的新一代模型。值得注意的是,在提升性能方面取得了一定成效的同时,在计算效率方面仍面临瓶颈。我们提出了一种名为SegFormer的新方法,并通过创新的编码器与解码器架构设计尝试实现了在性能与效率之间寻求更为理想化的平衡点
3. Method

图2: SegFormer框架结构解释
这张图呈现了SegFormer框架的整体架构,主要包括两个关键组件:分层Transformer编码器和轻量级全MLP解码器.具体而言,对图中的各个组成部分进行详细阐述.
编码器部分
Overlap Patch Embedding(重叠patch嵌入) :
输入图像首先被划分为若干个 4 \times 4 的 patch。相较于 ViT 所采用的较大尺寸(即 16 \times 16)的 patch 划分方式,这种划分策略有助于提升密集预测性能。
Transformer Block 1 - 4 :
-
块1由高效自注意力机制(Efficient Self-attention)与混合前馈网络(Mix-FFN)组件组构成。这些组件负责处理输入的patch并生成特征。
-
块2至块4依次进一步处理特征并通过重叠patch合并(Overlap Patch Merging)过程构建多分辨率多层次特征。
-
输出分辨率与通道数分别为:H/4 \times W/4 \times C_1、H/8 \times W/8 \times C_2、H/16 \times W/16 \times C_3以及H/32 \times W/32 \times C_4。
Efficient Self-Attention :
* 用于减少自注意力机制的计算复杂度,保持特征的局部和全局信息。
Mix-FFN :
通过融合 3×3 的卷积核与 MLP 层次结构设计,在不依赖位置编码的前提下实现了模型性能的有效提升
解码器部分
MLP Layer :
* 将来自不同分辨率的多层次特征通过MLP层**统一通道维度** 。
Upsample(上采样) :
* 将特征上采样到原图分辨率的四分之一,并进行拼接。
MLP Layer :
* 将拼接后的特征通过另一层MLP进行**融合** 。
MLP :
*通过最后一层的MLP模块生成最终的语义分割掩码,在分辨率方面由 H/4 × W/4 × N_cls 组成。其中N_cls表示类别数量。
总结
SegFormer框架利用多层次Transformer编码器输出多尺度特征;经过轻量化全MLP架构融合后得到语义分割掩码;这种架构打破了传统解码器结构限制;显著提升了模型计算效率与性能水平
内容解释
该文介绍了SegFormer这一先进的图像分割技术体系。其特点包括高性能、具有抗干扰能力以及应用广泛性等优势,并且无需人工设计复杂的模块,并且计算开销小。具体来说,该框架由两个主要模块构成:
- 多层级Transformer编码模块:该模块能够输出高分辨率的粗定位特征并提取低分辨率的精细定位特征。
- 轻量化的全连接层解码模块:通过对这些多层次定位特征进行融合计算,并能准确地计算得到完整的语义分割掩膜。
具体步骤如下:
- 图像分割 :给定大小为 H×W×3H \times W \times 3 的图像,首先将其划分为大小为 4×44 \times 4 的patch。这与ViT使用大小为 16×1616 \times 16 的patch不同,使用较小的patch有利于密集预测任务。
- 特征提取 :然后将这些patch输入到分层Transformer编码器,以获得原始图像分辨率的 {1/4,1/8,1/16,1/32}{1/4, 1/8, 1/16, 1/32} 多层次特征。
- 解码 :将这些多层次特征传递给全MLP解码器,预测出分辨率为 H4×W4×Ncls\frac{H}{4} \times \frac{W}{4} \times N_{cls} 的分割掩码,其中 NclsN_{cls} 是类别数。
最后,在后续的内容中将对编码器-解码器架构进行详细阐述,并总结SegFormer与SETR的核心差异。
3.1 Hierarchical Transformer Encoder
Overview
在本文中,阐述了分层Transformer编码器的设计方案,并将其命名为Mix Transformer(MiT)。该系列包括从Minibit-MIT-B0到Maxbit-MIT-B5不同规模的模型。这些模型虽然架构相同但尺寸有所差异。Minibit-MIT-B0被设计为轻量级结构以实现快速推理任务。Maxbit-MIT-B5则被构建为大型架构以达到最优性能水平。其设计灵感来源于ViT框架经过调整和优化以适应语义分割任务。
分层特征表示
与ViT仅能产出单一分辨率的特征图不同
重叠patch合并
给定一个图像片段。ViT转换为将每个 N\times N\times 3 的图像片段整合成 1\times 1\times C 的向量。同样能够扩展以将每个 2\times 2 的特征路径组整合成 1\times 1 的向量来获得分层特征图。通过这种方式,在每个层次上缩减分层特征。该方法最初设计用于组合不重叠的图像或特征片断。然而由于这些片断没有考虑到相邻区域的信息连接性问题。论文者随后引入了重叠的概念,并定义了三个参数:K(片断大小)、S(相邻两个片断之间的步长)以及 P(填充大小)。在实验中设置 K=7、S=4 和 P=3 或者 K=3、S=2 和 P=1 来实现重叠片断合并。
高效自注意力
为了降低自注意力机制的计算复杂度, 论文提出了一种序列缩减方法. 该方法通过引入缩减比例因子R来调整序列长度, 从而将自注意力机制的计算复杂度从O(N^2)降到O(\frac{N^2}{R}). 具体而言, 通过一个线性变换模块将输入序列的空间维度从N\times C转换为\frac{N}{R}\times C.
Mix-FFN
ViT采用了位置编码(PE)来引入位置信息这一方法具有显著效果。然而由于PE所具有的固定分辨率特性,在面对测试分辨率与训练分辨率不一致的情况时需要对位置编码进行插值处理这一操作往往会导致精度有所下降为此论文提出了Mix-FFN这一解决方案通过将一个3×3卷积直接整合到前馈网络(FFN)中Mix-FFN巧妙地考虑到了零填充所带来的信息泄露效果从而有效保留了位置信息Mix-FFN的具体表达式为xout=MLP(GELU(Conv3×3(MLP(xin))))+xinx_{\text{out}} = \text{MLP}(\text{GELU}(\text{Conv3×3}(\text{MLP}(x_{\text{in}})))) + x_{\text{in}}其中xinx_{\text{in}}代表自注意力模块输出的特征向量Mix-FFN将这一设计融入到每个FFN模块中在实验验证中通过深度卷积结构有效降低了模型参数量并提升了运行效率
这段内容着重讲述了SegFormer中分层Transformer编码器的深入设计。该方法为了提高其在语义分割任务中的性能表现,并显著提升处理效率而采用了多层次特征表达和高效的自注意力机制。
3.2 Lightweight All-MLP Decoder 内容总结
概述
本节阐述了SegFormerlightweight decoder的设计与实现原理。该轻量级解码器主要依赖于多层感知机(MLP)结构进行特征提取与信息融合,在减少传统架构中繁琐的手工组件设计以及计算开销的同时实现了高效的特征重建功能。其关键优势在于分层Transformer编码器提供的更大有效感受野(ERF),这使得模型在保持简洁高效的同时具备更强的空间特征捕捉能力
解码器设计步骤
提出的全MLP解码器包含四个主要步骤:
- 多通道整合:经MiT编码器提取的多级特征FiF_i通过全连接层完成多通道尺寸的整合。
- 放大与融合操作:经过放大至原图分辨率1/4并完成信息融合。
- 特征集成:采用全连接层完成各分支输出特征的集成。
- 输出分割掩码矩阵:另一层全连接网络基于融合后的特征输出分辨率为\frac{H}{4} \times \frac{W}{4} \times N_{cls} 的分割掩码矩阵(Cls_num为类别数量)。
decoder's formal description involves several key components, including the computation of feature maps and the application of linear transformations. Specifically, each feature map F^i is determined by a linear transformation of Ci and C applied to Fi for all i. This process is followed by an upsampling operation performed on a grid of size H/4 by W/4 to generate intermediate representations. Finally, these representations are concatenated and passed through another linear transformation to produce the final output features F, which are then used to compute the class embedding M via another linear layer with input dimension 4C and output dimension equal to the number of classes Ncls.
有效感受野分析
为了深入研究MLP解码器在Transformer架构中的重要性, 该研究采用了有效的感受野(ERF)工具来进行可视化分析与功能解析. 通过Cityscapes数据集上的实验, 在不同编码器层级及其对应的解码器头部的ERF特征之间进行了详细对比分析.
- DeepLabv3+模型的空间分辨率(ERF)相对较小,并且即便在更深的层级中也未见显著提升。
- SegFormer架构中的编码器模块在其早期层次能够生成类似于卷积操作的局部注意力特征。与此同时,在更高层次则能够生成涵盖更长距离信息的关注机制,并且这种机制有助于更好地捕获空间关系。
- 其MLP头模块相较于Stage-4版本展现出更强的空间聚焦能力,并且这种能力主要集中在对局部区域的信息进行精炼提取上。但同时也未能完全忽略全局关注。
CNN中的局限性在借助上下文模块(如ASPP)进行扩展时会带来繁琐的过程。
SegFormer的设计采用了Transformer中的非局部注意力机制,在提升空间信息融合的同时保持了模型结构的简洁性。
这种设计在CNN骨干网络上表现不佳的原因在于其总感受野受限于Stage-4中的有限感受野。
CNN中的局限性在借助上下文模块(如ASPP)进行扩展时会带来繁琐的过程。
SegFormer的设计采用了Transformer中的非局部注意力机制,在提升空间信息融合的同时保持了模型结构的简洁性。
这种设计在CNN骨干网络上表现不佳的原因在于其总感受野受限于Stage-4中的有限感受野。

主要体现在解码器设计中。解码器设计基于Transformer生成的特征提取能力。通过协调一致的高度局部与非局部注意力机制的结合。在实际应用中发现单一阶段的非局部注意力单独使用时无法达到理想的效果。为了获得更好的性能表现必须同时考虑低级局部位特与高级跨局部位特的作用。
图3: Cityscapes数据集上的有效感受野(ERF)
该图表展示了DeepLabv3+与SegFormer在Cityscapes数据集上表现出的有效感受野(ERF)。其中ERF代表模型在特征图上所覆盖的感受野范围。这一指标不仅体现了模型在不同层次上捕捉上下文信息的能力,并且是衡量模型空间分辨率的重要指标。此外,请注意以下几点:
上排: DeepLabv3+
-
Stage-1 到 Stage-4 依次展现了DeepLabv3+模型在四个不同阶段的有效感受野。
可以看到,在不同阶段的感受野逐渐扩大。
值得注意的是,在Stage-4(最深层)处的感受野依然有限。 -
Head :该方法的解码器头部有效感受野被详细揭示。
- 然而,在解码器头部的感受野扩展程度虽有所提升但仍显不足。
下排: SegFormer
-
Stage-1 到 Stage-4 :从左到右依次呈现了SegFormer模型在四个不同阶段的有效感受野。
-
在较低的Stage(如Stage-1和Stage-2),SegFormer的感受野已较大程度上能够捕获丰富的上下文信息。
-
在较深的Stage(如Stage-3和Stage-4),感受野持续扩大,在Stage-4时几乎覆盖了整个图像区域。
-
Head:详细阐述了SegFormer解码器头部的有效感受野。
- 该架构在解码器头部设计上展现出显著的优势,并能有效地整合局部与全局的语义特征。
主要观察
- 局部与全局信息:在低分辨率层中,在SegFormer中主要关注于局部区域的信息处理;而当感受野提升至高分辨率层时,则能够有效整合全局上下文信息。
- 解码器头部:相较于DeepLabv3+模型,在SegFormer的解码器头部设计上实现了更大的感受野范围,并融合了多种注意力机制以提升分割性能。
总结
这张图直观地呈现了SegFormer在不同阶段和解码器头部的感受野范围显著超过DeepLabv3+。SegFormer在捕获上下文信息方面表现出色,在语义分割任务中的卓越性能部分得益于这一优势。
小结
轻量级多层感知机(MLP)解码器作为SegFormer设计中的核心模块,在充分运用该编码器在多层次特征提取以及广域感知方面的优势后,从而实现了高效的语义分割性能。
3.3 Relationship to SETR
在本节中,论文对SegFormer与SETR的方法进行了系统比较,并重点突出了其多个关键优势。
基于预训练数据集,在SegFormer的设计中,则采用了较小规模的ImageNet-1K作为基础数据集;值得注意的是,在SETR架构中使用的ViT模型采用了包含更多图像信息的ImageNet-22K版本。这一发现凸显了Seg Former 模型在面对有限数据时依然表现出色的能力。
编码器架构:SegFormer采用层次化架构以提取多尺度的空间语义信息;其与之相比的是,在单一分辨率空间表征上具有显著差距的是SETR所采用基于ViT的方法。
位置嵌入:SegFormer的编码器完全取消了位置嵌入功能,而SETR采用了固定形状的位置嵌入设置.当推理所使用的分辨率与训练时的分辨率不同时,这种固定形状的位置嵌入设置可能会导致精度下降.
在解码器设计方面, SegFormer采用的MLP架构更加精炼,在运算需求上相对较低,并且无需额外的运算开销.与之相比的是SETR系统,则依赖于多个3×3卷积模块进行解码,在计算资源消耗方面较为显著.
此次改进使SegFormer在效率与性能方面均展现出显著提升。例如,在ADE20K数据集上应用后,在mIoU指标上实现了50.3%的提升;其参数量缩减至64 million,并较SETR减少了约5倍的同时仍保持了较优的表现
结论
采用分层Transformer编码器与轻量级全MLP解码器的结合,SegFormer不仅超越了SETR的技术性能,在计算效率与模型规模方面也展现出显著优势。特别是在预训练数据集等多方面的创新突破下,在多个公开数据集上实现了新的性能标杆。
这些对比与分析突显了SegFormer在语义分割任务中的高效性能、高精度能力和稳定性特征,并且为未来的研究与应用提供了宝贵的参考依据
4.1 Experimental Settings
数据集
研究使用了三个公开可用的数据集进行实验:
ADE20K :该数据集专门用于细粒度分类场景解析任务,并覆盖了总计150个语义概念;它包含了来自不同领域的高质量图像样本共计2万零2百一十张。
Cityscapes :作为一项自动驾驶驾驶数据集,在语义分割领域具有重要地位;该集合由高分辨率图像组成,并具有精细标注特征。
COCO-Stuff :该集合包括广泛多样的物体实例分割标签共计172种;其中训练样本为11.8万张、验证样本为5千张、测试开发样本为2万张以及测试挑战样本为2万张。
实现细节
- 代码库 :基于官方PyTorch repository的mmsegmentation代码库进行实验。
- 训练设备 :采用配备8张Tesla V100的服务器进行训练。
- 预训练 :编码器基于ImageNet-1K数据集进行预训练,并将解码器参数随机初始化。
- 数据增强 :在模型训练过程中应用以下多种数据增强技术:
- 随机缩放尺寸(比例范围为0.5至2.0倍)
- 随机水平翻转
- 随机裁剪
其中裁剪尺寸包括ADE20K 512×512、Cityscapes 1024×1024以及COCO-Stuff 512×512等标准测试集尺寸。对于最大规模模型B5,在ADE20K测试集上将裁剪尺寸扩大至640×640。
- 优化器 :采用AdamW优化算法。
- 批量大小 :ADE20K和COCO-Stuff测试集使用批量大小为16;Cityscapes测试集使用批量大小为8。
- 学习率策略 :初始学习率为6e-5,并采用多项式衰减学习率调度策略,默认衰减因子为1.0。
- 评估方法 :在评估阶段对图像进行短边缩放至相应测试集裁剪尺寸后处理,并保持原始长宽比特性。对于Cityscapes测试集,在滑动窗口法下截取多个1024×1024区域块用于推理过程。
- 性能度量标准 :根据平均交并比(mIoU)评估模型语义分割任务的表现效果。
总结
本节系统阐述了实验的设计方案,在数据集选择、实现细节以及训练评估方法等方面进行了全面介绍。基于这些精心设计的方案和详细说明的内容验证了实验结果的质量。
4.2 Ablation Studies 内容总结
模型大小的影响
首先进行了深入研究以探索编码器大小对系统性能及模型效率的影响
- 解码器与编码器规模对比分析:其解码器参数仅达0.4 million规模。相较于采用MiT-B5编码方案的情况,则其解码模块所占比例仅为4%。
- 性能表现优化:就整体表现而言,在各测试基准上增大编码架构均能带来稳定的性能提升效果。该紧凑架构不仅效率高且占用资源有限,在实际应用场景中尤其适合对实时性要求较高的需求。相比之下,则是实现了一个在多个公开数据集上的最优水平表现。
MLP解码器通道维度C的影响
探讨了MLP解码器中通道维度C的作用(参见第3.2节)。表1b详细列出了不同通道数量下模型性能、计算复杂度及参数规模的变化情况。主要发现如下:
- 最佳通道维度 :通过设定通道数C为256,在性能与计算开销之间取得了良好的平衡。该参数值的选择在实验中验证其有效性:模型性能随着通道数的增加而提升;然而模型规模随之扩大化的同时效率有所下降。在实际应用中建议选择较小的参数值以获得更好的实时性表现:具体而言,在SegFormer-B0、B1等模型中建议采用C=256;而对于其他类型则推荐使用更大的参数值C=768以达到更高的准确性要求。
Mix-FFN与位置编码(PE)的对比
进行了系列实验以旨在探讨去除Transformer编码器中的位置编码(PE)并采用混合型前馈网络(Mix-FFN)的效果。表1c列出了实验结果的具体数据:
- Mix-FFN的优势 :采用Mix-FFN编码器在不同分辨率下的性能显著优于采用位置编码器的方式。当采用位置编码时,在低分辨率情况下性能降低了3.3%,而在高分辨率情况下则仅降低了0.7%。
有效感受野(ERF)评估
为了评估有效感受野(ERF)对MLP解码器设计的影响,对比实验考察了MLP解码器在基于CNN的编码器(包括ResNet和ResNeXt)与基于Transformer的编码器(包括MiT)中的性能表现。表1D汇总列出了实验结果:
- ERF的表现 :将CNN编码器与MLP解码器相结合的方式在性能上显著低于将Transformer编码器与MLP解码器相结合的表现。这源于CNN的感受野较Transformer较小的原因是由于其有限的感受野限制了其在全局推理方面的能力不足;相比之下,在这种情况下结合了Transformer编码器与MLP解码器后能够实现最佳效果。
综上所述,在消融研究中可以看出各组组件在性能与效率方面的作用。研究表明,在保持模型完整性的情况下降低计算复杂度是可行的。这些研究成果对于进一步优化其性能以及应用于其他领域都具有重要意义。
Appendix A: Details of MiT Series
在该段中,研究者列举了一些关键的超参数,并说明这些超参数将被应用于Mix Transformer架构中以实现模型训练过程中的并行计算能力增强效果。通过对这些配置进行优化可实现灵活扩展至不同模型版本(如B0至B5)。具体数值安排将在下文详细展示
- Ki : 嵌入空间中的分割块尺寸。
- Si : 划分区域时所使用的间隔长度。
- Pi : 在边缘区域增加的像素数目。
- Ci : 各阶段神经网络输出的空间通道数量。
- Li : 各编码器层所包含的网络深度。
- Ri : 注意力机制压缩的比例因子。
- Ni : 各关注头的数量设定。
- Ei : 各前馈层处理信息的能力提升倍数。
这些详细参数帮助读者理解并复现MiT系列编码器的设计。
Appendix B: More Qualitative Results on Mask Predictions
作者在图5中演示了Cityscapes、ADE20K和COCO-Stuff数据集上的更多定性结果,并进行了与SETR及DeepLabV3+的比较分析。主要观察包括:
- 在Cityscapes数据集上取得了优异的成绩;
- ADE20K数据集上的性能达到或接近当前最先进的方法;
- 在COCO-Stuff数据集中达到了令人满意的表现。
- 相较于SETR**:SegFormer预测所生成的遮蔽图在物体边界区域展现出更加精细的细节特征。这一现象源于其基于Transformer架构的有效特征提取能力,在高分辨率的空间表示上表现更为卓越。
- 与之相比**:SegFormer较之DeepLabV3+模型实现了长距离预测误差的显著降低。这一优势源于其基于Transformer架构构建的有效感受野(Effective Receptive Field, ERF),相较于卷积网络(ConvNet)具备显著更大的感受野覆盖范围。
Appendix C: More Visualization on Effective Receptive Field
图6精选了具有代表性的图像样本,并对DeepLabV3+和SegFormer的有效感受野(ERF)进行了展示。主要观察结果如下:
- 显著更大的ERF 相较于DeepLabV3+模型,SegFormer展现出更高的误差率(Error Rate),这与其对图像空间信息的捕捉能力更为出色。
- 先进的模式识别 研究表明,在处理复杂的场景时,SegFormer的误差率显著低于其基准模型DeepLabV3+。该系统通过其独特的编码器架构,在细节刻画方面表现尤为突出。
Appendix D: More Comparison of DeepLabV3+ and SegFormer on Cityscapes-C
这一部分深入探讨了与DeepLabV3+基于Cityscapes-C的数据集对比实验中评估的零样本鲁棒性。研究结果表明,在Cityscapes-C数据集上的对比实验中证实了该方法在零样本鲁棒性方面的有效性。
77
77
77
这些附录部分详细说明了具体的实验数据与直观展示结果,并为设计决策提供了重要依据,并突出了SegFormer的突出表现。
