Advertisement

【论文翻译】SETR:Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformer

阅读量:

SETR

  • 摘要
  • 介绍
  • 相关工作
    • 语义分割
    • Transformer

模型设计

摘要

传统的语义分割技术多采用了基于编码器-解码器架构的全卷积神经网络(FCN)模型。其中,在编码器阶段系统逐步降低了空间分辨率,并通过更广大的感受野来学习更加抽象或语义化的视觉特征。值得注意的是,在这种架构下仍保持不变的是其基本框架设计。然而,在这种架构下仍保持不变的是其基本框架设计。
本文的主要目标是将语义分割问题转化为序列到序列预测任务来处理。
具体而言,
我们设计了一个pure transformer(即没有卷积和分辨率降低)以将图像划分为一系列patch。
在这个过程中,
全局上下文信息在transformer的每一层都被有效建模,
这使得编码器能够结合一个简单的解码器构建一个强大的分割模型,
命名为SEgmentation TRansformer (SETR)。
通过对大量数据集进行实验验证,
我们发现该模型在ADE20K (50.28% mIoU)、Pascal Context (55.83% mIoU)等基准测试集上均达到了当前最先进的性能水平,
并在Cityscapes等实际场景中也展现出了很强的竞争性表现。
值得注意的是,
在提交当天就已成功登上了该测试服务器上的排行榜第一名。

介绍

近年来自将全卷积网络应用于语义分割领域以来,该领域一直被基于完全卷积网络(CNN)所引领。传统的CNN架构通常采用编码器-解码器结构,在此框架下,编码器负责提取高阶抽象特征,而解码器则用于从这些高阶抽象特征恢复低分辨率像素级分类信息。

该方法的主要优势在于其平移不变性:尊重了成像过程的本质,从而实现了对不可见图像数据的良好泛化能力;此外,通过跨空间共享参数来调节模型复杂度。然而,受限的感受野使得该方法难以捕捉不受约束场景中图像语义分割的长程依赖关系。

针对上述缺陷,研究者提出采用扩展卷积运算策略:引入大尺寸内核(large kernel sizes)、atrous卷积以及多分辨率特征金字塔(feature pyramids)等技术手段进行改进;同时,将注意力机制融入CNN架构以建模全局像素级交互;其中,当应用于实际场景时,通常会将注意力模块与位于CNN顶端的位置结合起来构建新的关注机制分支。

相关工作

语义分割

深度神经网络的发展推动了语义图像分割发展。通过移除完全连接的层,完全卷积网络(FCN)能够实现像素级预测。基于FCN:CRF/MRF,粗略预测。为了解决语义和位置之间固有的紧张关系,编码器和解码器都需要聚合粗层和细层。这导致用于多级特征融合的编码器-解码器结构的不同变体。
为了扩大感受野,引入扩张卷积:DeepLab、 explotion。
上下文建模:PSPNet,提出了PPM模块来获取不同区域的上下文信息;DeepLabV2: ASPP模块,采用不同扩张率的金字塔扩张卷积。
分解的大内核也被用于上下文捕获。
基于注意力的模型流行于捕捉远程上下文信息。PSANet 开发了逐点空间注意力模块,用于动态捕捉远程上下文。DANet 同时嵌入了空间注意和通道注意。CCNet 也专注于节约由完全空间注意力引入的繁重计算预算。DGMN 为场景建模构建了一个动态图消息传递网络,它可以显著降低计算复杂度。上述工作基于FCNs,其中特征编码和提取部分基于经典的ConvNets,如VGG [43]和ResNet 。

Transformer

Pure transformer架构及其自注意力机制已彻底革新了机器翻译与自然语言处理领域,并已在多个研究方向中展现出独特价值。在图像识别领域:Non-local网络通过将self-attention机制附加于卷积神经网络骨干结构中实现了显著性能提升;AANet创新性地提出了卷积模块与自注意力机制的混合设计以增强特征提取能力;LRNet及独立网络则分别探索了局部自注意力机制以缓解全局计算开销问题;此外SAN框架进一步深化了自注意力研究,在其基础上开发出轴向注意力模块以显著降低计算复杂度。
基于Transformer架构的设计理念,CNN-transformer模型已在多个关键任务中取得突破性进展,其中DETR及其可变形变体成功应用于物体检测任务,通过在检测头内部集成self-attention模块实现了定位精度提升;STTR与LSTR分别聚焦于视差估计与车道形状预测任务,并成功引入Transformer架构以优化计算效率。
ViT作为首个基于纯Transformer架构实现图像分类性能超越传统CNN模型的工作代表,开创性地证明了完全依赖Transformer架构的视觉模型同样能够达到先进水平。
最相关研究工作包括Axial-deeplab等基于注意力机制的分割模型,其创新点主要体现在:相较于完全移除卷积的传统FCN结构,该框架仍保留了一定的空间分辨率信息;而轴向注意力模块由于其特定设计难以实现大规模并行化扩展。
我们团队的研究工作聚焦于序列到序列模型设计,采用标准self-attention机制同时保持原有空间分辨率不变;在此基础上深入研究并优化自注意力模块设计,使其具备良好的硬件可扩展性和实用性。

模型设计

FCN-based semantic segmentation

为了以对比的方式探讨我们新设计模型,在现有FCN架构下重新审视分割模型的表现

Segmentation transformers (SETR)

Image-sequence

该方法基于transformer模型的输入均为一维序列,在图像分割任务中其输入则被视为二维图像数据。二维图像数据被统一转换为一维序列形式,并表示为2\text{D} \text{ image} \ x \in

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

然后展平网格为序列

以下待写中。。。。。。。。

全部评论 (0)

还没有任何评论哟~