Advertisement

Masked-attention Mask Transformer for Universal Image Segmentation(CVPR2022)

阅读量:

相关知识点:

Self-attention(自注意力): 在自注意力机制中,模型通过分析序列中各个位置之间的相互关系,并为每个位置生成相应的加权表示。具体来说,在自注意力机制下,模型会对序列中的每一个元素进行计算,并根据其与其他元素之间的关联程度对各个特征进行加权求和以生成新的表示向量。这种机制允许模型在不同时间尺度上捕捉信息交互,并有效提取长距离依赖关系中的关键信息。

Cross-attention(跨注意力): 在 cross-attention 中,模型在两个不同的输入序列之间进行注意力计算。一般来说,其中一个序列被视为“查询”序列,而另一个序列被视为“键值”序列。模型通过将查询序列中的每个位置与键值序列中的所有位置进行注意力计算,从而为查询序列中的每个位置生成加权表示。跨注意力通常用于处理序列对之间的关系,如机器翻译中的源语言和目标语言之间的关系。

摘要

图像分割技术通过将图像像素划分为具有不同语义类别的区域来实现分类目标。每个语义类别对应一个特定的任务,在当前研究中主要集中在为每个特定任务开发专用架构方面取得了显著进展。我们提出了一种名为Mask2Former的新架构(Masked Attention Transformer模型),该模型能够处理全景分割、实例分割和语义分割等多种图像分割任务。其核心组件包括屏蔽注意力机制,在预测区域施加约束以提取局部特征的能力。与现有最先进的架构相比,在四个流行的数据集上(COCO、ADE20K等),该模型在多个性能指标上均表现出显著优势:在COCO数据集上的像素级精度达到57.8%,在ADE20K数据集上的平均交并比(IoU)达到57.7%以上,并且在五个关键指标上均超过了现有方法的最高记录值。

1. Introduction

图像分割涉及对像素进行分组的问题研究。不同的语义分组像素(如类别或实例成员)会导致不同类型的分割任务(如全景、实例或语义分割)。尽管这些任务在本质上具有相似性,并且仅在语义上有细微差别[37]。基于全卷积网络(Fully Convolutional Networks, FCNs)构建的逐像素分类架构被广泛应用于语义分割[37]。然而,在实例级分割中预测一组与单个类别相关的二进制掩码的方法[5,24]未能满足需求[6,10,24,37]。尽管如此,在每个单独的任务上开发专门的体系结构已经取得了进展[6,10,24,37]。然而这种专门化的设计导致了缺乏灵活性的问题,在实例级分割中遇到了困难[6,10,24,37]这使得随着领域的发展逐渐出现了针对不同层级的任务而设计不同体系结构的趋势[5,24]因此重复的研究与硬件优化工作主要集中在针对每个任务设计专门的架构上

如图1所示,在图像分割任务方面

为了解决这一碎片化现象,在近期的研究工作中[14,62]尝试开发了一种通用架构方案,在统一的框架下可集成统一的图像分割技术以应对各种分割任务。这类网络结构通常基于端到端的目标集成预测系统(例如DETR[5]),且无需修改模型结构、损失函数或训练流程即可高效完成多个分割任务。值得注意的是虽然它们采用了相同的基础架构但每种特定的网络配置仍是分别针对不同任务与数据集进行独立训练的。尽管其灵活性令人称道但该领域近期的研究重点却转向了更加专业化的设计方向[20,39,45]这就引发了以下疑问:为何这种统一架构未能取代专用化的细分架构?两者为何共存并存?

尽管现有的通用体系结构足够灵活,在处理任何分段任务方面表现出色(如图1所示),但在实际应用中它们的表现明显不如最佳的专用体系结构。例如,在报告性能方面(引用文献[14,62]),通用架构目前的最大值仍低于实例分割领域的最优专用架构(引用文献[6])(AP值超过9)。然而,在性能方面也存在明显不足:它们通常需要更先进的硬件配置以及更长的训练周期才能达到预期效果。例如,在实现MaskFormer[14]模型时需要经过300个 epochs才能达到40.1 AP值;此外该模型仅能在配备至少32GB内存的GPU上进行单图像处理。相比之下,在相同的训练 Epoch 数量下(72个 epochs),最优的Swin-HTC++[6]架构却能够显著超越其表现。(尽管两者在这一指标上仍有差距))性能与效率方面的限制严重制约了通用架构的实际应用

这项工作开发了Masked-attention Mask Transformer(Mask2Former) ,这种架构不仅超越专门设计的图像分割架构,在各个分割任务中都展现出卓越的效果。

  • 我们开发了一个简洁的架构[14](编号分别为25、36和51),该架构由主干特征提取器[25, 36]、像素解码器[33]以及Transform解码器[51]构成。基于此框架,我们提出了关键性的改进意见以期获得更好的效果并实现有效的训练过程。
  • 首先,在Transformer解码器中采用屏蔽注意力机制。这种机制将注意力限定于以预测片段为中心的局部特征区域(这些特征可能是独立的对象或区域),其定位范围取决于特定分组所具有的特定语义信息。与标准Transformer解码器中使用的全局交叉注意机制(即关注图像中的所有位置)相比,在这种情况下屏蔽注意不仅可以加速收敛速度而且能显著提升性能水平。
  • 其次,在模型中采用了多尺度高分辨率特征设计方案。
  • 第三,在模型设计中提出了可学习地切换自关注与交叉关注顺序的方法;该方案不仅能够使得查询特征能够自主学习而且无需增加额外计算量即可提升模型性能水平。
  • 最后,在不牺牲性能的前提下通过对少量随机采样点处计算掩码损失的方式实现了大约三倍的训练内存占用节省效果;这一系列改进措施不仅显著提升了模型性能水平而且大大简化了模型训练流程使其更容易被计算能力有限的研究者所掌握。

基于四个广泛使用的数据集(包括COCO[35]、Cityscapes[16]、ADE20K[65]以及Mapillary远景[42])对Mask2Former进行系统性评估,在三种图像分割任务(panoptic、instance及semantic segmentation)上取得了显著成绩。研究结果表明,在这些基准测试中,其性能表现与现有体系结构相当或更好。采用与现有体系结构相同的架构设计,在COCO full-panoptic分割[28]任务中实现了57.8 PQ的平均精度,并在此领域实现了57.7 mIoU的新高记录。此外,在COCO实例分割[35]任务中获得了高达50.1 AP的理想表现,并在ADE20K语义分割[65]上达成了最新的mIoU纪录

具体的技术手段会将任务抽象为单像素级分类问题。以fcn为基础构建的方法能够单独识别每个像素所属类别标签。随后的研究发现,在精确识别单个像素时,上下文信息在关键作用,并在此基础上开发了定制化的关注机制[7-8-63]以及自注意力机制[21-26-45-55-61-64].

实例分割架构通常主要依赖于"掩码分类"机制。这类方法通过预测一组二进制掩码来实现对各类别进行编码,并为每个类别赋予特定的空间位置信息。研究工作如Mask R-CNN[24]则通过分析边界框来生成相应的掩码。随后的发展方向要么聚焦于提升边界框检测的精确性[4,6],要么探索动态生成不同数量掩码的新方法(例如动态核[3,49,56]或聚类算法[11,29])。然而这些专有技术虽然在单一任务上表现突出 但往往缺乏从一个领域向另一个领域迁移的能力 这导致了大量重复的研究工作 例如尽管多篇研究致力于构建特征金字塔表示[33] 但实验结果表明BiFPN[47]在实例分割任务中表现更为优异 而FaPN[39]则在语义分割领域取得了更好的效果

Mask R-CNN 是一种专门用于目标检测与实例分割的深度学习模型,在 Faster R-CNN 的基础上进行了功能扩展。

基于此,在 Faster R-CNN 的基础上新增了一个分支模块来预测目标实例的具体像素覆盖情况。

其主要功能包括对图像中的多个目标进行定位,并对每个目标区域生成精确到像素级别的掩膜表示。

其方法论基础是基于区域划分的技术框架。

在性能指标上表现优异的同时具备良好的适应性。

可变数目 的遮蔽是指在实例分割任务中所生成遮蔽的数量不固定且与输入图像中的实际目标数目相关联的一种情况。传统的实例分割方法基于固定的输出遮蔽数目这一前提假设来进行设计,在真实应用环境中由于目标数目往往呈现多样性和不确定性特征因而难以满足现有方案的需求为此一些研究工作开发了动态生成这些遮蔽的方法 该类方法能够根据输入图像中的实际目标数目自适应地决定最终需要输出多少个遮蔽从而使得整个系统能够更好地应对复杂场景下的分割需求 在具体实现过程中这些方法通常会结合多种先进的计算机视觉技术和算法框架例如基于多层感知机的动力学网络或者利用聚类分析等手段来实现对遮蔽数目的智能调节 这种改进方案不仅能够提升模型对不同目标数目情况下的适应能力而且还能进一步提高整体系统的性能表现。

随着DETR(参考文献5)的提出,“通用架构”应运而生,并指出基于端到端的目标mask分类架构能够满足任意图像分割任务的需求。研究者们进一步发现(参考文献14),基于DETR的研究显示:其性能不仅在全局分割中表现优异,在语义分割方面同样达到当前最佳水平。随后提出了K-Net(参考文献62),该方法成功将集合预测技术扩展至实例分割领域。然而这些架构虽然通用性强但仍然无法完全替代高度专业的专用模型(例如:尽管MaskFormer表现出色但在实例划分方面仍有不足)。据我们所知 Mask2Former 是首个能在所有测试场景下超越现有最优专业结构的方法。

3. Masked-attention Mask Transformer

目前

3.1. Mask classification preliminaries

掩码分类架构通过预测N组二进制掩码及其对应的N组类别标签来实现像素划分。这种架构具备高度通用性,在分割任务中能够灵活应对各类别或实例分割的问题。然而,在这一过程中如何实现有效的表征提取仍面临诸多挑战。例如,在现有的研究中如Mask RCNN[24]所采用的方式仅依赖于边界框作为特征表示的方法就已显现出一定的局限性。借鉴DETR[5]的研究成果,在图像分割领域提出了新的思路:将图像划分为多个不重叠的小区域,并对每个区域提取c维特征向量(即对象查询),随后通过Transformer解码器对其进行处理并结合一组目标进行训练以优化结果。为了构建一个高效的元体系结构方案,则需要整合三个关键组件:首先从图像中提取低分辨率特征;其次设计一种像素级解码器以逐步上采样并生成高分辨率的逐像素嵌入;最后利用Transformer解码器对图像特征进行操作并结合对象查询来生成最终的目标预测结果集。这一创新性的元架构设计已在MaskFormer[14]中得到成功应用并取得了显著效果

3.2. Transformer decoder with masked attention

基于之前介绍的元架构设计, 我们开发了一个新的Transformer解码器(如图2右侧所示), 该方案成功取代了现有主流方案).

我们的Transformer解码器的核心组件包括一个掩码注意操作符,在每个查询的预测掩码前景区域内限定交叉注意力以提取局部特征而非关注完整的特征映射。
为应对小目标问题我们提出了一种有效的多尺度策略用于利用高分辨率特征该策略采用循环方式将像素解码器生成的特征金字塔中的连续层级特征映射依次传递至后续连续的Transformer解码器层。
最后我们整合了无需增加额外计算即可提升模型性能的关键优化改进并进行了详细讨论这些改进措施

图2:Mask2Former方法概览。该系统采用了与MaskFormer[14]相同的架构设计,并包含主干网络、像素级解码器以及Transformer类型的解码器模块。我们开发了一种新型的Transformer解码器结构,并采用受掩蔽的注意力机制而非标准交叉注意力机制(参考第3.2.1节)。为了有效处理小尺寸目标物体,在每个变换层中将多尺度特征的一个尺度输入到相应的Transformer解码器模块进行处理(第3.2.2节)。此外,在模型设计中改变了自注意力与互注意力顺序,并去除了Dropout层以提高计算效率(第3.2.3节)。需要注意的是,在图示中省略了各变换层的位置编码信息以简化展示

3.2.1 Masked attention

上下文特征已被广泛证明为图像分割的重要因素[7,8,63].

标准交叉注意(残余路径)计算:

  • l 是层级索引,在模型中指定执行操作的具体层级。
  • Xl 由第l层生成的N个C维查询特征构成一个N行C列的矩阵,在注意力机制中加以应用。
X_{l}psilon athbb{R}^{Nimes C}

Ql 是经过线性变换函数 fQ 对 Xl−1 执行转换操作得到的一种查询特征变量,在注意力机制中被使用。

Q_{l}=f_{Q}eft psilon athbb{R}^{Nimes C}
  • X0 是输入到Transformer解码器的查询特征。
  • Kl 和 Vl 是通过线性变换函数
f_{k}eft

f_{V}eft

对图像特征进行转换生成相应的特征矩阵,在计算注意力时所使用的这些特征矩阵在大小方面具有特定值

H_{l}W_{l}imes C

其中 Hl and Wl represent the spatial resolution of image features.

  • fQ, fK, and fV are linear transformation functions that map input features to query, key, and value spaces respectively.

通过我们的掩码注意力机制来调节注意力矩阵

在特征位置(x, y)处的注意力掩码

M_{l-1}
  • "
M_{l-1}

eft  0,1 ight ^{Nimes H_{l}W_{l}}

表明在第(l-1)层的注意力掩玛是一个N×HlWl大小的二值化输出结果,即每个位置上的取值仅为0或1。这种二值化输出是通过先对上一层(l-1)中的Transformer解玛器进行调整后生成并经由阈值处理得到,其阈玛为0.5。
首先对上一层层中的关注机制进行优化,随后将此优化结果调节至与当前特征矩阵Kl具有相同的空间分辨率。
在此过程中,M0是在将查询特征输入至Transformer解玛器之前生成的一种二进制关注机制预测。
通过分别对各层次中的关注机制执行二值化转换,并将其调节至与对应层级特征矩阵Kl一致的空间尺度,同时基于初始关注机制M0构建新的关注机制预测模型,从而能够更有效地指导模型在不同层次上聚焦图像的不同区域以实现分割任务,最终提升分割效果。

3.2.2 High-resolution features

显著提升了模型的整体性能尤其是对小型物体[5]的表现具有重要意义。尽管如此但在计算资源上的消耗仍然较高为此我们开发了一种高效的方法来引入高分辨率特征以有效管理计算开销。通常并非仅依赖于单一层次的信息架构我们的方法构建了一个包含不同分辨率信息的层次结构并能够将这一多级信息逐步传递给每个解码器层以实现更加均衡和精确的空间表示。

该架构中如何通过像素解码器生成的特征金字塔进行操作,并探讨了将这些特征金字塔应用到Transformer解码器各个层级的过程。具体来说:

基于像素解码器生成的特征金字塔架构中包含了原始图像分辨率的不同层级:分别为1/32、1/16和1/8三个层次的空间尺度。在这些特征金字塔结构中,并在每个分辨率层级上加入了位置编码信息

e_{pos}psilon athbb{R}^{H_{l}W_{l}imes C}

和一个可学习的尺度级别嵌入

e_{lvl}psilon athbb{R}^{1imes C}

这些嵌入参数旨在促进模型对特征空间关系和尺度层次的深入理解。
通过从最低分辨率层逐步推进至最高分辨率层的处理机制,在相应的Transformer解码器层中应用这些特征金字塔。
这种层次结构及其工作原理在图2左侧进行展示。
将这一3层Transformer解码器模块循环使用L次,在构建最终的整体架构时发挥重要作用。
通过这种机制,在各个层级上有效地整合不同分辨率的特征信息。

3.2.3 Optimization improvements

标准Transformer解码器层的组成和处理过程:

标准Transformer解码器层由三个关键组件构成,并按照特定顺序完成信息处理:首先启动自注意力机制生成中间表示;随后进入交叉注意力阶段;最后通过前馈神经网络(FFN)进行深度变换以优化特征表达能力。各组件依次参与查询特征的加工与转换,在此过程中逐步构建对输入数据的理解体系。
在将原始输入编码为查询特征(X0)并施加位置编码后,在后续处理流程中需先进行残差连接以增强信息传递路径稳定性;随后才可应用Dropout技术于残差连接和注意力机制中以有效防止过拟合问题。

为了优化Transformer解码器的设计,我们做了以下三个改进:

  • 首先,在保持功能完整性的同时,在处理过程中改变了自注意力与交叉注意力的执行顺序,并提出了“masked attention”机制以提高计算效率。
  • 其次,在将可学习的查询特征用于Transformer解码器预测掩模(M0)之前,在直接监督下优化并更新了这些可学习的查询特征;这些优化后的查询特征类似于区域提议网络,并具备生成掩模提议的能力。
  • dropout并不是必要的技术手段;因此他们完全移除了Dropout层。

3.3. Improving training efficiency

由于高分辨率掩模预测所导致的大内存消耗问题使得通用架构相较于更为节省内存的设计而言不易被访问到

4. Experiments

基于同行认可的先进架构体系进行系统性对比实验的基础上, 我们成功验证了Mask2Former作为通用图像分割架构的有效性, 其能够实现多个典型目标并展现出卓越性能. 在深入分析三个关键任务的基础上, 我们对提出的整体设计理念进行了全面考察. 最终, 该方法不仅实现了系统性推广, 并且在四个代表性数据集上均取得了超越现有技术的显著成绩.

核心研究对象

"Things" 指代图像中的具体物象或实体, 通常能够被识别与注释的对象, 如人, 车辆与动物等。

"Stuff" 则指代图像中的背景元素或难以明确界定的区域, 一般为抽象的不可计数要素, 包括天空, 绿地与水域等。

评价指标。

  • PQ(全景质量):是用于评估全景分割性能的重要标准指标。该指标综合考量了语义分割与实例分割的效果,并全面分析了全景分割的表现。
  • APThpan:专门针对具体物体类别的平均精度指标,在"thing"类别上使用实例分割注释进行评估。这一指标主要用于衡量模型对特定物体类别的识别能力。
  • mIoUpan:是通过计算不同类别掩模交并区域与总像素的比例来获得的语义分割平均交并比(mean Intersection-over-Union)。该指标有效反映了模型在语义分割方面的能力。
  • AP(Average Precision):是衡量实例分割准确性的重要标准指标。它通过检测和分离物体边界的能力来反映模型的整体表现。
  • mIoU(mean Intersection-over-Union):是衡量图像中对象准确性的重要标准。该指标通过预测区域与ground truth区域重叠情况的度量来实现对模型性能的有效评价。

表 1:COCO 泛视 val 2017 数据集上的 133 个类别进行了泛视分割实验。实验结果表明,在多个评估指标上,基于 Mask 的双分支架构(Mask 2 Former)较之于单分支架构(MaskFormer [14])均展现了显著的优势。通过与当前最先进的人工智能模型(如 MaskFormer 和 K-Net [62])相比,在准确率方面我们的最佳模型分别提升了约 5 倍以上及约 3 倍半(PQ 指标)。此外,在 ImageNet-22K 数据集上的主干部分以 † 符号进行标记

文中所提及的"Backbones pre-trained on ImageNet-22K are marked with †"这一表述表明,在ImageNet-22K大规模图像数据集上进行了预训练的神经网络架构被特别标注为†号。这种选择意味着这些被选中的神经网络架构不仅具备强大的视觉识别能力,并且通过广泛语义信息的学习进一步优化了其性能。值得注意的是,在这一过程中所使用的预训练方法可能有助于提升模型在各种场景下的准确性和鲁棒性。

4.1. Implementation details

我们采用[14]的设置,区别如下:

支持任何现有的像素解码器模块的功能。其中,默认采用多尺度可变形注意力Transformer(MSDeformAttn)作为新的默认像素解码器。其中,默认采用多尺度可变形注意力Transformer(MSDeformAttn)这一架构设计使该方法具备更强的表现优势

该模型基于第3.2节所述的Transformer解码器设计,在其架构中设置了L值为3(对应总计9层),并采用了默认配置下100个查询操作。该结构由9个独立的层构成,在每层解码器之间及上一层可学习地附加了位置相关的特征后,均增加了额外的损失项。

损失函数权重设置:

  • 采用二元交叉熵损失与Dice损失:在模型架构中,针对掩模(mask)相关的任务设计了特殊的掩模(mask)损失函数组合。其中包含经典的二元交叉熵损失与Dice损失两种核心组件,在图像分割等应用场景中表现出色。这些设计有助于模型更精确地预测对应的掩模边界。
L_{mask}=ambda {ce}L{ce}+ambda {dice}L{dice}

,

ambda _{ce}

=5.0,

ambda _{dice}

=5.0

  • 最终的损失函数是掩模损失(Lmask)和分类损失(Lcls)的组合,即
L_{mask}+ambda {cls}L{cls}

ambda _{cls}

将参数设为2.0是为了使模型能够准确识别与 ground truth相匹配的预测结果;同时将其设为0.1以应对“无对象”情况下的预测任务;即指那些未被任何 ground truth所匹配的预测结果。通过这种设定策略,模型能够更有效地学习并显著提升其性能水平。

后处理

类置信度(Class Confidence)通常指的是模型在目标检测任务中对检测到的目标类别预测的可信程度。它通常以概率形式表示,并且用于评估模型对目标类别归属的判断力度。

掩膜置信度(Mask Confidence)通常指的是实例分割任务中用于衡量模型生成的像素级掩膜与真实目标区域之间匹配程度的一种指标。当掩膜置信度越高时,在实际应用中能够更好地反映真实的目标边界。

4.2. Training settings

panoptic segmentation与实例分割技术的研究及应用目前备受关注。该研究在COCO数据集上采用了Detectron 2以及改进版的Mask R-CNN作为基础配置进行panoptic segmentation与实例分割任务的研究。这是一个专为目标检测与图像分割设计的深度学习框架。其中一种常用的方法是Mask R-CNN算法。

  • 训练设置:使用了AdamW优化器和分步学习率调度。初始学习率为0.0001,所有骨干网络的权重衰减为0.05。对于骨干网络,应用了学习率乘数为0.1,并在总训练步数的0.9和0.95处以10的因子衰减学习率。通常情况下,模型训练50个epochs,批量大小为16。数据增强采用了大规模抖动(LSJ)增强,随机从0.1到2.0的范围内采样比例,然后裁剪到1024×1024的固定尺寸。我们使用标准掩模R-CNN推理设置,其中我们将图像的短边调整为800,长边调整为1333。
  • 性能评估:作者报告了浮点运算数(FLOPs)和每秒帧数(fps)。FLOPs是在100个验证图像上平均计算的,因为COCO图像具有不同的尺寸。fps是在V100 GPU上以批量大小为1测量的,包括整个验证集的平均时间,包括后处理时间。
  • 语义分割:在语义分割任务中,作者遵循与参考文献[14]相同的设置来训练模型,但应用了一些修改,如将学习率乘数0.1应用于CNN和Transformer骨干网络,而不仅仅应用于CNN骨干网络。此外,ResNet和Swin骨干网络使用初始学习率为0.0001和权重衰减为0.05,而不像参考文献[14]中使用不同的学习率设置。

表2展示了在COCO val 2017数据集上的80个类别实例分割任务的结果分析。通过对比实验可以看出,在经过特定优化后(即减少至原来的8倍),我们的方法显著提升了计算效率的同时保持了较高的准确率水平(即提高了5%)。此外,在与现有最先进的专门实例分割模型进行对比时发现(即显示出显著的优势),本研究提出的方法不仅能够实现更高效的计算(即计算时间减少了30%),而且能够在保持较高准确率的同时实现了更低的资源消耗(即能耗降低了45%)。为了确保公平性评估,在实验中我们采用了单尺度推理策略,并且所有模型均基于COCO train 2017数据集进行训练

4.3. Main results

Panoptic segmentation

除了PQ指标外,在比较过程中我们发现相较于DETR[5]以及MaskFormer,在其他两个评估维度上展现了更好的性能:即基于实例分割标注对80个'事物'类别计算得到的平均精度(AP),以及基于133个类别计算得到的平均交并比值(mIoU)。值得注意的是,在这一发现下,并非直接使用两种方法的结果来比较性能提升幅度(AP增益值与mIoU增益值),而是通过将全景分割标注转换至语义分割任务中实现这一对比关系。这一发现凸显了Mask2Former的强大适应能力:它仅依赖于全景分割标注便能实现多种任务中的应用价值

实例分割。我们对Mask2Former与COCO[35]数据集上当前最优模型进行了对比实验(见表2)。基于ResNet[25]的主干架构,在采用大规模抖动(LSJ)增强[18,23]的技术后,Mask2Former相较于强Mask R-CNN[24]的基线版本表现出色,在训练迭代次数上减少了8倍的计算量。此外,在采用swan - l骨干架构的情况下,Mask2Former的表现也优于现有的HTC++[6]模型。尽管与HTC++相比边界AP的提升幅度较小(+0:6),但边界AP[12]却提升了两倍多(+2:1),这表明我们的方法在预测边界质量方面具有显著优势。需要注意的是,在进行公平性对比时,我们仅考虑了单尺度推理场景,并使用仅基于COCO train2017数据集进行训练的模型作为基准进行评估。

在采用ResNet-50骨干网络时,Mask2Former相较于MaskFormer在细节目标上实现了7.0个APS的显著提升,在全面目标检测方面则由大物体贡献了最大的提升(达到+10.6个APL)。然而整体而言,在APS指标上的表现仍落后于当前最先进模型的水平。因此就细节目标优化仍有进一步的空间可循——例如借鉴DETR等模型所采用的扩展式骨干网络架构——此方面的研究工作作为未来研究计划的一部分提纲挈领地予以规划。

语义分割。 我们对比了基于Mask2Former和ADE20K[65]数据集上现有最先进的语义分割模型,并如表所示。实验结果显示,在不同主干架构的性能上,Mask2 Former明显优于Mask Former [14] 。这一改进甚至达到了比现有方法更高的水平(注:此处对原文进行了适当补充以增强表达效果)。具体而言,在使用swan - l作为骨干架构并结合FaPN [39 ] 作为像素级解码器后,在验证集上达到了57.7 mIoU的新水平(注:此处对原文进行了适当补充以增强表达效果)。此外,在附录A.3中也进一步验证了该方法的有效性

表3展示了基于ADE20K训练的数据集,在150个分类任务中进行语义分割。在不同主干结构下进行测试时发现,Mask2Former的表现持续优于Mask Former [14]。其中大多数采用MS Deform Attn架构(参考文献66)作为像素级解码器;值得注意的是,在某些特定情况下(如swun-l-FaPN结构),我们采用了FaPN架构(参考文献39)。经过对比实验分析后发现,在性能指标上我们的最优模型表现超越了现有的专业基准模型BEiT [2]。本研究不仅关注于单尺度推断性能(s.s),同时也评估了多尺度处理的效果(m.s)。

4.4. Ablation studies

我们基于ResNet-50骨干网络系统性地展开了一系列消融研究以评估Mask2Former[25]。所有消融均在三个特定任务背景下展开以验证所提出的通用图像分割组件的适用性。

(a)遮蔽注意力机制以及细节特征(源自高效多尺度策略)带来了显著的收益提升。更具体的消融实验结果可见表4c及表4d。每次迭代时仅去除一个组件

(b)性能优化措施在不增加额外计算负担的情况下提升了性能水平。根据DETR[5],当查询特征处于不可学习状态时,默认初始化为零向量。每次迭代中移除一个组件模块

(c)在所有任务中,我们的掩蔽注意力比其他交叉注意力表现得更好。

(d) Feature resolution.该方法中高分辨率特征(基于单尺度1/8)具有重要意义。我们的高效多尺度策略(高效MS)成功地减少了计算开销。

(e)像素解码器。MSDeformAttn[66]在所有任务中始终表现最佳。

表4展示了Mask2Former模型的消融实验,在三个不同的任务中进行了评估:包括基于COCO val2017数据集计算的实例分割平均精度(AP)、基于COCO panoptic val2017数据集评估的全景场景平均Queries(PQ)以及基于ADE20K数据集测试得出的语义分割平均Intersection over Union(mIoU)。其中FLOPs计算基准是基于COCO实例分割的数据集

Transformer decoder 我们通过逐步去除关键组件来评估每个组件的重要性 如表4a所示 遗传算子在所有任务中展现出显著的优势 例如 全视分割技术相较于语义分割方法表现出更明显的提升效果 同时 通过采用高效的多尺度策略来提取高分辨率特征同样具有重要意义 表4b展示了额外的优化改进 在不增加额外计算的情况下进一步提升了性能

Masked attention. 并行研究提出了其他交叉注意的变体[22,40]以提高DETR[5]在目标检测方面的收敛性和性能。近期研究表明K-Net[62]通过使用替代掩码池操作来取代传统交叉注意机制该操作能够在掩码区域内实现特征的有效平均化。实验结果表明我们在表4c中展示了 masked attention 的关键性作用尽管现有的交叉注意变体可能在某些特定任务上有所改进但在本研究中我们发现 masked attention 在三个评估指标上的整体表现最为出色。

Feature resolution: 表4d展示了Mask2Former在Transformer解码器中的优势在于采用了高分辨率特征(如单尺度缩放因子为1/8)。然而这样做带来了额外的计算负担。我们提出了一种高效的多尺度策略,在不牺牲性能的前提下显著降低了浮点运算量。这也表明简单的将多尺度特征串联作为每个Transformer解码器层的输入并未带来预期的效果提升。

Pixel decoder module:根据表4e的结果,在现有像素解码器中表现良好。然而,在特定任务中的强项各有不同:如BiFPN在实例分割任务中表现出色,则FaPN则在语义分割任务中表现优异。经过对所有实验进行评估,在所有实验任务中均取得最佳性能,并因此被选为默认解码器的MSDeformAttn模块具有显著优势;作为通用模型的Mask2Former提供了一个可测试模块设计的试验平台,在验证不同分割任务中的泛化性能方面具有重要意义

比例值1/8 代表特征图的空间分辨率。具体而言,在提到该比例值时,则表明所关注区域的空间分辨率为原始图像的八分之一。这意味著,在这一层次上描绘的信息较为粗略。然而,在实际应用中发现这一设置能够有效平衡计算效率与信息完整性之间的关系:尽管降低了对细节的关注程度(即每个像素对应于输入图像中一个更小的具体区域),但仍能提供较高的空间分辨率达到支持后续分析需求;同时,在特定条件下(如较大比例值下)可能反而会降低整体效果的表现质量(即相应空间分辨率为较高水平)。在这一前提下,在实际应用中发现该设置能够有效平衡计算效率与信息完整性之间的关系:尽管降低了对细节的关注程度(即每个像素对应于输入图像中一个更小的具体区域),但仍能提供较高的空间分辨率达到支持后续分析需求;同时,在特定条件下(如较大比例值下)可能反而会降低整体效果的表现质量。

表5:Calculating loss with points vs. masks.采用基于点损失的方法训练模型时可降低内存占用而不影响性能;通过应用点损失方法能够显著提升模型性能

使用点损失 :通过在训练过程中使用采样点而不是完整的掩模来计算损失,可以降低训练时所需的内存消耗,从而使得模型在内存受限的情况下更易于训练。同时,这种方法并不会对模型的性能产生影响,即在准确率和性能方面没有明显的损失。

- 匹配点损失 :进一步地,通过在匹配过程中使用采样点损失,可以进一步提高模型的性能。这意味着在损失计算的过程中,使用采样点可以帮助模型更好地学习和匹配预测结果与真实标签之间的关系,从而提高模型在分割任务中的表现。

Computing loss with sampling points versus masks. 在表5中,我们对基于掩码与采样点计算损失的不同方式进行分析,并对其对性能与内存的影响进行了评估。采用采样点方法来计算最终训练损失,可以使训练内存减少至原来的三倍,且不会对模型性能产生负面影响。进一步地,采用采样点方法来计算匹配损失能够显著提升所涉及的所有三项任务的表现。

可以将可学习查询视为区域建议的形式。其中一种常见的表示方式是矩形框或mask形式。基于监督学习的方法优化查询机制以便更精确地捕获目标特征。研究者通过设计有效的损失函数实现了这一目标:优化后的查询结果可以直接用于生成mask并经由Transformer解码器进行进一步处理(如图3所示)。为了评估检测质量,在COCO val2017验证集上计算AR@100指标展示了该方法的有效性:与Mask2Former相比取得了良好的检测性能。(如图4所示)实验结果表明:随着Transformer架构层数增加 AR@100值持续提升从而验证了该方法的有效性。

图3:被定义为区域建议的位置编码单元。上图显示,在将四个选定的位置编码经过预处理后输入到解码器中(主干采用R50架构)之前,我们对掩码预测的质量进行了评估。左下部分计算了100次独立实验中类内检索率(AR@100),并发现与解码器第9层之后Mask2Former模型输出结果相比,在类内检索方面这些可学习的位置编码表现出了良好的性能指导作用;右下方部分则简述了整个提案生成过程。

表6:CityScapes Valence Mask2Former与CityScapes在该领域专业模型形成竞争关系。在全景分割模型中,默认采用单尺度推理模式;而多尺度特征则通过*标记表示其特殊属性。针对语义分割任务,在本研究中我们分别评估了单尺度(s.s.)与多尺度(m.s.)的推理性能,在ImageNet-22K数据集上进行主干网络预训练时所使用的特征提取模块均以†符号进行标注

4.5. Generalization to other datasets

为了验证Mask2Former在COCO数据集以外的数据表现, 我们进一步在其他流行图像分割数据集中进行了实验. 其中, 在表6中展示了Cityscape实验结果[16]. 详细介绍了各个数据集的具体训练设置, 并附录B部分提供了ADE20K[65]和Mapillary远景[42]的相关结果.

表7:Mask2Former的不足之处。尽管单个Mask2Former具备处理各类分割任务的能力,在实际应用中仍需根据具体需求进行多方面的优化与调整。通过在多个典型数据集上的实验研究发现,在采用全景注释策略进行模型训练时相比专门针对实例分割与语义分割等特定任务设计的数据集所对应的完全相同结构的模型而言其实际效果稍有逊色。

通过实验数据显示,在这些标准数据集上

4.6. Limitations

我们的核心目标是为所有图像分割问题开发一个统一的模型。观察表7可知,在全视分割场景下进行Mask2Former模型的训练效果略低于采用相应标注与语义分割任务结合在同一数据集上进行统一优化的方案。这一发现提示尽管Mask2Former架构具备跨任务适应能力但其性能仍受限于对特定任务需求的关注。展望未来我们希望开发一种模型实现一次训练即可适用于多个领域或数据源的目标

此外,请参考表2和表4的数据可以看出,在基于基础模型有所提升的前提下, Mask2Former方法在处理小型物体分割任务时仍然存在明显局限性,即未能充分提取多尺度特征信息,从而影响整体性能表现。我们主张应更加重视通过精细设计特征金字塔以及优化目标函数来提升模型性能

5. Conclusion

我们提出了一种名为Mask2Former的通用图像分割方法。基于一个相对简单的元框架[14](参考文献中的具体位置),采用新型Transformer解码器并结合其独特的masked attention机制,在四个广受欢迎的数据集上展示了卓越的表现(具体数据未提及)。该方法能够在panoptic、instance和semantic三个主要图像分割任务中超越专门针对每个基准设计的最佳专用模型。同时该方法易于训练并且降低了研究工作量约三倍,并且该方法对计算资源有限的用户而言非常友好

我们希望引起大家对通用模型设计的兴趣。

全部评论 (0)

还没有任何评论哟~