Advertisement

Multi-class Token Transformer for Weakly Supervised Semantic Segmentation

阅读量:

code:https://github.com/xulianuwa/MCTformer

摘要

本文提出了一种基于Transformer的新架构,在学习类目特定的对象定位图方面表现出色,并将这些图作为弱监督语义分割(WSSS)任务中的伪标签进行使用。受标准视觉Transformer中单类别token的关注区域启发,在研究中发现此类区域同样适合生成无类别的定位图。因此我们深入研究了Transformer模型能否通过学习多类别token来有效捕获其特定注意力机制进而实现更具区分度的对象定位效果为此我们提出了多类别token Transformer模型称为MCTformer它通过多类别token之间的交互关系实现了这一目标。经过实验验证所提出的MCTformer确实成功生成了具有高区分度的对象定位图这些图像都是基于各分patch与各分category token间注意力关系提取的结果此外我们还进一步优化了定位效果通过分析分patch之间的配对关联性(从分patch到分patch的空间变换层中提取)。此外该框架与基于类激活映射(CAM)的方法实现了高度互补性并分别在PASCAL VOC和MS COCO数据集上取得了显著提升弱监督语义分割任务性能的效果这些结果充分表明类别token在弱监督语义分割任务中的重要性

  • 在图像处理领域 ,图像会被系统性划分为若干个大小一致的小块区域 ,这些区域被称为"patch" 。
    • 每个"patch"都会通过特定算法转换为一个特征向量 ,这个特征向量 被称为"token" 。
    • 在本研究中 ,除了来自图像patch生成的token外 ,我们还引入了用于表征类别信息的"class token" 。这些类别token能够有效地捕获不同类别的注意力机制信息 ,从而帮助模型生成具有类别特异性的定位图 。

图一:(a)在先前的视觉变形器[10]研究中,仅采用一个class token(红色方块)来聚合patch token(蓝色方块)的信息。所学到的与class token相关的patch注意力能够生成与class无关的位置映射。(b)对比而言,所提出的MCTformer通过使用多个class token来学习class token与patch token之间的相互作用。不同class token之间建立起来的类别到patch注意关系能够生成特定类别对象的位置映射

1.引言

从Transformer架构中提取类别的专注力特征是一项极具挑战性的研究课题。我们观察到,在现有基于Transformer架构的方法中存在共同局限性:它们均仅引入单个类别标记(category token)。这种设计缺陷使得在同一图像中精确识别不同物体变得更加困难。具体而言:第一种情况表明:单一类目标记的设计不可避免地引入了来自其他类目物体及其背景区域的信息(interference)。换句话说:由于模型仅关注单个类目标记(single category token),其在学习过程中同时捕获了类目特异性表示(category-specific)以及通用语义信息(background interference)。这种双重编码机制导致目标定位精度受限并混杂背景干扰(lower discrimination and noisy features)。第二种情况则揭示:模型在跨区域编码过程中仅引入单个类目标记(single category token),使其难以有效区分多种类别物体(multi-category discrimination)。因此无法实现对多种类别物体进行精确区分类别特异特征的目标定位性能(poor category-specific feature learning performance)

为了解决这些问题

值得注意的是,在训练过程中习得的pairwise attention机制作为一种副产品自然出现。这一机制无需额外计算即可被视为一种基于pairwise关系的表现形式。这种配对关系有助于进一步优化基于类别的transformer注意力架构,并显著提高定位性能。此外,在将该提出的transformer框架应用于pair tokens方面也取得了令人瞩目的成果——通过同时考虑类别token与pair token的不同表示形式来进行分类学习任务。这一做法不仅增强了两者的相似性度量能力,并且使他们各自生成的对象定位图表现出更强的区分度。

总结来说,我们的主要贡献有三点:

  1. 我们开发出一种基于类别特定的Transformer注意力模型用于弱监督语义分割。
  2. 我们开发出一个高效且创新的Transformer架构,并引入了一种新型多类别token Transformer(MCTformer)。通过结合类别感知训练策略以及不同类别的token间类到patch注意力机制的学习过程来生成具有类特定定位图的能力。
  3. 我们开发了一种基于patch-to-patch Transformer注意力机制的方法,在分析不同 patch之间的配对关系时实现了对目标分类信息的有效捕捉。该方法不仅提升了分类准确性还能与CAM机制协同工作以生成高质量的对象定位图

此方案旨在用于弱监督语义分割任务(WSSS),产出高精度的分类专用多标签定位图像,并在PASCAL VOC数据集上实现了71.6%均值交叠率,在MS COCO数据集上达到了42.0%均值交叠率的最佳性能水平。

2.相关工作

图二:本研究提出了一种多分类Token Transformer(MCTformer-V1)架构概述如下:首先将输入RGB图像分割后转换为一系列Token块;接着引入学习得到C个额外分类Token(其中C代表分类数目)。将这些分类Token与Token块序列进行结合配,并附加位置编码(Position Embeddings, PE),随后经过L层编码器处理;最终将各个层次各头计算出的关注特征进行平均池化操作计算各类别概率得分;接着整合自最后K层各头注意力特征构建全局关注分布图;最后从该分布图中分别提取出具有类别特异性的目标定位分布以及基于跨尺度关注关系的目标识别特征。

我们提出了一种新的基于transformer的框架(MCTformer-V1),该框架利用来自transformer注意力机制的类特定对象定位映射进行设计。MCTformer-V1的整体体系结构如图2所示。首先将输入RGB图像划分为不重叠的小块区域,并将其转换为一系列带有标记的小块。相比于传统transformer仅使用一个类token的情况,在建议中采用多个类token进行编码。在编码器中采用多个transformer块以提取patch tokens和class tokens. 的特征,并对最后一层输出class token应用平均池化以生成类别分数

在训练阶段, 为了确保不同类型的class token能够学习到各自特有的类别表示, 我们采用了第3.2节中详细阐述的类别感知训练策略. 分类损失则基于class token直接生成的概率分布与真实类别标签之间的对比进行计算. 这样一来, 就能在每个class token与其对应的类别标签之间建立稳定而牢固的关联关系. 在测试阶段, 我们能够在transformer架构中从class到patch的位置映射中提取出特定于当前类别的位置关注机制. 此外, 我们还通过聚合来自多层注意力头的学习结果, 以充分利用不同层次transformer模块中所获得的互补性信息. 同时, 我们还可以从patch到patch的关注关系中提取出配对间的亲和力信息, 进而细化到每个patch级别的类别关注机制. 这些基于类别的定位映射可被用作监督信号来辅助分割模型的学习过程.

3. Multi-class Token Transformer

3.2. Class-Specific Transformer Attention Learning

基于类的多标记注意力机制中定义了一种特殊的自注意力机制来处理多标签分类问题。具体而言,在输入序列经过归一化处理后(如图所示),我们通过线性变换得到Q,K,V三元组[10]。随后采用缩放点积注意力机制[37]计算各维度之间的关联权重,并对这些权重进行适当缩放以防止梯度爆炸问题。最终输出结果是对所有tokens进行加权求和的结果

其中我们能够推导出一个token到token之间的注意力权重矩阵At2t∈R(C+M)×(C+M),其中At2t=softmax(QKT/√D)

从全局成对注意力图At2t中提取了类对patch Ac2p∈R^C×M的关注关系.其中Ac2p = At2t[1:C,C+1:C+M]这一关系如图2所示.每一行代表特定类与其他所有补丁之间的关注得分情况.通过这些注意力向量结合所有补丁在原始空间中的位置信息即可生成与目标类别相关的定位热力图.基于此我们可以通过从每个转换器编码层中提取与类别相关的本地化映射来实现对象定位.考虑到更深的层能够学习到更加丰富的判别表征而较早的层则主要捕捉到了更为通用的基础视觉特征因此建议通过融合最后K个转换器编码层生成与类别相关的补丁关注权重以实现定位热力图精度与召回率之间的良好平衡这一过程的具体实现可参考以下公式

其中,在提出的mctform-v1架构中,A^{l}_{mct}是从第L个transformer编码层中提取出的具体针对某类的目标注意力特征。随后对融合后的m_{c t}沿着两个空间维度具体地应用最小-最大归一化方法进行处理以实现归一化操作从而获得最终的具体目标定位表示m_{c t} \in \mathbb{R}^{C \times N \times N}。有关如何选择超参数K的具体实验结果请参考图6中的详细分析

基于类的注意力细化问题在本研究中得到了特别关注。与以往文献[1,38,44]中常用成对亲和关系来细化目标定位图的细节不同,在本研究中我们采用了不同策略。具体而言,在所提出的MCTformer模型中通过提取patch-to-patch的关注矩阵Ap2p∈RM×M来实现这一目标。值得注意的是,在传统的做法中通常需要额外引入网络结构或增加计算层来学习配对亲和映射关系[57];而我们的方法则完全不同地实现了这一功能:即直接从patch-to-patch的关注机制Ap2p∈R N×N×N×N出发进行学习与优化操作[60]。具体而言,在传统的基于变换器模型的设计框架下我们进一步结合了这种新型注意力机制以提升特定类别的识别性能。

其中Amct ref∈R C×N×N是基于分片级别的配对亲和度实现进一步细分从而获得更为精确的对象定位结果同时提升了整体连贯性

我们需要保证不同类型的token能够获取各自特有的分类区分信息。为此,我们通过平均池化操作生成相应的类别分数

图3:概述MCTformer-V2。在MCTformer-V1架构中加入了CAM模块。具体而言, CAM模块由卷积层与全局平均池化层组成,它接收自最后一个transformer编码层的重构输出补丁标记作为输入,并生成类别分数.对于MCTformer-V1也同样采用了输出类令牌以生成类别分数.因此整个模型通过分别应用于两类不同的分类预测任务,并结合相应的分类损失进行优化.

在推理过程中, 我们结合了具有特定属性的transformer注意力机制(MCT注意)与PatchCAM映射技术. 通过从patch-to-patch transformer关注中提取出有效的patch亲和度特征, 进一步优化定位精度, 最终构建出精确的目标定位图.

全部评论 (0)

还没有任何评论哟~