Knowledge Transfer with Simulated Inter-ImageErasing for Weakly Supervised SemanticSegmentation
源代码与模型可获取于https://github.com/NUST-Machine-Intelligence-Laboratory/KTSE
摘要
尽管对抗擦除技术在弱监督语义分割领域中非常常见,并有助于激活完整的目标区域。然而,在实际应用中很难确定擦除过程何时应停止。这些现有方法仍面临激活不充分以及过度扩展的问题。在本文中,我们提出了一种基于模拟图像间擦除机制(KTSE)的弱监督语义分割方法旨在解决这些问题。与现有的基于擦除的方法不同,“我们将注意力集中在如何通过引入额外的目标信息来减弱原始区域的激活程度。“随后,在定位图中的后续阶段使用这些锚点信息来进行知识转移。“值得注意的是,在缺乏适当的约束条件下,“这种双向对齐机制同样可能导致锚点图像的激活能力下降。“为了维持判别区域内的可靠激活状态并提升模型性能,“在此过程中我们引入了一种自监督正则化机制。“通过实验结果表明,“在PASCAL VOC 2012和COCO数据集上进行的一系列测试以及细致的数据对比分析显示,“我们的方法能够显著提高目标检测性能。”

图一:(a)传统对抗性擦除方法往往面临难以控制的过度扩张问题。(b)与现有的信息去除策略不同地,在配对图像中融入额外的对象知识以减弱当前对象的激活程度。随后通过学习锚点分支的目标知识来改进随后较少激活的注意图,并通过这一改进过程来增强网络的定位能力。(C)实验结果对比分析

图二:我们构建了一个模拟图像间消除(SIE)模型。该模型通过从配对图像中提取额外的目标信息,并结合锚点图像中的物体知识进行弱激活定位图优化,在此基础上设计了自监督正则化(SSR)组件以避免双准对齐对锚点激活的影响。此外,在增强网络目标定位性能的同时,我们还设计了一个多粒度对齐(multi-granularity alignment, MGA)组件以有选择性地扩展目标激活范围,并促进跨尺度目标知识的有效迁移。
3.方法
在本文中, 我们提出了一种基于模拟图像擦除机制的知识转移框架用于弱监督语义分割任务. 该框架旨在缓解现有对抗性擦除方法中存在的过度扩展及激活不足的问题. 如图2所示, 该框架由锚分支模块与目标分支模块组成. 在锚分支中, 我们通过使用图像级弱标签对分类网络进行训练, 该网络由骨干特征提取器与池化分类头两部分构成. 相较于现有对抗性擦除方法, 如图2左上角所示, 我们采用模拟图像间擦除的场景构建方式, 将配对图像间的额外对象信息引入到目标知识转移过程中. 具体而言, 我们将锚点图像中的目标知识转移到随后被激活程度较低的目标定位图中, 从而增强网络的目标定位能力. 此外, 为避免因双向对齐导致的锚点激活削弱问题, 我们还设计了一种自监督正则化模块. 此外, 为促进多粒度特征间的知识传递过程, 我们提出了一个多粒度对齐模块以温和的方式扩大目标的激活范围
3.1 CAM Generation
在分类网络体系结构方面,在参考先前基于擦除的工作ACoL[69]的基础上,并非直接移除了全连接层而是进行了相应的调整与优化

为了提取图像的空间信息以提升CAM性能[67]作为最终池头选择门控金字塔池(Gated Pyramid Pooling, GPP)层。基于池化头计算出分类向量q^c后通过对具有多标签软边界损失函数进行优化训练以改进分类网络的效果

3.2模拟图像间擦除
由于基于CAM激活的稀疏特性,在对抗性擦除方法中通常会通过保持对被屏蔽图像或特征的分类置信度来扩大目标激活效果;其中最具代表性的区域被成功排除以增强区分度。然而,在缺乏明确指导原则的情况下这些方法可能会导致过度擦除从而产生负面影响;因此我们提出了一种基于模拟图像间擦除的知识转移框架用于弱监督语义分割以解决上述问题
与现有的基于擦除的方法不同

这里分别代表锚点分支与模拟分支的类激活图(CAM)特征。用于提取与图像中相关类别特征的类特征提取器CFE,在处理过程中通过ReLU操作则重点关注那些更具显著性的目标区域。值得注意的是,在拼接图像时,并未对图片进行旋转或尺寸调整。仅引入了配对图像中的额外目标信息,并通过控制其他变量来实现对该区域激活的抑制。当锚点分支能够有效地识别出目标时,则说明模拟跨图像擦除的知识迁移可以避免导致过度扩展的问题。此外受益于双向对齐机制,在训练过程中锚点分支不仅能够从模拟分支中学习到增强的目标表示能力,并且能够在一定程度上帮助生成更加紧凑的关注图分布模式从而有效缓解定位过程中出现的小目标过扩现象尤其是在多目标场景下表现尤为突出
3.3 Self-Supervised Regularization
我们的模拟图像间擦除旨在通过在给定额外的鉴别目标信息的情况下保持网络的高激活来提高网络的目标定位能力。然而,所采用的知识转移是双向的,在从模拟分支的稀疏激活中学习时,也会削弱锚定分支对象的挖掘。由于简单地切断锚点分支的梯度传播会使训练不稳定,我们提出了锚点CAM特征的自监督正则化模块,以保持其在判别区域的可靠激活。具体而言,利用生成的CAM特征Fa和相应的CAM Aa,我们首先利用两个阈值βh = 0.3和βl = 0.15来定位可信的前景和背景,如下所示(为简单起见,省略下标a):

其中255代表不确定区域的忽略标签;argmax函数提取出最大激活值对应的语义类别;通过应用像素自适应细化模块[47]处理伪标签

对细节部分进行优化后,在此基础上我们将该方法作为监督信号用于学习对应的交叉熵损失(坐标i, j省略)

Γ(·)为softmax函数。我们还利用锚分支生成的伪标签

用于指导具有相同交叉熵损失的模拟CAM特征的学习过程。然而我们发现提取出的前景标签往往较为模糊,并且这种模糊现象尤其存在于针对包含多个类别物体的复杂图像而言,在类间边界处存在模糊现象。为此我们将仅包含单一类别对象的图像定义为简单图像而将包含两个及以上类别对象的图像定义为复杂图像

= 0.0125的比例来忽略前景标签的影响。
此外,
如图2右侧所示,
我们设计了一个类间损失机制,在复杂图像中多个前景类别之间实现了激活一致性。
具体而言,
该方法如下:

其中Mf代表阈值β₀=0.2所得的前景掩模。其中符号|·|用于计算其L1范数的结果。而V_max和V_2nd分别代表CAM特征Fa沿通道方向的最大激活值及其位置。进而可得

Eq.(6)增强了每个像素在类激活中的排他性,从而更精确地界定了前景对象之间的边界.我们提出了一种自监督正则化模块,通过将图像根据复杂程度进行区分处理,其目的是确保主分支能够稳定地保持激活状态,从而避免因不准确的伪标签而导致类间边界受损.
3.4多粒度对齐
该自监督正则化机制显著地限制了和促进了模拟图像间擦除模块中知识迁移的过程。然而,在锚点CAM中存在欠激活的问题,这严重影响了网络目标定位能力
因此,自然会采用传统的图像内擦除,其目的是扩大目标区域。在AEFT[67]之后,我们利用0.6的阈值来掩盖最具歧视性的区域。为了避免引入过多的背景噪声,我们提出了一个多粒度对齐模块来温和地扩展对象激活,从而促进被擦除图像的CAM扩展,然后将学习到的对象知识转移回锚点分支。如图2底部所示,我们首先将锚点特征Fa和掩蔽特征Fm输入到类特征提取模块中,得到已有目标类别(

和

基于AEFT[67]的研究结果表明,在对抗性擦除过程中,对被屏蔽分支实施刚性分类监督的方式可能导致过度膨胀的问题。为了应对这一挑战,在当前研究中我们提出了一种创新性的解决方案:通过将锚定点分支引导至被屏蔽分支,并结合软类别置信度进行优化。具体而言,在此过程中我们采用了全局平均池(GAP)操作以获取每个子网络的最终类别置信度及图像级全局一致性损失指标。

Fa和CFE已在公式(3)中明确定义。与刚性分类监督方法的不同之处在于,在于得益于类特征提取这一技术手段的作用下,在这种情况下我们所关注的是图像中存在的类别及其logit置信度这一要素,并由此实现了高效而有效的梯度传播路径。相比之下,在使用GPP层所构建的嵌入空间作为损失函数的情况下提出的AEFT[67]方法存在显著差异,在于该方法无法直接通过对齐CAM(类别感受野)特征来获得较为有潜力的表现效果。基于从锚点分支学习所获得的关键信息基础之上,则进一步通过对接像素级别局部激活进行对齐处理来转移擦除图像中新识别出的对象信息这一操作机制来进行锚点分支学习

这种像素级别的局部配准还可以通过分析锚定点分支低活跃区来抑制不必要的背景区域激活。多粒度配准模块借助于适度受限的激活放大效应,在一定程度上提升了模拟图像间的擦除效果表现。如图2所示,在方法实现过程中我们采用了对称设计策略,在保证系统稳定性的基础上实现了两种分支功能的有效结合:一种负责扩展锚点图像的空间范围另一种则承担着约束其活动范围的作用。两者的协同作用不仅提升了配准精度还显著提高了收敛速度。
3.5 Training Objective
总的培训损失如下:

我们经验地设置λinter = 0.005作为控制类间损失权重的超参数。
