DuPL: Dual Student with Trustworthy Progressive Learning for Robust WSSS
摘要
近年来,在图像级标签的单阶段弱监督语义分割(WSSS)领域取得了显著进展。该方法因其省去了繁琐的多阶段分割过程而受到了广泛关注。然而,在这一过程中也暴露出一些局限性:由于类激活图(Class Activation Map, CAM)固有的模糊特性,在识别错误 CAM 伪标签时往往出现偏差。为此我们需要一种更加可靠的监督机制以弥补这一缺陷。为此我们提出了一种双学生框架 DuPL(Trustable Asymptotic Learning),这种框架通过引入可信任的学习策略实现了渐进式的监督。具体而言我们设计了一种差异损失函数以使两个子网能够生成不同的 CAM 图像这两个子网之间相互监督从而有效地缓解了因学习自身不正确 CAM 伪标签所带来的偏差问题。在此过程中我们采用动态阈值调节和自适应噪声滤波策略逐步引入更多可信度较高的 CAM 伪标签参与训练同时对那些被丢弃但仍然重要的像素点我们也给予充分的关注通过一致性正则化措施为每个像素建立独立的监督关系。此外我们认为即使某些像素因为不可靠而被丢弃其重要性也不容忽视因此我们在整个监督过程中特别针对这些区域实施了一致性约束以确保它们不会被忽视实验结果表明在 Pascal VOC 2012 和 MS COCO 数据集上与近期最先进的替代方案相比我们的 DuPL 方法展示了显著的优势
Code is available at https://github.com/Wu0409/DuPL .

图一展示了在 PASCAL VOC 2012 数据集上进行 CAM 假设(train)以及对应的分割性能指标(val)。通过实验结果可以看出,在 PASCAL VOC 2012 数据集上进行 CAM 假设任务时所采用的方法 DuPL 在准确率方面表现优异,并且其在 CAM 假设任务上的准确率不仅显著优于现有的单阶段对比方法,在最终的分割精度上与其所对应的多阶段对比方案相媲美。脚注†表明该研究采用了 ImageNet-21k 的预训练参数作为基础模型进行构建。
1.引言
基于主干特征共享机制用于分割头与CAM生成的过程中存在不合理之处
针对上述局限性,在此基础上本研究提出了一种基于可信渐进学习的双学生架构 DuPL(Dual Progressive Learning)。参考协同学习 [35] 的模式,在这种架构中我们对两个相互促进的学习子网络分别进行了优化设计。各子网络从不同视角推导出对应的 CAM(Visual Attention Map),并通过跨视图知识迁移进一步提升学习效果。为了防止各子网络间的同质化现象(即出现相似甚至相同的 CAM 表示),我们引入了表示水平上的差异约束机制以防止同质化现象的发生。在此过程中始终关注着因各子网络自身的伪标签错误导致的验证偏差问题(validation bias)的有效规避,并通过动态阈值策略有效地包含更多的分割像素到监督关系中来提高分割质量。为了应对 CAM 中存在的生成伪标签所带来的噪声干扰问题(noise interference),我们采用了一种基于高斯混合模型的自适应噪声滤波方法来减少其影响程度的同时尽量保留高质量信息内容。最后,在那些由于生成过程不可靠而被排除在监督之外的关键区域中我们采用了额外的强扰动分支并对其实施一致性正则化处理以保证整体系统的鲁棒性和稳定性
- 我们深入研究了单阶段 WSSS 中的 CAM 确认偏差,并针对这一问题构建了一种双重学生架构。
我们的实验证明该方法显著降低了过度激活率的有效性,并显著提升了 CAM 伪标签的质量。 - 我们开发了一种自适应噪声滤波的渐进式学习策略,
该方法能够促进像素级监督质量提升,
特别是处理带有过滤伪标签区域时,
通过一致性正则化进行充分训练,
从而充分发挥了伪监督的重要性。 - 在 PASCAL VOC 和 MS COCO 数据集上的实验结果显示,
DuPL 方法不仅超越了现有的单阶段 WSSS 竞争对手,
其性能表现也与多阶段解决方案相当(图 1)。
通过可视化分割结果可以看出,
DuPL 显示出更好的分割鲁棒性,
这得益于其创新性的双重学生架构和值得信任的渐进式学习策略。

图二展示了CAM验证中的确认偏差情况。随着训练过程的推进,在分割性能上会出现显著影响,在这里我们采用了vitb[12]作为基础模型,并通过引入更多的不可靠人工标注数据来进一步放大这一问题。
2.相关工作
单阶段弱监督 semantic segmentation 研究已逐渐成为当前研究热点之一。考虑到多阶段解涉及复杂的机制[1,2],近期的研究主要聚焦于单阶段解这一方向[3,39,40,44]。一种常见的单阶段方法是通过生成类别激活映射(CAM)并结合在线细化模块来生成伪标签[3]。这些伪标签随后被直接应用于分割头作为监督信号。值得注意的是,在现有工作中普遍采用的方法是设定一个较高的阈值来筛选可靠的伪标签以保证监督质量。然而我们发现这可能过于保守限制了模型的学习潜力。
相反我们提出了一种渐进式学习策略充分挖掘每个伪标签的价值。
认知偏差(Confirmation Bias)常出现在半监督学习(SSL)中的自我训练机制中[21]。在这个过程中,模型过度拟合了分配错误伪标签给未标记图像的任务。这些强化的信息导致了训练过程出现不稳定性[4]。通过共同训练的方法,该问题得到了有效的解决[35]。采用两个子网进行相互监督学习能够同时提高预测的稳定性和准确性并有效降低认知偏差[8,33]。据我们了解,DuPL首次在单阶段WSSS框架下研究了CAM上的认知偏差问题。
WSSS框架中的噪声标签学习方案。除了采用更为先进的CAM伪标签生成技术外,在当前研究领域中近期工作致力于通过现有伪标签训练出鲁棒分割模型[10,27,31]。其中,URN[27]提出了一种基于不同视图之间像素方差估计不确定性来筛选噪声样本的方法。而ADELE[31]则借鉴了早期学习与记忆机制[30]的思想,在早期阶段通过先验输出动态调整噪声样本的选择策略。与现有方法依赖于已有 CAM 伪标签这一前提不同的是,在一期法中采用动态更新机制以缓解渐进式训练中累积的噪声伪标签问题。为此我们提出了一种基于分割头损失反馈机制的在线自适应去噪策略
3. Method
3.1. Preliminary
为了便于理解CAM的工作原理及其伪标签的生成机制[46],我们首先回顾以下步骤:对于输入图像I∈R{H×W×C}(其中H、W、C分别代表高度、宽度和通道数),特征图F∈R{D×H×W}通过主干网络提取。随后,在经过全局平均池化层和平流池化层后得到类别概率分布向量p∈RC。在此过程中,我们可以获取每一类对应的权重矩阵W_k∈R{D}(k=1,...,C),并利用这些权重矩阵对特征图进行加权求和从而得到CAM映射矩阵M∈R^{H×W}。

其中c代表第c个类别;ReLU被设计为消除负激活。最后我们将输入张量M∈R^C×H×W通过最大最小归一化处理后缩放到[0,1]区间。为了生成CAM伪标签;单阶段WSSS方法通常使用两个背景阈值τl和τh来分离背景(M≤τl)、不确定区域(τl < M < τh)与前景(M≥τh)[39,40]。这些未确定的区域则被视作噪声不可靠的区域,并不参与分割头的监督过程。
3.2. Dual Student Framework
为了解决CAM中的确认偏差问题,我们开发了一个基于联合训练的双学生网络系统。该系统包含两个子网络(即ψ₁和ψ₂),它们具有相同的架构设计,并且各自的参数分别进行更新而不共享。如图3所示,在第i个子网络中,该模块由一个主干网络

,一个分类器

,和一个分割头

。为确保两个子网络在CAMs中激活更多不同的区域,我们强制它们从

中提取的在具有充足的丰富性下能够避免两个子网络出现同质化现象,并且使得一个子网能够从另一个网获取知识以降低CAM中的识别偏差。因此我们设置了差异性约束来最小化两者的余弦相似度。正式地将输入图像表示为X 子网1 的特征表示为f1 =

(X)和f2 =

(X),我们通过以下方式最小化它们的相似度:

其中∥·∥2为l2归一化。根据[7,14],我们将对称差异损失定义为:

在本研究中采用该方法进行实验分析,并通过∆表示停止梯度操作以防止 model collapse;该种损失是针对每个 image 计算而来,并且总体 loss 是所有 images 的平均值
Dis损失的基本概念在于缩减模型输出与预期输出之间的差距。这种差距可以表现为空间中的距离、分布间的相似程度或其他度量形式。
双生分割监督具有双向性。其中一个是通过从M₁推导至ψ₂的方式实现的;另一个则是通过从M₂推导至ψ₁的方式实现的。其中,M₁和M₂分别源自于子网络ψ₁和ψ₂中的特征映射注意力机制(CAM)。通过使用来自M₁生成的CAM伪标签Y₁来监督另一子网上的分割头

的预测映射P2,反之亦然。我们的框架的分割损失计算为:

其中CE为标准交叉熵损失函数。

图三:DuPL的总体框架。通过差异损失Ldis约束两个子网络以生成不同的CAM。他们的CAM伪标签用于分割交叉监督Lseg的过程,并减轻了CAM确认偏差。在这个过程中我们引入了一个动态阈值逐步引入更多的像素进行分割监督。自适应噪声滤波策略通过最小化伪标签中的噪声来实现分割损失分布的优化为了利用每个像素我们将过滤后的区域与其扰动区域的一致性实现了统一化的正则化Lreg分类器被简化以便清晰地展示其功能和运作机制
3.3. Trustworthy Progressive Learning
动态阈值调节机制。如第 3.1 节所述,在单阶段方法 [39, 40, 44] 中设定背景阈值 τl 和 τh 用于生成伪标签,并规定其中 τh 常被设定为极大值以确保仅能利用可靠前景伪标签进行监督;与双学生框架相比,在单阶段训练中CAM表现更为稳定。基于这一观察,在每次迭代过程中我们采用余弦衰减策略动态调节背景阈值 τh:首先根据当前迭代次数计算出余弦衰减因子,并在此基础上更新 τh 的取值范围。

其中 t 是当前迭代次数,T 是训练迭代的总数。
背景阈值 τ_h 在训练过程中的调节旨在平衡模型的训练效率与最终分割质量之间的关系。在初始阶段, 通过设定一个较高的阈值来保证仅选取高度可靠的像素作为训练数据, 这一策略能够有效促进模型掌握正确的分割边界。随着模型对数据的理解逐步加深, 可以通过降低阈值来引入更多像素点, 包括那些较为模糊不清的区域, 这一措施能够进一步帮助模型提炼出更加精细的分割细节。Adaptive Noise Filtering
Adaptive Noise Filtering: 我们研发了一种自适应噪声过滤策略, 旨在达成可信的渐进学习. 已有研究表明, 深度网络倾向于比噪声标签更快地拟合干净标签[5, 15, 37]. 这意味着在模型过度拟合噪声标签之前, 具有较小损失的样本更有可能被视为干净的标签. 简单的想法是依据它们的训练损失使用一个预定义的阈值来区分干净与噪声伪标签. 然而, 这种方法不仅忽视了不同样本之间的损失差异性, 并且在同一类别内部的不同样本之间也存在差异.
- 该策略旨在动态识别并筛选出可能影响模型性能的噪声标签。
- 该观察指出,在模型训练过程中,干净标签通常比噪声标签更容易被模型学习到。
- 基于此观察结果的研究者提出了一种方法:通过比较样本损失来区分干净与噪声标签。
- 仅采用固定阈值来划分可能存在问题。
- 由于不同样本的损失分布可能存在显著差异性,并且同一类别内的样本也可能如此。
- 因此需要一种更细致的方法来考虑每个样本的具体情况而非简单应用全局阈值。
为此

其中N(μ,σ²)表示一个高斯分布;它们分别对应于两个分量的权重、均值与方差。具体而言,在损失值较高的分量中存在更高的概率质量归因于噪声特征的存在;基于期望最大化算法[25]的应用,则可以推断出对应的噪声概率密度函数。

,这相当于P(noise|

,μn,(σn)^2)的后验概率。如果

当参数γ确定时,则相应的像素将被视为噪声。请注意,并非所有伪标签Y都由噪声构成;这可能导致损失分布在视觉上不具备两个明显的高斯分量。为此我们计算了μ_c与μ_n之间的距离;若(μn−μc) ≤ η(其中η是一个预先设定的阈值),则认为所有的像素都是干净的 pseudo-labels;最后我们将这些具有低置信度的 noise-pseudo-labels定义为 noise-pseudo-labels集合

并且这些标签不参与分割监督机制。在 DuPL 方法中,每个子网络的伪标签均采用自适应噪声过滤策略进行处理。
每一个像素都承担着不可或缺的角色。
在单阶段权重蒸馏方法(WSSS)中,默认策略是通过丢弃可能包含噪声的不可靠伪标签来保证分割或其他辅助监督的质量[39, 40, 44]。
值得注意的是,在分割训练过程中逐渐引入更多像素的过程中,
由于CAM存在语义模糊性,
仍会有大量不具判别性的伪标签被丢弃。
这些不可靠区域通常集中于非判别区域、边界以及背景区域等地方。
这种做法可能导致分割分支在这些区域缺乏足够的监督信号。
为了应对这一挑战,在无法直接获得不可靠伪标签的情况下

,然后将其发送到子网,得到

的分割预测

基于 φ 的伪标签 φ′(Yi),其生成过程遵循与监督相同的仿射变换规则;每个子网引入的一致性正则化机制公式如下:

在公式中,Mi表示第i个子网络中被标记为不可靠的滤波像素。通过使用掩码将这些像素筛选出来后,在这些位置上保留对应的特征响应(即设掩码值为1),而其余位置设为0。对于采用双 Student 框架的设计方案而言,在整个训练过程中需要综合考虑两个 Student 的输出结果。具体而言,在每张图像上都会分别计算两个 Student 的损失项,并将这两个独立的目标函数进行加权求和得到整体目标函数:Lreg = Lreg_1 + λLreg_2(其中λ是一个调节权重系数)。整个训练过程的目标是最小化这个整体目标函数值,并将其作为优化问题中的唯一目标函数进行迭代求解。
3.4. Training objective of DuPL
如图3所示,DuPL由四个训练目标构成,即分类损失Lcls,差异损失Ldis,分割损失Lseg和一致性正则化损失Lreg.为了参考WSSS中惯用的做法,我们采用了多标签软边距损失进行分类.DuPL的整体优化目标为上述各项损失之线性组合:

其中 λi 是重新缩放损失项的权重。

图四展示了带噪声伪标签的图像损失分布情况。模型将植物错误地标记为伪标签。观察发现,在两个不同的伪标签位置上出现了两个明显的损失值高峰,在其中异常高的红色损失峰主要源于噪声因素的影响。通过归一化处理使正常化的平均值与标准差得到平衡
4. Experiments
4.1. Experimental Settings
遵循常见做法采用SBD数据集[16]对其进行扩展。各数据集中训练集、验证集和测试集分别包含不同数量的图像:训练集为10582张、验证集为1449张以及测试集为1456张。经过官方进化服务器上的测试性能检验。包括82,000张图像作为训练数据以及40,000张图像作为验证数据。结果显示用于性能评估的平均Intersection-overUnion (mIoU)值
我们采用的网络架构基于 DuPL 框架,并结合轻量级设计优化了 ViT-B 模型结构
基于给定的算法框架设计中
在 VOC 2012 数据集上的实验中,在线学习算法通过使用多层感知机作为特征提取器并结合卷积神经网络构建视觉模型的过程中表现出良好的收敛性。该算法通过逐步减少学习率的方式实现了模型参数的有效优化,并在此过程中取得了令人满意的分类准确率结果。
4.2. Experimental Results
开始编写这么多内容时遇到了一些挑战。在验证阶段遇到了与数据加载器相关的问题,在处理过程中始终无法正确初始化。由于数据集的问题导致了后续开发遇到困难。
