CVPR 2023 中的半监督学习: FixMatch 的升级版 UniMatch
这篇论文提出了一种改进的半监督学习方法UniMatch,旨在通过统一图像和特征的扰动技术提升模型性能。UniMatch在FixMatch的基础上,引入了UniPerb和DusPerb两种扰动策略,分别从图像级和特征级增强数据,同时设计了双流扰动技术以充分利用图像级增强信息。实验结果表明,UniMatch在Cityscapes、COCO和Pascal VOC等数据集上显著优于现有方法,并在医学图像ACDC数据集上表现尤为突出。该方法通过增强扰动空间,有效提升了半监督学习的性能。
目录
- 引言部分
- UniMatch方法的概述
- 对FixMatch方法的回顾
- 对图像和特征的统一扰动
- 双路径的干扰
- 实验部分
- 总结部分
- 参考文献部分
前言
我们首先回顾了发表于NeurIPS 2020的FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence。FixMatch是一种更为简洁的半监督分类方法。如图所示,FixMatch首先利用带标签数据训练后的模型对弱增强的未标记图像进行预测,生成假标签。对于给定的图像,只有当模型对图像的预测具有较高置信度时,假标签才会被保留。接着,在输入其强增强版本时,模型被训练以预测假标签。

有趣的是,这样一个简单的流程在应用于分割场景时,已经达到了与近期最先进的方法相当的效果。值得注意的是,它的成功归因于人工设计的强数据增强方案。基于这一动机,本文提出了一种辅助特征扰动流,以扩展扰动空间的范围(特征级别)。同时,为了进一步探索原始图像级别的增强,提出了一种双流扰动方法,使两个强视图同时由同一个弱视图引导(相当于将 FixMatch 强增强分支的数量增加了)。
下面我们正式开始 UniMatch 的介绍。
UniMatch 概述
下图(a)展示了传统的FixMatch方法,其中 x^w 表示弱增强样本, x^S 代表强增强样本。UniMatch在此基础上进行了创新,通过将图像级扰动和特征级扰动以独立流的形式统一起来,实现了更为广泛的扰动空间探索。具体而言,UniMatch采用了双流扰动策略,不仅充分且系统性地探索了预定义的图像级扰动空间,还巧妙地利用对比学习的优势,提取出具有鉴别能力的特征表示。在下图(b)中, p^{f p} 表示特征级扰动模块,而 p^{s_1} 和 p^{s_2} 则分别代表双流图像级扰动的两个分支。

回顾 FixMatch
FixMatch 通过弱到强的一致性正则化方法,采用未标记数据。具体而言,该方法将每个未标记图像分别经过弱扰动和强扰动处理。在模型优化过程中,我们采用了有监督损失与无监督损失的结合策略。其中,无监督损失通过强扰动下的预测结果与弱扰动下的预测结果保持一致,从而引导模型进行有效的学习。无监督损失的计算公式如下:
\mathcal{L}_u=\frac{1}{B_u} \sum \mathbb{1}\left(\max \left(p^w\right) \geq \tau\right) \mathrm{H}\left(p^w, p^s\right)
在上述公式中,τ 代表预设的置信度阈值,用于过滤噪声标签,而 H 则用于最小化两个概率分布之间的差异。
p^w 和 p^s 的定义如下:
其中,p^w 表示在弱扰动下对输入x^u的变换后的预测结果,而p^s 则是在此基础上进一步施加强扰动后的预测结果。
教师模型在弱扰动图像上生成伪标签,而学生模型则利用强扰动图像进行优化。在UniMatch中,为了简化处理,假设 teacher模型 F^ 与 student模型 F 完全一致,这与 FixMatch 的共享 teacher 策略一致。
统一图像和特征的扰动
FixMatch 的优化仅限于图像层面。UniMatch 在 FixMatch 的基础上,在弱扰动图像 x^w 的特征层上引入了额外的扰动,如图(a)所示。该方法通过构建三个前馈流来实现扰动的一致性:最简单的流程为 x^w 经过函数 f 得到 p^w,图像级强扰动流程则为 x^S 经过函数 f 得到 p^s,而引入的特征扰动流程则为 x^w 经过函数 g 进入特征空间后再经过函数 h 得到 p^{f p}。通过这种方式,UniMatch 实现了在图像和特征层面的一致性扰动,最终形成了UniPerb这一概念。

图(a)中 FP 的定义如下:
\begin{aligned} e^w & =g\left(x^w\right) \\ p^{f p} & =h\left(\mathcal{P}\left(e^w\right)\right), \end{aligned}
其中,e^w 是 x^w 的提取特征,P 表示特征扰动,例如 dropout 或添加均匀噪声。无监督损失 Lu 的定义如下,和 FixMatch 最朴素的无监督损失对比,增加了 p^w 和 p^{f p} 两个概率分布之间的熵。
\mathcal{L}_u=\frac{1}{B_u} \sum \mathbb{1}\left(\max \left(p^w\right) \geq \tau\right)\left(\mathrm{H}\left(p^w, p^s\right)+\mathrm{H}\left(p^w, p^{f p}\right)\right)
双流扰动
双流扰动的图示(如上图b所示)通过两个图像级别的扰动实现,通过共同的弱视图保持两个强视图的一致性。表明该操作还可以看作是在这两个强视图之间强制一致。直观上,假设k_w是由x^w预测的类别权重,(q_{s_1}, q_{s_2})是图像(x^{s_1}, x^{s_2})的特征,那么在采用的交叉熵损失中,我们优化了q_j \cdot k_w与\sum_{i=0}^C q_j \cdot k_i的数值,其中j \in\{s_1, s_2\},k_i是类别i的分类器权重。因此,我们也在优化q_{s_1}和q_{s_2}之间的相似性。看起来满足InfoNCE损失:
\mathcal{L}_{s_1 \leftrightarrow s_2}=-\log \frac{\exp \left(q_{s_1} \cdot q_{s_2}\right)}{\sum_{i=0}^C \exp \left(q_j \cdot k_i\right)}, \text{ 使得 } j \in\{s_1, s_2\}
其中q_{s_1}和q_{s_2}是正样本对,而除了k_w以外的所有其他分类器权重都是负样本。因此,它与对比学习方法具有相似性,能够学习出具有区分性的表示。在文章中,这个步骤被称为DusPerb。
在未标注图像数据的处理场景下,本研究致力于构建一个高效的数据处理框架,该框架整合了UniPerb和DusPerb两种核心技术方案。通过UniMatch这一创新方法,将两种技术有机融合,其总损失函数如下表达式:
实验
作者不仅在自然图像上进行了半监督学习的测试,还在医学图像和遥感图像领域进行了实验验证。实验结果表明,下表展示了Cityscapes数据集上的对比分析,并分别测试了两种backbone架构,在1/16分辨率的数据集上,UniMatch取得了显著的提升效果。

COCO 数据集上的结果如下表:

在Pascal VOC数据集上,实验结果如表所示。对比实验中,FixMatch方法在92张测试图像上的性能提升显著,平均性能指标提升超过10%。

实验结果表格展示了基于医学图像 ACDC 数据集的实验结果,与现有半监督方法相比,UniMatch 仅在单个病例上就实现了显著的性能提升。

总结
该研究深入探讨了 FixMatch 在半监督语义分割中的作用,并发现通过引入适当的图像级强扰动,经典的 FixMatch 方法在性能上显著提升,超越了现有半监督分割方法。在此基础上,文章在扰动方法上进行了进一步的强化,通过统一图像级和特征级扰动,并设计了双流扰动技术,充分挖掘图像级扰动的价值。这两个关键组件显著提升了 baseline 的性能,最终的 UniMatch 方法在各类场景中均展现出良好的效果。从实现思路来看,该方法还可以进一步优化知识蒸馏过程。
