MIC: Masked Image Consistency for Context-Enhanced Domain Adaptation 阅读笔记
这篇论文提出了一种名为Masked Image Consistency (MIC)的模块,用于增强上下文关系学习以提升无监督域自适应(UDA)方法的性能。传统的UDA方法在目标域上难以有效学习上下文关系,因为它们依赖于局部外观特征,而忽视了目标域中相似但不同类别的对象的上下文差异。MIC模块通过随机遮挡目标图像的补丁,并要求模型预测遮挡区域的标签,从而利用上下文信息来推断标签。实验结果表明,MIC显著提高了在目标域上的性能,特别是在语义分割、目标检测和图像分类任务中。例如,在GTA→Cityscapes的语义分割任务中,MIC提高了75.9%的mIoU,比之前的最佳方法提高了4.3个百分点。MIC模块可以与各种现有的UDA方法结合使用,如DAFormer、DeepLabV2和Faster R-CNN。
论文地址:
Masked Image的自洽性在基于上下文增强的域适应中被提出,该方法通过引入特定的掩膜机制,有效提升了模型在不同域之间的适应能力。该研究在CVPR 2023会议上发表,其创新点在于结合了图像一致性约束与上下文增强技术,为解决跨域学习问题提供了新的思路。
MIC:用于上下文增强域自适应的掩膜图像一致性
摘要
1. 介绍
为了训练最先进的神经网络以执行视觉识别任务,高质量标注数据集的构建是必要的。然而,标注过程不仅耗时,而且繁琐费力。例如,对单个图像进行语义分割的标注通常需要约一个半小时[11,77]。因此,现有标注数据集或模拟生成的数据集具有较高的实用性,因为它们在标注效率上更具优势。然而,基于这些数据集训练的网络模型在实际目标数据集上的表现通常不理想,因为神经网络模型对跨域分布的敏感性较强。为了缓解这一问题,无监督域自适应(UDA) 方法通过利用未标注的目标图像来促进网络在目标域上的适应性,例如,采用对抗性训练[22,29,66,84]或自训练[32,33,83,90,110]等技术手段。

图1所示。(a)传统的UDA方法,如HRDA[33],在未标注的目标域中与类似的类别进行了竞争。在这里,人行道的内部被错误地分割为道路,可能是由于当地的模糊外观。(b)提出了掩膜图像一致性(MIC),该方法通过强化上下文关系的学习,考虑了更多的上下文线索,例如前景中的路边。通过MIC,调整后的网络能够正确地分割人行道。(c) MIC可以整合到大多数现有的UDA方法中。该方法通过增强被屏蔽目标图像的预测与原始图像伪标签的一致性,提升了网络的性能。进一步的细节如图3所示。
在过去几年中,UDA方法取得了显著进展。然而,与监督训练相比,仍然存在明显的性能差距。一个常见的问题是,在目标领域(如道路/人行道或行人/骑手)上具有相似视觉外观的类会混淆 ,因为没有可用于学习的地面真相监督轻微的外观差异。例如,图1中人行道的内部被分割为道路,可能是由于相似的局部外观。为了解决这个问题,我们建议使用空间上下文关系作为鲁棒视觉识别的额外线索来增强UDA。 例如,尽管纹理模糊,但图1a中前景的路缘可能是正确识别人行道的关键背景线索。尽管所使用的网络架构已经具备了对上下文关系建模的能力,但是以前的UDA方法仍然不能充分发挥在目标域上使用上下文依赖的潜力,因为所使用的无监督目标损失不够强大,无法有效地学习这些信息。因此,我们设计了一种方法来明确地鼓励网络在UDA期间学习目标领域的全面上下文关系。特别是,我们提出了一种新的用于UDA的掩膜图像一致性(MIC)插件(见图1c),它可以应用于各种视觉识别任务。MIC以语义分割为例,对随机选择的目标图像补丁进行掩码,训练网络预测包括被掩码部分在内的整个图像的语义分割结果。 这样,网络就必须利用上下文来推断被屏蔽区域的语义。由于没有目标域的真实标签,我们使用伪标签,由EMA老师生成,使用原始的未屏蔽的目标图像作为输入。因此,教师可以同时利用语境和局部线索来生成鲁棒的伪标签。在训练过程中,物体的不同部分被掩盖,使网络学习利用不同的上下文线索,进一步提高了鲁棒性。使用MIC进行UDA后,网络能够更好地利用上下文线索,并成功地正确分割依赖上下文线索的困难区域 ,如图1b中的人行道。据我们所知,MIC是第一种利用蒙面图像来促进目标域上上下文关系学习的UDA方法。由于其通用性和简单性,MIC可以直接集成到不同视觉识别任务的各种UDA方法中,具有很高的实践价值。MIC对于不同的UDA方法(包括对抗训练、熵最小化和自我训练)在多个视觉识别任务(图像分类、语义分割和目标检测)上实现了显著和一致的性能改进,这些任务具有不同的域间隙(合成到真实、清晰到恶劣天气、白天到晚上)和不同的网络架构(cnn和Transformer)。它在所有测试基准上设置了新的最先进的性能,比以前的方法有了显着改进,如图2所示。例如,MIC在GTA上分别将最先进的性能提高了+2.1、+4.3和+3.0个百分点→城市景观(CS),CS→DarkZurich和VisDA-2017,分别实现了75.9mIoU、60.2mIoU和92.8%的前所未有的UDA性能。

图2展示了MIC在多种UDA基准下的多种识别任务类别中明显超越当前最先进的UDA方法。详细结果可在第4节中找到。
2. 相关工作
2.1. 无监督域自适应(UDA)
在UDA中,在标记的源域上训练的模型适应于未标记的目标域。由于域间隙的普遍存在,UDA方法被设计用于所有主要的计算机视觉问题,包括图像分类[20,55,56,64],语义分割[30,32,84,102]和目标检测[7,8,49,52]。大多数方法依赖于差异最小化、对抗性训练或自我训练。 第一组使用统计距离函数最小化域之间的差异,如最大平均差异[26,55,58],相关对齐[79,80]或熵最小化[25,57,87]。在对抗训练中,学习到的域鉴别器在GAN框架中提供监督[24],以鼓励域不变的输入[23,29]、特征[20,30,56,84]或输出[60,71,84,87]。在自我训练中,基于使用置信度阈值[62,104,110]或伪标签原型[64,102,103]获得的预测,为目标域生成伪标签[44]。为了提高自训练的鲁棒性,一致性正则化[72,78,82]经常被用于确保不同数据增强[1,9,19,63]、不同作物[33,42]、多个模型[101,106,107]或domain-mixup[32 - 34,83,108]之间的一致性。进一步的UDA策略利用借口任务[6,34,88,90],遵循适应课程[12,13,105],利用变形器增强的领域鲁棒性[32,33,81,98],用对比学习对齐领域[36,94],使用图匹配[4,48,49],或适应多分辨率输入[33]。为了便于学习领域鲁棒上下文依赖关系,几种UDA方法提出了网络组件这可以捕获上下文,如空间注意金字塔[46]、跨域注意[99]或上下文感知特征融合[32]。虽然这些网络模块提供了捕获上下文的能力,但目标域上的无监督损失并不能提供足够的监督来学习所有相关的目标上下文关系。 为了改进上下文学习,CrDA[37]将局部上下文关系与对抗训练对齐,HRDA[33]使用多作物一致性训练。然而,这些机制不能捕捉所有相关的上下文线索,如图1a所示的HRDA。由于随机补丁掩蔽,MIC能够学习更大的不同上下文线索集以实现鲁棒识别。
2.2. Masked Image Modeling 蒙面图像建模
在自然语言处理领域,预测屏蔽输入序列的保留标记被证实为一种高效的自监督预训练任务[3,15]。最近,这一概念成功地被移植到计算机视觉领域,被命名为蒙面图像建模。对于部分被遮挡的图像,网络被训练以重建被遮挡区域的属性,如VAE特征[2,16,50]、HOG特征[91]或颜色信息[27,96]。在采样掩膜方面,研究者尝试了块掩膜[2]、随机补丁掩膜[27,96]以及注意引导掩膜[41,53]。与以往的研究不同,我们采用的是蒙面图像。MIC的目标并非在于学习自监督表示,而是通过一种创新的方式利用掩膜图像来学习上下文关系以实现领域适应。 由于这一概念上的差异,我们无需依赖VAE特征等辅助手段来恢复目标,而可以在与语义分割等相关的计算机视觉任务的实际预测空间中进行重建。据我们所知,MIC是首个利用掩膜图像来增强UDA上下文学习的方法。特别地,在第4.3节中,我们表明,基于ImageNet的朴素掩膜图像建模无法提升目标域的性能。

图3。具有拟议的掩膜图像一致性(MIC)的UDA方法。在UDA框架中,网络主要通过源域图像(蓝色)上的监督损失和目标域图像(绿色)上的无监督自适应损失进行训练。MIC通过增强目标域掩膜图像(紫色)与伪标签之间的一致性,使得伪标签能够更准确地反映目标域的特征。为了最小化MIC损失,网络必须通过被掩盖区域的上下文信息来推断其预测结果。
3. 方法
3.1. Unsupervised Domain Adaptation (UDA) 无监督域自适应
一个神经网络fθ基于图像集合X S = {X S k} NS k=1及其对应的标签集合Y S = {Y S k} NS k=1在源域上进行监督学习训练,其损失函数为ls。具体而言,该损失函数的计算依据所涉及的计算机视觉任务特性。在图像分类和语义分割等常见任务中,我们主要采用逐像素的交叉熵损失函数。

在分类任务中,设H=W=1。在目标检测中,通常采用框回归和框分类损失[67]。然而,基于源域训练的模型在跨域应用时通常表现出性能下降。为此,无监督域自适应(UDA)方法利用目标域的未标注图像集合X T = {X T k} NT k=1来适应网络结构。为此,将目标域L T的额外无监督损失项加入具有权重λ T的优化问题中。

目标损失lt是根据UDA策略定义的,如对抗性训练[8,20,66,84,85,89]或自训练[32,62,83,103,110]。
3.2. Masked Image Consistency (MIC) 掩模图像一致性
为了识别物体(或材料区域),模型可以利用图像不同部分的线索。这可以是局部信息,它来自与特征映射中相应单元相同的图像补丁;也可以是上下文信息,它来自周围的图像补丁,可以属于物体或其环境的不同部分[35]。许多网络架构[17,28]都具有在其特征中集成本地和上下文信息的能力。而语境线索的学习则可以根据实际情况进行引导在监督学习中,对于UDA的目标域,没有基础的真值监督。目前的无监督损失不足以像经验观察到的那样有效地学习上下文线索(如图1a)。因此,我们建议在目标域上特别鼓励上下文关系的学习,为具有相似局部外观的类的鲁棒识别提供额外的线索。 为了方便目标域上上下文关系的学习,我们引入了一个掩膜图像一致性(MIC)模块,该模块可以很容易地插入到各种现有的UDA方法中。MIC的域自适应过程如图3所示,下面进行说明。MIC通过随机掩盖目标图像的补丁来保留局部信息。为此,从均匀分布中随机采样一个patch mask M

在式中,[·]即艾弗森括号。b即补丁大小,r即掩码比。m∈[0 … W/b−1],n∈[0 … W/b−1]即斑块指数。采用掩模与图像的逐元乘法运算生成掩模目标图像xM(见图3)。
被遮挡的目标预测算法只能利用被遮挡图像区域的有限信息

为了使预测更加具有挑战性,这也体现在图3中,其中预测未能包含人行道的细节部分。为了使网络在不访问整个图像的情况下仍能利用剩余的上下文线索准确重建标签,我们引入了MIC损失函数,其中pt代表伪标签,q_T代表质量权重。MIC采用伪标签,因为目标域缺乏基础真理作为参考。伪标签是教师网络gφ对完整目标图像x_T的预测结果。该方法适用于图像分类和语义分割任务。

对于目标检测伪标签,通过置信阈值δ和NMS(Non-Maximum Suppression)过滤来自gϕ(x T)的框预测[67]。教师网络的ϕ被设计为基于EMA的教师[82],其权重为fθ权重与α的指数滑动平均之和。
其中t表示训练步长。EMA教师通过实现前学生模型fθ的时间集合[82],从而增强了伪标签的鲁棒性和时间稳定性。这种策略在半监督学习[18,31,82]和UDA[1,32,33,83]中被广泛采用。当教师基于学生的fθ进行更新时,其逐渐从fθ中获得增强的情境学习能力。与学生模型fθ不同,教师模型gφ具有访问原始图像x_T的特权(见公式8),因此它能够同时利用上下文信息和完整的局部外观特征来生成更高质量的伪标签。由于在训练初期伪标签可能存在问题,损失函数通过质量估计q_T进行加权。对于图像分类任务,我们采用最大softmax概率作为确定性估计[104]。

对于语义分割,我们遵循[32,33,83],并利用超过最大softmax概率阈值τ的像素比率
通过整合到分类分支中的每个边界框,我们采用Eq. 10的质量估计进行评估。MIC一致性训练能够自然地嵌入到UDA优化问题中,从而提升整体性能。
4. 实验
4.1. 实现细节
语义分割:我们研究街景从合成到真实,从晴朗到恶劣天气,以及从日到夜的适应。作为合成数据集,我们使用GTA[68]包含24,966张图像,Synthia[69]包含9,400张图像。作为真实世界的数据集,我们使用Cityscapes (CS)[11],其中包含用于晴朗天气的2,975张训练图像和500张验证图像,DarkZurich[76]包含用于夜间的2,416张训练图像和151张测试图像,ACDC[77]包含用于恶劣天气(雾、夜、雨和雪)的1,600张训练图像、406张验证图像和2,000张测试图像。训练分辨率遵循使用的UDA方法(例如,DAFormer的半分辨率[32]或HRDA的全分辨率[33])。我们基于带有MiT-B5编码器[95]的DAFormer网络[32]和带有ResNet-101骨干网[28]的DeepLabV2[5]来评估MIC。所有的主干都是用ImageNet预训练初始化的。在默认的UDA设置下,我们遵循HRDA[33]的多分辨率自训练策略和训练参数,即AdamW[59]与一个学习编码器的速率为6×10−5,解码器的速率为6×10−4,训练迭代次数为40k,批大小为2,线性学习率预热,损失权λ T st=1, EMA因子α=0.999, DACS[83]数据增强,稀有类采样[32]和ImageNet特征距离[32]。对于对抗训练和熵最小化,使用学习率为0.0025且λ T adv=λ T ent=0.001的SGD。
图像分类:我们在VisDA-2017数据集[65]上评估MIC,该数据集由12个类别的280,000张合成和真实图像组成,以及Office-Home数据集[86],该数据集包含来自艺术(A),剪贴画(C),产品(P)和现实世界(R)领域的65个类别的15,500张图像。
我们使用ResNet-101[28]和ViTB/16[17]进行了实验。对于UDA训练,我们遵循SDAT[66],它利用CDAN[56]与MCC[40]和平滑增强损失[66]。我们使用相同的训练参数,即。
SGD的学习率为0.002,批大小为32,平滑参数为0.02。
目标检测:对于目标检测UDA,我们在CS[11]到fog CS[75]上评估MIC。实验基于Faster R-CNN[67]与ResNet-50[28]和FPN[54]。对于UDA,我们采用SADA[8],它在图像和实例级别上使用对抗训练。使用与[8]相同的参数,即0.0025初始学习率,60k训练迭代,λ T adv=0.1,批大小为2。根据之前的工作[8,70],我们报告了0.5 IoU阈值的平均平均精度(mAP)的结果。
MIC参数:MIC使用patch size b=64, mask ratio r=0.7, loss weight λM=1, EMA weight α=0.999,参数为[32,33],颜色增强(亮度、对比度、饱和度、色调和模糊)参数为[32,33,83]。我们在[14,52]后设置伪标签盒阈值δ=0.8,在[32,33,83]后设置质量阈值τ=0.968。如果一个UDA方法训练的分辨率是一半[8,32,83,84,87],则patch大小除以2。对于图像分类和目标检测,我们使用α=0.9。对于目标检测,我们降低掩码比r=0.5,因为感兴趣的对象更稀疏,高r会增加它们被完全掩盖的风险。对于夜间图像的目标域(DarkZurich和ACDC),我们放弃了颜色增强,因为它可能会破坏夜间图像的内容,因为局部已经很低的亮度和对比度。实验在RTX 2080 Ti或Titan RTX上进行,具体取决于所需的内存。
4.2. MIC for Semantic Segmentation 语义分割的MIC
首先,我们将MIC与不同的UDA方法和网络架构相结合,在GTA→CS上进行语义分割。表1显示,MIC在不同网络架构下的各种UDA方法中实现了一致且显著的改进,范围从+1.2到+4.7 mIoU。具体来说,MIC不仅有利于DAFormer等强大的变形金刚[32],也有利于cnn等如DeepLabV2[5]。在所有UDA方法中,由于性能饱和,性能改进随着预期的更高的UDA性能而降低。其次,我们评估了MIC与性能最佳的UDA方法HRDA[33]结合的性能,以进一步适应领域场景:合成到真实(GTA→CS和Synthia→CS),日夜(CS→DarkZurich)和晴朗到恶劣天气(CS→ACDC)。表2显示了每个基准上明显的性能改进。具体来说,MIC在GTA→CS上提高了+2.1 mIoU,在Synthia→CS上提高了+1.5 mIoU,在CS→DarkZurich上提高了+4.3 mIoU,在CS→ACDC上提高了+2.4 mIoU。考虑表2中逐类的IoU,与之前最先进的方法HRDA相比,MIC对大多数类都实现了一致的改进。从MIC中获利最多的类别是人行道、栅栏、电线杆、交通标志、地形和骑手。这些类具有相对较低的UDA性能,这意味着它们很难适应。在这里,语境线索似乎在成功的适应中起着重要作用。对于某些类,如建筑或植被,从合成到真实的适应,MIC提高性能的幅度较小,可能是因为目标上下文线索对它们起的作用较小。在一些特殊的情况下,单个职业的性能在MIC中会下降,比如CS→DarkZurich上的卡车。这些是罕见的类别,在数据中代表性不足,这可能会导致MIC选择误导性的上下文偏差。表2的观测结果也反映在图4的示例预测中。虽然以前的方法通常只识别模糊区域的部分,但MIC通过使用正确检测到的部分作为上下文来解决这些问题。例如,图4中公共汽车的格栅类似于交通柜(建筑)。然而,两辆车之间不太可能有一个柜子。可能事先使用这个上下文,MIC可以解决歧义。
表1。不同UDA方法在GTA→CS上的MIC分割性能(mIoU %)。

