Advertisement

读论文2:Unsupervised Domain Generalization by Learning a Bridge Across Domains

阅读量:

记录读论文的过程,如果哪里不对,请各位大佬指正。

文章题目:基于跨域学习的无监督域通用性增强
文章地址:CVPR 2022开放访问仓库
代码有无:有

Abstract:

Our capability to generalize learned representations across drastically distinct visual domains constitutes a fundamental aspect of human visual cognition. In this study, we introduce an innovative and practical alternative to existing cross-modal studies by eliminating both source and target domain supervision. Our method relies on selfsupervised learning through a unique Alice framework that incorporates an auxiliary Alice domain alongside semantic-preserving image-to-image mappings. These mappings connect each training domain to the Alice domain in a joint end-to-end architecture that ensures semantic alignment between each domain and its corresponding Alice projection. Through this approach, we demonstrate that incorporating edge-regularized Alice mappings into our framework yields substantial improvements across various benchmarks and applications.

在真实照片、剪贴画、油画和素描等不同视觉领域的跨域学习中(而非仅限于某些特定领域),我们提出了一种无监督域泛化(UDG)方法。与现有大多数基于源域或全部源域监督的跨域学习工作不同,在本文中我们采用了更为新颖且实用的一种无监督学习框架,在该框架下源域与目标域均未提供任何监督信号。我们的方法基于一种辅助桥梁(BRAD)的自我监督学习机制,在该桥梁上附带有语义保留的图像到图像映射(即自洽映射),使得从每个训练领域都能映射到该桥梁上。BRAD及其映射与对比性自我监督表示模型共同进行端到端联合优化,在此过程中该模型将每个领域与其BRAD投影进行语义对齐操作,并由此隐式地促使所有领域(无论见过与否)实现语义上的相互对齐。通过这项研究工作,我们展示了所提出方法在多个基准数据集以及一系列关键任务中的显著性能提升效果。


0.abstract总结:

提出一种较为新型且具有实用价值的无监督域泛化(UDG)框架或策略,在源域和目标域中均未设置任何训练监督信息。该方法借鉴了BRAD的技术基础并进行了针对性优化。

2.介绍BRAD:BRAD是一个辅助连接层,并包含一组视觉映射数据(图像到图像)。该层能够从每个训练域与之建立映射关系。BRAD及其映射通过一种基于对比性自我监督的学习机制实现共同学习(端到端)。具体而言,在这种表示模型下,系统旨在通过将每个领域与其对应的BrAD投影进行语义配准来实现跨领域表示一致性。这种机制使得各领域间的知识得以共享和促进其间的互相关联。


1.Introduction总结:

从人类角度举例说明(个人觉得这种写法确实挺容易理解),(这种方式给人一种直观且易于阅读的感觉)具备在几乎无需监督的情况下进行学习的能力

阐述UDA和DG(之前的工作)以引入UDG以及Few-Shot UDA(FUDA)。UDA定义为目标领域由一系列未标注图像构成的体系框架。而DG则表明,在训练阶段目标领域可能完全没有可见性

对于 UDA 和 DG 而言,在泛化取得成功的情况下,“所需的下游任务(如分类、检测等)能够成功地转移到新的可见或未知领域”。然而,“大多数 UDA 和 DG 工作都假设在预期的下游任务上具有充足的源领域监督。”值得注意的是,“在实际应用中这种情形较为罕见”,因为“在现实生活中 downstream tasks 的数据通常较为稀少”。

提出UDG和Few-Shot UDA (FUDA)。

本文旨在最小限度(针对标注需求)下实施UDG设置方案,并且无需任何源域监督的情况下进行训练。这种设置方案还能够推广至具有新类别且未被见过的全新视觉领域。

第三段:

我们采用的方法称为BrAD(可学习跨域连接),其基于以下概念:这是一个辅助的视觉'桥梁'结构,在从图像到图像的角度上能够相对容易地呈现所有感兴趣的相关领域。

过程简单介绍:在我们的对比性自我监督训练过程中使用,在每个训练阶段中被用来通过对每个训练域中的表征(特征)与其共享 BrAD 中相应表征(特征)之间的语义关联进行配准。基于这种反转性的特性,在这种配准机制下各领域学习所得的模型表示均得以与其共享 BrAD 中对应的表示配准,并实现了各领域表示间的隐式互相对齐。这也就意味着无需学习或建立 BrAD 到其他域之间的映射关系,在测试阶段即使面对未曾见过的新领域数据集也能保持良好的泛化性能。

小总结:即使采用相对简单的启发式策略来实现BrAD理念,在将图像与其边缘特征进行有效提取后,在对比实验中也显示出显著的优势。(值得注意的是我们的BrAD设计确实具有一定的参考价值)此外实证研究表明:通过引入可学习的参数机制能够进一步优化模型性能,在多个公开数据集上进行了广泛的实验验证,并针对不同领域的分类任务进行了深入研究。我们发现:在这些基准测试中均取得了令人满意的性能结果,并且这一改进策略展现了显著的性能提升能力。

第四段:这是一个总结段落,请详细阐述我们的贡献。(以下为原文翻译)
(1) 我们定义了一个可学习的 BrAD 创新性概念--视觉辅助桥梁领域--该领域能够较为容易地从感兴趣的研究方向(可见或不可见)中提取相关映射关系,并通过学习到的表征特征在跨领域的语义层次上实现了高度的一致性(具有良好的泛化能力);
(2) 我们探讨了如何实现基于 BrAD 概念的自监督对比学习框架,并融入一些创新性的方法论;这些方法使得在不同受源标签限制的跨域任务中训练出高效可靠的模型体系(包括UDG、FUDA等),并且在有无监督的情况下均实现了跨多域基准测试中的优异表现;
(3) 实验结果表明,在UDG基准上提升了约14%,在FUDA基准上提升了约13%。

我去查了一下语义对齐(因为原文里反复提及):

最初建立起来的领域间实例之间的差距比其他领域同类别的实例间的差距要小。然而,在分类任务中表现最出色的自我监督学习技术往往会在分类之前就将不同领域的实例分离开来(如图所示)。

该作者所提出的方法就是训练一个辅助连接域(基于边缘图像),通过PS标注技术标记出这些灰色的图块;这种辅助连接域有助于实现跨模态对齐同一类别的实例。


2.related work相关工作

Unsupervised Domain Adaptation (UDA):UDA通常被称为一种基于知识表示的方法,在有标签的数据来源(即源领域)与无标签的目标领域之间建立映射。

Domain Generalization (DG)

Self-Supervised Learning (SSL)

Self-Supervised Learning for UDA and DG.


3. Method

一些定义:

作者旨在进行一个骨干模型 B 的训练工作。该模型能够将任意图像I映射至d维表示空间,并执行语义对准任务。此外,在实现上述主要目标的过程中, 这种语义对准特性将会被推广至多个相关领域,即便在实际训练过程中未曾直接针对这些领域进行针对性优化

本篇文章的基本架构师来自于MOCO v2,作者列出了训练结构:

以上总结:

Backbone (B)是经过训练后得以保留的关键组成部分;其余组件仅限于参与训练过程;之后将被移除或不再使用

(2)projection head ,并在顶部进行 L2 归一化

(3)由于域之间的分离相较于类之间的分离而言更加容易实现,并且我们观察到,在为所有域建立一个单一队列(如 [9] 中所述)时会导致性能下降(如第 4.4 节所述)。

(4)从一组图像映射至图像模型Ψₙ: Dₙ→Ω的方式进行处理;这些域中的每个Dₙ∈D都被映射至共享的辅助BrAD域Ω中。这一跨域概念涵盖所有可见与不可见的领域。

Domain discriminator A: 它是一种对抗性领域分类器, 仅限于用于Ω图像表示, 其主要功能是预测被投射至Ω中的所有图像In∈Dn所对应的原始领域索引n。(对于这里的"原始索引"我仍不太清楚具体含义)

(6)The momentum models 动量编码器Bm and Pm:定义对比损失函数公式(1),

然后详细阐述了一些内容(块状的文字让我花了近九分钟的一头雾水),建议大家直接参考英文版本(我发现中文翻译反而花费更多时间搞懂他在说什么……),最终目的是为了实现:我们在训练完成后不再使用BrAD映射模型Ψn,并将其应用于无法从BrAD映射中获得知识的新领域。

公式(2)阐述了动量编码器如何形成队列:在每个批次处理结束后,批处理图像的‘动量’表明它们将按照其来源域(循环)进行排列。

采用该方式维持队列后,在后续的训练批次中,Dn类图像不仅可以在F环境中与其他Dn类图像的Ω投影进行对比,同时也能与来自同一Dn类的其他图像进行对比,从而使得模型B能够利用这些Dn特有的属性(如颜色属性)来补充基于Ω的独特表征集合.除此之外,我们还采用了以下几种对抗损失指标:

在每一次训练批次中,在阻断 B 和 Ψn 梯度的同时性地引导 Ladv 达到最小值;与此同时, B 和 Ψn 则通过减少 -Ladv 的值来实现自身目标,并阻止 A 对其梯度流动。为了减少 Ladv 和 Lcont 之间的竞争关系, 我们选择直接作用于 B 生成的表征(最终特征), 而不是投影头 P 所产生的临时特征上运用域判别器 A。最后, 我们提出了 BrAD 损失, 这一新方法允许我们在不依赖共享辅助 BrAD 域 Ω 的情况下构建基于类边缘图像的空间感知架构:(此处作者表达清晰易懂值得称赞)

最后整合公式:

其中,在计算梯度以训练对抗域判别器 A 时,Ladv 前面的符号变为正数。

下面放一张传统MOCO和simclr的结构图以供对比:

Implementation details.

我们的代码1 采用 PyTorch [11],基于 [9] 的代码。我们在实验中设定 α1, α2, α3 = 1。骨干 B 在 UDG 实验中使用 ResNet-18 [20](与 [68] 相同),在 FUDA 和跨基准泛化实验中使用 ResNet-50(与 [26] 相同)。我们使用了大小为 256 的批次、动量为 0.9 的 SGD、余弦 LR-schedule(从 LR 0.03 到 0.002),并对 FUDA 训练了 250 个 epochs,对 UDG 训练了 1000 个 epochs(与 [68] 相同)。我们设置 |Qn| = min(64K,2 - |Dn|),并只存储由每个域图像 In 及其 Ω 投影(Ψn)生成的一对(动量)表示。此外,我们发现在计算 Lnce(q, k+, k-) 损失时,将 q 的缓存版本从其 k- 负键集中排除会略有好处。对于 A,我们使用了带有 LeakyReLU 的 3 层 MLP(1024, 512, 256),然后是线性域分类器。对于 BrAD 映射模型 Ψn 架构,我们使用了 HED [62] 在其 PyTorch 实现 [40] 中的架构。(此处为翻译)

4. Results

基于我们的BrAD方法在训练过程中完全不受 supervision, 我们 采用 了结合无 supervision与有限-supervised 的 跨 域学习方案, 尤其是无 supervision 域 广 化 (Unsupervised Domain Generalization, UDG)[68] 和 少样本 跨 域适应 (Few-shot Cross-Domain Adaptation, FUDA)[26, 65], 来 深入 评估 其 性能, 并与其他 自 监督 或 基于源标签受限 的 跨 域方法进行了对比分析. 同时, 我们 还 系统性地考察了在 训练 后 对 未知 领域以及 未知 类别 数据集 的 广 化 情况.

Datasets.

DomainNet consists of six distinct domains: Realism, Paintings, Sketches, Cliparts, Infographics and QuickDraws.

PACS:4 domains: Photo, Art, Cartoon and Sketch

VisDA

officeHome:4 domains: Art, Clipart, Product and Real

4.1. Unsupervised Domain Generalization

首先阐述了UDG流程:(i) 通过无监督学习方法在源数据集上进行训练;(ii) 从源图像中选取少量标注样本,并基于固定特征层构建线性分类器;(iii) 针对若干个目标领域进行评估分析。

DomainNet:基于Clipart、Infograph和Quickdraw的数据集进行训练,并随后采用未接触过的Painting、Real和Sketch数据集进行测试。

PACS系统中,在采用其他三个领域作为来源的基础上(在整个数据集中进行了多次验证),我们实施了单域测试策略。研究文献[68]指出,在源标签占比达到其总数据量10%的情况下,默认采用了全局模型微调这一额外技术;然而,在这种情况下,并非我们的自监督学习架构会采用类似的策略——与之不同的是,在所有相关场景下均未采用基于标签的信息微调方法。值得注意的是,在这些实验设置下,默认情况下我们都增加了k-近邻算法结果这一补充指标;具体而言,在获取特征向量后直接采用了该结果,并未进行额外的训练优化。

table1的几个对比:这个是在domainnet的实验

对比以前的模型,我们的更好;对比KNN;对比微调标签数据的占比

table2:在PACS的实验,对于每个目标域,其他 3 个域均用作训练源域。

4.2. Few-shot Unsupervised Domain Adaptation

数据集:DomainNet 4 domains: Clipart, Real, Painting and Sketch

研究者借鉴了文献 [65] 中提出的 FUDA 协议方案,在实验设置中采用了以下具体措施:首先,在源域分类中,每个类别通常配备一张(1张)或三张(3张)标注过的图像;剩余的所有图像均未进行标注处理。为确保结果的一致性和可重复性,在每种实验条件下我们都采用了与文献 [65] 提供的一致的标注样本数量。

相关文献65的链接为:[CVPR 2021 Open Access Repository](https://openaccess.thecvf.com/content/CVPR2021/html/Yue_Prototypical_Cross-Domain_Self-Supervised_Learning_for_Few-Shot_Unsupervised_Domain_Adaptation_CVPR_2021_paper.html?ref="GitHub帮助页面")

文献65这篇文章以后会写(计划中)

总结在图3中:

作者系统性地开发了两种多模态方法:在固定模式下的实验结果表明(如表 3 所示),我们成功构建了一个多领域融合体系。

采用配对模式时(参考表3中的"我们提出的配对模式"),我们为7个独立模型分别进行训练,并确保每个源-目标域配对均对应训练一个独立模型。

4.3. Generalization to unseen domains and classes

这一小节没说很多内容,大概就是做了一些对比试验。

本研究旨在考察前沿自监督学习方案 [5, 6, 9, 10, 66] 在实际应用中的表现(其中涉及Dino、SWAV、SimSiam、BarlowTwins及MoCo v2等具体模型);针对提出的混合应用环境(涵盖可见与未知领域间的混合应用以及广大小类的扩展挑战),我们设计并实施了一项系统性的对比分析框架;通过该框架对现有方案的性能指标进行量化评估,并与我们开发的新型算法进行对比研究;最终所得数据结果已完整呈现于表4中

结果如图:

4.4. Ablation Studies

这段主要讲消融实验

就而言说,在DomainNet上的不同FUDA阶段中(指1次至3次),MocoV2[9]开始并随后添加了新的内容所生成的模型其性能表现如何发展变化。

(i) DD: a domain discriminator (A in Eq. (3)) - on its own it has a minor impact on performance (-0.3/+0.1);

(ii) MQ: multiple negative queues (Qn) for contrastive loss - adds good boost to 1-shot case (+4.2/+0.4) on its own, and strong boost for both modes when combined with DD (+3.8/+6.0);

(iii) Canny BrAD: Ψn in heuristic Canny [4] edge detector form - leads to a very strong performance boost (+10.9/+11.9) underlining the effectiveness of the BrAD idea;

(iv) HED BrAD: Ψn being a frozen HED [62] edge detector pre-trained on BSDS500 [1] dataset - we observe that even using a strong pre-trained edge detector model is not sufficient to further improve relative to the simpler Canny BrAD (-1.7/-1.8), this clearly highlights that BrAD models Ψn need to be learned jointly (end-to-end) with the representation model B as we propose in our main approach; (v) learned BrAD: Ψn being a HED [62] model trained end-to-end with the other components of our BrAD approach as described in Sec. 3 - underlining the need to learn the BrAD Ψn models, this introduces a noticeable boost relative to the heuristic Canny BrAD (+2.8/+2.3) and overall compared to not using BrAD (+13.7/+14.2); (vi) Typical examples of comparison of edges generated by Canny, pretrained HED [62], and our learned BrAD are shown in Fig. 3 - as can be seen, both BrAD and HED discard the background noise, but unlike HED, BrAD learns to retain semantic details of shape and texture like house windows, giraffe spots, or person arm (additional examples are provided in Appendix A); (vii) Transductive / ImageNet pretrained: according to the FUDA experimental setting of PCS [65], used for all methods in our FUDA evaluation in Sec. 4.2, training starts from an ImageNet pretrained model and transductive paradigm is used for the unlabeled domains data - we have verified that the transductive setting consistently adds ∼ 4% regardless of pretraining, while ImageNet pretraining has a more significant impact, adding ∼ 10% to the performance.

以下为翻译

(i) DD:域判别器(公式 (3) 中的 A)--单独使用时对性能影响较小(-0.3/+0.1);

(ii) MQ:用于对比损失的多重负队列 (Qn)--单独使用时对单发情况有很好的提升(+4. 2/+0.4),当与 DD 结合使用时,两种模式都有很强的提升(+3.8/+6.0);

(iii) Canny BrAD:启发式 Canny [4] 边缘检测器形式的 Ψn - 带来了非常强的性能提升(+10.9/+11. 9),强调了 BrAD 思想的有效性;

(iv) HED BrAD:Ψn 是在 BSDS500 [1] 数据集上预先训练的冻结 HED [62] 边缘检测器--我们观察到,即使使用强大的预先训练的边缘检测器模型,也不足以进一步提高相对于更简单的 Canny BrAD 的性能(-1. 7/-1.8),这清楚地表明 BrAD 模型 Ψn 需要与我们在主要方法中提出的表示模型 B 共同学习(端对端);

(v)学习的 BrAD:Ψn 是一个 HED [62] 模型,与我们的 BrAD 方法的其他组成部分一起进行端对端训练,如第 3 章所述。(vi) 图 3 显示了 Canny、预训练的 HED [62] 和我们学习的 BrAD 所生成的边缘的典型对比示例。

(vii) Transductive / ImageNet 预训练:根据 PCS 的 FUDA 实验设置[65],我们在第 4.2 节的 FUDA 评估中使用了所有方法。4.2 中的 FUDA 评估中所有方法都采用了这一实验设置,即从 ImageNet 预训练模型开始训练,并对未标记的领域数据采用转导范式--我们已经验证,无论采用哪种预训练,转导设置都能使性能提高 4%,而 ImageNet 预训练的影响更为显著,能使性能提高 10%。

具体操作内容由作者详细阐述。说实话一开始有些难以理解。我会持续深入研究, 随着新的进展出现, 我会持续在此更新

5. Conclusions and Limitations

Conclusion

在本文中,我们创新性地提出了自监督跨域学习方法,在特征空间中实现了所有域(通过语义对齐)至一个共同的BrAD域——一个学习辅助桥域,并伴随相对容易学习的图像到图像映射至其中。我们深入研究了带边界BrAD的一个特例——特别是将其驱动至类似边缘地图的图像域。在这一实现过程中,在FUDA、UDG等重要有限源标签任务以及跨领域基准到潜在未知领域与类别的泛化任务中展示了我们的方法具有显著优势。我们观察到比以前的无监督与部分监督方法在这些任务中取得了明显改善。未来的工作也可能包括探索这里使用的类边缘变换作为对比增强SSL的一般潜在有用增强功能。

Limitation

本文的局限性包括 (i) 故意专注于类似于边缘的桥域——这是可构建的最简单的 BrAD 之一自然地这也有其局限性例如降低了表示非边缘相关特征如颜色等的相对重要性因此探索其他非边缘桥域将是未来工作的重点课题;(ii) 我们目前的方法建立在一个非常有用的但单一的_SSL 方法(即 MoCo [9])之上直接扩展可以在使用[6] 的_SSL 方法的基础上采用视觉转换器骨干或者更广泛地说使其适用于任何 SSL 方法;(iii) 最后我们的方法在预训练中完全是无监督的缺乏对所学表征空间中形成的语义类别的控制这是当前大多数 SSL 技术共有的一个问题可能会导致遗漏未标记数据中不同实例数量代表性不足的类别解决这一问题可能需要通过某种形式引入零次或少数次引物或通过粗标签训练来增强这种控制[3]。


后续还会持续补充更多内容呢。经过一番思考后发现自己的知识储备确实还有待加强,在大多数情况下都大致明白了事情的来龙去脉。不过还有一些细节需要进一步深入学习才能更好地掌握相关知识。非常感谢大家耐心等待!

全部评论 (0)

还没有任何评论哟~