Self-Supervised Learning Across Domains
全文翻译如下:
摘要
在某种程度上说,人类适应性的形成源自于对来自有指导学习与无指导学习两种任务的知识整合,父母会向孩子传达一些关键的概念,而孩子则会根据自身的经验去填补这些空白.这一过程之所以特别高效,是因为有指导的学习永远都无法穷举所有可能性,因此自主学习便能够发现那些有助于普遍化的不变性和规律性.在本研究中,我们致力于将这一思路应用于跨学科领域中的物体识别问题:我们的模型采用有指导的方式去学习语义标签,并通过从同一图像中提取的无指导信号来拓展对数据的理解.这一次要的任务不仅促使网络关注物体的具体形状特征以及空间方向关系等概念,而且在多个视觉域上的分类任务中起到了正则化的作用.大量实验结果证实了我们最初的直觉:采用多任务方法结合有指导与无指导知识的学习方式能够在更为复杂的领域内实现更好的泛化能力与适应性解决方案.此外,这种技术还在新颖且具有挑战性的预测场景以及部分领域适应性问题中展现出显著的应用潜力
1 INTRODUCTION
多年来,心理学家和学习研究对智力的定义有多种。尽管存在差异,但它们都表明了在广泛的条件下适应和实现目标的能力,是关键的组成部分[ 1 ]。人工智能继承了这些定义,最近的研究证明了知识转移和领域泛化的重要性[ 18 ]。事实上,在许多实际应用中,训练(即,源)和测试(即,目标)数据的潜在分布不可避免地存在差异,这就要求有稳健且适应性强的解决方案。在处理视觉域时,目前的策略大多基于监督学习。这些过程搜索能够捕获基本数据知识的语义空间,而不考虑输入图像的具体外观:一些将图像风格与共享对象内容解耦[ 7 ],另一些生成新的样本[ 75 ],或者施加对抗条件以减少特征差异[ 46 ] [ 48 ]。类似于获得通用特征嵌入的目的,自监督学习追求一个替代的研究方向,即捕捉视觉不变性和规律性,解决不需要数据标注的任务,如图像方向识别[ 30 ]或图像着色[ 84 ]。未标注的数据在很大程度上是可用的,其本质也不容易产生(无标注偏倚问题)偏差,因此它们似乎是提供独立于特定领域风格的视觉信息的完美候选者。然而,它们的潜力还没有被充分挖掘:现有的自监督方法通常具有定制的体系结构,需要专门的微调策略来重新设计所获得的知识[ 60 ]。而且,它们主要应用在现实世界的照片上,没有考虑带有绘画或素描图像的跨领域场景。
这种从图像中学习内在规律(自监督知识)和跨领域鲁棒分类(监督知识)之间的明显分离,与生物系统,特别是人类视觉系统的视觉学习策略形成鲜明对比。事实上,大量的研究强调婴儿和学步儿同时学习对物体的分类和关于规律的知识[ 6 ]。例如,流行的婴幼儿玩具通过将它们拟合为形状排序器来识别不同的类别;动物或交通工具的Jigsaw拼图鼓励学习物体部件的空间关系在12 - 18个月之间同样广泛存在。这种联合学习当然是人类在幼年时期就能达到复杂的视觉泛化能力的关键因素[ 26 ]。
受此启发,我们的原始论文[ 12 ]首次提出了一种多任务方法,该方法通过利用监督数据来学习如何识别物体,以及如何通过利用图像部分(图。1和2)的空间co - location的内在自监督信息来泛化到新的领域。具体来说,我们提出从其洗牌部分恢复原始图像,重新利用流行的解决拼图游戏。与以往处理从单独图像块中提取特征的方法不同[ 58 ],[ 60 ],我们在图像层次上移动了块的重新组装,并将拼图任务形式化为与原始图像相同维度的重组图像上的分类问题。通过这种方式,对象识别和补丁重排序可以共享相同的网络主干,我们可以无缝地利用任何卷积学习结构和几个预训练模型,而不需要特定的体系结构变化。
在这里,我们扩展了我们之前的工作,为跨领域的自监督学习提供了更广泛的概述。( 1 )我们将旋转识别和拼图作为自监督任务,展示了它们在多任务模型和监督学习领域泛化中的作用;( 2 )我们深入研究了多任务方法的细节,进行了广泛的消融分析,并将成功和失败的案例可视化;( 3 )我们考虑了单源和多源域适应实验,并对最新的方法进行了深入分析;( 4 )我们讨论了我们的多任务模型在具有挑战性的预测和部分领域适应场景中的效果也得到了扩展[ 8 ]。
2 RELATED WORK
自监督学习。自监督学习是一种从大规模无标签数据中学习视觉特征的范式[ 40 ]。它的第一步是一个利用固有数据属性自动生成替代标签的借口任务:部分关于图像的现有知识被手动移除(例如,颜色、朝向、斑块序),任务包括恢复它。研究表明,以这种方式训练的网络的第一层可以捕获有用的语义知识[ 3 ]。学习过程的第二步是将这些初始层的自监督学习模型迁移到一个有监督的下游任务(例如,分类、检测),而网络的结束部分则是新训练的。
可能的借口任务可以分为三个主要组。一类只依赖于原始的视觉线索,通过几何变换(例如平移、缩放、旋转 , )、聚类[ 15 ]、修复[ 62 ]和彩色化[ 84 ]处理整幅图像,或者将图像块集中在它们的等变性、(学会计数)和相对位置(解拼图 , )上。第二组使用真实或合成的外部感官信息:这种解决方案经常应用于多线索(视觉到听觉 , RGB到深度[ 63 ])和机器人数据[ 37 ] [ 42 ]。最后,第三组依赖于视频和时间维度引入的规律[ 70 ],[ 77 ]。最近的自监督学习研究集中在提出新的前文本任务或将其中的几个任务组合在一起,然后比较它们对下游任务的初始化性能,如在标准迁移学习中使用监督模型[ 23 ],[ 29 ],[ 38 ],[ 63 ]。
我们的工作探索了一个新的研究方向:我们在多任务框架中结合监督和自监督知识,研究其对领域泛化和适应的影响。
领域泛化与适应。目前已经开发了几种算法来应对域偏移,主要有两种不同的设置:域泛化( DG )和域自适应( DA )。在DG中,目标在训练时是未知的:学习过程通常可以利用多个标记源来定义一个对任何新的,以前看不到的领域鲁棒的模型[ 56 ]。在DA中,学习过程可以访问有标签的源数据和无标签的目标数据,因此目的是泛化到给定的特定目标集[ 18 ]。在多源DA中,源域标签可能是未知的[ 13 ],[ 34 ],[ 52 ],而对于大多数DG方法,源域标签仍然是需要利用的重要信息。
DG和DA的解主要有三类。特征级策略主要通过最小化不同领域的偏移度量来学习领域不变的数据表示[ 5 ],[ 49 ],[ 50 ],[ 71 ]。域偏移也可以通过训练域分类器和反向优化来减少,以引导特征走向最大域混淆[ 27 ] [ 73 ]。这种对抗方法有几种变体,其中一些变体还利用类特定的领域识别模块[ 48 ] [ 67 ]。度量学习[ 55 ]和深度自编码器[ 7 ] [ 28 ] [ 46 ]也被用于搜索领域共享的嵌入空间。在DG中,这些方法利用了多个源的可用性和每个样本对域标签的访问。模型级的策略要么改变数据以ad - hoc情节的方式加载[ 45 ],要么修改传统的学习算法以搜索目标函数更鲁棒的极小值[ 43 ]。除了这些主要方法外,其他的解决方法还包括引入领域对齐层[ 13 ]、聚合层[ 22 ]、[ 45 ],或者使用低秩网络参数分解[ 20 ]、[ 44 ],以识别和忽略特定领域的签名。最后,数据级技术利用生成对抗网络( GANs )的变体来合成新的图像。事实上,产生类源目标图像或/和类目标源图像[ 35 ] [ 65 ]有助于减少域间隙。
最近的一些工作已经开始研究DA和DG之间的中间设置。在预测域自适应( Predictive Domain Adaptation,PrDA )中,一个有标记的源域和几个辅助的无标记域在训练时可用,同时还有描述它们之间关系的元数据[ 51 ] [ 82 ]。目标数据不可用,但它们的元数据被提供并用于直接从源组成适应的模型。
在DA和DG中,主要的假设是源和目标共享相同的标签集,很少有工作研究这个基本条件的例外[ 10 ],[ 68 ],[ 79 ]。特别地,在部分域适应( PDA )中,目标仅覆盖源类集的一个子集。在这种情况下,调整适应过程以使未共享标签的样本不会影响学习到的模型是很重要的。比较常用的方法是在标准DA方法的基础上增加重加权源样本策略[ 9 ],[ 10 ],[ 83 ]。备选方案利用两个独立的深度分类器及其在目标上的预测不一致性[ 54 ]或特征范数匹配[ 80 ]。
从本文的简要综述中可以看出,以往的文献并没有对DA或DG的自我监督进行研究。在这项工作中,我们提出了跨领域自监督学习的深入研究。

图1 .Cross-visual domain object recognition represents a highly challenging task requiring strong generalization capabilities. Through self-supervised image processing, we are able to capture invariant features inherent to natural scenes, which helps bridge the gap between different artistic styles. Our multi-task learning framework not only achieves effective classification and object recognition but also enables the solution of jigsaw puzzles or image orientation determination. This demonstrates that our approach is capable of generalizing to new domains.

在自监督学习中采用拼图任务时
3METHOD
我们在这里介绍了我们的跨领域多任务方法的技术符号,并在每个考虑的设置中指定目标。假设从一个或多个源分布中观测数据\left\{\left(x_i^s, y_i^s\right)\right\}_{i=1}^{n^s}。其中 x_i^s表示第i幅图像,y_i^s表示对应的\left|\mathcal{Y}^s\right|维单热向量标签。从这些图像出发,我们总是可以应用不同的过程来生成自监督变体。一个简单的选择是采用旋转的方法,每个样品产生\left\{0^{\circ}, 90^{\circ}, 180^{\circ}, 270^{\circ}\right\}取向的拷贝。相关的自监督任务包括选择正确的图像旋转。一种更结构化的方案是将原始图像按照3 \times 3网格进行分解:从每个样本中产生9个正方形块,然后从它们的原始位置移动并重新定位,形成一组9 !混洗图像。这个任务让人想起拼图游戏,需要重新排列图块以恢复原始图像。对于所描述的两种情况,\left\{\left(z_k^s, \boldsymbol{p}_k^s\right)\right\}_{k=1}^{K^s}为新获取的图像。在应用旋转时,独热向量标签p的维数为4,而对于块混洗,我们根据[ 58 ]中基于汉明距离的算法选择了9个可能的置换中的一个子集P。图像总数根据自监督任务的不同而变化:K^s=4 \times n^s用于旋转,K^s=P \times n^s用于块洗牌。无论选择哪种特定的自监督目标,我们都可以通过多分支结束网络实现的标准硬参数共享多任务模型将其与监督学习相结合[ 16 ]。一个输出分支将致力于利用源数据的标签进行监督任务,而另一个输出分支将解决自监督问题:旋转或拼图的排列识别(见图2)。辅助自监督目标有助于从数据中提取相关语义特征,最终对目标识别性能产生有利影响。由于自监督目标是标签不可知的,它可以在有监督和无监督域上运行,支持泛化和自适应。
3.1 领域泛化
我们设计了一个网络架构,并将其命名为 G_f ,该架构采用卷积特征提取主干技术,并由参数 \theta_f 控制其行为特性
3.2 领域自适应
自监督学习本质上不需要人工标注,在DA设置中可用时可以利用未标记的目标数据\left\{x_j^t\right\}_{j=1}^{n^t} 。对目标样本进行(旋转,洗牌)变换,使得每个新产生的实例 \left\{z_k^t\right\}_{k=1}^{K^t}都得到自己的自监督标签 p_k^t。
另一种广泛使用的将目标数据纳入学习过程的方法是在其上应用源监督知识来评估伪标注\hat{y}^t=G_c\left(G_f\left(x^t\right)\right),并最小化由熵H=-\sum_{l=1}^{\left|\mathcal{Y}^s\right|} \hat{y}_l^t \log \hat{y}_l^t 测量的预测不确定性[ 52 ] [ 80 ]。这是一种引导类决策边界通过低密度目标区域的半监督技术,但其跨域成功依赖于适度水平的域偏移以避免错误的伪标注。鉴于它们的正交性和可能的互补性,在我们的DA分析中,我们将熵项与监督和自监督损失结合起来。总体学习目标形式化为
\begin{aligned} & \arg \min _{\theta_f, \theta_c, \theta_p} \frac{1}{n^s} \sum_{i=1}^{n^s} \mathcal{L}_c\left(G_c\left(G_f\left(x_i^s\right)\right), \boldsymbol{y}_i^s\right) \\ & \quad+\alpha^s \frac{1}{K^s} \sum_{k=1}^{K^s} \mathcal{L}_p\left(G_p\left(G_f\left(z_k^s\right)\right), \boldsymbol{p}_k^s\right) \\ & \quad+\eta \frac{1}{n^t} \sum_{j=1}^{n^t} H\left(G_c\left(G_f\left(x_j^t\right)\right)\right)+\alpha^t \frac{1}{K^t} \sum_{k=1}^{K^t} \mathcal{L}_p\left(G_p\left(G_f\left(z_k^t\right)\right), \boldsymbol{p}_k^t\right) . \end{aligned}
3.3 部分域适应
在PDA中,目标域的标签空间包含在源域的标签空间 \mathcal{Y}^t \subseteq \mathcal{Y}^s中。这种标签空间上的进一步偏移使得问题变得更加具有挑战性:如果整个源数据和目标数据之间的匹配是强制的,那么任何自适应方法都可能由于负迁移而导致退化的情况,从而产生比普通非自适应版本更差的性能[ 64 ]。
( 2 )中的两个\mathcal{L}_p 项有助于减少域偏移,但是它们的共同存在性可能是冗余的:特征已经被选择来最小化源分类损失,并且目标上的自监督任务会导致对学习到的特征进行跨域调整。因此,对于PDA我们可以删除源自监督项,对应的设置为\alpha^s=0。这种选择具有双重积极作用:一方面减少了学习过程中超参数的数量,为引入其他互补学习条件留下空间,另一方面让自监督模块只关注目标而不涉及源的额外类。
为了进一步加强对共享类的关注,我们通过集成类似于[ 10 ]中的加权机制来扩展我们的方法。将目标数据上的源分类输出与\gamma= \frac{1}{n^t} \sum_{j=1}^{n^t} \hat{y}_j^t累加并归一化为 \gamma \leftarrow \gamma / \max (\gamma),得到\left|\mathcal{Y}^{\prime}\right|维向量,量化每个源类的贡献。此外,我们可以像文献[ 27 ]那样很容易地集成一个源域和目标域判别器G_d ,并对抗地最大化相关的二进制交叉熵来增加域混淆,同时还考虑了对源样本定义的类加权过程。从更正式的意义上讲,我们在PDA环境下的多任务问题的最终目标是
\begin{aligned} & \arg \min _{\theta_f, \theta_c, \theta_p} \max _{\theta_d} \frac{1}{n^s} \sum_{i=1}^{n^s} \gamma_{y_i}\left(\mathcal { L } _ { c } \left(G_c\left(G_f\left(x_i^s\right), \boldsymbol{y}_i^s\right)\right.\right. \\ & \left.\quad+\lambda \log \left(G_d\left(G_f\left(x_i^s\right)\right)\right)\right) \\ & \quad+\frac{1}{n^t} \sum_{j=1}^{n^t}\left(\eta H\left(G_c\left(G_f\left(x_j^t\right)\right)\right)+\lambda \log \left(1-G_d\left(G_f\left(x_j^t\right)\right)\right)\right) \\ & \quad+\alpha^t \frac{1}{K^t} \sum_{k=1}^{K^t} \mathcal{L}_p\left(G_p\left(G_f\left(z_k^t\right)\right), p_k^t\right), \end{aligned}
其中\gamma_{y_i}是源点x_i^s的基真值标签的类权重,\lambda是调节引入的域判别器重要性的超参数。当 \lambda=0且 \gamma_y=1 /\left|\mathcal{Y}^s\right| 时,我们回到标准DA情形。该方法的示意图如图3所示。

图3.我们的PDA方法采用模块化的自我监督机制。网络以灰色背景呈现的主干模块负责数据处理流程的核心环节。通过实线箭头标示每组训练样本对最终任务的影响程度。黑色、绿色和深褐色箭头末端标识相关优化目标。自监督学习中的旋转识别任务同样适用该方案。
3.4 实现细节
我们构建了一个多任务网络系统来整合多样化的卷积深度架构:主干模块Gf继承了传统架构如AlexNet或ResNet的设计模式;针对不同对象识别需求,在特定对象识别头部设置为Gc;而全局定位检测头部则由独立的全连接层实现(即为Gp)。在包含多个自监督学习任务的模型体系中(如拼接图与旋转图),每个自监督目标均对应独立设置一个特定的分支结构(即各自拥有独立的全连接层)。具体而言,在拼接图像经过Jigsaw模块处理后输入至其最终识别头(即GpJ)以完成拼接定位;而旋转图像则被送到旋转识别头(即GR)进行角度估计。在PDA配置下,在主干网最后一层池化操作之后,在其后附加三个全连接层以生成域分类器模块(即GD),并采用sigmoid函数完成最后输出激活[27]。在整个实验过程中,则通过端到端微调Imagenet预训练权重参数的所有特征提取层来优化整个网络性能;其中GD与GP从零开始学习
4EXPERIMENTS
在本节中,我们对跨视觉域使用自监督知识进行了广泛的评估。首先我们关注DG ( 4.1节)。在我们的多任务模型中,我们测试了旋转和拼图自监督前文本,然后将它们广泛用作辅助任务和监督学习。我们分析的第二部分致力于DA场景( 4.2节)及其更具挑战性的PDA设置。
我们设计了多任务网络来利用不同的卷积深度架构:主干G_f可以继承标准网络的结构,如AlexNet或ResNet。特定对象和自监督分类器的头为G_c, G_p分别由一个结束的全连接层实现。在模型(即Jigsaw +旋转)中包含多个自监督任务时,为每个自监督目标分配一个G_p头。具体来说,混洗图像定向到Jigsaw最终头 G_p^J,而旋转图像定向到旋转识别头G_p^R。在PDA设置中,我们通过在主干网的最后一个池化层后添加三个全连接层引入域分类器G_d,并使用sigmoid函数进行最后一次激活[ 27 ]。在所有的实验中,我们通过微调Imagenet预训练模型中的所有特征层来端到端训练网络[ 19 ];G_c, G_p和 G_d 从无到有。
总体而言,DG网络有两个主要的超参数:权重自监督损失的参数\alpha和调节数据输入过程的数据偏置参数\beta。图像的自监督变体与原始图像一起进入网络,因此每个图像批次都包含这两个图像,\beta指定它们的相对比例。例如\beta=0.6意味着对于每一个批次,60 %的图像是标准的,而剩下的40 %是旋转的或由混合块组成的。在我们的实验中,我们通过保留一个源验证集( 10 %的训练数据)来选择\alpha and \beta ,并通过以下方法对其进行模型选择[ 33 ]。当组合Jigsaw + Revolution时,分别有\alpha_J and \alpha_R,而\beta 调节的变换图像的分数以等概率旋转或洗牌。在DA设置中,源和目标数据分别在\alpha^s and \alpha^t中解耦。在讨论实验结果时,我们将看到在源上交叉验证 \alpha,然后将\alpha=设置为\alpha^s=\alpha^t 或固定为\alpha^s=0的结果,以及手动调整\alpha^t对模型稳健性的影响。DA和PDA中进一步的参数为\eta和 \lambda。第一个是分配给熵损失的权重,我们安全地固定为小值:DA为0.1,PDA为0.2。最后,\lambda在PDA中平衡梯度反转层的重要性,并采用与[ 27 ]相同的调度方式更新其值,使得域判别器的重要性随着训练历元的增加而增加。
在设计拼图任务时需要选择图像块网格大小n \times n,以及图像块排列子集的基数 P。正如我们将在下一节中详细介绍的,我们的多任务方法对这些值是稳健的,对于我们的所有实验,我们都将它们固定为(3 \times 3 grid, P=30)。
我们使用了一个简单的数据增强协议,通过随机裁剪图像保留在80 100 %之间,并随机应用水平翻转。在文献[ 60 ]的基础上,我们还随机地将图像瓦片转换为灰度图像。我们的DG / DA模型使用SGD求解器进行训练,30个历元,批大小为128,学习率设置为0.001,在80 %的训练历元后降至0.0001。我们的PDA模型使用SGD训练,动量设置为0.9,权重衰减0.0005和24个历元。我们使用批大小为64,初始学习率为0.0005。在Pr DA设置中使用了一些具体的训练细节,将在4.1 . 8节中描述。我们在PyTorch中实现了我们的深度方法,代码可在https://github.com/silvia1993/ Self- Supervised _ Learning _ Across _ Domains获得。
4.1领域泛化的自我监督
4.1 . 1数据与设置
对于我们的多任务生成模型DG分析研究,在PACS数据库[ 44 ]上进行了系统性评估作为主要测试平台之一。该数据库集合了7个物体类别以及4个不同领域(照片、绘画、漫画与素描),并遵循文献[ 44 ]所提出的实验方案开展工作:选取3个领域作为源数据集合进行预训练模型微调,并将剩余1个领域作为目标测试环境;随后参考文献[ 28 ]的标准协议,在整体数据集中采用随机抽样的方式将各领域划分为训练集(占70%)与测试集(占30%)。此外我们还引入了一个新的数据库VLCS [ 72 ]它整合了来自PASCAL VOC 2007 LabelMe加州理工学院以及Sun等共享5个物体类别的图像集合;根据文献[ 28 ]的规定我们采用了相同的实验框架对各个领域的图像进行分类任务训练与验证工作。值得注意的是VLCS数据库与PACS数据库在领域划分方面存在一定的关联性:当类别数量从最初的7扩展至65时将其视为同一类别的测试基准来评估我们的多任务自监督学习方法的有效性;相反地通过将来自加州理工学院的对象类别与其他域的场景图像相结合VLCS提供了更为复杂的挑战环境以检验模型在跨域学习方面的性能表现。
针对单源DG分析研究我们特别关注于数字类型的数据集合以便比较我们的方法与现有的竞争对手方法之间的性能差异差异;其中PrDA模型则采用了专门针对细致分类的小型汽车相关数据集合来进行参数优化工作;最后两个研究设置的具体细节将在第4.1.5节及第4.1.8节中进行详细阐述。
4.1 . 2自监督预训练
这里分别使用旋转和拼图作为领域泛化的前导任务来测试跨领域的图像方向和补丁同位知识的鲁棒性。
基线 。作为第一步,我们考虑了在没有原始标签的Imagenet ( ILSVRC12 )数据上训练的三个拼图和一个旋转模型。对于拼图,我们使用了作者[ 58 ],[ 60 ]提供的两个Context - Free - Network ( CFN )模型。CFN有9个基于AlexNet的孪生分支,分别从每个图像块中提取特征,然后在进入最终的分类层之前对其进行重组。我们将这些模型分别表示为JCFN [ 58 ]和J - CFN + [ 60 ]。第三个基于拼图的模型是在由无序图像块重建的整幅图像上训练一个AlexNet,我们称之为J - AlexNet。受[ 30 ]的启发,我们还训练了一个用于旋转识别的AlexNet模型,我们称之为R - AlexNet。
结果 。获得的结果收集在表1的顶部,表明使用基于块的( p )拼图方法平均提供了一个比处理整个( w )重组图像更可靠的前文本模型。旋转前文本模型显示了最好的结果,与基于块的拼图方法相比具有较小的优势。综上所述,我们发现在训练前文模型时将拼图任务从特征移动到图像层面并不是一个好的选择,而旋转任务是最简单有效的解决方案。

将目标设为列标题;最佳效果通常以加粗字体呈现;Top层级:基于Imagenet的数据集,在自监督预训练的基础上展开微调;随后,在源任务端执行微调过程;其中(p)表示基于块结构的网络方法;而(w)则代表采用全局图连接的网络架构;底层架构则基于有监督学习完成预训练阶段;接着结合自监督学习与有-supervision学习策略完成多任务优化过程
4.1.3 有监督的预训练和多任务学习
在构建融合监督与自监督学习的多任务体系中,我们探索了几种方案,包括不同架构的设计以及最优自监督任务的选择
4.1.4 多源域泛化
在评估我们的多任务模型时,我们进行了广泛的比较研究与分析。

4.1.5 单源域综合
模型的泛化能力既受学习过程的影响,也受训练数据质量的影响

4.1.6 消融与超参数调谐
如3.4节所述,我们的多任务方法的参数a和b分别规定了自监督辅助损失的重要性,以及每个输入数据批次中到达自监督分支的样本量。通过考虑这些参数的极端情况,我们对学习模型的自监督和监督任务的各自作用进行了消融研究。此外,我们测试了我们的方法对Jigsaw类(补丁排列)的个数P和补丁网格的维数 n \times n的鲁棒性。
基线。在这些实验中,我们主要关注Alexnet PACS DG的设置。在研究烧蚀时,我们将Jigsaw超参数固定在一个3 \times 3的面片网格和 P=30。设置\{\alpha=0, \beta=1\}表示自监督任务关闭,数据批次只包含原始有序图像,对应我们的Deep All基线。
结果- - Jigsaw消融。分配给数据偏置\beta的值驱动训练:它将焦点从使用低值(\beta<0.5)时的自监督任务移动到使用高值(\beta \geq 0.5)时的对象分类。我们将数据偏置设置为 \beta=0.6 :6,这意味着我们为网络提供了比混合图像更有序的图像,从而保持分类作为网络的首要目标。在这种情况下,当改变损失权重\alpha在\{0.1,1\}时,我们观察到总是统计上等于或优于Deep All基线的结果,如图5左边第一幅图所示。第二个图表明,对于\alpha的高值,调整\beta对整体性能有显著影响。确实\{\alpha \sim 1, \beta=1\} 表示Jigsaw在学习过程中处于开启状态且高度相关,但我们只对网络进行有序的图像馈送:在这种情况下,拼图任务是微不足道的,它迫使网络始终识别相同的排列类,而不是将学习过程规则化,这可能会增加数据记忆和过拟合的风险。进一步的实验证实,对于\beta=1但 \alpha值较低的情况,我们基于Jigsaw和DeepAll的多任务方法同样表现良好。设置\beta=0表示仅对网络进行图像混洗。对于每幅图像,我们有P个变体,其中只有一个变体的块顺序正确,并且允许进入对象分类器,从而导致真正的批量大小急剧减少。在这种情况下,无论Jigsaw是活跃的(\alpha>0)还是不活跃的(\alpha=0),目标分类器都无法收敛。在这些情况下,精度很低(<20 \%),因此我们不在图中显示,以方便可视化。
结果- Jigsaw超参数调优。通过使用上一段相同的实验设置,图5中的第三幅图展示了Jigsaw类数量P在5到1000之间变化时性能的变化。我们从一个较低的数量开始,与PACS中对象类的数量数量级相同,一直增长到文献[ 58 ]中用于实验的1000。我们观察到精度的总体变化为1.5个百分点,仍然几乎总是高于Deep All基线。最后,我们进行了一个测试,以检查改变网格大小和补丁数量时的准确性。即使在这种情况下,从2 \times 2到4\times 4网格的变化范围也是有限的,证实了文献[ 58 ]和文献[ 17 ]已经得到的关于该参数的鲁棒性结论。而且所有结果都优于DeepAll。
结果- -旋转消融。改变朝向对图像的全局外观在面片分解和拼图重排序方面影响较小。旋转和Jigsaw任务之间的另一个显著差异是自监督类的数量,Jigsaw为P \sim 10-50,而旋转仅有4个,如果考虑其中一个类与原始图像方向匹配,则实际减少到3个。在这种条件下,即使使用较低的\beta=0.4也不会使网络焦点偏离主目标分类任务,结合 \alpha=0.4产生表2报告的结果。对于消融分析,我们在改变其他(见图6)的同时保持这两个参数的固定:结果始终高于DeepAll基线,平均性能变化有限的(在1个百分点左右)表明对特定参数设置的敏感度较低。
结果- -自监督表现。我们已经看到了自监督任务如何支持主监督分类器进行领域泛化,但是检查它们自身的内部功能以及这些任务是否得到有意义的结果也是有趣的。我们展示了它们在测试用于评估对象分类器的相同目标图像时的性能,但对于Jigsaw和旋转任务的方向随机变化。在图7中,第一幅图显示了Object、旋转和Jigsaw分类器在学习历元上的精度,表明它们都同时增长了(在不同尺度上)。第二幅图显示了改变排列类数P时的Jigsaw识别准确率,当然随着任务难度的增加,性能有所下降,但总体而言,所得到的结果表明Jigsaw模型在重新排列分块时总是有效的。

图4. 单源Dg实验。我们对比了多任务Jigsaw (位于顶端)与旋转(位于底部)的方法与Adversary的表现。DA [75]。阴影背景区域覆盖了Adversary的结果范围。通过调节方法的超参数获得相应的DA值。对应的Adversary参考结果。(\gamma=1, K=2及其标准差由水平红线表示;蓝色直方图条显示了Jigsaw和旋转在改变自监督任务权重\alpha和数据偏置\beta时的表现)

图5展示了在采用Jigsaw方法结合Alexnet-PACS-DG设置下的消融研究及其对超参数的分析。实验报告在所有目标领域上的平均准确率表现优异,并经三次独立实验验证其稳定性;每个试验均重复3次以确保结果的一致性;表2中红线代表我们的Deep All平均值
4.1.7 直观解释及失败案例
正如文献[ 38 ]所指出的那样,基于监督的学习深度模型通常过于关注图像局部统计特性,这限制了所学到表征的泛化性和鲁棒性。拼图游戏以及旋转识别任务通过迫使网络利用整个图像信息,从而能够捕获全局信息并识别领域内不可知的对象形状特征。通过结合监督学习与自监督学习的目标,我们的目标是学习一种能够更好地捕获判别性特征表示的方法,从而有助于实现跨域图像对象内容识别的任务。为了深入分析这种行为模式,我们在ResNet - 18DG实验中应用了类激活映射( CAM )方法,在PACS数据集上生成了图8所示的激活图。前两行的内容表明,采用包含Jigsaw或旋转自我监督的多任务方法相比DeepAll模型在目标分类任务上表现更为出色,能够更精确地定位对象类别。具体而言,在处理素描作品(位于第二排及第六排)时观察到狗类物体;对于卡通和绘画作品(分别位于第四排及第五排)则同样能够有效识别;而在照片领域表现则较为理想。最后两行分析表明,对于拼图游戏和旋转识别任务中的误分类问题主要源于数据解释方面的缺陷,但局部化检测仍然具有重要意义
4.1.8 预测域适应
最近的工作研究了DG和DA之间的中间设置。在Pr DA [ 51 ] [ 82 ]中,一个有标签和几个无标签的源域在训练时可用,它们的描述性元数据是一种非常特定的域标签(见图9)。目标的元数据也是可用的:它们可以用来将目标域与已知源关联并组成目标模型。由于该模型是在没有访问目标图像的情况下获得的,我们仍然处于DG场景中。然而,由于源和目标之间的领域相似度水平是先验已知的,因此任务明显简化。
我们认为在这种场景下评估我们的多任务方法是值得的,主要有两个原因。( 1 )现有的DG方法大多同时要求训练数据的领域标签和类标签起作用。PrDA技术可以被认为是DG方法,在类监督方面需求减少,但强烈依赖于域标签的可用性。通过利用自我监督,我们的多任务方法可以像AdaGraph [ 51 ]一样在有限的标注源样本集下工作,但它也完全不需要源(和目标)域标签。因此,它在人工标注方面要便宜得多,并且在域标签缺失或噪声的情况下仍然可靠。( 2 )现有的Pr DA测试平台侧重于细粒度的分类任务,因此我们可以在一个与标准DG数据集有显著差异的识别问题上评估我们的方法。
基准和数据集。我们使用从单标记源学习且无法利用未标记数据的仅源案例作为基线。我们还考虑了基于标签传播( LP )和最小类混淆多目标方法( MCC )的半监督方法。LP通过伪标记在学习过程中使用未标记的图像,而它们被视为MCC的临时目标数据,并在其上进行适应,最后在真实目标上使用得到的模型。最后,Ada Graph [ 51 ]是我们主要的Pr DA参考。这是一种最近的方法,利用特定于领域的批规范化操作层来学习图中每个源域的模型,其中图是基于源辅助元数据提供的。在Comprehensive Cars ( Comp Cars )数据集上[ 81 ],我们遵循文献[ 51 ]中描述的实验方案。我们使用了2009年至2014年期间生产的4类( MPV、SUV、轿车、半挂车)的24151幅图像,这些图像是在5个不同的视点(前、前侧、侧、后、后侧)下拍摄的。每个视点和每个制造年份定义一个单独的域并指定其元数据,总共有30个域。我们选择一对域作为源和目标,剩下的28个域作为辅助未标记源。考虑所有可能的域对,我们得到了870个实验,并观察了所有实验的平均准确率结果。具体来说,我们从一个Imagenet预训练模型开始,使用Adam作为优化器在源域上训练了6个历元,权重衰减为106。使用的批处理大小为16,分类器的学习率为10^{-3} ,其余网络的学习率为10^{-4};学习率在4个历元后衰减了10倍。损失权重参数设定为\alpha=0.5。
结果。表5收集了获得的结果,并表明我们的多任务方法在源基线以及LP和MCC上有显著的改善。同时利用元信息和未标记数据的AdaGraph显示了最好的结果。考虑到AdaGraph与我们基于Jigsaw的结果之间的差距有限,我们声称当元数据信息有噪声或缺失时,我们的方法可以作为可靠且廉价的回退。
4.2 Self-Supervised Domain Adaptation
4.2.1 Single- and Multi-Source Domain Adaptation
当未标记的目标样本在训练时可用时,我们可以对它们使用任何自监督任务。事实上,我们可以对源数据和目标数据进行块重排序和方向识别,以支持源分类模型的自适应。
基线和数据集。我们考虑作为参考的四类DA方法。第一种是基于测量跨域的最大均值差异( MMD ),并最小化它以减少域偏移:DAN [ 49 ],JAN [ 50 ]。第二种采用基于辅助域分类网络分支反向梯度反向传播的对抗方法DANN [ 27 ]。第三类是基于批归一化:Dial [ 14 ]引入自适应层将源和目标分布匹配到一个标准高斯。在DDiscovery [ 52 ]中重新考虑了同样的想法,首先发现源中存在多个潜在域,然后不同地将它们的知识适应于目标。最后第四个家族重点研究了用硬自适应特征范数( HAFN )方法及其逐步变体SAFN来增加两个域的特征范数。一些DA方法将熵损失最小化作为额外的域对齐条件(例如SAFN + )。为了公平比较,我们也为我们的方法打开了熵损失。此外,我们要么同时考虑源和目标,要么只考虑目标。我们在源交叉验证的基础上,对源和目标自监督损失进行同等权重。
作为数据集,我们考虑Office - Home用于单源实验,PACS用于多源实验。与DG情况一样,所有报告的结果都是3次运行的平均值。
结果。表6展示了OfficeHome上的单源结果。与HAFN、SAFN和SAFN + ENT相比,我们的多任务方法在基线和DAN、JAN、DANN上有所改善,但性能较差,尽管通常没有展示,但我们展示了HAFN / SAFN方法的特定基线( ResNet-50 )结果,以更好地评估它们的相对增益。事实上,他们的基本架构相对于标准的ResNet有一个额外的全连接层,它在这个跨域设置中显得特别有用。我们还进行了稳定性分析,将源上的自监督任务关闭为\alpha_s=0:最小的结果变化表明大部分的自适应效果来源于在目标上运行自监督任务。
表7中的多源实验进一步说明了我们的多任务方法中包含的辅助自监督目标的自适应能力。当源域丰富且风格变化较大时,我们的方法不仅优于基于批规范化操作的技术Dial和DDiscovery,而且也优于目前最先进的DA方法HAFN和SAFN,后者在对齐多个源域和单个目标域之间的规范时更加困难。在拼图和旋转中,第二种更适合领域自适应,性能更高,对超参数调节的稳定性更好。
当两个自监督任务结合在一起时,我们平均得到一个小的准确率提升。表中下半部分还显示了改变\alpha 值的效果,相对于旋转而言,\alpha 值对拼图的影响更大。在Jigsaw +旋转模型中,我们也报告了DG结果,该结果对应于设置在\alpha^l=0和\eta=0,同时保留所有其他选择的参数。我们进一步展示了仅关闭自监督任务对目标(在\left(\alpha^t=0\right)时)或熵损失(\eta=0)的单独影响。这种消融凸显了主要的自适应效应是如何源于在目标上运行的自监督任务,而不是来自熵。

图6展示了在AlexNet - PACS DG设置下采用旋转策略后的消融效果实验结果。我们的实验结果显示,在各个目标领域上均取得了平均准确率,并且我们对每项评估指标进行了三次独立重复实验以确保结果的一致性。为了进一步验证该方法的有效性,我们将该方法与表2中的Deep All方法进行了对比分析

图7展示了Alexnet-PACS-DG配置用于Jigsaw分类器研究。左图中各个轴代表了配色曲线


4.2.2 部分域适应
源域和目标域共享完全相同的类的设置可能过于严格。这里我们讨论了在目标域只包含源类的一个子集的更真实的PDA环境下的实验结果。
基线。我们认为作为参考的五种PDA方法都是基于降低目标中不存在的源类的重要性。SAN [ 9 ]、PADA [ 10 ]、DRCN [ 47 ]等方法利用源模型预测评估目标类分布。IWAN [ 83 ]提出了一种不同的解决方案,每个域都有自己的特征提取器,源样本权重从域识别模型而不是从源分类器中获得。最近的ETN [ 11 ]只使用相关的源实例来训练标签分类器和域判别器。每个源实例的相关度(权重)通过一个辅助领域判别器计算得到,不直接参与适应阶段,量化了源实例的可迁移性。
HAFN和SAFN方法只利用了样本的范数而不是整个域的分布,对负迁移也具有很好的稳健性,同样适用于PDA环境,不需要任何加权机制。因此,我们也将它们作为参考。最后,我们报告了DAN和DANN作为基本自适应基线的结果,以显示最初设计的不用于处理PDA的方法的效果。
数据集。我们沿用之前的文献,选择两个数据集及其相关设置进行PDA实验。我们使用Office - 31 [ 66 ],它包含了办公环境中常见的31个对象类别的4652张图像。样本取自三个标注分布:Amazon ( A )、Webcam ( W )和DSLR ( D ),分别对应在线供应商网站、数码单反相机和网络摄像机图像。与[ 9 ],[ 10 ]类似,本数据集(该数据集与加州理工学院- 256共享相同的类)使用10个类作为目标。第二个测试平台是VisDA2017,最初用于2017年的视觉域适应挑战(分类跟踪):相对于其他数据集,它允许我们在非常大规模的样本量场景下研究提出的多任务方法。它有两个域,合成的2D物体渲染和真实图像,共有208k张图像,分为12类。我们关注合成到真实的转换,挑战中也考虑了这一点,但只保留目标的前6个类别按字母顺序排列。对于所有的实验我们使用ResNet - 50作为主干。
结果。表8和表9分别是在Office - 31和VisDA2017数据集上得到的结果。每个表分为四个水平块:第一个块显示未经自适应或使用标准DA方法获得的结果,第二个块显示设计用于处理PDA的算法的性能,第三个块包括基于范数的自适应方法HAFN / SAFN及其对应的ResNet - 50基线的性能。最后,第四部分是本文方法的结果。我们提醒,如3.3节所述,我们在PDA设置中的方法并不涉及辅助自监督任务中的源数据:事实上,在单源DA设置中获得的结果证实,在没有任何性能下降(见表6)的情况下,设置为\alpha^s=0是可能的。此外,所有实验均设置为\alpha^t=1.0。
从表中可以看出,Jigsaw和旋转均优于第一组自适应参考。相对于第二组PDA技术,我们的方法在VisDA2017上表现出更好的结果,即使这些竞争者中的许多人利用了10种作物的图像评估程序(用星号表示)。Office - 31上的top结果是由ETN获得的,但ETN对每个域对都有专门的参数选择过程,这与我们的方法不同,该方法的参数是固定的,由数据集中的所有域对共享。最后,第三组的HAFN / SAFN变体也证实了基于规范的方法对PDA的有效性。他们的结果与我们的结果相当或更差。
尽管没有为PDA设置量身定制,但获得的性能表明辅助自监督任务在这种场景下也支持自适应。鉴于我们的解决方案与样本选择策略正交,我们进一步尝试将它们结合在一起,以评估它们是否互补。具体来说,我们重点关注Office - 31和Jigsaw:我们通过权重g来估计目标类统计量,并包括一个由参数加权的域判别器,如3.3节所述[ 10 ]。为了便于比较,我们还采用了十作物评价法。表8最后两行的结果表明,估计目标统计量有助于网络只关注共享类别,平均精度比普通Jigsaw方法提高了2个百分点,达到了与考虑标准差的ETN相当的结果。我们可以说,这种优势来自于更好的域特征对齐:通过比较\mathrm{A} \rightarrow \mathrm{W}域偏移上的g值,我们观察到Jigsaw - g在识别目标(见图10)的缺失类时更加精确。我们用Jigsaw - g表示;包含领域分类器的情况:由于生成的特征已经跨领域很好地对齐,我们将- max固定为0.1,观察到进一步的小幅平均改进。从图10右边最后一张柱状图中,我们也观察到对目标类的较好识别。


图10展示了其元素及其在该实验中通过PADA、SSPDA-γ以及SSPDA-PADA方法所学得的类别权重。

5CONCLUSION
这项研究为跨领域自监督学习的应用提供了广泛的基础。特别注意到的是,在解决拼接图像块和确定图像方向方面取得了一定进展。研究表明这些解决方案能够轻松整合到多项任务框架中,并且能够实施有效的监督学习过程。结果显示该方法在提升跨领域的鲁棒性方面有所改进,在增强模型泛化能力方面也具有一定优势。相较于基于更精细的跨域自适应与泛化的方法而言该方案展现出一定的竞争力并且其适用性得到了进一步扩展超越了传统的对象分类技术并被应用于多个更具挑战性的场景例如语义分割检测以及三维视觉分析其中显著的地域偏移效应对野外观测中的应用效果尤为突出
