Advertisement

翻译论文:Simultaneous Deep Transfer Across Domains and Tasks

阅读量:

跨域和任务的同时深度传输

摘要:

最近的报告表明,在大规模数据集上训练的通用监督深度cnn模型可以减少但不消除数据集的偏差,对新领域中的深度模型进行微调可能需要大量的标记数据,而对于许多应用程序来说,这些数据是根本不可用的。我们提出了一种新的CNN结构来利用无标签和稀疏标签的目标域数据。我们的方法同时优化域不变以促进域迁移,并使用软标签分布匹配损失在任务之间传输信息。我们提出的适应方法提供的经验性能在两个标准的基准视觉域适应任务上,在监督和半监督的适应设置中进行评估的性能超过了先前公布的结果。

1.介绍:

考虑一下由制造商训练的一组机器人,它们使用标准的图像数据库识别数千种常见的物体,然后运往全国各地的家庭。当每个机器人开始 在自己独特的环境中运行,可能会因为域的变化而降低性能。很明显,从新环境中获得足够的额外监督数据, 性能可以恢复。然而,目前最先进的识别算法依赖于高容量卷积神经网络(CNN)模型,这些模型需要数百万的初始训练监督图像。即使是传统的微调深度模型的方法,即微调[14,29],也可能需要为每个需要调整的对象类别添加数百个或数千个有标签的示例。
这是合理的假设,机器人的新主人将为几种类型的对象标记几个示例,但完全不现实的是,在新的环境中假定全面的监督。因此,我们提出了一种有效地在训练(源)和测试(目标)环境之间的适应算法。通过利用在新环境中收集的无标签数据的一般统计以及从感兴趣类别的子集中收集的少数人工标记示例。我们的方法执行跨域和跨任务的迁移学习(见图1)。直观地说,域迁移是通过使源和目标的边缘特征分布尽可能相似来完成的。任务迁移是通过将从源上学到的经验类别相关性转移到目标域。这有助于保持类别之间的关系,例如,瓶子类似于杯子,但不同于键盘。以前的工作提出了领域迁移的CNN模型[12,24],但是没有利用学习到的源语义结构来进行任务迁移。 在这里插入图片描述

复制代码
    图1.我们通过两种方法将区分类别信息从源域传输到目标域。首先,通过使两者的边缘分布达到最大的域混淆。 域尽可能类似。其次,我们将从源示例中学到的类之间的相关性直接传递给目标示例,从而保留了类之间的关系。

为了支持域迁移,我们使用无标签的目标数据来计算新环境中的估计边缘分布,并显式地优化了一个特征。 使源和目标域分布之间的距离最小化。数据集偏差在计算机视觉中被
Torralba(托拉尔瓦)和Efros(埃弗罗斯)的“命名数据集”游戏所经典地描述。它训练了一个分类器来预测图像来自哪个数据集,从而说明了视觉数据集是视觉世界的有偏差的样本。事实上,这被证明是对域差异度量有正式的连接[21,5]。因此,领域不变性的优化可以看作是学习预测类标签的任务。 同时找到一个表示形式,使域看起来尽可能相似。这一原则构成了我们提出的方法的域迁移组件。我们通过优化损失学到了深刻的特征。 对于既包括标签数据的分类误差,又包括域混淆损失,它试图使域无法区分。

但是,尽管最大限度地将域的边缘分布集中在一起,但它不一定要将目标中的类与源中的类对齐。因此,我们也是明确地将类别间的相似性结构从源迁移到目标,并进一步优化我们的特征,使用少量的目标域标签示例作为参考点在目标域中生成相似的结构。 我们受到先前关于提取深度模型[3,16]的工作的启发,并将这些工作中提出的思想扩展到域适应设置中。我们先计算平均输出概率分布,或“软标签”,在每个类别的源训练示例中。然后,对于每个有标签的目标示例,我们直接优化我们的模型来匹配从类到软标签的分布。通过这种方式,我们可以通过将信息传输到目标域中没有显式标签的类别来执行任务适配。

我们使用图2中描述的一种新的cnn结构联合解决了这两个问题。我们结合了域混淆和Softmax交叉熵损失来训练网络和目标数据。当从每个类别获得少量的目标标记数据时,我们的结构可以用来解决监督适应问题,而在半监督的情况下,当少量的目标标记数据从类别的子集中可用时。 我们对流行的Office基准[28]和最近引入的用于分类的交叉数据集[30]进行了全面的评估,在视觉的不同的领域。我们证明,通过联合优化域混淆和匹配软标签,我们能够超越当前最先进的视觉领域适应结果。

2.相关工作

近年来,人们提出了许多解决视觉域适应问题的方法,也通常被定义为视觉数据集偏差问题。所有人都认识到源和目标数据特征的分布有一个转换。事实上,域转换的大小通常是由源域和目标域特征子空间之间的距离来衡量的。 许多方法试图通过学习特征空间转换来使源和目标对齐来克服这一差异。 [28、23、11、15]。对于有监督的适应情况,当目标域中有可用的有限数量的标签数据时,提出了一些学习目标分类器与源分类器相对应的方法。[32,2,1]。其他人试图同时学习特征变换并同时规范目标分类器,[18,10]。

最近,基于特征表示的有监督CNN已经被证明在各种视觉识别任务[22,9,14,29]中是非常有效的。特别是使用深度表示 极大的减少了分辨率和照明对域移动的影响[9,19]。并行CNN结构,如siamese网络,已被证明是学习不变表示的有效方法。 A.[6,8]然而,训练这些网络需要为每个训练实例贴上标签,因此不清楚如何将这些方法扩展到非监督或半监督设置。还探索了多模式深度学习体系结构,以学习对不同输入模式不变的表示[26]。然而,这种方法主要是在生成的环境中运行的。因此,没有充分利用有监督的CNN表示的充分代表性。
[7]提出了一种联合训练源和目标的CNN体系结构。但仅限于两层,因此,使用更深层次架构的方法明显优于这些方法。[22], 在大型辅助数据源(例如:ImageNet[4])上进行预训练。[13]提出了用去噪自动编码器进行预训练,然后用mmd域混淆方法同时训练两层网络。 这有效地学习了域不变表示,但由于学习网络相对较浅,缺乏直接选择学习的强语义表示。 用有监督的深度CNN优化分类目标。

在训练过程中使用分类器输出分布而不是类别标签,已经在模型压缩或蒸馏的背景下进行了探索[3,16]。然而,我们是第一个应用此方法到域适配设置中的人,为了在域之间传递类相关性。
其他工作也同时探讨了直接优化域不变性表示的思想[12,24]。然而,它们要么使用较弱的域不变性度量,要么使用比我们提出的方法鲁棒性差的优化方法。它们没有试图解决任务迁移问题在半监督设置中。
在这里插入图片描述

复制代码
    图2.我们用于域和任务迁移的CNN总体架构。我们对所有源数据和目标数据(包括标签数据和未标记数据)使用域混淆损失来学习域不变表示。 我们同时通过优化网络将学习到的源语义结构迁移到目标域,从而生成与源域中的源数据匹配的激活分布。 仅限于CNN。 最好是彩色的。

3. 用于域和任务转移的联合CNN体系结构

我们首先概述我们的卷积网络(Cnn)体系结构,如图2所示,这学习了一个表示,它既对视觉域进行比对,又将语义结构从标记良好的源域转移到稀疏标记的目标域。 我们假设可以访问少量有标签的目标数据,可能只来自兴趣类别的一个子集。在类别的子集上有限的标签,对现有目标数据[14,29,17]进行微调的传统域迁移方法是无效的。相反,由于源标记数据共享目标域的标签空间,我们使用源数据来指导相应分类器的训练。
我们的方法以有标签的源数据作为输入{xs,ys}(蓝色框图2)和目标数据{xt,yt}(绿色框图2),其中标签yt只为目标示例的一个子集提供。我们的目标是生成一个类别分类器θc,,它由表示参数θrepr在参数化的图像特征表示形式f(x;θrepr)上操作并能在测试时对目标样本进行正确的分类。
对于具有K类的设置,将我们期望的分类目标定义为标准的softmax损失。
在这里插入图片描述
其中p是分类器激活的Softmax。在这里插入图片描述
我们可以使用可用的源标签的数据来训练我们的特征。分类器参数按方程(1),
但这往往会导致对源分布的过拟合,导致在目标域中识别时测试时的性能下降。然而,我们注意到如果源域和目标域非常相似,那么对源域进行训练的分类器将在目标上表现良好。事实上,源数据和目标数据之间的相似性是足够的。 学习的表示法 θrepr。
灵感来自托拉尔巴和埃弗罗斯的“命名数据集”游戏,我们可以直接训练域分类器
θD,以识别训练实例是否源自给定其特征表示的源或目标域。直观地讲,如果我们的代表选择受到域移位的影响,则它们将位于特征空间的不同部分,并且分类器能够容易地分离域。我们使用此概念添加新的域混淆损失Lconf(xS, xT, θD;θrepr).。根据我们的目标,直接优化我们的表现,以最大限度地减少源和目标分布之间的差异,这一损失在3.1节中有更详细的说明。
对于我们的方法,我们从最近的网络蒸馏作品中汲取灵感。这表明,通过将hard labels替换为原始大模型中的Softmax激活函数,可以将大型网络“蒸馏”成一个更简单的模型。这个修改被证明是关键的,因为这个分布保存的关于类别之间的关系的关键信息并在训练过程中施加额外的结构。本质上,因为每个训练示例都与输出分布配对。它不仅提供了关于它所属类别的有价值的信息,而且对分类器进行分类识别训练。
因此,我们建议使用标记的目标数据通过soft label损失来优化网络参数,
Lsoft(xT , yT ; θrepr, θc ).这一损失将训练网络参数产生“软标签”激活,该激活与经过训练以分类源数据的网络上的源示例的平均输出分布相匹配。第3.2节对这一损失作了更详细的说明。通过训练网络以匹配目标数据上的预期的源输出分布,我们将学习到的类间相关性从源域转移到目标域中的示例。这直接将有用的信息从源转移到目标,例如书架看起来更类似于文件柜,而不是自行车。
然后,我们的完整方法将联合损失函数最小化。
在这里插入图片描述
其中,超参数λ和ν决定了域混淆和soft label对优化的影响有多大。

我们对任务转移的域混淆和软标签损失的想法是通用的,并且可以应用于任何CNN分类体系结构。对于我们的实验和本文的详细讨论,我们修改了标准Krizovsky体系结构[22],它有五个卷积层(卷积1-卷积5)和三个完全连接层(fc6-fc8)。表示参数θrepr对应网络的1-7层,分类参数θc对应于第8层。在本节的剩余部分中,我们提供了进一步的细节,我们的新的损失定义和我们的模型的实现。

3.1 通过域混淆对齐域

在这一节中,我们详细描述了我们提出的领域混淆损失目标。回想一下,我们引入了域混淆损失,作为学习域不变表示的一种方法, 因此,将允许我们更好地利用使用有标签的源数据训练的分类器。当使用表示训练的分类器不能区分两个域时,我们认为的表示是域不变的。 如果使用该表示法训练的分类器无法将示例与两个域区分开来。
为此,我们添加了一个附加的域分类层,在图2中表示为fcD,参数为θD。该层使用对应于图像的域作为其标签简单地执行二元分类。 年龄是它的标签。对于特定的特征表示,θrepr,我们评估它的域不变性。通过学习表示上的最佳域分类器。可以通过优化以下目标来学习这一点,其中yD表示的示例所来自的域:
在这里插入图片描述
与q对应的域分类器激活的softmax:Q=Softmax。
对于一个特定的域分类器,θD,我们现在可以引入我们的损失,通过计算输出预测的域标签和域标签上的均匀分布之间交叉熵来“最大程度地混淆”这两个域。
在这里插入图片描述
这种域混淆损失通过寻找最佳域分类器性能较差的表示来学习域不变性。

理想情况下,我们希望同时最小化表示和域分类器参数的方程(3)和(4)。然而,这两种损失是直接对立的:学习完全域不变表示意味着域分类器必须做得不好,并且学习有效的域分类器意味着该表示不是域不变的。与其在全局范围内优化θD和θrepr,我们可以使用前一次迭代中的固定参数来执行以下两个目标的迭代更新:
在这里插入图片描述
这些损失很容易在标准的深度学习框架中实现,并且在正确设置学习速率之后,方程(5)只更新了θD,而等式(6)只更新了(θrepr)。 可以通过标准反向传播来执行更新。这些更新一起确保了我们学习到的表示是域不变的。

3.2 通过软标签对齐源类和目标类

在训练网络混淆域的同时,对齐它们的边缘分布,对于每个域之间的类的对齐没有保证。为了确保在源和目标之间保留类之间的关系,我们根据“软标签”而不是图像类别硬标签来微调网络。
我们定义K类的软标签作为K类的源示例的所有激活的SoftMax的平均值,如图3所示,并且将该平均值表示为L(k)。注意到,因为源网络已经被训练为完全的优化一个分类目标。在每个ziS上一个简单的softmax将隐藏大部分有用的信息。通过产生一个非常顶峰的分布。相反,我们使用具有高温度T的SoftMax。以至于相关类别具有足够的概率质量,从而在微调过程中产生一定的影响。通过计算每个类别的软标签,我们现在可以定义软标签损失:
在这里插入图片描述
其中p表示目标图像的soft激活,在这里插入图片描述
上述损失对应于特定目标图像的soft激活与对应于该图像类别的soft标记之间的交叉熵损失,如图4所示。
在这里插入图片描述

复制代码
      图3.soft标签分布是通过使用源模型源训练示例的平均每个类别的激活来学习的。这里描述了一个包含5个类别的示例,以演示瓶类的最后soft激活将主要由瓶子和杯子主导,在椅子、笔记本电脑和键盘上的质量很小。
在这里插入图片描述
复制代码
    图4.描述了在当前目标激活上使用交叉熵损失函数的源每类soft激活的使用情况。

要了解为什么这会有帮助,请考虑一个特定类别的软标签,如瓶子。软标签L(bottle)是一个K维向量,其中每个维度表示瓶子到每个K类的相似性。 在这个例子中,瓶子soft标签在杯子上的权重比键盘上的要高,因为瓶子和杯子在视觉上更相似。因此,使用这个特殊的soft标签进行的soft标签训练直接加强了在特征空间中瓶子和杯子应该比瓶子和键盘更接近的这种关系。

使用这种soft标签损失的一个重要好处是,我们确保没有任何标签的目标数据的类别的参数仍然被更新以输出非零概率。我们在第4节中探讨了这一好处,我们使用目标类别子集的标签训练网络的位置,即使仅在无标签的类别上进行评估时,也会发现显著的性能改进。

4.评价

为了分析该方法的有效性,我们在Office数据集(一种用于视觉域适应的标准基准数据集)和一种新的大规模跨数据集域适应挑战上对其进行了评估。

4.1.对Office数据集的适应

Office数据集是三个不同域(Amazon、DSLR和Webcam)的图像集合,其中最大的图像有2817个标记图像[28]。数据集中的31个类别由办公室设置中常见的对象组成,如键盘、文件柜和便携式计算机。
我们在两种不同的设置中评估我们的方法:

  • 监督适应: 所有类别的标签训练数据可在源中获取,以及少量的有标签数据在目标域中获取。
  • 半监督适应(任务适应): 有标签的训练数据在源中可获取并且少量的有标签数据可在目标类别的子集中获取。

对于所有的实验,我们使用发行的CaffeNet[20]权值初始化卷积1-fc7的参数。然后,我们使用源标签数据对网络进行微调。为了生成soft标签分布,并利用学习到的源CNN权值作为我们训练方法的初始参数。所有实现都是使用开源Caffe[20]框架生成的,训练所需的网络定义文件和交叉熵损失层将在接受后发行。我们使用0.001的学习率来优化网络。并将超参数设置为λ=0.01(混淆)和ν=0.1(soft)。
对于六个域偏移中的每一个,我们评估跨五个训练/测试分割,这些分割是通过从每个域的完整图像集合中采样示例而生成的。在源域中,我们遵循这个数据集的标准协议。并通过对Amazon域的每个类别抽样20个示例以及DSLR和WebCAM域的每个类别8个示例来进行拆分。
我们首先给出了监督设置的结果,其中为目标域中的每个类别提供了3个标签示例。我们报告了剩余的无标签图像的准确性,遵循数据集引入的标准协议[28]。除了各种基线之外。在表1中,我们报告了soft标签单独微调以及带有域混淆的soft标签的编号。因为Office数据集不平衡,我们报告多类精度,这是通过独立计算每类精度,然后平均超过所有31类。
我们看到,与soft标签或域混淆的微调提供了一个持续改进的硬标签训练,在6个偏移中的5个。将soft标签与域混淆相结合,平均会产生更高的性能。这一结果直观地认为,当存在足够多的目标标记示例时,直接优化联合源和目标分类目标(Source+TargetCNN)是一个很强的基线,因此,使用我们的任何一个新的损失增加足够的正则化,以提高性能。
接下来,我们在半监督适应环境下进行实验。我们考虑这个例子训练数据和标签可用于目标域中的某些类别,但不是所有类别。我们感兴趣的是,我们是否可以将从标记类中学到的信息迁移给无标签的类。
断》》。。。。。。
要做到这一点,我们考虑从31个类别中的15个类别中,每个类别有10个标有目标的例子,遵循Office DataSet引入的标准协议[28]。然后,我们评估我们对其余16个类别的分类性能。没有任何数据可用能够在训练时间
在这里插入图片描述

复制代码
      表1.利用Office数据集对标准监督适应设置进行多类精度评估。我们使用[28]的标准实验协议对所有31种类型进行了评估。他 我们比较了三种最先进的域适配方法,以及仅使用源数据、目标数据或源数据和目标数据同时进行训练的cnn。
在这里插入图片描述
复制代码
    表2.基于Office数据集的标准半监督适应设置的多类精度评估.我们评估了16种我们无法进入目标标记的类别。 d数据。我们给出了这些非监督类别的结果,对于源模型,我们的模型只使用15个辅助类别的软标签进行训练,最后在一起使用域混淆。 在15个辅助类别上加上软标签。

在表2中,我们给出了16个被搁置类别的多类精确性,并将我们的方法与以前的域适配方法[18]以及纯源训练的cnn进行了比较。注意,因为 这里的性能仅在DataSet中的一个类别子集上计算,此表中的数字不应与表1中的受监督设置直接比较。
我们发现我们的方法的所有变体(只有软标签丢失、域混淆以及两者结合在一起)都优于基线。与完全监督的情况相反,这里我们注意到两个DOMA 在混乱和软标签中,对我们的方法的整体性能改进有显著贡献。这是因为我们现在正在对缺乏标记目标的类别进行评估。 因此,网络不能仅通过分类目标隐式地执行域不变性。另外,我们从相关的软标签培训中得到了改进。 任务表示在任务之间有效地传输信息。
在图5中,我们展示了亚马逊→网络摄像头转移的示例,我们的方法正确地分类了被搁置对象类别中的图像,而基线没有分类。我们发现我们的方法 克服错误情况,例如以前与字母托盘混淆的笔记本,或黑色的。和黑电脑老鼠混在一起的杯子。
在这里插入图片描述

复制代码
    图5.在半监督适应设置中亚马逊→网络摄像机移位的例子,其中我们的方法(下面的绿松石标签)正确地对图像进行分类,而基线(顶部紫色)则是正确的。 标签)没有。

4.2.不同域间的适应性

全部评论 (0)

还没有任何评论哟~