Advertisement

最优传输论文(四十三):Unsupervised Multi-source Domain Adaptation Without Access to Source Data论文原理

阅读量:

文章目录

  • 前言
  • Summary Section
  • Introduction Section
  • Related Work Analysis
  • Methodology Section
    • 3.1 Weighted Information Maximization Technique

      • 3.2 Weighted Pseudo-labeling Technique
      • 3.3 Optimization Strategy
    • 4. Theoretical Insights

    • 5. Experiments


前言

  • 文章源自2021年CVPR会议
    • 本文属于个人作者在领域自适应与最优传输方向所作的研究专辑的第43篇论文。
    • 所有相关代码已发布于GitHub存储库...处。
    • 欢迎大家点赞星标以兹鼓励。

摘要

这篇论文颇具吸引力。
它通过不访问源域数据实现领域自适应。
其目标是通过从独立有标记的源域中获取知识来训练无标记目标域的预测模型。
许多传统的方法假设在训练期间可以访问源数据,
出于隐私、安全和存储等方面的考虑,
这方面的应用可能并不十分可行。
最近的一项研究解决了这一问题,
提出了一种算法,
这种算法能够将知识从单个源模型转移到未标记的目标领域,
而无需访问任何源数据。
然而,
为了使该方法更具实用性,
如果存在多个可选的训练源模型,
则可能需要对每个模型分别进行适应以确定最佳来源。
我们提出了一个问题:
是否能找到一种不依赖于任何单个源数据或目标标签的最佳模型组合,
其性能至少与选择最佳单一源时相当?
为此,
我们提出了一种高效的新算法。
该算法能够自动将不同来源的不同权重结合在一起,
从而确保其性能至少不低于最佳单一来源的表现。
此外,
我们还提供了一定理论依据以支持这一论断。
为了验证该算法的有效性,
我们在多个基准数据集上进行了大量实验。
结果表明,
与传统方法相比,
我们的算法不仅达到了相同的准确率水平,
而且在多数情况下表现更为优异。

1. Introduction

  • 深度神经网络已经在多种视觉任务中取得了熟练的表现[11,25,18,35],然而,这些模型在适应视觉分布转移[27]方面一直存在不足。另一方面,人类的识别能力对于这种变化是强大的,比如阅读新字体的文本或在看不见的环境中识别物体 。在将这些模型应用于实际场景时,将这种对分布转移的稳健性传授给深层模型是非常重要的。
  • 无监督域自适应(UDA)[2,37]通过对来自目标域的少量非监督数据进行自适应,寻求弥合由于域转移而导致的性能差距。目前的大多数方法[7,14]优化了一个双重目标:(i)最小化源数据的经验风险,(ii)使目标和源特征无法相互区分通过匹配不同阶次的分布统计矩来最小化域间分布差异也得到了广泛的探讨[42,33]。
  • 上述所有方法的一个缺点是它们运作时的转换场景,即为适应目的需要源数据。在现实环境中,源数据可能由于各种原因而不可用。隐私和安全是首要考虑的问题,因为数据可能包含敏感信息。另一个关键原因是存储问题,即源数据集可能包含视频或高分辨率图像,在不同平台上传输或存储可能不实用。因此,开发无监督的适应方法势在必行,这种方法可以在不访问源数据的情况下将源模型适应到目标领域
  • 最近的研究[21,23]尝试在不访问源数据的情况下将单个源模型调整到目标域。然而,这些方法的一个基本假设是,最相关的源模型是由oracle提供的(不太明白),以便进行适配。一个更具挑战性和实用性的情景需要对一组源模型进行调整——每个源域与目标之间的关联程度不同,而且调整不仅需要综合来自多个模型的综合先验知识,还需要同时防止负迁移的可能性在本文中,我们引入了无监督多源自适应问题,而不访问源数据。我们开发了一个基于伪标签和信息最大化原则的算法 ,并提供了直观的理论见解,以表明我们的框架保证了性能优于最佳可用源,并最小化了负迁移的影响
  • 为了解决多源模型自适应而不访问源数据的问题,我们将信息最大化损失[23]部署在所有源模型目标软标签的加权组合上。我们还使用了从深度聚类方法[4]中获得的伪标签策略,以及IM损失来最小化特征的噪声聚类分配。整体优化联合自适应源的特征编码器和相应的源权值,结合这些权值得到目标模型
  • 主要贡献 。我们解决了多源UDA的问题,没有访问源数据。为解决这一问题,我们做出了以下贡献:
    •我们提出了一种新的不需要访问源数据的UDA算法。我们称之为无数据多源无监督域适配(DECISION)。我们的算法通过优化一个精心设计的无监督损失,自动识别最优混合源模型来生成目标模型。
    •在直觉假设下,我们对目标模型的性能建立了理论保证,表明它始终至少与部署单一最佳源模型一样好,从而最大限度地减少负迁移。
    •我们通过大量的数值实验验证了我们的说法,证明了我们方法的实际好处。

本节主要概述了单源和多源情景下无监督领域适应的相关文献,并探讨了与假设转移学习密切相关的背景知识。
在无监督领域适应方面,UDA方法已在多个任务中得到应用[44,32,15]。
这些包括基于矩匹配[42,33]和对抗性学习[7,44]的特征空间自适应方法,
以及通过图像翻译实现像素空间自适应的方法[14]。
值得注意的是,
现有的UDA方法均依赖于标记的源数据,
而这在许多实际应用场景中可能不具备可行性。
关于假设迁移学习HTL,
它旨在将源域的知识转移到目标域,
但与我们的场景不同,
HTL通常假定目标域数据具有标记信息,
这限制了其在真实世界环境中的适用性。
然而,
最近研究[21,23]提出了通过伪标记单源假设的方法,
从而扩展了标准HTL到无监督目标数据的情况U-HTL。
我们的研究进一步提出了一种多源模型组合的方法,
这些模型可能与目标域存在正相关或负相关关系。
针对多源域自适应问题,
MSDA通过整合多源模型的知识来扩展标准UDA框架。
潜在空间变换方法[50]
通过优化差异度量或对抗性损失来对齐不同领域的特征。
基于差异的方法试图最小化最大平均差异[10,50]
以及R'enyi差异[13]等度量来实现跨域对齐;
而对抗性方法则通过优化GAN损失[47],
H−散度[49]和Wasserstein距离[46,22]
使各领域特征难以被域鉴别器识别出来[47]。
此外,
域生成方法如CycleGAN[51]
则采用像素级的转换策略来实现自适应过程。
这些方法都假定在适配期间可访问源数据集。

3. Methodology

  • 问题设置 。我们解决了将多个在不同领域上训练的模型联合适应新的目标领域的问题,该领域只访问样本,而不访问来自目标领域的注释。在这项工作中,我们将考虑使用K类别的分类模型和输入空间X的适应。形式上,让我们考虑我们有一组源模型\{θ^j_S\}^n_{j=1},其中第j个模型θ^j_s:X→R^K是使用源数据集D^j_S=\{x^i_{S_j},y^i_{S_j}\}^{N_j}_{i=1}学习的分类模型,其中N_j个数据点,其中x^i_{S_j}y^i_{S_j}分别表示为第i个源图像和相应的标签。
  • 现在,给定一个未标记的目标数据集D_T=\{X^i_T\}^{N_T}_{i=1},问题是学习一个分类模型θ_T:X→R^K,仅使用学习的源模型,不访问源数据集。注意,这与文献中的多源域自适应方法不同,后者在学习目标模型θ_T时也利用源数据。
  • 总体框架 。我们可以将每个源模型分解为两个模块:特征提取器φ^i_S:X→ R^{d_i}和分类器是ψ^i_S:R^{d_i}→R^K。这里,d_i指向第i个模型的特征维度,而K指向类别的数量。我们的目标是通过仅结合来自给定源模型的知识来估计目标模型θ_T其方式是自动拒绝较差的源模型,即那些与目标域无关的
  • 我们框架的核心是一个模型聚合方案[28,13],其中我们学习了一组与每个源模型对应的权重 \{α_i\}^n_{i=1},这样,α_k≥0\sum^n_{k=1}α_k=1。这些权重表示源域上的概率质量函数,较高的值意味着该特定域具有较高的可转移性,并用于相应地组合源假设然而,与以前的工作不同,我们联合调整每个单独的模型,并通过单独使用未标记的目标实例来同时学习这些权重 。在下文中,我们将详细描述我们用于实现这一目标的训练策略。

3.1. Weighted Information Maximization

由于无法获取标记源或目标数据,在这种情况下我们建议对源分类器{ψi_S}n_{i=1}进行调整(因为它包含了反映源域类分布的信息),并根据信息最大化原则仅调整其对应的特征映射{φi_S}n_{i=1}[3,19,30,23])。我们的这一适应过程背后的原因源自于半监督学习中的聚类假设[5]这一假设认为判别模型的决策边界应位于输入空间中人口稀疏(不密集)的区域以避免过拟合问题。为此我们需要最小化条件熵项(即对于给定输入示例)[9]如上所述

在这里插入图片描述

该公式为条件熵的表达式。具体而言,则是将多个源分类器模型按照一定权重进行集成,在目标域的数据点x_T处生成预测结果,并经过Softmax运算计算交叉熵损失函数值。从直观上讲,则是如果源模型参数θ^j_S在目标任务中表现出良好的迁移性能力(即具有良好的可转移性),那么在优化\{θ^j_S,α_j\}上的项(1)的过程中,则会使得对应的权重系数α_j显著高于其他权重系数。

在部分标注场景下,在无监督学习中使用部分标签进行训练时(...),信息量的最小化能够有效地捕捉聚类假设(即数据点倾向于聚集到同一类别中),然而这可能引发退化解(即模型倾向于预测单一类别以最小化条件熵)。例如,在这种情况下(如图2所示),模型可能会倾向于预测单一类别以最小化条件熵。为此(...),我们引入了另一种思路:通过引入跨数据集均匀分配的类别标签配置策略来避免这一缺陷。为了平衡类别偏好,在编码阶段我们采用最大化经验标签分布熵的方法[3](如公式1所示)。

在这里插入图片描述
在这里插入图片描述

在聚合模型 θ_T中对目标数据与标签之间的互信息进行经验估计。尽管最大化此损失有助于提升预测可信度(即提高分类准确性),但仍可能存在过度限制标签分配风险的情况(如参考文献[23]所探讨)。为此我们提出了一种伪标记策略旨在抑制这种异常情况的发生。(具体而言 由于负号与log符号相互抵消 因此|p log p|越大越好 即要求每个类别内的总和达到最大值 从而迫使分类器在各类别之间趋于均衡分布 而不出现明显偏向某一类别的情况)

3.2. Weighted Pseudo-labeling

  • 基于域转移原理[43]指出,在信息最大化的过程中可能会出现个别实例被错误地归类到不恰当的类别中。这些预测误差在训练过程中逐渐放大,并最终导致了所谓的确认偏差现象的发生。为了减小这种负面影响的影响程度,在本研究中我们采用了基于自监督学习的方法[23]作为解决方案。这种方法受到DeepCluster技术[4]启发而来。
  • 在开始阶段(即初始阶段),我们需要计算每个源模型对于整个目标数据集所生成的所有簇质心进行评估。
在这里插入图片描述

在第i次迭代中,在源域j中获得类k的簇质心用符号\mu^{(i)}_{k_j}来表示;其中\theta'^j_S = (\psi^j_S \circ \phi'^j_S)代表上一轮迭代的结果。这些源自特定于各个来源的质量中心,则是基于每个来源模型当前聚合权重进行综合计算得到的。

在这里插入图片描述

接下来,我们计算每个样本的伪标签,将其分配到特征空间中最近的簇质心:

在这里插入图片描述

我们重申此过程,以获得更新的 质心和伪标签,如下所示,

在这里插入图片描述
在这里插入图片描述

其中1(·)是一个标志函数,在参数取真值时其值为1。这种计算过程可以重复多次以获得固定的伪标记。从实际应用的角度来看,在一轮迭代后就足够了。然后我们得到了关于这些伪标签的交叉熵损失如下所示:

在这里插入图片描述

请注意,伪标签在一定次数的迭代后定期更新,如第5节所述

  • 这里看一下模型的总览:图2
在这里插入图片描述

图2展示了我们方法的整体架构:我们固定了所有源域的最终分类器,并通过联合优化源特征编码器及其对应的权重参数来实现目标预测值的生成过程。(简而言之,在对L_{ent}进行训练时,我们针对某一特定类别Cj将所有源域分类器输出结果按照αi系数进行加权融合后进行Softmax操作得到目标域预测结果;由于目标域缺乏标签信息无法直接计算交叉熵损失函数(因此转而采用条件熵期望作为损失函数),即对每个目标域样本计算其类条件概率分布后取期望值;这个过程涉及到两个关键步骤:首先对αj进行初始化为1并将其视为可优化变量;其次通过最大化类条件概率分布的信息量来确定最优αj值;具体而言如果源域特征θ^j_S在目标域具有良好的迁移性则其对应的αj会显著高于其他领域参数;这整个过程对应于图2中展示的L_{ent}模块;与之相对应的是L_{div}模块它与L_{ent}存在相似之处即都是基于类别分布的信息散度计算方法但其核心区别在于前者是先对目标域的所有样本求取其分类结果的概率分布均值然后在此基础上计算信息散度而后者则是针对单个样本分别计算后再取平均;最后是伪标签损失项L_{pl}该模块的核心思想是通过质心计算来构建类别间的关联关系具体来说对于每一个类别的每个源域模型我们首先计算该类别下所有目标域样本的质量中心点即通过Softmax函数得到一个概率向量然后根据其与真实标签之间的差异性赋予不同的权重系数;接着将这些质量中心点按照α系数进行加权融合得到最终的目标领域质心表示;为了使质心表示更具鲁棒性我们在构建过程中引入了伪标签机制这使得质心计算仅关注于本类别相关的样本信息从而避免了维度不匹配的问题(具体实现可参考公式5及7);需要注意的是在实际编程实现中为了避免向量维度不一致导致运算错误通常会采用一定的数据预处理手段如填充零或降维操作以保证各运算环节的有效性

3.3. Optimization

综上所述,在源空间假设\{θ^j_S\}_{j=1}^{n} = \{ψ^j_S ◦ φ^j_S\}_{j=1}^{n}与目标数据集D_T = \{x_i^{T}\}_{i=1}^{n_T}的基础上, 我们将固定来自各个来源的分类器系统, 并通过优化参数设置\{\varphi_j^{S}\}_{j=1}^{n}与集成权重分配\{\alpha_j\}_{j=1}^{n}来实现:

在这里插入图片描述
  • 上述目标用于解决以下优化问题,
在这里插入图片描述

当获得最优集合φ{j*}_S以及对应的系数αj时,最佳目标值θ_T通过估计计算得出:θ_T=∑{j=1}^n α^∗_j (ψ_S^j ◦ φ^{j*}_S)。为了求解式(12)所描述的优化问题,我们将按照算法(1)的步骤进行。

在这里插入图片描述

4. Theoretical Insights

我们研究背后的方法论基础。【

在这里插入图片描述

那么我们建立了引理1 中所述的理论主张。

  • 引理 1:假设损失函数L在第一个参数θ(x)上是凸函数,并且存在一个权重向量λ∈ℝⁿ满足λ非负且权重之和为1(即∑{i=1}^n λ_i = 1),使得目标分布恰好等于各源分布按权重向量λ进行混合的结果(即Q_T = ∑{i=1}^n λ_i Q_S^i)。为了实现这一目标,在模型训练过程中应选择其各基预测器按照最优权重向量进行加权平均的结果作为最终的目标预测器。
在这里插入图片描述

请回顾(10)号伪标记损失的定义。随后,在分析该目标预测器的过程中,请注意:针对该目标预测器而言,在其目标分布中产生的无监督损失与监督损失均不超过最佳源预测器所导致的相应损失。值得注意的是

在这里插入图片描述

令α等于使L(Q_T, θ^j_S)最小化的目标函数值所对应的索引j的下界值。进一步地,则当λ为正数时,该关系变为严格不等式;明确地存在某些j满足L(Q^j_S, θ^j_S) < L(Q^j_S, θ_α^{S})。依据上述分析可得

在引理1所定义的目标预期损失中包含有标签信息的有监督损失。我们提出的监督式目标预测器θ_T其性能至少不低于现有单个源最佳模型。特别地,在满足自然温和条件下所述不等式为严格不等式:即对于目标分布Q_T而言最佳单个源模型β相较于所有其他特定于数据分布Q^i_S(i为特定索引)均表现更优。值得注意的是我们所提出的算法与基于引理1构建的预测器存在关键差异:具体而言我们在组合规则中对各来源特征提取器进行微调以区别于引理1中的方法此外每个来源均配备独立权重这一特点与现有方法不同这些权重仅依赖于来源数据而不受输入实例具体属性影响这与现有文献中普遍采用的不同基于输入实例变化而调整权重的方式形成了显著区别为此我们提供了一种直观合理的理由解释为何这种固定权重策略更为合适

在这里插入图片描述

补充部分提供了更多细节。在算法中,由λ组成的项目充当了权重角色,并被命名为αₖ。为了确定这一特定值θ_T,在公式(12)中我们进行了相应的优化计算和分析。基于一致性的源分布假设下,在进行相关优化时

5. Experiments

  • 本篇泛读一下吧,剩余实验部分有时间再补充。

全部评论 (0)

还没有任何评论哟~