Model Adaption: Unsupervised Domain Adaption Without Source Data

阅读量：

三、方法
用模型来进行无监督模型适应问题，只有来自源域的预训练预测模型CC和无标签的目标数据集XtX_t，目的是将CC适应到带有XtX_t的目标域。
提出了一个协作类条件生成对抗网络（3C-GAN），在源数据不存在时进行模型适应。除了已有的预训练的CC，我们的框架还包括另外两部分：鉴别器DD匹配目标分布，随机采样的标签上的生成器GG来产生有效的目标风格的训练样本。通过在训练过程中合并生成数据，在目标域上提升了CC的性能，反过来还能提升GG的生成过程。
还设计了两个正则化项来分别防止适应模型与预训练源模型相差太多和提升目标域上的泛化。D,G,CD,G,C通过θD,θG,θC\theta_D,\theta_G,\theta_C进行参数化。
在这里插入图片描述
3.1 协作类条件GAN
为避免使用源数据进行域适应，提出了协作类条件GAN（3C-GAN）来协同提升生成器GG和预测模型CC。如图，通过将CC合并到GAN框架中实现。与传统的GAN模型不同（GG前提是仅在噪声向量zz成立），我们的GG进一步的在一个预定义标签yy上成立，即xg=G(y,z)x_g=G(y,z)。与传统GAN不同的（以一种监督方式训练DD来区分真实和虚假对），我们的DD被优化来从xgx_g中区分xtx_t。DD的目标方程可表达为公式1：
maxθdExt∼Dt[logD(xt)]+Ey,z[log(1−D(G(y,z)))] max_{\theta_d}E_{x_t\sim D_t}[logD(x_t)]+E_{y,z}[log(1-D(G(y,z)))]
同时，通过生成与xtx_t有相似分布的xgx_g来更新GG来欺骗DD。因此，GG的对抗损失ladvl_{adv}表达为公式2：
ladv(G)=Ey,z[logD(1−G(y,z))] l_{adv}(G)=E_{y,z}[logD(1-G(y,z))]
尽管ladvl_{adv}模拟了目标分布，并不能保证与输入标签yy的语义相似度。

基于已有的预测模型CC提出了一个语义相似度损失lseml_{sem}，加强了xgx_g和基于预测模型CC的输入标签yy之间的语义相似度，定义公式3：
lsem(G)=Ey,z[−ylogpθc(G(y,z))] l_{sem}(G)=E_{y,z}[-ylogp{\theta_c}(G(y,z))]
这里的pθc(⋅)p_{\theta_c}(\cdot)表示预测模型CC预测的类概率。lseml_{sem}使能生成语义。在包括ladvl_{adv}匹配目标分布后，生成器GG的优化目标定义为公式4：
minθGladv+λslsem min_{\theta_G}l_{adv}+\lambda_sl_{sem}
这里的λs\lambda_s平衡两个loss。迭代更新D,GD,G来分别优化（最大最小方程）。最后，G可以产生新的目标风格实例，即{xg,y}{{x_g,y}}，用来提升CC在目标域上的性能。C,GC,G在训练过程中彼此合作，因为提升的CC可以为GG提供更准确的指导，一个更可靠的生成可以反过来提升CC的性能。因此，总框架指的是协作类条件GAN。

除了lgen=Ey,z[−ylogpθC(xg)]l_{gen}=E_{y,z}[-ylogp_{\theta_C}(x_g)]，我们进一步包括了两个正则项来提升CC的性能。最终预测模型CC的的优化目标表示为公式5：
minθCλglgen+λωlωReg+λclulcluReg min_{\theta_C} \lambda_gl_{gen}+\lambda_{\omega}l_{\omega Reg}+\lambda_{clu}l_{cluReg}
这里λωReg\lambda_{\omega Reg}和lcluRegl_{cluReg}表示权重正则化和基于簇的正则化。λg,λω,λclu\lambda_g,\lambda_{\omega},\lambda_{clu}用来调整每个loss的相对效果。在适应过程中，源数据集未用，如图2.

3.2 权重正则化
尽管仅将上述生成的目标风格样本纳入训练CC就可提升其性能，由于缺少来自标记源数据的准确监督，训练过程并不总是稳定的。受…启发（尝试学习两个单独但相关的对源域和目标域的预测模型），我们提出了权重正则化项lωRegl_{\omega Reg}来防止预测模型CC的参数远离那些在源数据集中学习到的预训练模型。可定义如下公式6：
lωReg=∣∣θC−θCs∣∣2l_{\omega Reg}=||\theta_C-\theta_{C_s}||^2
这里θCs\theta {C_s}是源域上预训练的CC的参数，是固定的。可以发现如果θCs\theta {C_s}设为0，lωRegl{\omega Reg}可退化为标准权重衰减正则化项(l2)(l_2)。一方面，lωRegl{\omega Reg}防止适应模型改变过大，在稳定适应过程中很有帮助。另一方面，强制适应模型与源模型相似可被视为保持源知识。实验验证lωRegl_{\omega Reg}大多情况下有更好的适应。

3.3基于簇的正则化
大多域适应方法关注适应过程，无标签的真实目标数据仅用于估计目标分布，但我们认为无标签的目标数据可用于发现目标域的判别信息。簇假设意味着预测模型的决策边界不应经过高密度的数据区域。因此，我们最小化目标域上预测改了的条件熵，定义公式7：
Ext∼Dt[−pθC(xt)logpθC(xt)]E_{x_t\sim D_t}[-p_{\theta_C(x_t)}logp_{\theta_C(x_t)}]
然而，当预测模型不是局部平滑时，上述公式生成的条件熵是不可靠的。为提升未标记目标数据上条件熵的近似程度，一个局部平滑限制应被加上，定义为公式8：
Ext∼Dt[max∣∣r∣∣<=ξKL(pθC(xt)∣∣pθC(xt+r))]E_{x_t\sim D_t}[max_{||r||<=\xi}KL(p_{\theta_C}(x_t)||p_{\theta_C}(x_t+r))]
这里KL(⋅∣∣⋅)KL(\cdot||\cdot)表示Kullback-Leibler散度。我们尝试找到一个干扰rr在一个强度范围ξ\xi内最大程度影响预测。这一限制强制预测输出在xt−xt+rx_t-x_t+r内相似。最终，预测模型对每个无标记目标样本是局部平滑的。

因此，最终的基于簇的正则化写作公式9：
lcluReg=Ext∼Dt[−pθc(xt)logpθc(xt)]+[KL(pθc(xt)∣∣pθC(xt+r~))]l_{cluReg}=E_{x_t\sim D_t}[-p_{\theta_c}(x_t)logp_{\theta_c}(x_t)]+[KL(p_{\theta_c}(x_t)||p_{\theta_C}(x_t+\widetilde r))]
这里r~\widetilde r是来自公式8的对抗干扰。

3.4 实施细节
通过迭代更新C,D,GC,D,G进行学习，来分别优化公式5，1，4的目标。实验中，直到几步后生成器产生有意义的数据才将lgen和lcluRegl_{gen}和l_{cluReg}应用到CC。整个模型以端到端的方式训练。

4. 实验
在多个域适应benchmarks上验证方法有效性。对每个任务，仅用源数据获得预训练源模型，在适应过程中不用。最近先进的域适应方法结果用来比较或参考，因为大多不可用，当适应过程中源数据不可用时。
office31上的结果
所有结果都ResNet-50作为骨干。第一行显示了在源域上finetune的性能作为基准，很明显我们的模型比其他好很多。特别的，对比GenToAdapt和MADA（包括复杂架构和目标方程），我们的方法在六个适应任务上有提升。

可视化分析
为了分析我们3C-GAN中的协作机制，呈现了在标签0-9上的生成样本，如图3，每列相同类标签，每行相同噪声向量。图3（上）表示在早期C在目标域上比较弱时产生的样本，图3（底部）表示在适应最后阶段产生的样本。可以发现我们的生成器可以学习这些任务的类条件数据分布。并且，在将生成实例融进训练预测模型后，预测模型性能增加。增强的预测模型也可以提升生成器内的目标类分布学习。一个典型图示3(a).生成质量在最后阶段变得更好，当适应预测模型在目标域上提升时。意味着C和G可以在适应过程中彼此合作。
为进一步证明我们模型的有效性，视觉上监督生成图像。图4显示两个任务上的类条件生成。两种情境下，生成图像是连续的，输入标签和风格信息用噪声向量zz加密。而且，视觉化目标特征在适应亲啊后的分布，图5，用t-SNE投影最后隐层特征到2维空间中。目标实例在适应后对每个类强簇化。这些观察说明我们的模型准确类条件生成在目标域上，验证了模型好的适应性能。

消融研究
为验证提出方法鲁棒性，采用一个与LeNet相似的小分类器进一步验证。
验证生成图像在提升模型适应性上共享，首先移除我们的3C-GAN中的lgenl_{gen}。从模型变量的最后一个模块来看，模型没有lgenl_{gen}会无法收敛。考虑只有提出正则化的预测模型会损害其判别性，由于不同的分布。接下俩，去除两个正则化lωReg,lcluRegl_{\omega Reg},l_{cluReg}，仅有lgenl_{gen}的模型性能比Source-Only模型提升很多。结果表明我们呢的3C-GAN可以获得可靠的类适应泛化，帮助模型适应性能。
为检查提出正则化项的有效性，在训练中设置λclu=0\lambda_{clu}=0来忽略lcluRegl_{cluReg}。考虑权重正则化不仅防止模型改变过大，而且集成了预训练源模型中的知识，因此性能更稳定更好。
验证了我们我们基于簇的正则化可以将决策边界原理密集的目标域上的数据区域，增加预测模型的泛化性能。
进一步去除公式8的平滑限制研究适应性你，这个限制帮助条件熵估计，提升了泛化性能。

5.结论
提出一个新的基于模型的无监督域适应方法没有源域数据。提出3C-GAN来略过对源数据的依赖。通过将生成图像融入适应过程中，预测模型和生成器可以互相提高通过协作学习。还引入权重正则化和基于簇的正则化来稳定训练，进一步提升目标域熵泛化性能。

全部评论 (0)

还没有任何评论哟~

Model Adaption: Unsupervised Domain Adaption Without Source Data

三、方法用模型来进行无监督模型适应问题，只有来自源域的预训练预测模型CC和无标签的目标数据集XtXt，目的是将CC适应到带有XtXt的目标域。提出了一个协作类条件生成对抗网络（3CGAN），在源数...

Domain Adaption Without Source Data论文阅读笔记

总的来说：源模型经过一个特征提取器和一个分类器后得到一个标签ysys 可训练的目标模型输入目标样本，经过特征提取器后，分类器Cs2tCs2t用源伪标签训练，分类器CtCt用目标伪标签ytyt训练。 ...

RUL论文阅读—— A Novel Evaluation Framework for Unsupervised Domain Adaption on Remaining Useful Lifetime

RUL论文阅读 ——ANovelEvaluationFrameworkforUnsupervisedDomainAdaptiononRemainingUsefulLifetime link:artic...

Learning to detect open classes for universal domain adaption

摘要 UDA转移域间知识，不需标签集的任何限制，扩展了域适应的可用性。UDA中，源、目标标签集可能具有单独的标签不被另一个域共享。UDA挑战：对抗域偏移，分类共享类中的目标样本，更突出的：将单独的目标...

Universal Source_free Domain Adaption论文阅读笔记

用于解决无源域适应的方法大致分为两个阶段：获取阶段我们有一个带标签的源数据集Ds=\xs,ys:xs\simp,ys\inCs\这里的p是源样本的分布，Cs表示源域的标签集。这里的主要目的是让模...

最优传输论文（四十三）：Unsupervised Multi-source Domain Adaptation Without Access to Source Data论文原理

文章目录前言摘要 1\.Introduction 2\.Relatedworks 3\.Methodology 3.1.WeightedInformationMaximization 3.2.We...

Low-Rank Adaption

最近几个月，ChatGPT等一系列大语言模型（LLM）相继出现，随之而来的是算力紧缺日益严重。虽然人人都想打造专属于自己的大模型，但是能负担得起上亿参数模型训练的机构却寥寥无几。在快速发展的人工智能...

论文阅读【Multimodal Disentangled Domain Adaption for Social Media Event Rumor Detection】

谣言检测存在的两大挑战 ①纠缠挑战：在现实的社交媒体平台上，谣言总是与具体内容纠缠在一起。同一事件，谣言间的差异也很大。忽略了内容与风格之间的联系。 ②领域挑战：已有的事件训练的模型对新发生的事件指导...

Hard Class Rectification for Domain Adaption域适应中的硬类修正

摘要域适应从标签丰富和相关的域（源域）转移知识到标签稀少的域（目标域）。伪标签最近用于DA，但这一类研究仍限于伪标签不准确。本文，深入探究类内性能的不平衡性，发现类间差的性能很有可能在伪标签中进一步...

【迁移学习】PointDAN: A Multi-Scale 3D Domain Adaption Network for Point Cloud Representation

文章目录摘要 1.介绍 2.相关工作 2.13DVisionUnderstanding 2.2UnsupervisedDomainAdaptationUDA 3.Model 3.1ProblemDe...

是否确定退出登录?

Model Adaption: Unsupervised Domain Adaption Without Source Data

全部评论 (0)

相关文章推荐

Model Adaption: Unsupervised Domain Adaption Without Source Data

Domain Adaption Without Source Data论文阅读笔记

RUL论文阅读—— A Novel Evaluation Framework for Unsupervised Domain Adaption on Remaining Useful Lifetime

Learning to detect open classes for universal domain adaption

Universal Source_free Domain Adaption论文阅读笔记

最优传输论文（四十三）：Unsupervised Multi-source Domain Adaptation Without Access to Source Data论文原理

Low-Rank Adaption

论文阅读【Multimodal Disentangled Domain Adaption for Social Media Event Rumor Detection】

Hard Class Rectification for Domain Adaption域适应中的硬类修正

【迁移学习】PointDAN: A Multi-Scale 3D Domain Adaption Network for Point Cloud Representation