Model Adaption: Unsupervised Domain Adaption Without Source Data
三、方法
用模型来进行无监督模型适应问题,只有来自源域的预训练预测模型CC和无标签的目标数据集XtX_t,目的是将CC适应到带有XtX_t的目标域。
提出了一个协作类条件生成对抗网络(3C-GAN),在源数据不存在时进行模型适应。除了已有的预训练的CC,我们的框架还包括另外两部分:鉴别器DD匹配目标分布,随机采样的标签上的生成器GG来产生有效的目标风格的训练样本。通过在训练过程中合并生成数据,在目标域上提升了CC的性能,反过来还能提升GG的生成过程。
还设计了两个正则化项来分别防止适应模型与预训练源模型相差太多和提升目标域上的泛化。D,G,CD,G,C通过θD,θG,θC\theta_D,\theta_G,\theta_C进行参数化。

3.1 协作类条件GAN
为避免使用源数据进行域适应,提出了协作类条件GAN(3C-GAN)来协同提升生成器GG和预测模型CC。如图,通过将CC合并到GAN框架中实现。与传统的GAN模型不同(GG前提是仅在噪声向量zz成立),我们的GG进一步的在一个预定义标签yy上成立,即xg=G(y,z)x_g=G(y,z)。与传统GAN不同的(以一种监督方式训练DD来区分真实和虚假对),我们的DD被优化来从xgx_g中区分xtx_t。DD的目标方程可表达为公式1:
maxθdExt∼Dt[logD(xt)]+Ey,z[log(1−D(G(y,z)))] max_{\theta_d}E_{x_t\sim D_t}[logD(x_t)]+E_{y,z}[log(1-D(G(y,z)))]
同时,通过生成与xtx_t有相似分布的xgx_g来更新GG来欺骗DD。因此,GG的对抗损失ladvl_{adv}表达为公式2:
ladv(G)=Ey,z[logD(1−G(y,z))] l_{adv}(G)=E_{y,z}[logD(1-G(y,z))]
尽管ladvl_{adv}模拟了目标分布,并不能保证与输入标签yy的语义相似度。
基于已有的预测模型CC提出了一个语义相似度损失lseml_{sem},加强了xgx_g和基于预测模型CC的输入标签yy之间的语义相似度,定义公式3:
lsem(G)=Ey,z[−ylogpθc(G(y,z))] l_{sem}(G)=E_{y,z}[-ylogp{\theta_c}(G(y,z))]
这里的pθc(⋅)p_{\theta_c}(\cdot)表示预测模型CC预测的类概率。lseml_{sem}使能生成语义。在包括ladvl_{adv}匹配目标分布后,生成器GG的优化目标定义为公式4:
minθGladv+λslsem min_{\theta_G}l_{adv}+\lambda_sl_{sem}
这里的λs\lambda_s平衡两个loss。迭代更新D,GD,G来分别优化(最大最小方程)。最后,G可以产生新的目标风格实例,即{xg,y}{{x_g,y}},用来提升CC在目标域上的性能。C,GC,G在训练过程中彼此合作,因为提升的CC可以为GG提供更准确的指导,一个更可靠的生成可以反过来提升CC的性能。因此,总框架指的是协作类条件GAN。
除了lgen=Ey,z[−ylogpθC(xg)]l_{gen}=E_{y,z}[-ylogp_{\theta_C}(x_g)],我们进一步包括了两个正则项来提升CC的性能。最终预测模型CC的的优化目标表示为公式5:
minθCλglgen+λωlωReg+λclulcluReg min_{\theta_C} \lambda_gl_{gen}+\lambda_{\omega}l_{\omega Reg}+\lambda_{clu}l_{cluReg}
这里λωReg\lambda_{\omega Reg}和lcluRegl_{cluReg}表示权重正则化和基于簇的正则化。λg,λω,λclu\lambda_g,\lambda_{\omega},\lambda_{clu}用来调整每个loss的相对效果。在适应过程中,源数据集未用,如图2.
3.2 权重正则化
尽管仅将上述生成的目标风格样本纳入训练CC就可提升其性能,由于缺少来自标记源数据的准确监督,训练过程并不总是稳定的。受…启发(尝试学习两个单独但相关的对源域和目标域的预测模型),我们提出了权重正则化项lωRegl_{\omega Reg}来防止预测模型CC的参数远离那些在源数据集中学习到的预训练模型。可定义如下公式6:
lωReg=∣∣θC−θCs∣∣2l_{\omega Reg}=||\theta_C-\theta_{C_s}||^2
这里θCs\theta {C_s}是源域上预训练的CC的参数,是固定的。可以发现如果θCs\theta {C_s}设为0,lωRegl{\omega Reg}可退化为标准权重衰减正则化项(l2)(l_2)。一方面,lωRegl{\omega Reg}防止适应模型改变过大,在稳定适应过程中很有帮助。另一方面,强制适应模型与源模型相似可被视为保持源知识。实验验证lωRegl_{\omega Reg}大多情况下有更好的适应。
3.3基于簇的正则化
大多域适应方法关注适应过程,无标签的真实目标数据仅用于估计目标分布,但我们认为无标签的目标数据可用于发现目标域的判别信息。簇假设意味着预测模型的决策边界不应经过高密度的数据区域。因此,我们最小化目标域上预测改了的条件熵,定义公式7:
Ext∼Dt[−pθC(xt)logpθC(xt)]E_{x_t\sim D_t}[-p_{\theta_C(x_t)}logp_{\theta_C(x_t)}]
然而,当预测模型不是局部平滑时,上述公式生成的条件熵是不可靠的。为提升未标记目标数据上条件熵的近似程度,一个局部平滑限制应被加上,定义为公式8:
Ext∼Dt[max∣∣r∣∣<=ξKL(pθC(xt)∣∣pθC(xt+r))]E_{x_t\sim D_t}[max_{||r||<=\xi}KL(p_{\theta_C}(x_t)||p_{\theta_C}(x_t+r))]
这里KL(⋅∣∣⋅)KL(\cdot||\cdot)表示Kullback-Leibler散度。我们尝试找到一个干扰rr在一个强度范围ξ\xi内最大程度影响预测。这一限制强制预测输出在xt−xt+rx_t-x_t+r内相似。最终,预测模型对每个无标记目标样本是局部平滑的。
因此,最终的基于簇的正则化写作公式9:
lcluReg=Ext∼Dt[−pθc(xt)logpθc(xt)]+[KL(pθc(xt)∣∣pθC(xt+r~))]l_{cluReg}=E_{x_t\sim D_t}[-p_{\theta_c}(x_t)logp_{\theta_c}(x_t)]+[KL(p_{\theta_c}(x_t)||p_{\theta_C}(x_t+\widetilde r))]
这里r~\widetilde r是来自公式8的对抗干扰。
3.4 实施细节
通过迭代更新C,D,GC,D,G进行学习,来分别优化公式5,1,4的目标。实验中,直到几步后生成器产生有意义的数据才将lgen和lcluRegl_{gen}和l_{cluReg}应用到CC。整个模型以端到端的方式训练。
4. 实验
在多个域适应benchmarks上验证方法有效性。对每个任务,仅用源数据获得预训练源模型,在适应过程中不用。最近先进的域适应方法结果用来比较或参考,因为大多不可用,当适应过程中源数据不可用时。
office31上的结果
所有结果都ResNet-50作为骨干。第一行显示了在源域上finetune的性能作为基准,很明显我们的模型比其他好很多。特别的,对比GenToAdapt和MADA(包括复杂架构和目标方程),我们的方法在六个适应任务上有提升。
可视化分析
为了分析我们3C-GAN中的协作机制,呈现了在标签0-9上的生成样本,如图3,每列相同类标签,每行相同噪声向量。图3(上)表示在早期C在目标域上比较弱时产生的样本,图3(底部)表示在适应最后阶段产生的样本。可以发现我们的生成器可以学习这些任务的类条件数据分布。并且,在将生成实例融进训练预测模型后,预测模型性能增加。增强的预测模型也可以提升生成器内的目标类分布学习。一个典型图示3(a).生成质量在最后阶段变得更好,当适应预测模型在目标域上提升时。意味着C和G可以在适应过程中彼此合作。
为进一步证明我们模型的有效性,视觉上监督生成图像。图4显示两个任务上的类条件生成。两种情境下,生成图像是连续的,输入标签和风格信息用噪声向量zz加密。而且,视觉化目标特征在适应亲啊后的分布,图5,用t-SNE投影最后隐层特征到2维空间中。目标实例在适应后对每个类强簇化。这些观察说明我们的模型准确类条件生成在目标域上,验证了模型好的适应性能。
消融研究
为验证提出方法鲁棒性,采用一个与LeNet相似的小分类器进一步验证。
验证生成图像在提升模型适应性上共享,首先移除我们的3C-GAN中的lgenl_{gen}。从模型变量的最后一个模块来看,模型没有lgenl_{gen}会无法收敛。考虑只有提出正则化的预测模型会损害其判别性,由于不同的分布。接下俩,去除两个正则化lωReg,lcluRegl_{\omega Reg},l_{cluReg},仅有lgenl_{gen}的模型性能比Source-Only模型提升很多。结果表明我们呢的3C-GAN可以获得可靠的类适应泛化,帮助模型适应性能。
为检查提出正则化项的有效性,在训练中设置λclu=0\lambda_{clu}=0来忽略lcluRegl_{cluReg}。考虑权重正则化不仅防止模型改变过大,而且集成了预训练源模型中的知识,因此性能更稳定更好。
验证了我们我们基于簇的正则化可以将决策边界原理密集的目标域上的数据区域,增加预测模型的泛化性能。
进一步去除公式8的平滑限制研究适应性你,这个限制帮助条件熵估计,提升了泛化性能。
5.结论
提出一个新的基于模型的无监督域适应方法没有源域数据。提出3C-GAN来略过对源数据的依赖。通过将生成图像融入适应过程中,预测模型和生成器可以互相提高通过协作学习。还引入权重正则化和基于簇的正则化来稳定训练,进一步提升目标域熵泛化性能。
