领域自适应论文(七十):Federated Adversarial Domain Adaptation
文章目录
- 序论
- 研究综述
- 第1章 绪论
- 第2章 相关研究综述
- 第3章 联合域适应的泛化边界分析
- 第4章 联邦对抗域适应方法研究
- 实验部分
- 结论与展望
前言
- 文章源自2020年的ICLR会议
- 这篇论文是本人领域自适应与最优传输系列研究中的第七十篇作品
- 所有相关代码均已收录于GitHub仓库:https://github.com/CtrlZ1/Domain-Adaptation-Algorithms
- 恳请大家多多支持与关注,并提前点个Star~
摘要
通过联邦学习,在分布式设备网络中实施机器学习任务时,数据的隐私性和效率得到了显著提升。然而,在实际应用中发现存在一定的局限性。尽管存在域漂移问题,基于联邦学习训练得到的模型无法直接应用于新的设备。值得注意的是,在实际应用中发现当源节点收集的标记数据与目标节点未标记的数据在统计特性上存在差异时,则会发生域转移现象。本研究提出了一种原则性方法以解决联合域适应问题。其主要目标是使各参与节点所学特征与目标节点的数据分布保持一致。具体而言,在此框架下将对抗适应技术进行了扩展,并设计了一种动态注意力机制来增强知识转移能力。为了验证该方法的有效性,在经验分析方面我们对多个图像分类和文本分类任务进行了大规模实验,并在无监督联邦域适应场景下取得了令人满意的实验结果。
1 INTRODUCTION
- 移动和物联网设备网络产生的数据对训练机器学习模型提出了独特的挑战。由于这些设备不断增长的存储/计算能力以及对数据隐私的担忧,将数据和计算保存在设备上的本地越来越有吸引力(Smith等人,2017)。联邦学习(FL) (Mohassel & Rindal, 2018;Bonawitz等人,2017;Mohassel & Zhang, 2017)提供了一种隐私保护机制来利用这种去中心化的数据和计算资源来训练机器学习模型。联邦学习背后的主要思想是让每个节点在自己的本地数据上学习,而不共享数据或模型参数。
- 虽然联邦学习保证了更好的隐私和效率,但现有的方法忽略了一个事实,即每个节点上的数据都是在非独立同分布中收集的。d方式,导致节点之间的域转移(Quionero-Candela等,2009)。例如,一种设备可能主要在室内拍照,而另一种主要在室外。在本文中,我们解决了将知识从分散的节点转移到具有不同数据域的新节点的问题,而不需要用户进行任何额外的监督。我们将这个新问题定义为无监督联邦域适应(UFDA) ,如图1(a)所示。

图1:(a)我们针对UFDA设计了一种方法,在这种方案下数据无法在不同领域间共享。具体而言,在每个源领域上分别进行训练,并通过动态注意力机制整合各源域的梯度信息以更新目标模型。(b)我们的FADA模型通过对抗性域对齐机制(红线)结合抗性特性和特征分离技术(蓝线)来提取具有领域不变性的特征。
- 目前有大量关于无监督域适应的研究(Long等人,2015;加宁和伦皮茨基,2015;Tzeng等人,2017;Zhu等人,2017;龚等人,2012;Long等人,2018),但联邦设置带来了几个额外的挑战。首先,数据存储在本地,不能共享,这阻碍了主流的领域适应方法,因为它们需要同时访问标记源数据和未标记的目标数据(Tzeng et al., 2014;Long等人,2017;Ghifary等人,2016;Sun & Saenko, 2016;加宁和伦皮茨基,2015;Tzeng et al., 2017)。其次,对每个节点分别训练模型参数,并以不同的速度收敛,同时根据两个域的距离远近对目标节点的贡献也不同 。最后,从源节点学习到的知识是高度纠缠的(Bengio et al., 2013),这可能导致负转移(Pan & Y ang, 2010)。
- 本文针对上述问题提出了一种名为联邦对抗域适应(FADA)的解决方案,旨在通过对抗技术解决联邦学习系统中的域转移问题。我们的方法通过每个源节点训练一个模型并使用源梯度的聚合更新目标模型来保护数据隐私 ,但这样做的方式减少了域偏移。首先,我们从理论的角度分析了联邦域适应问题,并给出了一个推广界。受理论结果的启发,我们提出了一种基于对抗适应和表示解纠缠的高效自适应算法。我们还设计了一个动态注意模型来应对联邦学习系统中收敛速度的变化。我们在真实世界的数据集上进行了广泛的实验,包括图像识别和自然语言任务。与基准方法相比,我们提高了所有任务的适应性能,证明了我们设计的模型的有效性。
2 RELATED WORK
- 无监督域适应无监督域适应(UDA)的目的是将学习到的知识从有标记的源域转移到无标记的目标域。过去十年提出的领域适应方法包括基于差异的方法(Tzeng等人,2014;Long等人,2017;Ghifary等人,2014;Sun & Saenko, 2016;Peng & Saenko, 2018),基于重构的UDA模型(Yi等,2017;Zhu等人,2017;Hoffman等人,2018;Kim等人,2017)和基于对抗的方法(Liu & Tuzel, 2016;Tzeng等人,2017;Liu等人,2018a;加宁和伦皮茨基,2015)。例如,Ganin & lemmpitsky(2015)提出了一个梯度反转层对域鉴别器进行对抗性训练,其灵感来自对抗性学习的思想。Tzeng等人(2017)通过对抗性训练,采用基于深度cnn的特征提取/分类器跨源和目标域,解决了无监督域适应问题。Ben-David等人(2010)引入H∆H散度来评估区域偏移,并为区域适应提供了泛化误差界。这些方法假设数据集中在一台服务器上,限制了它们对分布式学习系统的适用性。
- 联邦学习(Mohassel & Rindal, 2018;Rivest等人,1978;Bonawitz等人,2017;Mohassel & Zhang, 2017)是一种分散学习方法,使多个客户端能够协作学习机器学习模型,同时在本地设备上保持训练数据和模型参数。GiladBachrach等人(2016)受同态加密(Rivest et al., 1978)的启发,提出了cryptonet来提高数据加密的效率,实现更高的联邦学习性能。Bonawitz等人(2017)引入了一种安全聚合方案,在他们的联邦学习框架下更新机器学习模型。最近,Mohassel和Zhang(2017)提出SecureML来支持多客户端联邦学习系统中保护隐私的协作训练。然而,这些方法主要是为了跨数据学习单一的全局模型,没有收敛性保证,这限制了它们处理非i.i.d的能力。数据。来解决非i.i。d data, Smith等人(2017)引入了联合多任务学习,它为每个节点学习一个单独的模型。Liu等人(2018b)提出了隐私保护环境下的半监督联邦迁移学习。然而,他们的模式涉及全面或半监督。据我们所知,这里提出的工作是第一个考虑无监督域适应的联邦学习框架。
- 特征解纠结 众所周知,深度神经网络可以提取多个隐藏因素高度纠缠的特征。学习解纠缠表示可以帮助去除不相关和领域特定的特征,只建模数据变化的相关因素 。为此,最近的工作(Mathieu et al., 2016;Makhzani等人,2016;Liu等人,2018a;Odena等人,2017)探索了使用生成对抗网络(GANs) (Goodfellow等人,2014)和变分自编码器(V AEs) (Kingma & Welling, 2013)学习可解释表示。在完全监督设置下,(Odena et al., 2017)提出了一种辅助分类器GAN (AC-GAN)来实现表征解纠缠。(Liu等人,2018a)引入了一个统一的特征解纠缠框架,从不同领域的数据中学习领域不变特征。(Kingma et al., 2014)还将VAEs扩展到表示解纠缠的半监督设置。(Lee等人,2018)提出将特征分解为领域不变的内容空间和领域特定的属性空间,在没有配对训练数据的情况下产生不同的输出。受这些工作的启发,我们提出了一种方法来分离领域不变特征从领域特定特征,使用对抗性训练过程。此外,我们建议尽量减少领域不变特征和领域特定特征之间的互信息,以增强特征解纠缠。
3 GENERALIZATION BOUND FOR FEDERATED DOMAIN ADAPTATION
4 FEDERATED ADVERSARIAL DOMAIN ADAPTATION
定理(2)中的误差界揭示了权重α(整合各源预测权重)与偏差dH∆H(DS, DT)在无监督联邦学习跨域适应过程中的关键地位。基于此发现,我们构建了一个动态注意力机制来提取权重分配信息,并引入了一种多模态对抗校正方法以最小化源域与目标域间的差距(如图1所示)。此外,在这一过程中,我们通过表示解耦技术识别了领域内固有特征维度,并成功地从这些维度中提取出领域不变的关键表示特征向量作为知识迁移的基础
动态注意 在联合域适应系统中,在不同节点上的模型具有不一的收敛速率。此外,在源域与目标域之间的迁移存在差异性问题导致某些节点可能无法为目标学习提供贡献甚至产生负面迁移(Pan & Yang, 2010)。针对这一挑战性问题,在此我们提出了一种动态注意力机制(Dynamic Attention),其本质上是从源域梯度空间中提取特征的重要指标。该机制的工作原理在于通过增强那些有利于目标学习的节点权重分配,并减少那些不利于目标学习节点权重的影响程度来实现对源信息的有效利用和潜在风险的有效规避。具体而言,在具体实现层面,则采用了差距统计量(Tibshirani等, 2001)结合无监督聚类算法(K-Means)的方法对目标特征f_t进行效果评估:假设共有k个类别,则其计算公式如下


由于领域间的差异存在而导致机器学习模型性能显著下降

在第二步中,LadvD保持不变,但LadvG更新为以下目标:

复杂特征的分解 我们通过对抗性解耦技术提取出领域通用特性和领域特定特性。从高层次来看,这一过程旨在将输入信号中的信息按照其本质属性进行区分与归类。如图1b所示, 解耦器Di将提取到的所有特征划分为两个分支网络,分别对应于不同层级的信息处理需求。具体而言,我们首先分别训练K-way分类器Ci和辅助识别器CIi,它们各自基于fdi与fds两类特征来进行交叉熵损失相关的标签预测任务。目的是: 使模型能够更好地在多样化的数据分布下表现稳定,并展现出更强的抗干扰能力。


在后续步骤中,在类标识符CIi上进行固定处理,并仅使用生成领域特性的方法创建特性解耦器以干扰CIi的影响(如图1所示)。具体目标如下:首先是对类标识符CIi进行固定处理;其次,则是通过最小化预测的类分布的负熵损失来实现这一过程。

特征解缠主要通过保持fdi并剔除fds来实现知识转移。为了进一步提升解纠缠效果,本研究致力于最大限度地降低领域不变特性和领域特定特性的相互依存关系。如Peng等人的研究(2019)所示。

该模型采用了全连接架构进行优化目标设定。我们通过随机梯度下降(Kiefer et al., 1952)的方法实现了联邦对齐与表示解耦过程的具体展示。具体而言,我们综合考量了联邦对抗对齐损失与表示解耦损失,并将其与任务相关的关键损失函数相结合,最终实现了系统的优化目标。该算法1具体展示了训练流程
实验
鉴于当前多数DA模型(Saito等人, 2018;French等人, 2018;Hoffman等人, 2018)均依赖于跨领域数据的获取特性, 直接对比现有方法在性能上存在局限性。值得注意的是, 我们采用了以下几种流行的领域适应基线作为对比对象:包括基于对抗网络的领域适配(DANN) (Ganin & Lempitsky, 2015)、深度适应网络(DAN) (Long等人, 2015)、自动领域对齐层(AutoDIAL) (Carlucci等人, 2017)以及自适应批量归一化(AdaBN) Li等人(2016)等方法。具体而言,DANN通过引入梯度反转层模块实现源域与目标域间差异的最小化;而DAN则采用多核最大均值差异(MMD)损失函数来进行源域与目标域特征分布的对齐操作;AutoDIAL则将域对齐机制融入深度学习架构中, 实现了源、目标特征与其参考分布间的匹配过程;AdaBN则通过采用自适应批量归一化层(Ioffe & Szegedy, 2015)来促进源域与目标域间的知识共享机制。在进行实验验证时, 我们采用了作者提供的官方代码库, 并对原始实验配置进行了优化调整以支持联邦学习框架的应用场景建模(即每个领域均独立拥有完整的模型参数集合);此外,f-DAN和f-DANN分别表示经过相应预处理后的两种方法版本。值得注意的是, 在评估过程中我们明确禁止单一同一模型同时访问所有来源数据集以保证实验结果的有效性;为此我们还设计并运行了相应的多源域协同适应实验。

- office-caltech :

- domainnet :

- Amazon Review :

结论
本文首先探讨了一种新的无监督联邦域适应(UFDA)问题,并进一步推导出其理论推广界。受到理论结果的启发,我们提出了一个新的模型框架——联合对抗域适应(FADA),该框架通过一种创新性的动态注意机制将来自分布式源域的学习成果成功地应用到未标记的目标域中。实验研究表明,在特征解纠缠方面FADA展现出显著的优势,在多个 UFDA 任务中表现优异。基于广泛的实证评估测试,在视觉和语言基准上对现有领域适应基线进行了全面验证和对比分析。
