联邦学习算法综述
摘要
关键词**:** 联邦学习, 算法优化, 大数据, 数据隐私

1 引言
伴随着数字化技术的迅猛发展,在线教育、人工智能等新兴领域展现出蓬勃活力。一方面推动了传统业态的转型升级提供了新的契机;另一方面必然引发了对数据安全与网络防护的巨大挑战。其中数据孤岛问题尤为突出。纵向维度上大型企业占据了大部分核心数据资源;而小型企业和初创企业在获取这些关键资源方面面临诸多困难导致行业内层级分化愈发明显横向层面则由于系统架构及业务模式的封闭性所致各主体之间的共享协作变得困难重重跨领域协同建模面临诸多障碍
为解决当前人工智能领域所面临的主要挑战问题, 联邦学习提供了一种解决方案. 联邦学习概念是由谷歌研究院于2016年首次提出的. 这种技术能够在数据互不共享的情况下实现协同建模. 具体而言, 各数据拥有者(个人/企业/机构)的所有本地数据将始终保留在本地环境内, 通过采用加密机制下的参数交换机制(在此过程中严格遵守数据隐私法规)建立一个统一的全球模型架构. 建成后的模型将在各自区域内仅服务于特定的目标服务需求. 尽管在应用领域、系统设计以及优化算法等方面存在某些相似之处, 联邦学习与分布式机器学习仍具有一些独特特性. 在面对大规模数据量及高计算资源需求时, 分布式机器学习(如基于参数服务器的技术)展现出明显优势, 它能够将独立同分布的数据集或模型参数分散存储于各个分布式节点中, 由中心服务器整合资源并协同训练模型. 由于客户端的空间及时间分布特点, 联邦学习通常处理的是非独立同分布的数据样本或模型参数. 本文基于对现有联邦学习研究现状的分析, 对其系统架构进行分层划分, 并按功能模块整理相关研究成果
联邦学习算法结构如图1所示。
为了整合多个来源的数据

图1 联邦学习算法结构
2 联邦学习概述
2.1 联邦学习的定义
2016年, 谷歌研究院在致力于优化个人用户的键盘输入法时成功开发出联邦学习这一创新性的人工智能解决方案. 该技术特别适用于分散式多用户的场景

每个客户端持有其当前用户的完整数据集。传统深度学习方法通过聚合所有参与方的数据来构建一个汇总数据集,并在此基础上训练得到模型MSUM。而联邦学习框架则通过协同训练多个模型参数来生成优化后的MFED模型。假设存在非负实数δ,则MFED模型的性能VFED与MSUM模型的性能VSUM之间的关系满足以下数学表达式:

则该联邦学习算法被称为达到δ-精度损失的方案。联邦学习使得训练模型在性能上能够承受一定程度的偏差,并为此提供了数据安全性和隐私保护功能。常见的两种框架是客户端-服务器架构与对等网络架构两种模式。客户端-服务器架构中,在保证各方数据隐私的前提下,在本地完成模型训练并逐步更新全局模型直至收敛。对等网络架构通过直接参与方间的通信实现联邦学习过程,在提升安全性的同时也增加了计算复杂度与资源消耗。目前多数研究仍聚焦于基于第三方服务提供的基础设施。因此本文重点介绍客户端-服务器架构下联邦学习的具体流程
2.2 客户端-服务器架构的联邦学习流程
在物理层面上,联邦学习系统通常由数据提供方和中心服务器构成。各个数据提供方的本地数据量或特征维度可能不足以单独完成一次成功的模型训练任务,因此需要其他数据提供方的支持。而联邦学习中心服务器的作用类似于分布式机器学习中的参数服务器角色:它负责收集各参与方的数据梯度,并在本地进行汇总计算后返回新的梯度值。在整个联邦学习合作建模的过程中,在线参与者仅在其本地设备上对本地数据进行训练以保护隐私信息,在脱敏处理后生成的梯度会被作为交互信号传递给受信任的第三方服务提供商等待返回完整的模型参数并据此对当前模型进行更新[8]。图2展示了客户端与服务器架构下的联邦学习流程图
步骤1:系统进入初始化阶段。首先由中心服务器向系统发出启动建模任务的指令,并通过特定接口寻求参与客户端的数据支持。客户端的数据提供者基于自身业务需求提出了构建联合模型的计划,在与其他协作方达成初步协议后,双方确认并建立了初步的协作框架.随后, 各个协作方将各自的数据模型整合到统一的基础架构中, 由中心服务器将基础参数配置文件发送给各个协作方进行进一步开发与完善.
步骤二:局部计算。在开启并初始化系统参数后,在本地依据自身数据执行局部计算。完成之后,在上传之前需对脱敏后的本地局部梯度进行处理,并随后将这些梯度信息通过网络传输至系统的汇聚节点处。
当多个数据提供方发送计算结果时,在接收阶段由中心节点负责整合处理这些信息,并在整个整合过程中需兼顾效率、安全性以及隐私保护等多个维度的问题。例如,在某些情况下可能会采用特定的安全策略来处理参数,并通过加密技术确保其安全性;后续章节将对此类问题进行深入探讨

图2 客户端-服务器架构的联邦学习流程
步骤4:模型迭代更新。中心服务器基于汇总计算结果对全局模型进行一次迭代更新,并将优化后的模型返回给参与建模的数据提供方。数据提供方根据接收到的更新信息进行本地模型优化,并启动下一步局部计算流程,在完成当前模型评估后会评估优化后的模型性能,当达到预设性能指标时终止训练并完成联合建模任务。训练完成后生成的全局最优模型将被完整保存在中心服务器上,并用于后续的数据预测或分类处理。
这一过程通常遵循基于客户端服务器架构的标准联邦学习模式。
然而,并非所有的联邦学习任务都需要严格遵循这一流程。
在特定场景下可能会对流程进行调整,
比如,在数据聚合阶段增加质量评估机制,
以提高系统的容错能力。
2.3 联邦学习与传统分布式学习的区别
基于 client-server 架构的联邦学习与分布式机器学习均用于处理分布式数据,在应用领域及数据属性方面两者与传统分布式机器学习存在显著差异
(1)应用领域
大规模的数据或规模较大的模型通常会对计算资源产生较高的消耗。单一计算节点无法满足需求。分布式机器学习通过中心服务器对各节点进行调度的方式将训练数据或模型参数分布在各个计算或存储节点上,并加快模型训练速度。当数据包含隐私敏感属性时,在分布式机器学习中由中心服务器进行调度的做法会严重威胁用户的隐私数据安全。联邦学习始终选择本地存储数据作为其核心特征,在不需要将数据上传至云端 server 的情况下最大限度地保障了数据隐私。
(2)数据属性
机器学习的核心目标是研究数据的概率统计特性,在训练集中满足独立同分布假设的情况下相对容易实现。分布式机器学习通常处理的数据是遵循独立同分布假设的经典方法所处理的对象;然而,在联邦分布式架构下情况不同。由于客户端在位置与时间维度上的显著差异性特征,在联邦系统中原始数据通常不具备独立同分布的特点。横向联邦架构和平行架构的区别在于它们基于客户端不同的属性维度来划分任务;而纵向架构则侧重于从同一个客户机群体中提取共同的知识点以构建统一模型。不同客户机间的高维特征空间以及类别标签间的高度分化使得模型收敛过程需要特别的关注点;
(3)系统构成
在物理组成上来看,联邦学习系统与分布式学习系统存在显著差异,前者主要由客户端与服务端构成,而后者则包含多个客户端节点和一个中心服务器.在分布式系统中,数据计算与模型更新均需经由中心服务器统一调度,节点与中心服务器之间的数据传输时延较低,因而模型训练时间主要受计算资源制约.相比之下,联邦系统强调各参与方的平等地位,参与者可自主决定是否参与模型训练.然而由于分布式节点通常具备计算能力差异较大、网络环境复杂以及运行状态多变等特点,因此在系统设计上需要充分考虑以下因素:数据传输时延、非独立同分布特性以及隐私保护等.这就要求对联邦学习算法进行相应的优化适配.其中联邦聚合算法作为联邦学习体系中的核心机制之一,旨在解决非独立同分布问题并减轻模型参数异构性带来的挑战.同时值得注意的是,尽管联邦学习具有突出的隐私保护优势,但在实际应用中仍需重点考虑加密技术的应用场景及影响.具体而言,加密过程中的数据传递安全、目标函数损失计算的隐私保护机制以及梯度传播对传统算法提出的新要求等都对算法设计提出了更高标准.
2.4 联邦学习分类
不同联邦学习场景下的孤立数据集呈现出不同的分布特性。从每个参与者角度来看,在其内部的数据结构可以被建模为一个矩阵形式,并且该矩阵中的每一行都对应于特定的研究体或个体特征的表现情况。每一条记录都附带有相应的标签信息,并且就个体而言,在利用其特定特征X的数据训练机器学习模型来进行标签Y的预测时会表现出较高的准确性水平。在实际应用场景中,在不同参与者之间可能存在各自独立运营的不同实体(如公司或机构),为了避免泄露敏感信息以保护隐私安全起见,在保证联合效能的前提下希望能够建立共同的学习机制以提升整体模型的效果表现能力
基于联邦学习数据特征(其核心特征体现在各参与方数据间的重叠程度),该技术体系主要可分为横向联邦学习模式、纵向联邦学习模式以及迁移式联邦学习框架。
在两个参与方之间存在少量共同用户的情况下(即用户的重叠度较低),尽管他们的数据特征具有较高的相似度(即数据集中的特征重叠度较高)时
在两个参与方拥有大量共同用户的情况下(即两者的用户重叠度较高),然而两者的数据集所包含的用户特征存在显著差异(即两者的数据集具备较低的特征重叠度)时
当两个参与方之间的用户交集极为有限时,在这样的情况下进行联邦学习的方法被称为迁移联邦学习法。例如,在不同地域运营的企业中,
一个企业可能拥有本地用户的消费行为记录,
另一个企业则拥有本地银行服务记录,
由于这些企业所面对的数据类型和应用场景存在显著差异,
并且其中一些数据可能缺乏标签信息,
因此联合训练出的机器学习模型即被定义为迁移联邦学习模型。
目前大多数研究主要集中在横向联邦学习和纵向联邦学习的基础上
2.5 联邦学习算法的特点
基于上述对联邦学习的介绍,总结出以下几点联邦学习算法的特点。
该算法具备处理非独立同分布数据的能力:这是其一个显著特征之一,在实际应用中该算法需展现出在该类数据下的良好性能表现。由于在实际场景中各参与方提供的训练数据质量及统计规律均难以被精确掌控,并不具备一致性和独 立性等前提条件,在这种情况下基于独立同分布假设设计的学习方案将难以适应现实需求;由此可见,在实际应用场景中该类问题确实存在较大的研究价值并为解决这一类问题提供了重要的理论依据。
通信高效:联邦学习算法需关注各参与方数据特征的多样性,在保证模型准确率不受影响或仅轻微下降的同时减少信息传输资源的消耗。
快速达成一致:在集成建模的过程中...
信息安全与隐私保护是联邦学习的核心特征。信息安全与隐私保护是实现联邦梯度更新的基本前提条件。可采用加密等技术手段,在数据聚合环节保障信息安全与隐私保护目标的达成。同时也可以体现在单机端的优化环节中。
涉及复杂用户群体:当用户的数量庞大且其数据分布呈现明显的不平衡或偏移特征时,在实际应用场景中这种情况非常常见。算法需具备良好的适应性和容错能力
3 联邦学习算法分类
联邦学习系统是一个面向多客户端的应用平台,在该平台上各客户端能够独立完成数据处理任务并完成特定的任务目标。平台采用异步通信机制以保证系统的高效运行,并且能够根据实时反馈动态调整参数设置以提升系统的性能指标。系统通过建立统一的数据仓库实现资源的有效共享,并在此基础上提供智能决策支持服务以满足业务发展的需求。该系统采用分布式架构以提高系统的容错能力以及抗干扰能力,并通过引入分布式缓存机制降低网络传输压力并提升服务响应速度
3.1 基于机器学习的联邦学习算法
在联邦学习框架下,经典的机器学习算法实现了对数据的全局分析。尽管在架构上与分布式机器学习存在相似之处。然而,在传统机器学习算法的基础上,并非直接基于本地数据进行训练求解。相反地,在联邦系统中由于特殊的迭代机制和同步机制要求即需要通过数据共享和参数更新的方式进行模型优化。值得注意的是,在这一过程中如何保证各方参与者仅能访问自己的原始数据而不泄露敏感信息成为一个重要的技术难点。此外,在实际应用中为了提高系统的收敛效率和计算效率还需要根据不同场景对系统进行全面设计并据此进行相应的参数调整以满足特定业务需求。本文将重点介绍几种当前应用较为广泛的联邦机器 learning 方法及其核心原理
3.1.1 联邦线性算法
研究团队开发出一种基于中心联邦学习框架的纵向联邦逻辑回归实现方案

其中,ω为模型的参数,xn为模型的特征, yn为模型的标签,n∈{{11,,N}}为数据的数量,

基于模型损失函数,在纵向联邦学习中,数据持有方通常被划分为有标签和无标签两类。该算法将同态加密思想融入联邦优化框架中,并通过同态加密方法对双方的数据与梯度进行加密。假设无标签数据持有方α的数据集为Dα,在第τ轮时,该数据集代表的是无标签数据持有方在第τ轮的状态下的模型参数集合。使用[h·]表示对变量的同态加密操作,则整个训练过程可按以下步骤展开:
无标签数据持有方α首先向有标签数据持有方β发送[dα]、

及,在β节点中对损失函数进行求导并计算其对应的梯度值之后,在完成该过程的基础上完成加密操作后再将这些加密后的梯度值通过特定渠道传递给中心服务器。随后,在经过解密处理后中心服务器整合并存储来自α节点和β节点的加密梯度信息以便后续模型参数的更新工作。为了进一步降低整体通信开销提高系统的效率性能我们采用了向量s这一工具来记录模型在每次迭代过程中的变化情况从而辅助优化过程并且每隔一定周期会对当前模型状态进行一次评估以保证训练的有效性和稳定性。
Yang S W等人开发了一种基于去中心联邦学习框架下的纵向联邦逻辑回归实现方案。他们认识到,在现实生活中难以找到双方都可信赖的第三方辅助方,并且这一现象也无形中提升了数据泄露风险以及系统的整体复杂性。因此他们认为取消第三方参与能够带来显著的好处。
在方法论框架中,在训练过程中主导权由有标签数据持有方掌握,在中心服务器被取消后也需承担相应责任。假设有标签数据持有方α与无标签数据持有方β达成合作建模协议,则α首先向β传递建模密钥,在此基础之上双方分别初始化参数ω₁与ω₂,并依次计算各自的ω_i x_i(其中i∈{1,2})。完成计算后β将结果传递给α,在α接收到结果后对其双方的结果进行求和运算并利用逻辑回归模型求取最终预测值;随后基于相同标签值计算损失并进行加密处理后再返回给双方;在此基础上β需对自身获得的梯度进行加密处理并添加噪声之后再由α解密并返回;双方则根据接收到的信息执行梯度更新操作;整个流程中双方始终保持对数据的秘密保护措施,并采用保密通信渠道进行信息传输;这不仅保障了合作方的数据安全还赋予了系统对抗外界异常攻击的能力
3.1.2 联邦树模型
刘等人开发了一种基于中心纵向联邦学习框架的随机森林实现方案——联邦森林系统
该框架以梯度提升决策树为基础(Gradient Boosting Decision Tree, GBDT)构建而成,并涵盖拥有标签数据和无标签数据的各方。在梯度提升决策树算法中,联邦学习过程中交换的关键参数与联邦线性方法存在显著差异,在其核心机制上涉及高阶导数项的基础上,默认情况下遵循传统梯度提升决策树的方法论基础作为其理论支撑

其中,τ为回归树的第τ次迭代,

目标函数的最小化损失值j(·,·),其中j(·,·)代表每个叶子节点上损失的计算式。F(x)是预测残差的一阶与二阶导数之和(即泰勒二次展开式)。为了防止模型过拟合现象,在损失函数中引入正则化项:

其中,γ和λ为超参数,分别控制树和特征的数量,ω为权重值,T为原始损失函数。
在一般的分布式机器学习场景中,在参与方接收并计算F(x)后即可实现联合建模。然而,在联邦学习框架中使用这种方法存在风险。为了避免潜在的安全威胁与性能损失的问题,在保护数据隐私的前提下且不牺牲训练性能的情况下, SecureBoost开发了一种独特的联合建模方案。具体而言有标签数据持有方α首先计算出F(x),并对结果进行加密处理后发送给无标签数据持有方β进行处理。beta采用同态加密技术对局部数据进行求和,并将计算结果反馈给alpha继续处理。alpha接收到计算结果后将其按照特征分组,并执行聚合运算后将加密后的信息传递给beta完成后续操作流程。最后阶段由alpha整合来自beta的所有局部最优解并向下发回优化后的模型参数完成整个联合建模流程。值得注意的是在这种情况下多轮通信机制的应用能够有效平衡各方之间的利益冲突从而保障系统的稳定运行
Li Q B等开发了一种支持多方GBDT建模的横向上去中心化联邦学习框架——基于相似度的联邦学习(similarity-based federated learning, SimFL)。该方法主要包含两个关键步骤。首先,在预训练过程中, 各个参与方在本地对数据进行基于局部敏感哈希的分类, 该过程以局部敏感哈希(locality sensitive hashing, LSH)作为分类依据;随后将各个本地构建好的哈希表进行汇总, 最终生成全局统一的哈希表并将其发布给所有参与方。这样,在模型训练阶段, 每个参与方都可以基于全局哈希表构建各自的模型, 而无需直接访问其他参与方的数据集内容。此外, LSH还可用于衡量不同参与方之间的数据相似程度, 数据越是相似, 在同一哈希表中表现出相同值的可能性就越高。
当某个数据持有方呈现出显著的数据相似特征时,则可判断该数据持有方的数据具有重要价值;基于此原理,在SimFL算法中采用了加权梯度上升机制构建单一树模型;其核心思路在于将数据间的相似程度与其梯度权重建立关联;即通过评估不同数据点间的相似程度来确定其对应的梯度权重值;最终,在集成过程中展现出更高的集成能力。
仅使用哈希表进行加密的这一种方法,在仅从隐私保护性能上来看,并未达到差分隐私等方法的水平。尽管如此,在通信效率方面仍有所提升。因此,在联邦学习框架下应用树类算法时,该方法提供了一种新的实现途径。
3.1.3 联邦支持向量机
Hartmann V等人提出了一种将支持向量机(support vector machine, SVM)安全部署在联邦学习中的方法;该方法主要采用特征哈希和更新分块等手段来保护数据隐私性

其中N代表训练数据集,ω表示模型参数,在点(xi,yi)处的损失函数定义为L(ω,xi,yi)=max{0,1-ωτxiyi};同时λR(ω)表示损失函数中的正则项项,在此框架下超参数λ起到调节惩罚强度的作用。与SimFL类似地,在本文中我们采用了特征值降维哈希方法进行隐私保护处理;为了避免中心服务器推断出真实标签信息,在线性核方法的支持向量机中我们采用了次梯度更新策略以实现安全求解;通过实验验证,在联邦学习环境下该算法其在联邦学习环境下的性能表现不低于传统单机支持向量机方法。
3.2 基于深度学习的联邦学习算法
为确保数据隐私的安全性
研究者们分别采用了神经网络(NN)和卷积神经网络(CNN)对MNIST数据集进行了实验验证。其中针对神经网络(NN),其具体架构包括两个隐藏层的设计:每个隐藏层均包含了200个神经元,并采用ReLU作为激活函数进行激活。为了探究模型参数初始化策略以及聚合比例对训练效果的影响,在联邦学习过程中将实验划分为两组:第一组使用相同的随机种子初始化分配在两个计算节点上的模型参数;第二组则采用了不同的随机种子来初始化各计算节点上的模型参数。在此基础上,在每组实验中对来自不同计算节点的本地模型参数采用了不同的加权融合策略以实现最终的联邦共享模型构建

其中具体来说
,
ω_{FL}代表联邦学习中的一个关键参数
,
而另一些节点上的本地模型参数分别为ω和ω_{'}
。
研究表明
,
在保证同等分类精度的前提下
,
通过采用加权聚合策略后的方法相比传统联邦学习而言
,
能够在较少的训练回合内实现更高的收敛效率。
当所有节点均采用联邦学习方案时
,
采用相同随机种子初始化的不同节点上的本地模型能够取得较为理想的效果
。
特别地
,
在两个变量的比例设置为1:1的情况下
,
达到了最低的分类损失水平。
3.2.2 联邦卷积神经网络
Zhu X H及其团队基于中文字体识别模型,在隐私场景下对现有的联邦学习框架(包括TensorFlow federated (TFF) 和PySyft)进行了评估,并研究了数据集规模及客户端数量对联邦学习性能的影响。尽管递归网络是文本识别问题中常用的方案之一, 但过于复杂的网络架构往往会降低联邦学习的整体效率, 因此他们采用了包含4个卷积层与2个全连接层的相对简单的卷积神经网络(CNN)来进行实验设计。随后, 根据样本ID, 他们将数据集划分为多个子集, 并将其随机分配至不同的客户端节点, 从而模拟分布式数据环境下的资源分布情况。在实际训练过程中, 每个客户端节点都会独立地在其本地数据集上完成梯度计算与参数更新工作; 当所有客户端完成一轮迭代后的参数更新整合后, 最终会更新整个系统的全局模型参数
作为对比,在初步阶段首先采用非联邦学习模式进行训练,并将所有数据放置在TensorFlow环境中进行模型训练。随后观察基础对比模型的准确率为42.65%这一指标表现。进一步分析发现,在客户端数量保持不变时,在每个客户端上的数据子集大小变化会影响模型性能的变化趋势——总体上呈现出随着数据量增大而提升的趋势。然而,在PySyft环境下运行时发现最佳精度始终无法达到基线水平(baseline),并且迭代次数明显多于基线模型。相比之下,TFF框架展现出更好的收敛效果,特别是在客户端样本数量达到一定阈值后,联邦学习模型不仅能够超越基线水平,其迭代次数还显著减少。这种两者的性能差异可能源于所采用的不同优化算法策略差异。此外,就联邦深度学习框架而言仍有许多局限性和待解决的技术问题,例如TFF缺乏对GPU加速计算的支持,TFF与PySyft在支持的优化器类型上存在明显差距
影响卷积网络效果的因素不仅限于客户端与服务器之间的参数传递效率。例如,在客户端与服务器之间传输参数时,为了减少带宽使用而常会对其参数进行压缩处理。研究表明,在视觉几何组网络11(VGG11)架构下发现,在非独立同分布数据环境下采用带有参数压缩机制的联邦聚合算法收敛性表现较差;而在独立同分布数据环境下则几乎与未采用压缩机制的传统联邦聚合算法具有相似的收敛速度。在联邦学习环境中应用稀疏三元压缩编码技术能够显著提升通信效率,并且其通信协议在联邦学习环境中优于FedAvg算法(federated averaging)。
3.2.3 联邦LSTM
还有众多研究者将LSTM网络应用于联邦学习框架中以实现字符级别的预测任务。这些研究者将数据集划分为分布在不同客户端的非独立同分布(non-IID)学习数据集,并通过适当配置超参数实现了较好的性能表现。Sahu等研究者提出了一种基于联邦数据训练的一类LSTM分类器模型,并构建了相应的联邦学习框架FedProx以解决统计异质性问题,在情感分析和字符预测任务中展现出一定的优势。实验结果表明,在与FedAvg相比 FedAvg是一种平均策略 FedProx方法能够显著加快收敛速度 FedProx方法能够显著加快收敛速度 FedAvg方法则是一种基础平均策略 FedProx方法则采用了加权平均的方式 FedAvg方法采用的是简单的算术平均方式 在客户端与中心服务器之间的通信过程中 应用STC编码通信协议能够让上行链路中的参数量从约2.4 MB压缩至10 MB 同时下行链路的数据量也能从约100 MB压缩至10 MB 左右 这样的优化策略不仅能够提高通信效率 还能够在保证模型收敛效果的前提下大幅减少带宽消耗
当前联邦学习算法的主要研究重点及其难点在于通过提高联邦聚合的优化效率与性能来实现模型快速收敛与精准训练。因此目前关于联邦深度学习模型的相关研究仍较为薄弱。
表1从多个维度对联邦机器学习与联邦深度学习的算法进行了比较分析。

4 联邦学习算法的优化分类方法
相对于分布式学习,联邦学习有一些独特的属性,具体如下:
● 联邦学习的通信是比较慢速且不稳定的;
● 联邦学习的参与方设备异构,不同设备有不同的运算能力;
fed learning 聚焦于隐私与安全问题,在大多数研究场景中,默认参与者和服务器被视为可信实体;然而,在实际应用场景中,默认策略可能并不适用。
为了实现联邦学习的目的,在优化过程中需关注多个关键因素以提升整体效能。本文将重点阐述通过降低通信成本以及提高客户端选择效率等措施来提升系统的性能表现。在阐述 FedAvg 算法之前,请您先了解最基础的 F-norm 联邦平均机制及其核心原理。
其本质思想是对数据持有方通过局部随机梯度下降的过程进行本地模型优化,并在中心服务器处执行聚合操作。目标函数定义如下:

在其中,M代表参与联合建模的数据持有方的数量;ω代表模型当前的参数值;该损失函数代表均方差损失函数。FedAvg算法属于较为基础的联邦优化技术;其部署相对较为简便;其应用领域十分广泛。
4.1 从通信成本角度优化的联邦学习算法
机器学习技术中较为复杂的深度神经架构设计者,在模型构建阶段通常会涉及大量可调参量。以卷积神经网络(CNN)为例,在进行模型构建时通常会涉及数百万个可 trainable parameters. 每一次迭代更新过程都需要对这数百上千甚至上千万规模的 parameters 进行重新计算与调整;此外,在实际应用中还存在另一个关键问题:网络通信的状态直接影响着整体系统的运行效率与资源消耗水平。例如,在不稳定或低效的网络状态下会导致数据传输效率低下,并且不同设备之间传输的速度差异也会影响整体效率. 因此研究者们必须深入理解这些问题的本质特征与内在规律,并在此基础上探索如何从通信效率的角度出发改进现有的联邦分布式机器学习系统架构设计. 下面可以从以下几个方面展开深入分析与探讨。
4.1.1 增加客户端计算成本
在联邦学习框架下,当终端节点处于Wi-Fi连接状态时(或者当网络环境较差时),更多的计算可以在本地完成。这种情况下能够提高本地计算资源的使用比例。对于优化通信成本而言,在这两种场景下分别提出了不同的解决方案:一方面Konečný J通过提高客户端在每轮迭代中进行本地参数更新的次数(并将其与FedSGD算法进行了比较),实验结果表明该方法能够在数据为独立同分布(IID)的情况下显著降低通信成本;另一方面Sahu A K等人提出的FedProx算法则能够在数据分布不均衡(non-IID)的情况下表现出更强的优势。这种优势来源于 FedProx 算法能够动态地根据客户端的具体情况调整每一轮所需进行本地计算的数量(从而确保客户端能够充分释放其计算能力)。随后Liu Y等人也采用了类似策略对联邦优化算法进行了改进;LI X等人则深入研究了FedAvg算法的收敛特性,并证明了数据异质性会对联邦学习的整体性能产生不利影响
4.1.2 模型压缩
某些优化算法的目标在于减小每一轮通信中的参数量;这些方法通常采用模型压缩技术(如量化与二次采样等手段)来降低每次参数更新所需传递的数据量。Konečný J等人提出了一种基于矩阵结构的分层更新机制来更新服务器参数,在每一轮的参数传输环节中都会对参与方所发送的数据量进行严格控制以降低整体通信成本。这种分层更新机制是指预先定义好上传模型各层权重矩阵的具体结构后进行数据发送;而轮廓更新则要求每次参与方在发送给服务器之前必须先对数据进行压缩编码处理。实验研究表明,在使用CIFAR-10图像数据集进行验证时发现,在保证一定准确率的前提下增加参与方数量能够显著提升模型训练效率;Caldas S等人则聚焦于从服务器端向客户端传输模型参数这一环节,在不显著影响模型性能的前提下通过有损压缩技术和联邦筛选方法(federated dropout)有效降低了客户端接收数据的数量进而降低了整体通信成本
当实施联邦学习时,通信往往成为一个关键障碍。减少通信开销是实现有效优化的一个关键目标。一些优化措施可能会以增加本地计算量为代价;另一些则可能通过牺牲整体模型精度来实现。根据具体场景和需求,在实际操作中选择最适合的方法来减少通信开销。
4.2 从客户端选择角度优化的联邦学习算法
联邦学习中的客户端设备呈现异构性特征,并且不同客户端所拥有的资源数量有限。通常情况下, 这些客户端会采用随机策略来参与模型训练过程. 因此, 在这一过程中, 某些算法会综合考虑客户端的选择策略进行优化调整.
各客户端在运行速度和计算能力等方面存在差异,在数据获取方面也呈现不均衡状态。若所有参与方均加入联邦学习的整体训练流程中,则会导致部分落后于整体进度的参与方出现;当某些客户端长时间未响应时,则可能导致整个系统的联合训练无法顺利推进。因此从而引出一个问题:如何筛选出最适合进行联合训练的客户节点?传统的FedAvg算法采用随机的方式来选取参与平均计算的一组节点;然而,在复杂的网络架构以及数据分布呈现非独立同分布特征的情况下;此时该算法的表现未必令人满意;下面两篇参考文献介绍了一些优化方案。
Takahashi等人开发了一种称为FedCS的联邦学习算法。该算法通过设计一种基于贪心策略的协议机制,在每次联合训练过程中选择模型迭代效率最高的客户端来进行数据聚合更新。这种设计旨在提高联邦学习的整体收敛速度。研究表明,在大多数测试条件下,FedCS算法能够实现较高的分类精度。然而,在模型较为简单的情况下(如基本结构简单的神经网络),该方法表现良好;但对于复杂的网络架构或拥有大量参数的情况而言,则会降低聚合效率并增加通信开销。
N.Yoshida及其团队开发了一种名为HybridFL的新协议,在实际应用中表现出色。这种协议特别适用于处理来自不同客户端且非独立同分布的数据集,并有效弥补了基于非独立同分布数据的传统联邦平均算法 FedAvg 在性能上的不足。研究者进一步指出,在Hybrid-FL框架下,在服务器端引入了一种新的资源消耗程度评估机制筛选出若干客户端节点进行协作训练;随后,在这些被选中的节点上构建了一个近似于独立同分布的数据集来进行联邦学习模型的训练与更新过程。经过一系列实验测试表明,在针对非独立同分布数据类型下的联邦学习分类任务中,该方案较其他现有方法展示了显著的竞争优势
4.3 从异步聚合角度优化的联邦学习算法
在FedAvg算法中进行参数更新时会实现同步机制,在每次迭代过程中服务器会接收并整合所有参与方训练得到的参数集合,并将整合后的参数推送给所有客户端节点。当服务器等待所有客户端发送完训练结果时若存在部分客户端能够迅速完成计算和数据传输而另一些客户端则由于计算速度较慢或网络延迟较大而影响整体效率就需要采用异步更新策略以减少通信延迟导致的整体性能下降
Sprague等 contributors提出了一种新型的联邦学习异步集成更新机制,并通过实验验证了该方法的有效性。每当服务器接收任一客户端发送的更新参数时就会执行一次聚合操作。然而该算法存在局限性即当参与训练的数据分布呈现non-IID特性时可能会导致模型收敛效果显著下降
Xie C等人为了解决异步同步机制在非独立分布数据(non-IID)环境下的适用性问题而开发了一种新的FedAsync算法。该算法通过整合加权聚合方法,在服务器接收客户端更新参数后能够根据当前训练进度自适应地分配权重以实现加权聚合。这种设计有效解决了非独立分布数据环境下异步聚合导致的算法收敛问题,并通过理论分析验证了该方法在非凸优化问题上的优越收敛性能。
联邦学习算法的优化分类方法见表2。

5 结束语
本文深入探讨了联邦学习领域的当前发展动态。从算法层面出发,对相关的联邦学习技术进行了系统性归纳与分析,并将其划分为两大类:一类是中心型联邦优化算法(Federated Optimization Algorithm),另一类是去中心型联邦机器学习算法(Federated Machine Learning Algorithm)。针对中心型与去中心型两种典型联邦架构下的相关技术展开详细论述,在此基础上进一步梳理并总结了不同类型的机器学习模型与深度神经网络架构的特点与实现机制。在现有研究的基础上深入剖析了中心型与边缘型两种架构下 federated learning 算法的主要优势与局限性,并基于理论分析提出了若干具有参考价值的技术改进方向
当前联邦学习正处于快速发展之中。就其在实践中的运用而言,则已有多方面的深入探讨。然而,在实现这一技术的过程中仍面临着诸多亟待解决的问题。本文重点阐述了以下三种关键性问题:其一为通信瓶颈问题;其二涉及系统异构的挑战;其三则围绕数据分布不均的技术难点。
在联邦学习系统中存在通信效率方面的挑战,在这种情况下联邦网络通常由大量设备共同参与数据处理过程。由于网络中的通信效率直接影响整体系统的运行速度,在这一背景下开发高效率的通信方法就显得至关重要。主要策略是减少客户端与中心服务器之间的梯度交换频率以及降低信息传递量。具体而言,在单个全局迭代周期内适当增加客户端的本地优化次数可有效降低数据交换频率;同时通过采用适当的梯度压缩或量化技术来减少信息传递量从而节省带宽资源
系统中的异构性问题同样值得重视。在联邦学习框架下,客户端设备之间的多样性不仅体现在存储资源上,还包括计算能力以及通信效率等多个关键因素。由于设备间的异构性导致计算时间存在差异,并且可能会出现个别设备长时间断连接的情况。通过异步通信机制能够有效解决各设备完成本地更新时间不一致的问题,并避免了中心服务器长时间等待更新数据的情况。先前的研究已经广泛采用并验证了异步通信的优势,并且发现提升系统的容错能力也是减轻系统异构带来的负面影响的重要途径。
在 federated learning 的过程中, 设备通常会以非独立同分布的方式在网络安全层生成和收集数据, 其中一个典型的情景是: 在移动端用户执行输入法下一单词预测任务时, 由于使用不同的语言会导致数据异构问题. 此外, 各参与方的数据数量很可能呈现不均衡状态. 这种情况下, 传统的基于独立同分布假设的数据优化算法在联邦学习场景中往往无法有效应用. 因此, 如何使优化算法具备更强的适应性以应对联邦学习中复杂多样的数据结构, 成为当前研究的一个重要方向. 而元学习与多任务学习的思想能够支持基于个性化或特定设备的建模策略, 这种方法能够在一定程度上缓解因各参与方之间存在显著统计差异而导致的问题.
最后,笔者针对联邦学习的未来发展提出以下展望。
本文综述了现有的联邦学习算法,并指出了当前在人工智能领域中基于联邦架构实现机器学习与深度学习技术面临的技术挑战与研究难点。通过采用联邦学习框架实现机器 learning 和 deep learning 算法的应用是一种高效且全面的边缘数据利用策略。
● 联邦学习对于数据隐私性的保障。这是联邦学习理念中的核心要素之一。
尽管目前已有诸多关于联邦学习的研究致力于其隐私保护问题,在实际应用过程中仍需应对多种复杂挑战。
虽然目前已有诸多关于联邦学习的研究致力于其隐私保护问题,在实际应用过程中仍需应对多种复杂挑战。
为了有效应对各类潜在威胁,在提升防御能力的同时也需要确保系统的安全性。
联邦学习的多维度协同进化。从系统发展的角度来看,在涉及多个领域的情况下进行协调运作是一个重要特征。
如边缘计算等技术的发展则为其提供了重要的支撑基础。
通过促进多领域的协同发展不仅能够显著提升联邦学习的性能而且能够更好地发挥其便捷性、隐私性等方面的优势。
