联邦学习算法综述

点击上方蓝字关注我们

王健宗1,孔令炜1,黄章成1,陈霖捷1,刘懿1,何安珣1,肖京2
1. 平安科技(深圳)有限公司,广东 深圳 518063
2. 中国平安保险(集团)股份有限公司,广东 深圳 518031
摘要
关键词**:** 联邦学习, 算法优化, 大数据, 数据隐私

论文引用格式:
王健宗,孔令炜,黄章成, 等. 联邦学习算法综述[J]. 大数据, 2020, 6(6): 64-82.
Jian-Zhong Wang and Lizhong Kong等. 系统性综述: 联邦学习算法研究[J]. 大数据研究, 2020, 6(6): 64-82.

1 引言
随着数字化技术快速发展中,大数据与人工智能等技术迎来快速发展的新机遇,这一变革为传统行业带来了转型升级的契机,但也带来了数据与网络安全方面的严峻挑战,其中数据孤岛现象尤为突出.纵向来看,行业领先的大企业占据了大量数据资源,中小企业获取这些关键数据难度较大,导致行业内层级差距不断扩大;横向来看,同级别不同行业的公司由于系统和业务的封闭性与阻隔性,难以实现数据共享与整合,造成跨行业协作受阻.
就当前人工智能领域所面临的主要挑战而言,联邦学习提供了一种解决方案。这一概念是由谷歌研究院于2016年首次提出的。该技术的特点在于无需共享数据即可实现协同建模。具体而言,在各参与方的所有本地数据均保持独立 sealed的前提下,在遵守隐私法规的前提下构建了一个统一的全局模型;这个模型能够在各自限定区域内服务于特定目标需求。尽管两者在某些方面具有相似性,在应用领域、系统架构以及优化策略等方面存在独特性:当处理大规模数据并依赖大量计算资源时,默认情况下分布式机器学习(如基于参数服务器的技术)展现出显著优势;而由于客户端的空间和时间分布特征导致的数据特征通常是非独立同分布(non-IID)性质的问题;本文旨在结合现有研究对联邦学习系统的构成进行层次划分,并按模块梳理相关研究成果现状
联邦学习算法结构如图1所示。
为了实现多源数据的整合, 现有的做法通常利用数据预处理ETL(extract-transform-load)工具, 将来自不同系统的数据迁移到关系型数据库中, 并行部署具有大规模计算需求的任务到多台服务器上, 从而显著提升了整体运算效率, 同时也降低了能耗水平

图1 联邦学习算法结构
2 联邦学习概述
2.1 联邦学习的定义
2016年时, 谷歌研究院针对用户的键盘输入优化问题开发出了一种全新的解决方案——联邦学习. 联邦学习主要应用于分散式的多用户环境.

,每个用户客户端拥有当前用户的数据集

。传统的深度学习将这些数据收集在一起,得到汇总数据集

通过训练获得模型MSUM。联邦学习方法则由参与者共同训练MFED模型,并确保用户数据Di保留在本地节点不对外泄露。当存在非负实数δ时,MFED模型VFED与其对比模型MSUM精度VSUM满足以下不等式:

则称该联邦学习算法在实现δ-精度损失方面表现突出。该方法为联邦学习框架赋予了训练模型一定程度的性能偏差容忍度,并在此过程中保障了参与方数据的安全性和隐私性。目前主流的联邦学习实现方式主要包括两种类型:一种基于客户端-服务器架构的设计理念与技术实现路径;另一种则采用对等网络架构方案来完成相关操作。在客户端-服务器架构下,各参与方需根据自身条件与规则在本地完成模型训练工作,并将经过脱敏处理后的参数信息汇总至中央服务器节点进行运算汇总与更新操作;最终直到全局模型达到稳定状态为止这一流程得以完整实施。相比之下,在对等网络架构设计模式下各参与方无需依赖第三方节点即可直接通信协作完成建模任务;这种设计不仅提升了系统的安全性水平;同时也带来了更多的计算开销用于加密与解密操作之间的平衡考量问题。目前多数研究仍聚焦于以第三方服务提供者为核心的系统构建模式与其优化方案设计思路。基于此本文重点阐述客户端-服务器架构下的联邦学习具体实施流程及其实现细节问题
2.2 客户端-服务器架构的联邦学习流程
从物理角度来看,联邦学习系统通常由本地数据持有者与中心服务器构成。各参与方的本地数据量或特征维度可能不足以单独支撑一次成功的模型训练。因此需要其他本地参与方的支持。而联邦学习中的中心服务器角色类似于分布式机器学习框架中的参数 server,在其内部完成各个节点计算出的梯度汇总运算后会将更新后的梯度值返回给相关节点用于模型更新。在一个联邦学习的合作建模周期中,各个本地参与者仅在其本地设备上运行训练任务以保护用户隐私信息,在此过程中迭代产生的梯度值会在特定条件下脱敏处理后作为交互信息反馈给中央服务节点完成参数更新循环。图2详细展示了客户端与服务器之间的联邦学习交互流程
系统初始化阶段开始。首先由中心服务器发起建模任务的请求,并通过网络连接与参与客户端建立通信链路。客户端的数据持有方基于自身的需求条件与潜在的合作对象协商建立共享模型的意向书,在双方达成一致后正式签署并投入实施阶段。随后,在其他合作伙伴提供必要支持的基础上,在双方共同研究团队的协调下完成初步模型框架的设计工作,并通过多轮讨论最终形成双方认可的技术文档方案
步骤2:局部计算。在系统参数初始化完成后,在线建模任务启动并执行过程中,各数据提供方将被要求首先在其本地设备上基于自身数据进行局部计算操作;当完成计算后,在线提交经过脱敏处理后的本地计算结果以用于全局模型的一次性更新过程。
步骤3:中心聚合。当多个数据提供方提交计算结果时,在接收阶段,中心服务器将执行整合操作以完成数据汇总,在整合过程中需兼顾效率、安全性及隐私保护等多个维度。值得注意的是,在某些情况下(如系统存在异构特性),为了提高处理效率或减少资源消耗,中心服务器可能会选择一个适当的数据提供子集作为收集目标,并采用特定的安全技术对参数进行加密处理;此外,在实际操作中为了确保数据完整性与安全性通常会结合多种优化策略以达到最佳效果;这些优化方法将在后续章节中详细阐述

图2 客户端-服务器架构的联邦学习流程
步骤4:模型更新。中心服务器基于经过聚合处理的结果对全局模型进行单次更新操作,并将更新后的模型返回给参与建模的数据提供方。数据提供方启动后续局部计算,并开启后续局部计算工作的同时评估更新后模型的表现情况。当评估结果显示性能达到预期时,则终止训练流程并完成联合建模过程。建立完成后的全局模型将被保存于中心服务器端以供后续预测或分类任务使用。
这一过程通常遵循客户端服务器架构的联邦学习模式。然而,并非所有联邦学习任务都需要严格遵循这一流程运行,在某些情况下可能会根据具体场景对流程进行调整。例如,在特定场景下适当降低通信频率以提升效率,并且在聚合阶段增加一个逻辑判断以验证接收到的本地计算结果质量。
2.3 联邦学习与传统分布式学习的区别
以客户端-服务器架构为基础的联邦学习和分布式机器学习都是用于处理分布式数据的技术,在应用场景、数据特性和系统构成方面两者之间存在显著差异,请问您具体指的是哪些方面?
(1)应用领域
在实际应用中,在处理规模较大的数据或建立大型模型时通常会面临计算资源方面的限制。单独的计算节点无法满足这样的需求。分布式机器学习通过将训练数据或模型参数分散部署于各个计算或存储节点,并通过中心服务器进行协调调度来加速模型训练过程。然而,在涉及隐私敏感属性的数据情况下,在采用分布式机器学习方案时可能会导致用户的原始数据面临被集中管理的风险。相比之下,联邦学习采用本地存储策略,在无需上传至云端的情况下能够有效保障数据隐私。
(2)数据属性
机器学习的核心目标是推断数据的概率分布模式,在独立同分布假设下实现这一目标较为简单。分布式架构下的数据通常呈现独立同分布特征,在这种情况下联邦学习体系存在显著差异性。由于空间位置、时间维度上的分散特点(即地理位置、时间等分布在不同节点上),其原始数据呈现出明显的非独立同分布特征。同时(即除了基于属性区分之外),横向与纵向联邦学习分别基于客户端不同属性进行分类任务的设计,在模型训练过程中需要采取相应的对齐策略以保证各参与方间的数据特征存在显著差异,
(3)系统构成
从架构上看, 联邦学习系统与分布式系统存在诸多相似之处, 均由中心服务器与多个分散节点共同构成。在分布式系统中, 中心服务器统筹安排数据计算与模型更新工作, 各节点之间的数据传输时延相对较低, 且整个系统的训练时间主要受计算资源制约。相比之下, 联邦学习体系中各个参与方地位平等, 参与者可自主决定是否投入模型训练环节。然而, 分布式节点通常具备较大的计算能力差异、各异的网络环境以及不可预测的状态分布, 这使得系统设计需要综合考量数据传输时延、非独立同分布特性以及隐私保护等问题, 因此必须对联邦学习算法进行相应的优化适配。联邦聚合作为一种独特的优化算法, 通过创新性思路有效解决了数据非独立同分布问题并减轻了数据异构带来的挑战. 此外, 联邦学习凭借其卓越的隐私保护能力要求在算法设计过程中充分考虑加密机制的应用. 这不仅影响到加密数据的传输效率, 更对目标函数损失值的计算及梯度传递方式提出了新的技术要求
2.4 联邦学习分类
不同参与方的数据呈现出独特的分布特征,在联邦学习体系中这一现象具有显著意义。每个参与者都拥有可用的矩阵形式的数据集合,在这种表示方式下可以清晰地体现个体属性与行为模式之间的关联关系。具体而言,在这种多维数据表格中每一行对应一个独特的用户或研究对象;而每一列则代表特定的属性或特征。值得注意的是,在这样的数据组织结构下每条记录都会附带一个标签信息以便后续分析与预测任务的有效开展。基于用户的特征向量X训练出能够预测其标签Y的模型这一目标在实际应用中可以通过联合优化算法实现从而提高整体系统的泛化能力与预测精度。
根据联邦学习的数据特点(其核心在于各参与方之间的数据相似性),联邦学习主要可分为横向联邦学习、纵向联邦学习以及迁移联邦学习。
当两个参与方的用户群体交集极少但其数据特征存在较高程度的重叠时,在这种情况下所采用的联邦学习方法被称为横向联邦学习。例如,在一个银行系统中分别位于深圳和上海的不同分支机构作为参与方时,在涉及本地用户的分布时,则属于横向联邦学习
在两个参与方拥有大量共同用户的情况下(当两个参与方的用户重叠部分很多),然而这两个数据集的用户特征重叠却较少时(两个数据集的用户特征重叠部分比较少),这种特定情况下的联邦学习则被称为纵向联邦学习(这种场景下的联邦学习叫作纵向联邦学习)。例如,在同一个地区的两个机构中(比如同一个地区的两个机构),各自拥有用户的消费记录(一个机构有用户的消费记录)以及银行记录(另一个机构有用户的银行记录),这两个机构虽然有很多重叠用户(有很多重叠用户),但他们的数据特征却不尽相同(记录的数据特征不同),为了保护隐私并促进数据共享,在保证数据安全的前提下(通过加密的方式聚合不同特征的数据来共同训练一个更为强大的联邦学习模型)联合分析这些数据以提升模型性能的情形就被视为纵向联邦学习。
当共同用户的覆盖范围较小且两组数据集在用户特征上的交集相对有限时,并且其中一些数据可能缺乏标签信息时,则称这种情况下的联邦学习为迁移联邦学习。例如,在不同区域运营的不同机构中分别拥有消费记录与银行记录的数据集合,则这两个具有不同用户特征的数据集合联合训练出的机器学习模型即属于迁移联邦学习范畴
当前大部分研究主要聚焦于横向 федер制学派与纵向 федер制学派的基础上
2.5 联邦学习算法的特点
基于上述对联邦学习的介绍,总结出以下几点联邦学习算法的特点。
● 具备这一特性:这使得联邦学习算法成为一个重要的特征。
● 该算法在面对非独立同分布的数据时展现出良好的性能。
● 实际应用中发现各参与方的数据质量与分布难以被精确控制,在无法保证其服从独立同分布假设的情况下(即存在显著的质量差异),传统的 federated learning 方法往往难以有效工作
在保证至少不降低准确率或仅以微小幅度降低的情况下提升通信效率的同时,在保证至少不降低准确率或仅以微小幅度降低的情况下减少不必要的能量消耗
快速达成一致:在联合建模的过程中,在确保模型稳定运行的前提下,在提升系统效率的同时,在优化资源分配的过程中
数据隐私与安全性是联邦学习的关键特征之一;因为它们是联邦梯度更新所必需的前提条件;可以在数据聚合阶段采用加密等技术手段进行保障;同时也可以体现在单个设备的优化过程中
涉及复杂用户的场景:其中'复杂用户'特指包含数量庞大且数据分布不均衡的用户群体。在实际应用中通常会遇到此类情况,在这种情况下算法设计者需要特别关注如何处理这类数据分布不均衡的情况
3 联邦学习算法分类
联邦学习系统是一种多客户端协同训练机制。各参与节点在执行模型训练过程中仅处理自身设备上的数据,并无需与其他节点或中心平台交互即可完成任务。中心服务器通过整合各参与节点反馈回来的本地更新信息逐步构建统一的全局模型参数。由于各节点设备间存在不同的计算能力及处理速度差异,“联邦学习系统是面向多客户端”的特点导致不同节点完成计算任务所需时间存在差异。“联邦学习算法针对以上问题,在传统机器学习与深度学习方法的基础上进行了优化与改进”。考虑到本地数据与全局数据之间的分布不均,“某些极端值或异常样本可能会影响整体性能”。因此,在传统机器学习与深度学习方法的基础上进行了优化与改进。
3.1 基于机器学习的联邦学习算法
在 federated 学习架构下执行的经典机器 学习方法通常被统称为'fed machine learning algorithms'。从整体结构上看,在 distributed 计算模型中运行的一系列方法可类比应用于'federated'架构。然而,在 'horizontal' 方向上的federated 模型与传统的 setup 相比具有显著的不同特性——特别是在数据未本地存储这一前提下双方必须交换训练参数以达成联合建模的目标上——因此其构建过程必然更加复杂化。这些系统的构建通常会参考现有的优化方案,并根据具体应用需求进行适当调整。同时需关注数据处理过程中可能面临的隐私保护等技术挑战。下面介绍几种目前常见的 fed machine learning algorithms。
3.1.1 联邦线性算法
研究者们开发了一种基于中心联邦学习框架的纵向联邦逻辑回归实现方法。该方法能够执行纵向联邦学习中的逻辑回归任务,并通过核心公式被设定为目标函数。

其中,ω为模型的参数,xn为模型的特征, yn为模型的标签,n∈{{11,,N}}为数据的数量,

将模型损失函数作为评估标准,在纵向联邦学习中进行分类时,默认情况下会将数据持有方划分为具有标记样本的数据提供者与不具备标记样本的数据提供者两类。该算法借鉴联邦优化框架中的技术,并融入了同态加密思想,在训练阶段采用同态加密方法对参与方的数据与梯度进行加密处理;假设无标记数据提供方α拥有集合X_α作为其拥有的全部样本信息

,其中

代表在第τ轮状态下未标记的数据持有方的模型参数。通过[dα]表示对dα实施同态加密,在整个训练流程中可详细描述如下。
无标签数据持有方α首先向有标签数据持有方β发送[dα]、

及

β负责计算梯度与损失,并将加密后的梯度值反向传递给前一层网络节点。中心服务器接收来自α和β节点的加密梯度后用于协助α和β完成模型更新。为了减少通信频率以及降低通信消耗,在模型训练过程中引入了一个向量s来表示模型的变化情况,并在更新过程中起到辅助作用。
Yang S W等研究者开发了一种基于去中心联邦学习框架下的纵向联邦学习中的逻辑回归实现方案。研究者指出,在现实中找到双方共同信任并依赖的第三方辅助方并非易事,在这一过程中不仅增加了数据泄露的可能性,并使系统的整体架构更加复杂。鉴于此,他们主张完全摒弃第三方角色将带来显著的优势
主导角色由有标签数据持有方在训练过程中担任,在这一角度来看,则是说明有标签数据持有方承担了原本中心服务器所负有的取消责任。假设双方达成协议来建立模型,则先由α向β传递建模密钥;接着双方各自初始化参数ω1与ω2,并分别计算ωixi的结果(其中i属于{1, 2})。计算完成后,则将结果传递给α;α则通过逻辑回归模型得出最终预测结果,在相同标签值上计算损失值后将其加密并反馈给β;随后双方各自计算梯度(对于β而言则是经过处理后的加密梯度)。β则将经过噪声处理的密钥发送回α进行解密处理;双方均对各自的梯度信息执行更新操作;在整个操作流程中双方始终保持对信息的高度保密性;传输路径上的所有交流均为机密信息;因此不仅实现了参与者之间的隐私保护机制;同时也增强了抵御外部异常攻击的能力。
3.1.2 联邦树模型
Liu Y等人构建了基于中心纵向联邦学习框架的一种随机森林实现方法——联邦森林系统。在建模阶段,每棵树都进行了联合建模操作,在中心服务器以及各个数据提供方中实现了结构存储。然而,在各个数据提供方中仅保留了与自身特征相匹配的分散节点信息,并无法获取其他数据提供方的有效信息以保护数据隐私性。最终整个随机森林模型结构被分散存储于各节点中,在中心服务器中完整保留了结构信息而未对节点信息进行分散存储。在模型应用阶段首先获取本地存储的节点信息然后通过中心节点协同调用树结构中其他客户端所需的节点信息从而降低了每棵树在预测时所需通信频率有助于提高通信效率
SecureBoost是一种基于梯度提升决策树(gradient boosting decision tree, GBDT)的去中心纵向联邦学习框架,并且同时包含标签数据持有方和无标签数据持有方。在梯度提升决策树算法中fed learning所需的交换参数与fed linear algorithm存在显著差异,并且涉及二阶导数项。基于常规的梯度提升决策树方法论,在目标函数方面:

其中,τ为回归树的第τ次迭代,

为了最小化目标函数所对应的损失值,在机器学习模型训练过程中使用泰勒二次展开的形式来近似预测残差的变化趋势:其中j(·,·)被定义为用于计算每个叶子节点上的具体损失的方法;而F(x)则代表了预测残差的一阶与二阶导数之总和。为了防止模型出现过拟合现象,在构建损失函数时需引入正则项:

其中,γ和λ为超参数,分别控制树和特征的数量,ω为权重值,T为原始损失函数。
在一般分布式机器学习中,在参与方接收并计算F(x)的基础上进行联合建模是可能的。然而,在联邦学习框架中使用这种方法存在风险:因为可以通过F(x)推断出数据标签信息;因此 SecureBoost算法采用了一种既能保护数据隐私又能在训练过程中保证性能的联合建模方法:有标签数据持有方α首先计算并返回加密后的F(x),然后无标签数据持有方β根据同态加密的方法进行局部求和操作;接着α按照特征分桶对结果进行聚合处理,并将中间结果传递给β;最后α将各参与方收集到的局部最优解进行汇总处理以生成全局最优解,并将其下发给β完成整个联合建模过程:值得注意的是 SecureBoost算法支持多方协作:其中无标签数据持有方β代表所有无标签数据提供者集合;而有标签数据提供者仅为单一的一方:与分布式XGBoost相比 在保障模型准确率的同时 SecureBoost算法成功地实现了纵向GBDT方法在联邦学习框架中的应用
Li Q B等研究者开发出了一种名为基于相似度的分布式横切联邦学习架构(similarity-based federated learning, SimFL),该架构旨在实现多方GBDT模型的有效构建。该方法主要包含两个核心步骤:首先,在预训练阶段,各参与方在本地进行数据分桶处理(bucketing),采用基于局部敏感哈希算法(locality sensitive hashing, LSH)的方式对数据进行分类;随后将各参与方的本地分桶结果汇总生成全局分桶表,并向所有参与方同步共享。这样,在模型训练阶段,各参与方能够基于统一的全局分桶表来进行建模操作。此外,在计算过程中还可以利用LSH来评估各参与方之间的数据相似度
当某个数据持有方与其所属多个数据持有方之间存在显著程度较高的数据相似性时,则表明该特定数据持有方所携带的数据具有重要性;为此SimFL采用了一种基于加权梯度上升(weighted gradient boosting)的技术构建单一树模型;其具体思想表现为将数据间的相似程度与其对应的梯度权重值进行关联;通过这种关联机制使得相似程度越高的节点会拥有更高的权重系数;在集成过程中这些高权重节点对整体模型的表现能力具有决定性影响。
这种基于哈希表加密的方法,在单从隐私保护性能上来讲,在其领域内亦未达到与差分隐私等方法相当的高度;但以牺牲较小程度的隐私保护强度为代价,在通信效率方面实现了显著提升;这可被视为联邦学习框架下树类算法实现的一种新探索。
3.1.3 联邦支持向量机
Hartmann V等人提出了该种将支持向量机(support vector machine, SVM)安全部署于联邦学习中的方法,并主要采用了特征哈希与更新分块等技术手段来保护数据隐私性。该方法的目标函数如下所示:

其中N为训练数据集ω代表模型参数L(ω,xi,yi)表示在点(xi,yi)处的损失λR(ω)代表损失函数中的正则化项超参数λ控制着惩罚强度在支持向量机模型中其损失函数定义为L(ω,xi,yi)=max{0,1-ωτxiyi}与现有方法如SimFL相类似本研究中我们对特征值执行降维映射操作以隐匿真实的特征值信息除此之外在线性支持向量机架构中由于中心服务器能够通过更新后的梯度信息推测出数据的真实标签存在风险因此我们采用了次梯度更新机制来规避这一潜在的安全威胁经过实验验证本方法在联邦学习场景下展现出与单机式支持向量机相当甚至略优的学习性能
3.2 基于深度学习的联邦学习算法
为了保障用户隐私安全,在保护用户隐私方面
McMahan等研究者分别采用神经网络(NN)和卷积神经网络(CNN)对MNIST数据集进行了实验验证。其中针对神经网络(NN),其具体架构包含两个隐藏层的全连接结构,在每层中均采用ReLU激活函数完成激活操作。随后我们将MNIST数据集划分为两组互不重叠的子集并分配至两个计算节点上,在完成联邦学习训练过程中我们通过设计不同参数初始化策略来探究初始值设定与参数融合比例对模型性能的影响在此过程中我们采用了加权平均的方法来综合各计算节点的模型参数最终获得了基于联邦学习机制构建而成的共享模型

其中,
ω_{FL}代表联邦学习中的核心参数,
ω及其对应节点位置处的另一组参数ω'被分布于不同的计算设备上。
通过调节θ值来平衡各节点间的权重分配关系。
研究结果表明,
在保证同等分类精度的前提下,
相较于仅在本地设备上进行数据训练而言,
采用联邦学习策略能够在较少的迭代次数内完成同样水平的学习任务,
从而显著提升了系统的收敛效率。
同时,
当采用相同的随机种子进行初始化处理后能够获得稳定的性能表现。
值得注意的是,
当两组模型参数按1:1的比例分配时系统整体损失最低,
达到了全局最优的状态。
3.2.2 联邦卷积神经网络
Zhu X H及其团队基于简单的卷积神经网络(CNN)对隐私场景中的中文字体识别模型进行了训练,并以此为基础评估了现有联邦学习框架(包括TensorFlow federated (TFF)和PySyft)在不同数据集规模和客户端数量下的性能表现。尽管在文本识别任务中通常采用递归神经网络(RNNs),但过于复杂的网络架构可能会影响联邦学习的收敛速度。因此选择了一种仅包含4个卷积层和2个全连接层的简单卷积神经网络(CNN)来训练模型。研究者通过将样本ID随机分配到不同的客户端节点,并根据这些节点生成独立的数据子集来进行模拟分布式数据处理。在整个训练过程中,在每个客户端节点上先进行本地数据集上的梯度计算与参数更新操作;随后在每个训练迭代周期结束后汇总所有客户端累积更新参数至最终的联邦学习主模型中进行参数更新。
作为对比研究的第一个阶段,在TensorFlow平台上进行模型训练,并将所有数据集统一放置于该平台上进行基础模型构建工作。随后观察到:当客户端数量固定不变时,在每个客户端所拥有的数据子集大小发生变化的过程中(即数据集规模变化的过程中),模型精度基本上呈现出随数据量增大而提升的趋势;然而值得注意的是,在PySyft平台上的最佳精度始终无法达到基线水平(baseline),并且对应的网络迭代次数也多于基线模型;相比之下,在TFF框架中尽管联邦学习模型并未达到与基线相同的最终性能水平(accuracy),但其收敛效果却要优于PySyft;此外,在客户端样本数量达到一定阈值后(即当系统进入联邦学习深化阶段之后),联邦学习架构所构建出的深度学习模型开始展现出超越基线的表现特征,并且迭代次数明显减少;这种差异可能源于所采用的不同优化算法策略;此外还需要指出:尽管联邦学习架构在性能表现上有所优势;但就现有技术而言仍存在诸多技术挑战亟待解决;例如,在TFF平台上对GPU卷积和池化运算的支持尚不完善;类似地,在PySyft框架下对于更多种类优化器的支持也面临瓶颈
影响卷积网络效果的因素不仅限于此。例如,在客户端与服务器之间传输参数时,为了减少带宽使用带来的负担, 人们通常会对卷积网络模型的参数进行压缩处理。研究者Sattler F等人利用视觉几何组网络11(视觉几何组网络11, VGG11)发现, 当采用带有参数压缩的联邦聚合算法时, 在非同分布数据下的收敛速度较慢, 而在同分布数据上则表现相似于未采用参数压缩的传统联邦聚合算法。稀疏三元压缩(稀疏三元压缩, STC)表明, 在联邦学习环境中这种编码技术所建立的通信协议优于传统的联邦平均算法FedAvg(联邦平均算法)。
3.2.3 联邦LSTM
也有许多学者将LSTM应用于联邦语言模型中,并用于字符预测任务。他们将数据集人工分配为分布在多个客户端的联邦学习数据集,在适当设置超参数条件下使这些模型在非同质性数据集上实现了常规情况下的模型精度水平。Sahu A K等人在联邦学习数据集上训练LSTM分类器,并提出了解决统计异质性的联邦学习框架FedProx,应用于情感分析与字符预测任务。实验表明,在相较于FedAvg方法的情况下,FedProx框架展示了更快地收敛速度特性。Sattler F等人则基于卷积网络研究了优化模型参数压缩技术在非同质性数据集上的应用情况:在客户端与中心服务器之间的通信过程中,采用STC编码通信协议的联邦学习系统不仅保证了模型收敛效果,并且成功将上行方向参数量压缩至10MB左右,同时将下行方向参数量压缩至100MB左右。
当前,在联邦学习算法领域的研究重点及其瓶颈问题主要集中在如何提高联邦聚合过程中的优化效率与性能水平。为此,在现有研究中对于联邦深度学习模型的相关探讨仍主要聚焦于其优化策略。然而,在这一领域的深入研究仍较为有限。
通过对比分析表1对联邦学习技术、架构体系以及核心特性等多方面的内容进行了系统性阐述。

4 联邦学习算法的优化分类方法
相对于分布式学习,联邦学习有一些独特的属性,具体如下:
● 联邦学习的通信是比较慢速且不稳定的;
● 联邦学习的参与方设备异构,不同设备有不同的运算能力;
联邦学习特别注重隐私与安全,在当前的研究中大多假设参与者及服务器是可靠的;然而,在实际应用场景中,则可能存在不信任的情况。
为实现联邦学习的目的,在研究过程中需要关注多个关键指标。本文将从通信效率、客户端选择和异步更新的角度探讨如何提升联邦学习算法的效果。在深入讨论优化策略之前,请先了解最经典的联邦学习方法FedAvg的工作原理。
FedAvg算法之所以不同在于它采用了基于数据持有方的本地随机梯度下降方法来进行模型优化而在中心服务器处完成参数更新这一特点使得其与传统联邦学习方法存在显著差异目标函数的具体形式如上所示

其中,M代表参与联合建模的数据提供方数量,在此过程中ω被用作模型当前参数的指示符,并被设定为衡量均方误差的函数基准。该算法通常被视为一种基础且经典的联邦学习方法,在其实现过程中相对较为简单,并且在实际应用中具有广泛的适用性。
4.1 从通信成本角度优化的联邦学习算法
机器学习技术中的一些关键组件包括复杂的深度学习架构,在实际应用中往往涉及大规模的数据处理与模型优化;其中一项重要特征是在每一次迭代过程中都需要对大量权重进行同步更新(例如,在卷积神经网络(CNN)中可能会涉及多达数百万个权重参数的调整),这不仅增加了计算开销还可能导致资源利用率下降;此外还需要关注数据传输效率的问题因为在不稳定网络环境下或者由于数据传输速率差异而导致的数据同步问题会显著提高整体计算资源消耗;因此在设计联邦学习机制时应当特别关注并优化数据传输效率;可以从以下几个方面入手来降低数据传输带来的计算开销:首先可以通过改进协议设计减少不必要的信息传递;其次可以采用异步更新的方式降低同步需求;最后可以利用分布式缓存技术减少边缘节点的数据访问频率
4.1.1 增加客户端计算成本
在联邦学习体系中,在无线网络覆盖有限的情况下,在线下进行更多的本地计算以减少通信开销是一个常见的做法。许多优化策略是从减少通信频率的角度出发来降低整体通信成本的。例如,在Konečný J的研究中为了提高客户端每轮本地更新参数计算的频率他与FedSGD算法进行了比较研究实验表明当数据分布均匀时该方法显著降低了通信开销然而在数据分布不均的情况下效果则较为有限为了应对这一挑战Sahu A K等提出了FedProx算法这种新方法可以通过动态调整各客户端在每轮迭代中的本地计算次数从而更好地适应数据分布不均衡的情况并进一步优化联邦学习框架下各参与方的学习效率LI X等则深入探讨了FedAvg算法的基本特性并揭示了数据异质性对系统收敛速率的影响
4.1.2 模型压缩
某些优化算法的目标在于每轮通信中减少传递的参数量,并采用模型压缩技术(如量化、二次采样等方法)来降低每次参数更新所需传输的数据规模。Konečný等研究者提出了基于矩阵组织形式的一种分层更新机制,在每轮通信中精简参与方向服务器传输的具体模型更新数据量。该机制可分为两种类型:一种是结构化更新机制(Structured Update),它通过预先定义模型参数的矩阵组织形式来进行高效传输;另一种是轮廓更新(Outline Update),其特点是每个参与方在执行压缩编码前需对更新参数进行处理。实验表明,在使用CIFAR-10图像数据集进行验证时发现:随着参与方数量的增加而呈现出更好的压缩效率。另一方面,Caldas等研究团队则聚焦于从服务器端向客户端传输模型参数这一环节的优化工作,他们采用有损压缩技术和联邦剪枝策略(Federated Dropout)来减少客户端接收的数据量,这种做法虽然在一定程度上会影响整体系统的准确性表现,但成功实现了通信成本与模型性能之间的平衡关系
当实现联邦学习时
4.2 从客户端选择角度优化的联邦学习算法
联邦学习中的客户端设备展现出异构性特征,并且各具特色的客户端拥有相对有限的资源。一般而言,在参与联邦学习模型训练的过程中,各个客户端都会随机地加入其中。然而,在这一过程中,在联邦学习训练过程中的一些算法会关注从客户端中选择的角度来进行优化。
各个客户端拥有不同的网络性能指标和计算能力,在实际应用中各客户端的数据分布呈现不均衡状态。若所有参与方均加入联邦学习的整体训练流程,则可能导致部分落后于整体进度的参与者出现;而长时间未响应的数据可能导致整个系统的联合学习无法顺利推进。因此必须探讨如何筛选有效的参与者节点。传统的FedAvg协议采用随机选择的方式进行参数更新;然而在复杂的网络架构和数据分布不满足独立同分布假设的情况下;传统的FedAvg协议可能难以取得理想的效果;目前已有相关研究对此进行了深入探讨并提出了若干改进方案(如:张三等人的研究工作)。
该研究团队提出了一种称为FedCS的联邦学习算法,并设计了一种基于贪心策略的协议机制。该协议旨在通过选择在每次模型更新中迭代效率最高的客户端来进行数据聚合更新。实验结果表明,在联合训练过程中 FedCS 算法能够实现更高的分类准确率。然而该方法仅在模型较为基础的情况下展现出良好性能,在涉及较为复杂的网络结构或参数规模较大的情况下其最优客户端选择效率有所下降 这一缺陷导致通信频率增加且计算效率相应降低
Yoshida N等人设计出了一种名为HybridFL的协议算法,并支持处理非独立同分布(non-IID)的客户端数据集。该协议针对FedAvg算法在非独立分布数据上的性能不足问题进行了优化设计。Hybrid-FL协议通过资源请求步骤选择客户端,并在此基础上构建一种近似独立同分布的数据集用于联邦学习的训练与迭代过程。他们在实验中发现,在非独立分布数据场景下采用该方案可显著提升联邦学习分类算法的准确率表现
4.3 从异步聚合角度优化的联邦学习算法
在FedAvg算法中, 聚合过程与模型更新始终保持同步. 每次迭代时, 服务器都会同步收集当前模型参数, 并将这些参数发送给所有的客户端节点. 在完成所有客户端节点参数的收集后, 服务器才会开始执行模型聚合操作. 然而, 部分客户端节点由于计算和通信能力较强, 可以及时完成本地模型更新; 相比之下, 另一些节点由于计算和通信能力较弱, 会导致数据更新延迟. 为了缓解这种通信延迟问题, 一些研究者开始探索采用异步策略以优化该过程.
该研究团队提出了一种在联邦学习过程中整合客户端参与异步聚合机制的新方法,并通过实际案例展示了该方法的有效性。每当服务器接收来自各个客户端的新更新参数时就会执行一次数据融合操作。然而该算法的一个显著缺点在于处理非同质化数据(即非IID数据)时会导致模型收敛效果显著下降。
为了探索异步同步算法在非独立分布数据下的适用性问题,Xie等研究者提出了另一种新型FedAsync算法,并引入了加权聚合策略。当服务器接收客户端更新参数时,根据当前训练迭代次数动态调整权重分配方案,从而有效解决非独立分布数据下的异步平均问题。该研究文献理论分析表明,相比现有方法,FedAsync算法在处理非凸优化问题时展现出更为优异的收敛性能
联邦学习算法的优化分类方法见表2。

5 结束语
本文对联邦学习的现状进行了探讨。从联邦学习算法的角度出发,将相关的 федер制学习算法划分为 federally optimized algorithms 和 federated machine learning algorithms两大类,并分别论述了中心型和去中心型两种 федер制架构下的相关算法。在进行 federally optimized algorithm 的过程中,重点分析了降低通信开销、最优客户端选择以及模型聚合方式等关键环节对现有 federally optimized algorithm 差异与优缺点的影响。
联邦学习正处于快速发展的阶段,在实际应用中存在大量研究与讨论,在实现联邦学习的过程中仍面临诸多难题与挑战。本文主要探讨了以下三类关键问题:通信问题、系统异构问题以及数据异构问题。
在联邦学习系统中存在一个亟待解决的通信问题。由于联邦网络通常包含大量终端设备,在数据交互过程中必然会产生较高的通信开销。这种高消耗的通信开销会显著影响系统的整体运行效率。因此提高通信效率显得尤为重要。具体而言可以通过两种途径来改善:一方面通过减少客户端与中心服务器之间的梯度交换频率来降低通信负担;另一方面则可以通过优化客户端与中心服务器之间的信息传递机制来减少每次传递的数据量。为了实现前者可以在单个全局迭代周期内增加客户端进行本地优化的频率;为了实现后者则需要采用适当的梯度压缩或量化技术以进一步降低信息传输的需求。
在联邦学习系统中,设备间的异构性问题同样不容忽视。具体而言,在存储性能、计算资源以及通信效率等方面均存在显著差异。这些多样性特征不仅导致不同设备完成一次本地更新所需的时间存在差异,并可能使某些设备长时间处于卡顿或断连状态。为了应对这一挑战,在采用异步通信机制时应着重考虑以下几点:第一,在处理不同更新频率时采取灵活调度策略;第二,在优化资源分配以提高整体系统吞吐量;第三,在设计高效的负载均衡机制以确保公平资源分配;第四,在建立完善的故障恢复机制以减少服务中断的可能性;第五,在制定合理的性能监控指标以及时发现并解决问题;第六,在制定有效的容错机制以确保关键任务不受影响;第七,在建立完善的应急响应体系以快速解决突发问题;第八,在制定可行的成本效益分析框架以优化资源配置;第九,在建立动态调整模型以适应实时变化的需求;第十,在制定长期发展的战略规划以确保系统的可持续发展
在联邦学习环境中,由于设备间的非独立同分布特性,在网络中生成和收集数据时往往会出现异构现象。具体而言,在移动端用户执行输入法下一单词预测任务时(即当移动端的用户在执行输入法下一单词预测任务时),由于使用不同的语言会导致出现数据异构问题。此外,在跨设备环境下不同数据持有方所掌握的数据量可能呈现显著差异。基于此,在传统优化算法往往基于独立同分布的数据假设的情况下,在联邦学习场景下并不完全适用。因此,在实际应用中如何让优化算法更好地适应联邦学习中复杂多样的数据架构仍是一个值得深入探索的方向。元学习与多任务学习的思想不仅支持个性化的建模方式或根据具体设备特性进行定制化处理(即能够实现个性化建模或基于特定设备特性进行定制),而且还能有效应对因各参与方统计数据异质性而产生的挑战问题。
最后,笔者针对联邦学习的未来发展提出以下展望。
● 推动算法在联邦架构中的应用。本文对现有联邦学习技术进行了系统探讨,并指出当前机器学习及深度学习技术在联邦框架下的实际应用面临诸多挑战与研究课题仍处于探索阶段。
通过采用联邦计算架构实现机器学习与深度学习技术的应用能够显著提升资源利用率的同时提供更为完善的边缘数据处理方案。
联邦学习中的Privacy保障。Data Privacy保护是federated learning理念中的关键要素之一。尽管目前有很多关于Data Privacy保护的研究存在,在federated learning的实际应用场景中仍会面临诸多复杂的安全挑战。为了应对各类潜在的安全威胁,在federated learning系统中必须持续增强其防御能力。
联邦学习过程中涉及多维度协同进化,在这一过程中不仅涉及多个领域的深入合作与协调,在现有研究中提到的边缘计算等技术都对其发展具有重要参考价值。
通过促进各领域的良性互动,在现有研究中提到的边缘计算等技术都对其发展具有重要参考价值。
通过促进各领域的良性互动,在现有研究中提到的技术如边缘计算等都对其发展具有重要参考价值。
作者简介
王健宗(1983年至今),男性博士,在平安科技(深圳)有限公司担任高级副总裁兼公司副总工程师职务,并任公司资深的人工智能总监及联邦学习技术部总经理。他曾在美国佛罗里达大学从事人工智能领域的博士后研究工作,并于中国计算机学会(CCF)中担任高级会员身份的同时负责大数据专家委员会委员的工作职责。王健宗先生曾在美国莱斯大学电子与计算机工程系从事过研究员的工作经历,并在多个国际知名机构担任过相关职务。他的主要研究领域涵盖联邦学习与人工智能技术基础研究、算法创新以及应用落地等
令炜先生(1995年以后),男性,在平安科技(深圳)有限公司联邦学习团队担任算法工程师,并拥有CCF会员身份;他的主要研究领域涵盖联邦学习系统以及安全通信等相关内容。
黄章成先生(1990年以后),男性,在中国平安科技在深圳设立的公司下负责联邦学习团队的资深算法工程师角色,并具备人工智能专业知识。作为中国计算机学会会员,在其职业生涯中专注于联邦学习技术发展以及相关的分布式计算方案设计与系统安全保障工作。其主要研究领域涵盖联邦学习技术、分布式计算方案以及系统安全与加密通信等
陈霖捷(1994-),男性, 平安科技(深圳)有限公司联邦学习项目组算法研究员; 其主要研究领域包括联邦学习、隐私保护以及机器翻译等
李雪(1994-),女性,《深圳市平安科技有限公司》联邦学习团队算法工程师,《其主要研究方向集中在联邦学习系统等相关领域》
何安妮(1990年出生),女
肖京(1972-),男性博士毕业于中国平安保险(集团)股份有限公司,并担任其首席科学家一职。他在该奖项中荣获杰出贡献奖,并在任 CCF深圳会员活动中心主任期间展现了卓越领导能力。他的主要研究领域包括计算机图形学学科、自动驾驶技术以及相关领域的创新应用
联系我们:
Tel: 010-81055448
010-81055490
010-81055534
E-mail: bdr@bjxintong.com.cn
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
转载、合作: 010-81055537
大数据期刊
由中华人民共和国工业和信息化部担任主管单位的,《大数据(Big Data Research, BDR)》双月刊杂志。该杂志由中国计算机学会大数据专家委员会学术指导,并经中国计算机学会推荐作为重要参考资源。由人民邮电出版社受托主办该刊物后,在内容质量和服务水平方面均达到了较高水准。经过评估分析,《大数据研究》自2018年以来连续入选中文核心期刊系列,并多次获得国家哲学社会科学文献中心数据库推荐认定。

关注《大数据》期刊微信公众号,获取更多内容
