Advertisement

联邦学习笔记 Federated Learning

阅读量:

文章目录

    • 背景介绍
      • 相关研究
      • 系统构架
      • 优势
      • 联邦学习的分类学习

垂直联邦学习
水平联邦学习
跨域迁移学习
联邦学习开源平台
研究领域
参考文献

背景介绍

起源于2016年的联邦学习方案最初是由谷歌公司提出的,其本质属于分布式机器学习体系中的一种技术方案,或者构成机器学习框架的一部分,旨在解决安卓设备终端用户本地更新模型的技术

联邦学习机制是在确保数据隐私得到充分保护并符合相关法律法规的前提下开展机器学习活动的多方参与者协作模式;通过该机制能够有效解决各组织间的数据孤岛问题。

  1. 各方数据均保留在本地运行,并且既不泄露隐私信息也不违反相关法律法规;
  2. 多个参与者基于联合数据构建了一个虚拟的共同学习模型,并实现了利益共享;
  3. 在联邦学习框架内实施时,在各个参与者的身份与地位上达到了平等;
  4. 联邦学习方法所获得的建模效果与将全部数据集中置于同一个环境中进行建模的效果相当或相近,在各个参与方的数据用户对齐及特征对齐的情况下;
  5. 即使在用户属性或特征信息无法完全对齐的情况下,在不同数据集之间通过交换加密参数的方式仍然能够实现知识的有效迁移。

相关研究

Differential Privacy 即 联邦学习 中的数据与模型无需进行数据传输,并且不存在泄露风险

Distributed Machine Learning refers to the manner of distributed machine learning, which shares some similarities with horizontal federated learning in terms of multi-party joint training. In comparison to distributed machine learning, horizontal federated learning presents a more complex learning environment, particularly emphasizing the protection of data ownership parties' privacy rights.

Federated Database System corresponds to the storage architecture of federated learning. It does not implement any privacy protection mechanisms, and all subsystem databases maintain full transparency regarding the management system.

从技术架构来看, 区块链体系采用的是基于哈希算法与非对称加密的整体框架, 而联邦学习则以多轮交互为基础, 采用基于同态加密的学习范式. 在数据存储方面, 区块链网络通过加密编码的方式实现了跨节点的数据完整性验证, 这一过程完全依赖于分布式共识机制; 与此同时, 联邦学习系统则通过本地数据隔离原则, 实现了各参与方隐私信息的安全保护. 在激励机制设计上, 区块链网络依靠竞赛记账的方式实现资源分配, 这一过程主要关注于参与者的贡献价值; 而联邦学习系统则建立了一个基于模型更新与参数更新的共同训练平台, 并依据各方贡献度进行模型优化与收益分配.

多方安全计算 ⇒ 利用安全多方计算来增强联邦学习的安全性研究

系统构架

在这里插入图片描述

由于两家企业的用户群体并非完全重合,在A和B均不泄露各自数据的前提下识别双方共有的客户群体的同时避免泄露仅属于一方而不重叠的部分客户信息并整合这些客户的共同特征用于模型构建

建立加密式的学习模型。在识别目标用户群体之后,就可以获取相关数据资源进行机器学习模型的构建。为了确保学习过程中的数据安全,在线场景下需要引入外部机构C来进行加密处理。

参与者C负责将公钥发送至A与B,并采用此公钥对训练阶段需要交换的数据进行加密处理。
A与B通过加密的方式交互来计算梯度的中间结果。
此外,A与B分别基于所获得的加密形式计算各自的数值,其中,B依据自身的标签信息来生成损失值,并将这些损失信息传递给C,C整合所有反馈数据后,重新解密并综合得到总梯度值。
随后,C将该解密后的总梯度值分别返回至A与B,A与B接收并利用这些解密后的梯度来更新各自的模型参数。

重复执行上述步骤直至损失函数达到收敛状态, 这样就完成了整个训练过程. 在整个样本对齐和模型训练的过程中, 系统中A和B各自的数据均得以本地存储, 并且在数据交互过程中不会产生任何数据泄露风险. 因此, 在联邦学习框架下实现了双方协作构建模型的目标.

以上三部分的实施

效果激励联邦学习的一个显著特点是它能够应对不同机构参与联邦共同建模的问题。一旦建立,在实际应用中其效果会显现出来并被永久数据记录机制(如区块链)存储。参与联邦学习效果较多的机构所获得的效果会更优;而模型的效果取决于数据提供方对其自身以及他人的贡献的认可。通过联邦机制分发给各参与方作为反馈并持续激励更多机构加入这一数据联邦。前三部分实施既考虑了多方共同建模的同时保护隐私与提升效果又通过共识机制奖励了贡献较多的数据方因此形成了一个完整的「闭环」学习机制

优势

  1. 数据实现隔离以防止数据泄露至外部系统,并有效满足用户隐私保护及数据安全的需求。
  2. 通过联邦学习过程中的设计可确保其带来的负面影响如性能下降的问题得到避免,并且相比割裂式的方法,在性能上具有明显优势。
  3. 参与者的地位实现了平等性并能达成公平的合作关系。
  4. 确保各参与方能够在独立性基础上完成信息与模型参数的加密交换,并同时提升整体准确率水平。

联邦学习的分类学习

  1. 纵向联邦学习 :两个数据集的用户(U1, U2, …)重叠部分较大,而用户特征(X1, X2, …)重叠部分较小;e.g. 同地的银行和超市, 用户相似,特征不同
  2. 横向联邦学习 :用户特征(X1, X2, …)重叠部分较大,而两个数据集的用户(U1, U2, …)重叠部分较小; e.g. 异地的银行之间,用户不同,特征相似
  3. 联邦迁移学习 : 通过联邦学习和迁移学习,解决两个数据集的用户(U1, U2, …)与用户特特征(X1, X2, …)重叠部分都较小的问题。
联邦学习体系分类

纵向联邦学习

在这里插入图片描述

需求场景 :纵向联邦学习的核心在于特征的整合与共享,在用户群体高度重叠的情况下尤其适用。这种技术特别适合于同一地区内的不同商业实体与金融机构之间的合作场景(样本数据相同),它们在服务对象上存在高度重叠(共享相同的样本数据),但其业务属性存在显著差异(具有不同的业务属性)。

过程

  1. 样本对齐过程是在系统级完成的,从而避免了同源用户的隐私泄露。
  2. 对齐样本进行模型加密训练:
  • A/B获取公钥用于数据加密传输;

  • A/B分别计算与自身相关的特征中间结果,并对数据交互过程中的内容进行加密编码;

  • A/B分别生成本地明文梯度信息并附加标识符后传递至C端服务器;

  • C端服务器解密梯度信息并对各参与方的损失值进行汇总;

  • A/B从C处获取解密后的梯度信息用于模型更新,随后去除标识符后完成参数优化更新过程。

同态加密技术保护隐私

  1. 数据隐私保护:构建样本间ID不泄露于外;原始数据不出让第三方获取 ⇒ 通过采用RSA和哈希算法,在双方共同参与下实现差异计算的同时确保差异部分的数据亦不在他人掌握。

  2. 模型参数保护:各自维护;联合使用

  3. 结果:A方独立训练得到A模型;B方独立训练得到B模型;两者结合后均显著提升预测性能

基于隐私保护的样本id匹配

采用同态加密技术后,B方对y及其补码1-y实施同态加密操作,随后发送至A方.在接收到这些加密数据后,A方会对自身收集的特征数据进行分类处理,随后在其对应的类别中执行密文求和运算,并返回解密结果给B方.最终,B方能够根据接收到的信息计算出A方各特征类别对应的加权奇点值(WOE)及信息价值(IV).整个过程中,A方无需泄露原始数据,B方也无从得知A方可观测特征的具体数值,从而实现了数据安全与隐私保护的目的.

SecureBoost
基于SecureBoost构建的树中,A和B分别代表不同数据的所有者,L0,L1,L2,L3,L4分别代表不同特征分割点的编码,整棵树由A和B共同维护,每一方只维护自己那一部分的树节点信息,并对另一方的信息仅知编码而不了解其具体含义,从而确保整个训练与预测过程的安全性得到保障。
SecureBoost的核心关注点在于如何构建分裂节点,尤其是在一方仅有X而另一方拥有(X,Y)的情况下这一机制尤为关键。

secureboost

基于同态加密机制的框架下,在A方接收后对B方传输的1阶差分和2阶差分进行计算得出每个分箱中的1阶差分与2阶差分之和,并将此结果返回给B方进行解密运算以获取信息增益值随后将该信息传递回A方参与决策过程这一流程的核心在于通过加密技术保护数据隐私的同时实现有效的特征分割

在这里插入图片描述

横向联邦学习

在这里插入图片描述

需求场景

过程

  1. 论文
  2. Communication-efficient learning process of deep neural networks based on distributed data, as detailed in arXiv:1602.05629.
  3. Privacy-preserving aggregation technique for ensuring privacy in machine learning tasks, as described in https://eprint.iacr.org/2017/281.pdf.

联邦迁移学习

在这里插入图片描述
  1. 需求场景 : 当参与者间特征和样本重叠都很少时可以考虑使用联邦迁移学习,如不同地区的银行和商超间的联合。主要适用于以深度神经网络为基模型的场景。
  2. 迁移学习 : 迁移学习的核心是,找到源领域和目标领域之间的相似性
  3. 目标函数 :使用BP算法,根据目标函数 分别对 求梯度,双方交互计算梯度和损失需要用到的中间结果,重复迭代直至收敛。整个学习过程是利用A、B之间共同样本来学习两者间各自的特征不变量表示 ,同时利用A的所有样本label 和A的不变量特征 学习分类器。在这个阶段中,[联邦] 体现在A,B可以通过安全交互中间结果共同学习一个模型,[迁移] 体现在B迁移了A的分类能力。在预测时, 依赖于 由 组成的分类器,因此和纵向联邦相同需要两者协作来完成。
  4. 论文Secure Federated Transfer Learning

联邦学习开源平台

在这里插入图片描述
  1. FATE :专注于提供专业的联邦学习解决方案,在遵循行业高标准的同时支持各组织利用自身资源开展数据应用及协作建模。
  2. Federated AI Ecosystem:构成了专业的 federated AI 开发生态系统。
  3. TensorFlow Federated: Machine Learning on Decentralized Data :该框架旨在支持机器学习模型在去中心化数据环境中训练的技术平台。
  4. PaddleFL:该模块是 paddlepaddle 中专门用于分布式联邦学习的一个功能模块。
  5. Pysyft:该协议提供了专为零信任计算环境设计的安全通信解决方案。

研究方向

  1. 安全性,攻击
  2. 激励机制
  3. 有效性和效率

参考资料

只看这一篇就够:深入了解联邦学习技术及应用实践
2. 联邦学习(Federated Learning)
3. 联邦学习Federated Learning学习笔记(1)
4. 详解联邦学习Federated Learning
5. 详解联邦学习Federated Learning

全部评论 (0)

还没有任何评论哟~