隐私保护联邦学习之差分隐私原理

阅读量：

背景

什么是隐私

讲差分隐私前，说一下什么是隐私

就隐私而言其定义就因领域和个人而异各领域或个人对隐私的界定存在差异每个人对于 privacy 的理解可能各有不同在多数情况下这种看法是被广泛认可的将 single user 的某些特征视为其 private property的一种体现这种观点的核心在于强调 single user群体中的个体特性换句话说如果是一群 users 的某些特征则通常不将其视为 private property

举个例子：医院表明，在吸烟者中患上肺癌的风险显著提高。这一情况并未侵犯个人隐私。然而如果有人认为某人因吸烟而患病，则可视为侵犯隐私了。再进一步分析尽管该研究指出吸烟与肺癌存在关联但仅凭此推断某人是否会患病并不构成对个人隐私的侵犯

鉴于此，在数据主权方面，默认情况下个体数据为每个用户单独的所有者；当且仅当涉及特定个体的数据时才被视为泄露；那么我们是否可以自由地发布此类统计信息呢？实际上并非如此；我们设想如下情形：某家医院公布了一批统计数据表明该院本月接收了100名病人其中约有10人感染了HIV；假使一个黑客已知其他99人的感染状况；那么他只需将已知的数据与医院公布的统计资料对比即可推断出第100人的感染情况；这种针对隐私保护的威胁行为即为差分攻击

差分隐私

差分隐私旨在防止出现数据泄露风险的同时保护个人隐私信息的安全性。例如，在一个婚恋数据库中假设有2位单身人士与8位已婚人士当系统仅能统计单身人数时最初查询显示有2位单身者随后张三申请登记婚姻状态系统更新后统计结果显示共有3位单身者因此可推断出张三已完成了婚姻登记

从群里数据通过差分攻击（查询的方式）推测个体隐私。

Dwork于2006年提出了差分隐私(Differential Privacy)这一概念，在数据库隐私泄露问题上寻求解决方案。其核心在于通过添加适当程度的随机噪声来实现数据查询的安全性，并且这种机制能够在保证准确性的同时显著降低个体数据被识别的风险。具体而言，在统计数据分析时既能够提供足够的细节以便生成有用的统计数据又能够在一定程度上隐藏原始数据中的具体信息。简单而言这种技术就是在保留数据整体特征的同时消除掉与单个用户相关的具体细节从而保障个人隐私安全

如何实现差分隐私？一种基本方法是向数据集中添加噪声。然而其优势在于这种噪声并非随意添加而是通过严谨的数学方法建立了一个平衡。通过调整相关的参数设置从而能够让用户能够在保护个人隐私的程度与数据实用性之间找到一个最佳折衷。

以便更好地认识差分隐私的核心概念，在此详细阐述其背后的数学理论——信息量与熵的相关知识

KL散度

来自概率论与信息论的KL散度（Kullback-Leibler Divergence）也被称作相对熵或互熵。从统计学的角度来看，KL散度用于衡量两个概率分布之间的差异程度；差距越小，则KL散度值就越小。

信息量

任何事件都包含着一定量的信息，既涵盖已经发生的事实也涉及尚未发生的可能性。例如昨日下雨这一确定的事实因已被确认而其信息含量为零；又如明天是否会下雨这样一个不确定的情况因尚未发生则可能携带较高的信息量。

通过以上实例可以看出，在事件发生概率这一变量的影响下定义的信息量是一个重要的概念。由此可知，在同一系统中当事件发生的概率越低时所对应的不确定性越高。这也容易理解，在动物行为学中我们通常不将非目的性攻击视为传递有效信号的行为。

可知某事件的信息量与其发生概率相关，则根据下述公式可计算出该事件的信息量：

熵

信息论中的熵概念由香农首次提出，并涉及无损编码所传递的信息最小平均码长。直观上讲，在熵较高的情况下（即较小码长），意味着传递的信息包含较多可能性；这种状态对应于较高混乱度或较高不确定性。从另一个角度来看，在概率分布下衡量了系统的不确定性。综合而言，在信息论中，“熵”是衡量每个消息来源平均所携带的信息量（即期望值）。

KL散度

用来衡量也是两个随机分布之间距离的度量

另外需要注意的是

最大散度

KL散度通过评估两个概率分布之间的差距来衡量它们之间的差异。最大散度代表了这两个分布之间比值的最大数值。从这两个分布之间比值的最大数值这一角度来看，KL散度成功地反映了它们之间的差异。

差分隐私

定义

在任意两个相邻的数据集中_D_ 和_D'_的情况下, 如果存在一个随机化算法_M_能够符合差分隐私的定义, 则认为该算法符合差分隐私的要求.

其中，默认

可以直观上理解上述定义：在相邻的两个数据集之间运行该算法时，在同一集合中获得输出结果的概率差异较小。差值大小则由隐私预算参数来决定：当隐私预算越小时，在相邻两组数据下算法输出结果受到约束的程度就越低。

差分隐私的公式可以转化为

这一段阐述了严格差分隐私的定义。为了提升算法的实际应用价值,Dwork提出了一种更为灵活的差分隐私概念,即松弛差分隐私,并通过引入一个微小常数(称为失败概率)来实现这一目标。在常规ε-差分隐私机制下,存在一定概率δ(建议设置在1/|d|以下)的可能性会违反隐私保护原则。

定义的由来

差分隐私的目标是使经差分隐私算法处理后的两个相邻数据集的分布尽可能趋近于一致；我们可以通过计算最大散度来衡量两个分布之间的差异程度。

常用的随机化机制有：

拉普拉斯机制（Laplace mechanism）

指数机制（Exponential mechanism）

高斯机制（Gaussian mechanism）

敏感度

基于相邻数据集 $D$ 和 $D'$ ，对于一个随机化函数 $M$ ，其敏感度定义为针对所有可能的输入所导致输出的最大变化量。

其中，‖⋅‖表示向量的范数。L1敏感度和L2敏感度分别适用于L1范数和L2范数。

上述的是局部敏感度，全局敏感度就是最大的局部敏感度。

联邦学习与差分隐私

高斯噪声机制

一种近似确定性实值函数的典型示例是：函数 f: D → R 通常通过引入加性噪声来调节其敏感度以达到sensitivity S_f ，即相邻输入 d 和 d' 之间的最大绝对距离 |_f(d)− f(d' )| 。其中一种常见的实现方式就是高斯噪声机制（Gaussian mechanism），它通过向数据中加入均值为0、标准差为σ的高斯噪声来实现数据扰动。其中参数σ的选择显得尤为重要：通常情况下，在保证数据隐私的同时需要平衡算法性能与计算效率的关系

与此同时要求

敏感度为：

基于差分隐私的联邦学习隐私保护方法

目的

研究表明，在联邦学习中恶意参与者或服务器能够在客户端本地模型更新过程中推测出客户端具体的数据隐私信息（包括属性推理攻击、成员推理攻击及模型反演攻击等）。为了保护客户端的数据 privacy, 本研究采用差分 privacy 方法对本地 model parameters 进行模糊处理, 从而在保证恶意参与者无法推断用户 private information 的前提下仍可实现 model training 功能

算法

为什么裁剪

在差分隐私算法中，sensitivity是一个至关重要的指标，并且通过讲解高斯机制的相关知识后，我们进一步认识到sensitivity对于生成适当噪声同样具有重要意义。在训练过程中为了准确计算全局sensitivity值，在模型参数设置上需要采取严格限制措施以确保数据隐私的有效保护

σ计算

如果σ的计算完全遵循上述高斯噪声机制的计算方式，则对于深度学习而言，相当于每个batch满足于某种特定条件

级别的差分隐私，而对于整个数据集来说将满足

即更为严格的差分隐私条件确实存在问题。然而，在论文《Deep Learning with Differential Privacy》中所提出的解决方法是将σ表示为以下形式

联邦学习方法对其进行简单的改动即可

参考文献

差分隐私（Differential Privacy）概念阐述及其实现机制研究 - MaplesWCT - 博客园

差分隐私（Differential Privacy），一种在数据分析中保护用户数据安全的技术，在这一过程中会引入随机噪声以防止个人信息被泄露。其背后的核心理念是什么呢？我们可以通过以下方法来进行深入理解：首先，在数据分析时会收集大量敏感信息；其次，在计算过程中的每一步都会加入适当的随机值；最后通过对结果进行分析评估安全性指标是否达标。这种技术不仅能够有效防止个人信息泄露还能保障统计结果的真实性和准确性

具体而言差分隐私（Differential Privacy）是一种在数据分析中保护用户数据安全的技术在这一过程中会引入随机噪声以防止个人信息被泄露

该文章详细探讨了交叉熵指标、相对熵指标（基于Kullback-Leibler散度）、JS散度以及Wasserstein距离（推土机距离）的相关内容

Abadi M, Chu A, Goodfellow I et al. Deep learning incorporating differential privacy[C]//Proceedings of the 2016 ACM SIGSAC computer and communications security conference. 2016:308-318

Wei K et al. (2020) explored federated learning techniques under the framework of differential privacy. Their study provided a comprehensive analysis of the associated algorithms and evaluated their performance in detail.

全部评论 (0)

还没有任何评论哟~

隐私保护联邦学习之差分隐私原理

背景什么是隐私讲差分隐私前，说一下什么是隐私其实隐私这个定义，各家有各家的说法，而且各人有各人不同的考量。目前普遍比较接受的是：“单个用户的某一些属性”可以被看做是隐私。这个说法里所强调的是：单...

联邦学习如何保护隐私？

联邦学习的定义和基本原理联邦学习（FederatedLearning）是一种分布式机器学习方法，允许多个参与方在不共享原始数据的情况下协同训练模型。其核心思想是“数据不动，模型动”，即数据保留在本地...

模型训练数据隐私保护：差分隐私与联邦学习的应用

1\.背景介绍 1.1数据隐私保护的重要性随着大数据和人工智能技术的快速发展，数据已经成为企业和个人的重要资产。然而，数据泄露和隐私泄露事件层出不穷，给企业和个人带来了巨大的风险。因此，如何在保证数...

本地差分隐私随机响应_联邦学习隐私保护研究进展

一文读懂联邦学习：最热AI金融技术！京东数科万字长文解读“联邦学习”mp.weixin.qq.com 发展现状和前景：联邦学习/联盟学习FederatedLearning的发展现状及前景如何？...

联邦学习的隐私保护机制

联邦学习的隐私保护机制 1\.背景介绍联邦学习是一种新兴的机器学习范式,它允许多个参与方在不共享原始数据的情况下共同训练一个机器学习模型。这种方法可以有效地保护隐私,同时也能充分利用分散的数据资源。...

联邦学习:保护隐私的分布式学习

联邦学习:保护隐私的分布式学习作者：禅与计算机程序设计艺术 1\.背景介绍在当今数据驱动的时代,机器学习和人工智能技术的发展给我们的生活带来了巨大的变革。然而,随着人工智能应用的不断深入,隐私保护...

联邦学习隐私保护研究进展

摘要：针对隐私保护的法律法规相继出台，数据孤岛现象已成为阻碍大数据和人工智能技术发展的主要瓶颈。联邦学习作为隐私计算的重要技术被广泛关注。从联邦学习的历史发展、概念、架构分类角度，阐述了联邦学习的技术...

联邦学习隐私保护研究进展

点击上方蓝字关注我们联邦学习隐私保护研究进展王健宗,孔令炜,黄章成,陈霖捷,刘懿,卢春曦,肖京平安科技（深圳）有限公司，广东深圳518063 摘要：针对隐私保护的法律法规相继出台，数据孤岛现象已...

联邦学习在隐私保护中的应用

联邦学习在隐私保护中的应用作者：禅与计算机程序设计艺术 1\.背景介绍在当今数据驱动的时代,机器学习和人工智能技术在各个领域得到广泛应用。然而,这些技术往往依赖于大量的个人数据,给用户的隐私安全带...

联邦学习在隐私保护中的实践

联邦学习在隐私保护中的实践作者：禅与计算机程序设计艺术 1\.背景介绍在当今数据驱动的时代,机器学习和人工智能技术在各个领域都得到了广泛应用。然而,随着数据的爆炸式增长和隐私保护意识的提高,数据隐...

是否确定退出登录?

隐私保护联邦学习之差分隐私原理

背景

什么是隐私

差分隐私

KL散度

信息量

熵

KL散度

最大散度

差分隐私

定义

定义的由来

敏感度

联邦学习与差分隐私

高斯噪声机制

基于差分隐私的联邦学习隐私保护方法

目的

算法

为什么裁剪

σ计算

参考文献

全部评论 (0)

相关文章推荐

隐私保护联邦学习之差分隐私原理

联邦学习如何保护隐私？

模型训练数据隐私保护：差分隐私与联邦学习的应用

本地差分隐私 随机响应_联邦学习隐私保护研究进展

联邦学习的隐私保护机制

联邦学习:保护隐私的分布式学习

联邦学习隐私保护研究进展

联邦学习隐私保护研究进展

联邦学习在隐私保护中的应用

联邦学习在隐私保护中的实践

本地差分隐私随机响应_联邦学习隐私保护研究进展