Advertisement

读文献--《机器学习隐私保护研究综述》

阅读量:

该文章由谭作文教授于2020年在《软件学报》上发表。谭作文现为江西财经大学计算机科学与技术学院博士生导师,并拥有丰富的学术经验。他曾在中科院数学与系统科学研究院及瑞典Uppsala大学从事相关领域的客座研究工作。其研究领域主要集中在密码学、隐私保护和区块链技术方面。已在国内外权威期刊及信息安全国际会议发表学术论文近80篇,并有多篇被SCI收录。

零、摘要

机器学习如今已成为核心科技,在模型训练过程中需大量数据支撑。如何实现低成本且高效率的数据保护是一项关键课题。本文旨在介绍机器学习相关技术及其隐私定义与潜在威胁,并对隐私保护领域的现状进行综述。随后将探讨其优缺点,并展望未来研究重点和发展趋势。

一、背景知识

1.机器学习概述

机器学习(ML)借助计算机系统有效地模拟人类的学习行为,并通过分析大量数据集进行学习,并生成有效的预测模型以辅助决策制定。在解决实际问题的过程中,机器学习通常划分为两个关键阶段:训练阶段和预测阶段。经过训练后生成的目标模型能够被用来执行预测任务。根据数据是否在模型训练前集中管理,在实际应用中常见的ML训练方式主要包括集中式学习、分布式学习以及联邦学习三种类型。

1.1集中式学习

各参与方训练数据集中在中央服务器

1.2分布式学习

介绍:计算资源在各个工作节点上实现了分布部署,在不依赖本地数据的情况下实现了全局模型参数的有效管理。
举例:
1.各个工作节点在获取中心模型参数w后基于本地数据独立进行训练,并计算出更新后的梯度信息g_i反馈至中央服务器
2.中央服务器通过整合所有反馈的梯度信息更新中心模型,并重新分配给各个工作节点
3.持续执行这一过程直至收敛完成

在这里插入图片描述
1.3联邦学习

介绍:特定类型的分布式机器学习系统,在其架构设计上具有显著的独特性。
对比:相较于传统的分布式学习方法,在联邦学习(FL)中计算节点通常位于不同地理位置,并与中心服务器保持远程连接状态。此外,在带宽受限的情况下,系统的分布特性更加明显。
举例:

  1. 服务器从合格的客户端中随机选择一组用于参与训练。
  2. 被选中的客户端从服务器获取最新的模型权重参数以及训练脚本。
  3. 客户端本地执行模型参数更新操作。
  4. 服务器汇总所有客户端提交的更新数据。
  5. 为了提高效率,在达到一定参与人数后可能会有部分设备退出以减少资源消耗。
    特点:系统赋予各个参与者完全自主权,在联邦学习过程中能够根据自身需求自由地决定是否加入或退出联邦学习过程。这种设计不仅提升了系统的灵活性与可扩展性,并在处理异质数据方面展现出显著优势。

2.机器学习隐私定义

基于机器学习隐私保护相关内容的不同, 可将机器学习隐私分为训练数据相关的信息处理、模型运行机制以及预测过程中的信息处理。

  • 训练数据隐私:涉及机器学习中用户提供的个人身份信息和关键敏感信息。
    • 模型隐私:涉及机器学习中用于训练模型的方法(算法)、系统架构(拓扑结构)、具体参数设置(权重参数)、激活机制以及优化设置(超参数)等技术细节。
    • 预测结果隐私:指机器学习系统对用户的查询请求返回的结果反馈中包含的信息内容。

3.机器学习隐私攻击敌手模型

  • 敌方目的:损害模型机密性
    • 敌方知识: enemy possesses the information quantity concerning the target model and its application within the target environment
    • 敌方能力: enemy has access to attack content and methods
    • 策略制定:为了实现攻击目的, 策略需综合考虑以下三方面: 目标、知识储备及可用手段. 这三者共同决定了实施路径与步骤.
在这里插入图片描述

4.机器学习隐私保护场景

多样隐私保护方法被应用于不同的场景。掌握Privacy Protection Scenarios 是制定Privacy Protection Strategies 的前提。

  • 集中式学习
  • 联邦学习

二、ML典型隐私威胁与隐私保护方案

1.典型隐私威胁

在这里插入图片描述
  • 逆向工程:研究人员通过分析系统的运行行为来推导出系统内部的状态信息。
  • 抗衡态挖掘:当研究人员具备对特定目标系统的黑盒访问权限时,在不深入了解系统内部机制的情况下,能够获取到其关键参数、架构信息,并尝试构建一个与其功能几乎相同的替代系统。
  • 特征归属检测:通过调用该系统的API接口进行分析判断特定特征数据是否存在于训练集内。

2.ML隐私保护方案分类

在这里插入图片描述

三、基于差分隐私的ML隐私保护机制

1.相关概念

1.1定义

该方法旨在抵御差分攻击,在数据处理过程中通过引入噪声机制确保数据安全性。当两个数据集仅相差一条记录时,在模型推理过程中几乎达到相同的结果概率。

差分攻击是一种用于分析和利用具有明确差异的明文及其加密后变化情况的技术手段。

差分隐私定义
1.2性质
在这里插入图片描述

2.补充–常见分类

2.1拉普拉斯机制
来自维基百科
2.2高斯机制
在这里插入图片描述

找了一个应用高斯机制给梯度加噪的实例,大概过程是:

  1. 为每个样本对应的梯度进行裁剪至预定范围,并防止个体数据产生显著影响。

  2. 通过向裁剪后的梯度加入服从N(0,\sigma^2)分布的高斯噪声来生成满足差分隐私要求的梯度数据。

  3. 利用这些经过处理后的梯度对模型进行更新,并计算由此产生的隐私损失。

链接:http://www.fenghz.xyz/Differential-Privacy-in-Deep-Learning/

2.3指数机制

针对连续性数据的情况而言,“上述两种方法通常会应用于离散型数据”。 这种情况下,“常采用指数权重机制并赋予每个可能的结果一个评分值”。 为了提高模型的效果,“为每一个可能的结果赋予权重值”。 经过归一化处理后确定为查询结果的概率值

隐私预算和可用性成正比,和隐私保护成反比。

3.ML差分隐私扰动方法

在这里插入图片描述
3.1基于输入扰动的隐私保护方案

输入扰动是在模型训练之前进行随机 perturbation,在 training stage 对原始 data 进行调整以提高 model 的 robustness. 具体而言, 本研究主要采用 differential privacy-based data synthesis 和 localized differential privacy-based perturbation 两种方法来生成和处理 data.

  • 差分隐私数据合成:生产具备与原始输入数据相近的统计特征及一致结构的人工合成数据以达到保护原始数据隐私的目的。
  • 本地化差分隐私方案:每个用户先在其本地设备上实施差分隐私扰动处理后再将处理后的结果提交至中央服务器。

作者描述了一个应用实例旨在解决生成对抗网络(GAN)在训练数据上的潜在隐私泄露问题。该方案由两个神经网络构成:生成器G负责从随机输入z中生成与原始数据x足够相似的新数据样本;判别器D则判断给定样本是来自真实数据还是生成器所创造的。在模型训练过程中,在判别器梯度中添加了(\epsilon,\delta)差分隐私保护机制;基于差分隐私的后处理免疫性原则,则确保了生成器也获得了(\epsilon,\delta)差分隐私保护。

在这里插入图片描述
3.2基于中间参数扰动的隐私保护方案

该方案主要是在模型训练过程中对权重参数施加拉普拉斯噪声或高斯噪声以保护模型与训练数据的隐私安全。这些例子旨在展示该方法的基本原理。

Phan等人利用逐层相关传播(LRP)算法构建了一种自适应拉普拉斯机制(AdLM)。其工作原理如下:首先通过LRP算法原理、仿射变换操作以及反向传播理论对输入特征x_{ij}与模型输出F_{xi}(\theta)的相关性进行计算;其次基于经过预先训练的神经网络模型,在数据集D上计算每个特征的平均相关性\overline{R_j}并叠加拉普拉斯噪声;最后通过根据不同特征对其输出的影响程度动态调节噪声强度,在与模型输出关联较弱的特征部分注入更高的噪声干扰

在这里插入图片描述
在这里插入图片描述
3.3基于目标扰动的隐私保护方案

也可称为一种名为"function perturbation"的技术,在该技术中我们通过向机器学习模型的目标函数或其展开式中的系数添加拉普拉斯噪声,并通过该优化过程实现最小化这一目标。与参数 Perturbation 方法不同的是,在这种设置下产生的 Privacy Loss 是由其自身决定的(与训练迭代次数无关)。
需要注意的是,在当前研究环境下我们通常仅考虑线性可分问题中的情况(即 convex optimization 的情形)。另一种做法则是在这些复杂的目标(如神经网络)中加入拉普拉斯噪声以实现 Perturbation 效果。
此外,在现有的研究框架下我们主要探讨了一种基于 Laplacian noise 的 DP 方案对比分析方法(如图所示)。

在这里插入图片描述
3.4基于输出扰动的隐私保护方案

输出扰动包括两个方面:一是对模型输出参数进行干预,在完成训练之后;二是对预测结果进行干扰,在完成预测之后。

前一种防御策略通过向训练好的权重空间中注入噪声来实现干扰机制,并成功阻止对抗样本攻击的发生。然而这种方法仅能保证数据发布环节的数据隐私安全,并不能防止攻击者通过多次调用接口获取原始数据集中的敏感信息。

后一种防御策略通常应用于师生架构的知识迁移场景中,在这一过程中当教师网络用于指导学生网络的训练时,在学生的预测结果投票过程中叠加拉普拉斯噪声以提升泛化能力。其核心目的是增强防御效果的同时减少对抗样本检测的可能性以及恢复原生权重的能力。

4.综合分析

相比传统加密技术而言,在实现过程中仅仅依靠随机化技术和引入随机噪声扰动数据即可完成任务;然而无需付出过多额外的计算负担;然而在一定程度上会制约模型的适用性。

基于最严格标准的DP机制能够有效抵御推理攻击以及模型逆向工程。理论上可实现当仅掌握了一个实例以外的所有数据信息时仍能保障隐私安全;然而这种方法会导致系统功能无法正常运行

一种解决思路是适度减少可用性,并可能导致泄露隐私问题。

通过基于深度伪造网络(GAN)的方法生成的人工数据具有以下特点:该方法通过引入额外的噪声和模糊化处理来降低对抗性训练过程中的数据泄露风险。然而,在实际应用中发现该方法未能实施严格的隐私保护措施,并且其生成的数据与真实样本高度相似。尽管如此,在保留原有样本关键特征的同时仍存在明显缺陷。值得注意的是,在严格保护隐私方面仍存在不足,并且同样无法抵御基于统计特性的反向推断攻击

四、基于同态加密的ML隐私保护机制

1.相关概念

  • 定义
在这里插入图片描述
  • 分类方法
    • 部分线性同态加密PHE:仅限于完成加法或乘法操作,并无对计算次数做出限制。
    • 分层线性同态加密SHE:仅能完成有限次数的算术操作;其中一种变体为层次性全线性同态加密方案(leveled-FHE),亦属于SHE方案范畴。
    • 完全线性同态加密FHE:能够处理所有类型的计算逻辑,并不限制操作次数范围。

2.典型方案分析

1.无需多项式近似的同态加密隐私保护方案

HE仅限于执行加法与乘法等基本代数运算,在机器学习流程中涉及的非线性操作(如神经网络中的sigmoid与ReLU等激活函数)则不在其支持范围内。

2.基于多项式近似的同态加密隐私保护方案

当HE无法处理ML中的非线性运算时

3.综合分析

该系统采用端到端加密方案,并确保用户能够更有效地管理其数据的同时受益于远程服务器提供的计算服务。在机器学习模型的训练过程中通常设计的数据与参数多以浮点数形式存在,在Homomorphic Encryption(HE)体系中仅支持整数运算的情况下,则无法直接处理激活函数等非线性运算相关的内容;因此通常需要用多项式对其进行近似替代以满足需求。然而这种近似处理会带来精度与性能方面的双重影响;由于这种技术涉及复杂的计算与通信开销,并对现有计算资源与通信设施提出较高要求

五、基于安全多方计算的ML隐私保护机制

相关概念

安全多方计算旨在为多个互不信任方之间的隐私保护而进行协同计算。
目前ML隐私保护主要采用两类方案,并且这些方案都与多方协作有关。

  • 采用现有的分布式学习方案。
    各参与方在进行机器学习模型的训练或测试时无需泄露其数据或模型。
  • 基于这些技术构建的二元函数计算架构方案。
    包含双方:其中一方是数据提供方;另一方则是通过其提供的数据构建机器学习服务器。

典型方案分析

基于传统分布式学习的SMC方案

目前的方案有很多,如Vaidya等人针对任意划分的数据,提出的基于MPC的k-means聚类算法。Bansal等人针对任意分割训练数据集,提出的基于HE的神经网络学习算法。
目前ML中提高SMC计算效率是大家的主要关注点。Abbasi等人提出了一种安全聚类多方计算(SCMC),允许类中存在一定隐私泄露。

基于2PC架构的SMC方案

基于2PC架构设计而成的SMC方案是由多个MPC基础密码协议组成的集合,在该体系中采用多种算子组合以满足不同的安全需求。其中经典两方计算方案主要包含HE加 GC等经典两轮计算方案。

全部评论 (0)

还没有任何评论哟~