Advertisement

深度学习中的隐私保护技术综述

阅读量:

深度学习技术在医疗、金融、网络安全等领域广泛应用,但其隐私保护问题日益突出。文章总结了基于同态加密和差分隐私的隐私保护技术。同态加密允许在密文上进行计算,保护数据隐私,但其计算开销较大;差分隐私通过添加噪声保护数据隐私,适用于深度学习场景。文章探讨了这两种技术在深度学习中的应用,如数据处理、密文检索、模型训练等,并指出未来研究方向,包括提高加密算法效率和结合更多技术以提升隐私保护效果。

摘 要

当前,机器学习和深度学习已在医疗、金融和网络安全等多个领域得到广泛应用。深度学习的主要任务是数据收集,但这一过程可能带来隐私泄露的风险,从而影响用户对人工智能的信任,不利于其发展。本文综述了当前深度学习中常见的隐私保护方法及其研究进展,重点介绍了基于同态加密和差分隐私的保护技术。

内容目录:

1 研究背景

1.1 隐私泄露风险

1.2 隐私保护相关法律

2 同态加密隐私保护技术

2.1 同态加密技术

2.2 同态加密技术应用

2.3 基于同态加密的深度学习中隐私保护技术

2.2.1 数据处理与隐私保护

2.2.2 密文检索

2.2.3 数字水印

3 差分隐私保护技术

3.1 差分隐私保护技术

3.2 深度学习中的差分隐私保护技术

4 前景展望

01研究背景

1.1 隐私泄露风险

2006年,Hinton及其学生发表在《Science》期刊上的一篇名为《Reducing the Dimensionality of Data with Neural Networks》的文章,标志着深度学习在学术界和工业界掀起的革命性变革。该研究不仅推动人工智能技术取得重大突破,更为其在多个领域的广泛应用奠定了基础。当前,深度学习技术在计算机视觉、语音处理、自然语言处理、大数据分析等多个领域均展现出显著优势,远超传统方法的性能。

推动深度在各个领域取得巨大成功主要有以下几个因素:

(1) 数据井喷,全球数据中心数据量在未来几年年均增速 40%。

该技术的突破性进展显著提升了计算性能,依托先进的 GPU 集群技术,使训练深度神经网络的速度在 2006 至 2016 年期间增长了 255 倍。

算法重大突破,这些突破促进了 AI 技术从理论研究向实际应用的顺利过渡。

大型网络企业通常会收集用户的各种数据,包括照片、语音、视频和文本等,这些信息被采集和存储,供将来使用。正是因为拥有大量有价值的数据和足够的计算能力,深度学习领域中的大部分成功应用都是由大型组织开发的,这些组织能够通过训练深度学习模型来提升产品与服务的质量。

虽然深度学习带来了显著的优势,但在实际应用中,其背后需要在收集过程中处理大量用户数据。这些数据中包含了丰富的个人信息,例如用户的兴趣爱好、生活习惯以及敏感信息等。值得注意的是,这些数据一旦泄露,可能引发难以预测的财产损失和生命安全风险。

1.2 隐私保护相关法律

随着互联网的迅速发展以及隐私泄露问题愈发严峻,各国正通过加强数据安全和隐私保护法规对企业及个人进行监管,以减轻隐私泄露带来的负面影响。

作为全球首个在法律层面系统性保护个人隐私的国家,美国于1974年发布实施的《隐私法案》成为美国最为关键的个人隐私保护法规。在此基础上,美国于20世纪80年代陆续颁布了《电子通信隐私保护法案》、《数据处理隐私保护法案》以及《网络儿童隐私保护法案》等配套法规。与此同时,经济合作与发展组织(OECD)在1980年提出的《保护隐私与个人信息跨国流通指导原则》,明确了信息保护的八大核心原则,包括数据收集限制原则、数据质量要求原则、目的明确性原则、数据使用范围限制原则、数据安全保障原则、信息公开原则、个人参与原则以及责任追究原则。这些指导原则不仅对全球各国的立法实践产生了深远影响,更成为国际信息保护文件制定的重要参考标准。

我国在多部法律中对公民隐私权进行了明确规定,例如,《侵权责任法》中明确列出了若干种承担侵权责任的方式;《中华人民共和国宪法》明确规定,中华人民共和国公民的人格尊严受法律的严格保护。此外,我国还制定了《个人信息保护法》和《中华人民共和国网络安全法》等专门法律,对网络数据处理和用户隐私保护给予了特别关注和规范。

本文探讨了在深度学习过程中保护用户隐私信息的方法,主要采用同态加密隐私保护技术、差分隐私保护技术。同态加密和差分隐私属于密码学中常用的隐私保护手段,其应用在深度学习中具有显著的效果。

02同态加密隐私保护技术

2.1 同态加密技术

对于任意的加密函数 f,满足 f(M)=M' 且 f(N)=N',其中 M 和 N 分别为明文,M' 和 N' 为对应的密文。该加密方案具备解密函数 f^{-1},使得 f^{-1}(M') = M 且 f^{-1}(N') = N。若解密函数 f^{-1} 对密文和 N' 的和 P' 进行解密,得到的结果等于明文 M 和 N 的和,即 f^{-1}(P') = f^{-1}(M' + N') = M + N,则该加密函数 f 被认为是可实现的同态加密方案。

同态加密主要包含加法同态方案、乘法同态方案以及全同态方案。加法同态方案即满足f(M) + f(N) = f(M + N),乘法同态方案即满足f(M) × f(N) = f(M × N)。而全同态加密方案则是一个同时具备加法同态和乘法同态的加密函数,支持完成加减乘除运算、多项式求值、指数运算、对数运算以及三角函数运算等复杂运算。

该算法在乘法操作上具有同态性,而 Paillier 算法则在加法操作上实现同态特性,Gentry 算法则实现了全同态加密。

2.2 同态加密技术应用

2.2.1 数据处理与隐私保护

在大数据时代背景下,海量个人信息的存储与处理已成为隐私保护的首要挑战。用户普遍不愿意将个人资料、保密文件、隐私信息存储于服务提供商或云端服务中,而人工智能时代则对这些用户信息的挖掘分析提出了迫切需求。同态加密技术有效应对了这一冲突,使用户能够将敏感信息加密后存储于服务提供商或云端服务,服务器则能够处理和分析密文数据,并将解密后的密文结果返回给用户,最终只有用户能够解密密文结果。

2.2.2 密文检索

当大量加密数据存储于服务器或云端时,对加密数据的检索已成为亟待解决的难题。现有的密文检索算法,如线性搜索、公钥搜索和安全索引,主要用于解决服务端加密数据的检索问题,但这些方法成本较高且仅适用于小规模数据集。采用基于全同态加密的密文检索方法,可以直接对加密数据进行检索,通过对其执行基本的加法和乘法操作,可以有效降低运算复杂度,同时也不会改变相应的明文顺序,既保障了用户的数据安全,又提升了密文的检索效率。

2.2.3 数字水印

目前,数字水印技术已被广泛应用于数字产品的版权保护领域。然而,数字水印系统仍面临安全挑战,例如,恶意攻击水印算法和水印密钥,导致水印被破解和伪造。通过将数字水印加密并嵌入数字产品,检测时首先对水印进行同态解密,该方法能够有效地抵御非授权攻击。

2.3 基于同态加密的深度学习中隐私保护技术

同态加密的主要作用是可以直接在密文上执行运算,运算结果解密后与明文运算结果一致,这为保护用户隐私提供了最直接和有效的手段。在机器学习和深度学习应用中,通过同态加密对数据进行加密后再进行分析和计算,这能够有效解决许多领域对数据保密和安全的需要。同态加密能够确保在密文上进行计算而不进行解密,解密后的结果与对明文执行相同计算得到的结果一致。

鉴于目前的同态加密方案仍然存在诸多限制,如仅支持整数数据,且存在固定的乘法深度要求,无法无限期地进行加法和乘法运算,同时全同态加密方案不具备比较和取最大值等操作能力。由此可见,现有的同态加密方案无法直接应用于机器学习和深度学习领域。目前,解决这一问题的常用策略主要包括:①通过安全多方计算构建一种适用于基于同态加密的机器学习算法的协议,并通过执行该协议来完成相应的算法;②寻找原始机器学习算法的近似算法,使其仍然能够使用,同时不依赖交互方案,并满足同态加密方案的数据和操作要求。

在机器学习和深度学习的预测过程中,通过同态加密算法的特性对数据进行加密处理,随后在加密后的训练数据上,通过机器学习和深度学习的方法进行模型构建。该模型在对加密测试集进行预测时,输出的结果仍为加密形式,从而确保了用户隐私数据的安全性。Orlandi于2007年首次提出了一种结合同态加密技术和多方安全计算的神经网络架构,该架构不仅具备处理加密数据的能力,还特别注重神经网络自身的安全性。Barni等人在2011年开发了一种基于同态加密的神经网络模型,这种模型允许远程服务器对客户的生物医学信号进行分类,同时避免了对原始信号和分类结果的泄露。

于2016年,Dowlin团队提出了一种名为CryptoNets的神经网络架构,该架构特别适用于对加密数据进行处理。研究者表明,云服务不仅能够将神经网络应用于加密数据进行加密预测,还能够以加密形式返回预测结果。这些加密预测结果可以发送给拥有相应密钥的所有者。该架构在MNIST数据集上的识别精度达到了99%。2017年,Hesamifard团队在研究中采用Chebyshev多项式作为近似工具,成功证明了基于加密数据训练神经网络并进行加密预测的方法不仅可行,而且具有实用价值。他们通过这种方法在MNIST数据集上的准确率提高了0.52%。

为了解决基于全同态加密技术的机器学习计算开销过高的问题,Baryalai等团队构建了非共谋双云模型框架(CloudA与CloudB),该框架通过采用Paillier密码系统显著提升了运算效率,有效降低了计算开销。在训练阶段,加密技术也被成功应用于保护敏感数据集。Xie等研究者借助Stone—Weierstrass理论基础,提出了一种名为crypto-nets的模型,能够在密文环境下进行预测。该模型创新性地结合了同态加密技术,并对激活函数和神经网络的结构进行优化调整,最终证明了该加密网络架构的可行性。该研究为实现无需用户隐私泄露的云端安全神经网络预测服务提供了理论支撑。此外,Zhang等学者又提出了一种基于BVG加密方案的保密双投影深度计算模型(PPDPDCM),该模型能够直接在密文上进行神经网络的训练,进一步推动了相关技术的发展。

目前,采用加密技术来防护机器学习和深度学习中的敏感数据,已取得较大进展,已在数据的预测和训练阶段进行加密处理。然而,在应用同态加密过程中存在资源消耗问题,而深度学习本身已消耗了大量计算资源,与同态加密技术结合使用时,计算量将显著增加。如何在采用同态加密算法的同时尽量减少对深度学习性能的影响,将是未来研究的主要方向。

03差分隐私保护技术

3.1 差分隐私保护技术

差分隐私的目标是设计一种机制,通过调整数据的概率分布,保护数据隐私。该机制允许数据进行一定程度的修改,使得数据可以进行一定程度的修改,而不会影响整体的统计结果。通过这种机制,可以防止攻击者推断出数据集中个人的详细信息,从而实现数据隐私保护。

差分隐私是一种数据隐私保护机制,其核心在于确保两个数据集D和D’之间仅存在一条记录的差异。具体而言,差分隐私定义为:对于两个数据集D和D’,若它们之间最多仅相差一条记录,且存在一个隐私算法A,使得对于数据集D和D’的任何输出结果O(O属于A的值域Range(A)),都满足不等式Pr[A(D)=O] ≤ e^ε × Pr[A(D’)=O]。这一机制的核心在于通过在数据集中添加噪声来实现隐私保护。其中,Laplace机制被广泛应用于处理连续型数据集,而指数机制则适用于离散型数据集。

3.2 深度学习中的差分隐私保护技术

差分隐私(differential privacy)是一种基于差分隐私机制的隐私保护技术。这一概念由Dwork于2006年首次提出。通过向原始数据中添加噪声,使得对于最多相差一个数据的两个数据集,其查询结果的概率分布达到不可区分的目的。

差分隐私保护主要分为集中式学习和分布式学习两大类。Abadi在2016年提出的基于差分隐私的深度学习算法采用了集中式学习方案。该方法在梯度下降过程中利用梯度增大的扰动方法来报告敏感数据,并详细探讨了差异化隐私框架下的隐私成本问题。实验结果表明,在适度的隐私预算下,可以通过具有可管理的软件复杂度、较高的训练效率和模型质量成本的方案,训练具有非凸目标函数的深度神经网络。

2017年,Papemot等学者提出了一种半监督知识迁移方法,以黑盒方式将多个模型与不相交的数据集相结合,以解决深度学习中训练数据隐私泄露的问题。该方法通过改进隐私分析框架和半监督学习算法,在Mnist和Svhn数据集上实现了隐私与性能的最佳平衡。2018年,Ji Wang提出了一种对本地数据进行扰动变换的机制,该机制基于差分隐私计算方法,并通过引入噪声训练方法来增强云端深度神经网络对来自移动设备的扰动数据的鲁棒性。该机制有效解决了数据从移动设备传输至云中心过程中可能面临的隐私泄露风险。

在联合分布式学习环境中,数据所有者在分布式训练框架下,基于各自独立的数据集进行训练,但共享训练结果。Shokri和Shmatikov于2015年提出了首个共同分布式深度学习方案,首次将隐私保护理念引入深度学习领域。通过采用现代深度学习中的优化算法,即基于随机梯度下降的优化算法,可以实现异步并行训练和执行,在引入噪声后,每个参与者将一小部分局部梯度参数上传至中心参数服务器。

在更新本地参数的过程中,系统会从服务器获取最新的渐变参数进行更新。这种机制设计使得参与者能够在各自的数据集上独立进行训练,并在训练过程中,共享模型关键参数的小分子集合。通过这种方式,在保护各自数据隐私的同时,参与者仍能从其他参与者的模型中获益,从而显著提升了他们的学习准确性,而不仅仅依赖于自身提供的数据。

该研究证实了隐私保护的深度学习模型在标准数据集上的准确性。在此基础上,Mohassel开发出一种新型高效的保密机器学习协议,该协议基于随机梯度下降法。协议采用安全的多方计算技术(2PC),将联合数据上的线性回归、逻辑回归和神经网络训练保密。该协议基于双服务器架构,由数据所有者将私有数据分配给两个独立服务器。这些服务器通过安全的多方计算技术对联合数据进行训练。

04前景展望

随着深度学习的兴起,人工智能在各领域迎来了新一轮的发展热潮。然而,人工智能的快速发展的同时,其安全与隐私问题也引起了人们的关注。人工智能的安全与隐私威胁已经阻碍了其发展。保护用户隐私成为了人工智能发展的关键。当前,基于深度学习的隐私保护研究仍处于起步阶段,还有许多亟待解决的问题。我们可以从以下几个方面进行重点研究,以期找到解决人工智能中隐私泄露的有效方法。

制定完善的评估机制和相应的法律保障体系。首先,制定一套统一的隐私泄露安全评估标准和衡量标准,确保相关法律的全面实施,从而有效防止企业和组织非法泄露用户信息。

(2)高效的加密算法。加密技术是保护个人隐私最为直接有效的手段之一,然而,当前的同态加密技术在运算开销方面存在显著问题。由于深度学习算法本身需要消耗大量计算资源,这将显著降低整体算法的性能水平。因此,开发高效加密方法以保护用户隐私成为一个亟待解决的重要研究课题。

全部评论 (0)

还没有任何评论哟~