Advertisement

面向医疗数据的差分隐私保护

阅读量:

第一章 差分隐私保护

1.1 差分隐私概述

差分隐私是由Dwork于2006年提出的针对敏感数据集发布可能导致隐私泄露问题的一种隐私保护机制。基于这一机制设计的系统中,在处理后的数据集中单独一条记录的存在与否对统计计算结果的影响较小。因此,在这种机制下进行数据分析时,单条记录的信息变化不会对整体结果产生显著影响。此外,在这种机制下进行数据分析时也不会使攻击者能够精确推断出任意一个用户的个人信息。

二零零二年, k-anonymity 算法的提出为后续基于等价类分组的匿名隐私保护算法及其改进模型奠定了理论基础, l-diversity、t-closeness 以及 (α, k)-anonymity 等概念逐步完善了针对不同攻击者背景知识下的匿名保护理论体系。直到二零零六年, 微软公司的dwork则提出了可抵御任意背景知识攻击者的差分隐私技术(dp, differential privacy), 该技术成为当前研究领域的热点问题之一。这一保护技术不仅能够提供严格的隐私保护保证, 还极大地丰富了现有隐私保护理论研究的内容;目前这一技术已得到广泛应用于实际产品中, 包括苹果公司的ios10系统中的语音输入功能以及相关的搜索功能中, 同时也在最新的机器学习api——coreml中得到应用;此外, 在谷歌浏览器端以及三星智能手机端也得到了相应的实践应用。

目前,差分隐私技术的研究主要分为 2种:

基于 Concentrated Data Model(也称为 Based on Trusted Curator Model)的传统支持 Differential Privacy Preserving 的 数据挖掘 和 数据发布 技术中, 可以分为 Interactive 与 Non-Interactive、Concentrated 与 Distributed、Dynamic 与 Static 等类型

针对本地差分隐私(LDP, local dif-ferential privacy)模型的支持差分隐私保护的数据收集与数据分析及深度挖掘技术,在实际应用中涉及随机响应技术、BloomFilter算法、统计分析与机器学习等核心技术。众包模式下的本地差分隐私保护技术因其无需依赖可信第三方数据管理者而受到产界与学界的广泛认可:由于其仅需用户设备执行数据加噪音处理即可完成数据收集而无需泄露真实数据:这种设计彻底解决了用户对自身隐私可控性不足的担忧:同时有效降低了因将真实数据存于不可信第三方存储而导致的风险:目前LDP技术已在流数据频繁项挖掘、基于众包的字符串统计估计等场景得到广泛应用:特别是在WWDC 2016至2017年间:苹果公司将其结合本地差分隐私技术应用于最新产品设计中以强化用户隐私保障功能

1.2 差分隐私保护

差分隐私保护模型的思想源于一种直观的认识:原始数据集D中包含特定个体(如David)时,在不泄露该个体具体信息的前提下进行数据查询操作f(如统计汇总运算)是可行的。具体而言,在不释放原始数据集中的任何细节信息的情况下,在经过去个人化处理后的数据集D’仍然能够通过函数f计算出与原始数据集相同的统计结果。这种特性表明,在满足特定条件的情况下即使存在持续的数据攻击风险也不会导致信息泄露风险显著增加。差分隐私的形式化定义如下:

定义1. 设M为一种随机算法,则PM定义为M的所有输出集合。考虑任一相邻数据对(D,D'),其中D与D'仅在某个位置上的数据不同,并取其对应的PM子集SM。若算法M满足:对于所有的ε>0,在计算结果上存在一个δ>0使得P{m∈SM} ≤ δ/ε,则称算法M为(ε,δ)-差分隐私算法,并称该算法满足(ε,δ)-差分隐私性质。

则称算法M满足ε-差 privacy protection,其中参数ε被定义为privacy budget. diff privacy fundamentally aims to ensure that the presence or absence of any single individual in a dataset has minimal impact on the outcomes of statistical queries performed on it.具体而言,假设我们有两个几乎完全相同的数据集D和D',它们仅在一条记录上存在差异.当分别对这两个数据集执行相同的查询操作时,同一查询语句生成相同结果的概率比值应近似等于1.

例如,在表1中展示了一个医疗数据集样本D。其中记录值为1表示患者患有艾滋病,而记录值为0则表示患者未患艾滋病。在不泄露具体数据集内容的前提下,该数据集能够提供部分查询统计服务。假设当用户输入参数i时,系统将调用查询函数f(i)返回前i行的数据统计数量,并计算前i行中所有诊断结果标记为1的记录数量,并返回给用户的统计结果数量。当攻击者希望推断David是否患有艾滋病时,并已知David位于记录的第5行,则攻击者即可通过计算count(5)-count(4)来推断出结果。

如果D P被视为满足ε-差分隐私保护算法的一个查询函数,则其定义可表示为 DP(i)=f(i)+noise,在该公式中 noise遵循特定的概率分布。例如,在计算 DP(5)时可能会得到结果 {1, 1.5, 2} 中的任何一个值;而根据差分隐私原理,在这种情况下 DP(5)将几乎等概率地从该集合中选取任何一个值。这种设计使得攻击者无法推断出 DP(5)-DP(4)所期望的结果(即数据集 D 的真实差异),从而有效保障了数据主体的隐私权益。

1.3 差分隐私主要研究方向

1.3.1 面向数据挖掘与数据发布的差分隐私技术

从隐私保护的基本定义到经典的基于k-anonymity的数据脱敏方法及其改进模型,在现有技术中均存在3个主要缺陷:第一类问题是依赖于可信赖第三方的数据管理者;第二类问题是其安全性高度依赖于攻击者掌握的相关背景知识信息;第三类问题是缺乏能够严谨地评估其隐私保护效果的数学理论框架。当前研究已就集中式差分隐私保护模型取得大量成果:Roth等人提出了一种交互式数据发布的中位数机制(median),该机制能够在相同预算下提供更多数量的查询响应;Xu等人则开发了一种基于k-d树的数据直方图发布算法,在适当设置参数(如频数分布紧密度阈值和空间分割次数)时表现出更为出色的结果;Engel等人提出了小波变换方法,在信号处理领域具有重要应用价值;Hay等人则提出了层次化查询处理方法以提升分析效率。然而这些基于可信管理者模型的差分隐私数据发布与分析技术都面临着集中式管理架构下重大的隐私安全挑战

1.3.2 基于本地差分隐私模型下的数据收集与数据分析

在2013年时,Duchi首次提出local differentialprivacy理论,而Google Chrome浏览器中的RAPPOR机制则采用了随机应答策略及BloomFilter技术,成功实现了客户端群体统计数据(如类别、频率、直方图及字符串类型)的隐私保护计算,满足差分隐私保护要求.在RAPPOR中,通过采用静态与动态随机响应机制,可单独调节隐私保护强度;同时,BloomFilter技术可进一步提高数据隐私安全性.基于传统假设检验方法与稀疏回归算法构建了高效的字符串统计解码模型,实现对抽样群体频率的高可用性解码.此外,改进后的RAPPOR模型还支持数据字典未知情况下的本地学习多变量联合概率分布估计.

该技术的核心研究聚焦于统计分析理论与差分隐私证明方法。例如,在现有研究中能够证明RAPPOR符合其定义。具体而言,在该方法中 permanent random response(PRR)确保了来自真实值的加噪值以保护隐私;同时,在 RAPPOR 方法中 PRR 符合差分隐私要求;而 immediate random response(IRR)同样符合其要求。

1.4 差分隐私在医疗大数据保护中的应用

1.4.1 医疗大数据应用

可以从数据分析中实现以下目标:获取知识并识别趋势;深入了解个体化的医疗特征;利用患者的各项数据结合挖掘技术和合理的推断手段来制定个性化的治疗方案(例如,在临床诊疗中),如图所示展示了具体的数据处理流程:从患者初诊到最终治疗方案的制定过程包括体格检查、实验室检查及影像学检查等多种数据采集方式;采集到的数据经过云端或其他存储设施进行整合处理;最终生成的数据报告将指导临床决策并实现患者的个性化治疗路径

个体化治疗诊疗流程

借助大数据技术, 医生不仅协助指导患者的治疗工作, 还可以通过建立预测模型, 为疾病预防提供数据支持. 在临床随访方面, 对于出院但仍需长期治疗的患者, 他们可以通过移动终端设备(如基于 Android 系统的应用程序)与医生进行交互交流. 医生则依据患者提供的信息为其预后康复提出专业建议, 这种远程医疗模式较传统方式更具创新性. 针对我国医疗资源紧张、患者看病难度大及医患关系紧张等问题, 应用大数据技术识别并管理高风险、高成本患者是一种切实可行的方法. 在推进个性化治疗方面, 将个人基因组信息加入电子病历系统中是必要之举, 但需注意的是个人基因组属于敏感信息, 可能引发诸多隐私安全问题. 因此, 做好个人信息保护至关重要. 目前已有公司建立了基因数据库, 如美国政府 genetics information privacy act (GINA) 等相关法律已对此类问题作出规范

1.4.2 医疗大数据隐私保护模型

医疗大数据主要体现在其高容量、高速度以及多类型这三个方面。研究人员利用数据分析技术和挖掘手段对海量医疗信息进行了深入研究。然而这也引发了严重的隐私泄露问题。随着大数据概念的提出之前大多数用于小规模数据的安全措施难以适应处理医疗大数据的需求这使得 privacy protection 在这一新的领域面临着更为严峻的挑战

医疗数据集中往往包含大量患者的个人隐私信息诸如医疗诊断结果处方单据检验检查记录等

医疗大数据隐私保护模型

1.4.3 差分隐私在医疗大数据领域的应用

当前的研究与应用主要集中在基因组隐私保护、电子健康档案隐私保护以及医疗传感器隐私保护等领域

基因组隐私保护 Fienberg 等人探讨了如何在不泄露个人隐私的情况下实现遗传关联分析(GWAS),其研究成果可为准确估计平均次等位基因频率(MAFs)提供可靠依据。研究者们在开发 ε-差分隐私机制时成功平衡了统计分析与数据安全性之间的关系,并通过引入拉普拉斯噪声优化了数据处理流程以实现对敏感信息的有效遮蔽。此外,在群体检测方面,Raisaro 等人创新性地构建了一个将同态加密技术与差分隐私相结合的数据分析框架,在保障研究价值的同时实现了对参与者个人信息的安全保护。

电子健康档案隐私保护 差分隐私在电子健康档案数据中的应用主要集中在人口统计学信息或诊断信息这两个领域。Mohammed等研究者提出了针对人口统计学信息的一种非交互式差分隐私方法,并通过实验验证表明该算法不仅能够维持分类的准确性而且具有更好的扩展性和性能优势,相较于现有的分类算法而言表现出色。

医疗隐私保护机制

第二章 参考文献

黄尤江, 贺莲, 苏焕群. 医疗大数据的应用及其隐私保护[J]. 《中华医学图书情报学报》, 2015年 第9期:43-45.

高志强, 王宇涛. 差分隐私技术研究进展[J].通信学报, 2017, 38(0z1):151-155.

侯梦薇等. 基于差分隐私算法的医疗大数据隐私保护机制的应用研究[J]. 中国数字医学, 2019, 014(012):86-88.

全部评论 (0)

还没有任何评论哟~