Advertisement

生物医疗场景下的隐私保护计算应用

阅读量:

摘要主要讨论了隐私保护计算在医疗领域的应用及其未来发展方向。隐私保护计算通过技术手段解决数据共享和隐私保护的矛盾,在生物医疗数据的基因组学分析、罕见病研究、新药辅助研发和医学影像分析等领域得到了广泛应用。例如,在基因组学分析中使用了安全联邦学习框架iPRIVATES,在药物研发中开发了基于联邦学习的生存分析模型WebDISCO,在医学影像分析中提出了分布式源编码的安全压缩框架SUPERMICRO。然而,平台兼容性问题、数据类型复杂性及处理难度高、以及计算精度要求高等挑战仍需解决。未来需加强与医学领域专家的合作以开发更适用于医疗场景的技术框架和技术算法逻辑。

摘要

医疗信息化的发展推动了生物医学数据维度与规模的持续拓展。然而,在考虑数据流动合规性、隐私安全以及维护自身权益等多方面因素的前提下,这些珍贵的数据资源往往被局限于单一机构内部。当各数据间缺乏互联互通时,其潜在价值未能充分释放。正是受到这些制约因素的影响,在技术层面被认为是最优解决方案的隐私保护计算逐渐从幕后走向台前,并迅速进入了一个快速发展的新阶段。从技术创新和实际应用场景两个维度展开探讨,在医疗领域中隐私保护计算的应用前景与挑战

关键词: 隐私保护计算; 联邦学习; 可信执行环境; 生物医学

0****引言

在数字经济时代背景下,数据逐渐成为新的生产要素,其市场化发展进一步推动数据深入各行业领域,促使原有生产要素和相关领域加速向数字化方向转变,从而更好地适应时代变革的要求。以医疗行业为例,随着医疗信息化的发展浪潮,医院信息系统(Hospital Information System,HIS)、电子病历(Electronic Medical Records,EMR)、图像存储和传输系统以及实验室信息系统等技术迅速普及,已成为不可或缺的重要组成部分。我国推行的"电子病历系统应用水平分级评价"体系对医院电子病历系统的等级进行了科学划分,等级越高表示系统的应用水平越高:4级即达到全院信息共享水平,可提供初级医疗决策支持;8级则标志着实现了跨机构医疗健康记录的整合[1]。

虽然我国绝大多数医疗机构已实现内部信息化,但仍与全面实现信息化还存在差距,且目前医院间的数据仍呈相互割裂状态,形成了多处"信息断层"。在医疗相关领域,从病因分析、疾病早期筛查到临床诊断辅助及药物研发等多个领域均高度依赖数据分析与样本积累。“信息断层”的现象严重制约了精准医疗及人工智能辅助诊疗的发展进程,阻碍了我国智慧医疗体系的完善进程。唯有打破"信息断层"这一障碍,构建起跨机构、多层级的数据互联互通网络,才能真正释放海量数据分析价值,使信息化应用取得理想效果。

生物医疗数据互联互通面临多重挑战。其中最为关键的是:一是流通环节中存在合规风险;二是流转过程中存在 Privacy risks; 三是生物医疗领域涉及的数据类型繁杂且处理难度较大。我国已通过完善相关法律法规体系,在数据隐私保护方面进入全面监管阶段。2021年,《中华人民共和国数据安全法》和《中华人民共和国个人信息保护法》正式实施后不仅填补了国内法规体系在这一领域的空白而且成为全球范围内具有最高法律效力的数据隐私保护法规其效力甚至超越了欧盟公认为最严格的《通用数据保护条例》(General Data Protection Regulation GDPR)

已有大量研究证实,现有传统隐私保护手段难以完全满足现行法律中对"数据匿名化"的要求,即无法通过处理后的数据恢复出具体个人的身份信息。在医疗领域,HIPAA(美国《健康保险便利和责任法案》)中的安全港机制通常被视为数据脱敏的一种主要手段。然而,即便按照相关法规要求去除所有可用于识别联系定位某一特定个体的18种标识符信息,仍有可能通过这些信息实现对特定个体身份的唯一识别并提取与其相关的敏感信息——这种现象被称为重识别攻击。对于生物医学等敏感领域而言,此类重识别攻击的风险远高于其他类型的数据处理方式。一项研究表明[2],这种重识别风险在中国医疗卫生系统中普遍存在且相当严重。该研究通过对覆盖中国33个省份总计83万居民的生日、性别和邮政编码等个人信息展开调查发现:其中约19.58%的人可通过上述信息实施三段求交而实现身份定位——即能唯一确定个人身份或相关信息组合[2]。

因此,在当前情况下迫在眉睫的是引入更为先进完善的先进技术手段来消除医疗机构的疑虑,并确保数据能够实现安全共享。使得 privacy protection不再成为一种无用功.随着时代背景的发展 在这一过程中 隐私保护计算逐渐从幕后走到台前 并从理论层面发展到实际应用阶段.目前而言 在技术和政策的支持下 一些方法已被证明是能够有效解决 data sharing与保障个人privacy之间矛盾的技术方案. optimal solution被视为这一领域的主要解决方案之一.本文将详细阐述当前环境下三种主要的技术路线 并深入探讨这些 technology在医疗行业的具体应用情况以及未来的发展前景与面临的挑战.

1****隐私保护计算技术

隐私保护计算(Privacy Preserving Computing)以数据“可获取不可解密”为核心理念,在不泄露原始数据的前提下实现多方数据协作与联合计算的技术体系。值得注意的是,隐私保护计算并非某单一技术手段,而是由联邦学习、密码学以及可信硬件等多种技术综合而成的一套完整的技术方案.经过长期发展,该领域已形成多条技术路径,其中最为 prominent 的是安全多方计算体系,随后逐步发展出联邦学习方法论与可信执行环境等重要分支.以下将重点阐述这三种主要隐私保护计算技术的特点及 respective 优势与局限性

1.1 安全多方计算

安全多方计算(Secure Multi-party Computation,MPC)旨在实现一组相互独立且互不信任的数据拥有方能够基于各自私有数据协同完成联合运算,并确保每位参与者仅获得自身的运算结果,在运算过程中无法通过交互信息推断出其他任意一方的具体输入与输出数据。该技术起源于1982年姚期智院士的研究[3],他首次提出了安全多方计算的基本框架,在这一通用场景下,m个参与方共同计算一个函数f(x₁,x₂,…,x_m),其中x_i代表第i个参与方的数据输入。在安全多方计算中,协议的安全性具有明确的标准要求:一个合格的安全多方计算协议必须严格满足所有相关的安全性定义。

(1)隐私:任何一方都不应该了解到超过其规定输出的内容。

(2)正确性:每一方都保证它收到的输出是正确的。

(3)输入的独立性:腐坏方须独立于诚实的参与方的输入来选择他们的输入。

(4)保证输出:腐坏方不应阻止诚实方获得其输出。

(5)公平性:每一方都应得到他们应得的输出。

安全多方计算扩展了传统分布式计算框架和信息安全领域,在保障数据隐私的同时实现了多中心协作场景下的高效运算。该技术不仅提升了资源分配效率,在保障数据安全方面也具有重要意义。然而由于其涉及复杂的数学理论支撑,在处理复杂任务时,由于其涉及的数学运算和通信需求极高,在资源受限的情况下表现受限。在实际应用中面临诸多限制条件,尤其是在网络带宽有限、算法复杂度高或处理数据量大的情况下,可能会遇到性能瓶颈。

1.2 可信执行环境

可信执行环境(Trusted Execution Environment,TEE),通常指存在于CPU上的一块专用区域,在此区域内对数据与指令的执行均提供了一个安全空间以确保其保密性与完整性。最初由Open Mobile Terminal Platform(OMTP)概念提出,并专为解决移动设备开放环境中的安全问题而设计。最具代表性的产品有Alice公司推出的TrustZone以及Intel公司的SGX(Software Guard Extension)等技术方案。

为了进一步增强安全性,在某些系统设计中还采用了多层防护策略。“多层防护策略”不仅能够有效提高系统的抗攻击能力;此外还能够在一定程度上降低误报率和漏报率[3].

为了进一步增强安全性,在某些系统设计中还采用了多层防护策略。“多层防护策略”不仅能够有效提高系统的抗攻击能力;此外还能够在一定程度上降低误报率和漏报率[3].

为了进一步增强安全性,在某些系统设计中还采用了多层防护策略。“多层防护策略”不仅能够有效提高系统的抗攻击能力;此外还能够在一定程度上降低误报率和漏报率[3].

图1

1 TEE架构示例

TEE技术在实现安全性和可用性方面达成了较为平衡的状态,在当下传统公钥密码体系性能受限时提供了一个可选替代方案。然而,在某种程度上其安全性依赖于对硬件厂商的信任,并且面临较多的攻击面以及不够明确的安全边界;这些问题都一定程度上阻碍了TEE技术的大规模应用[5]

1.3 联邦学习

FL(全称Federated Learning)是一种分布式机器学习技术。王爽教授团队于2013年首次提出了基于分布式系统的隐私保护数据计算方案,并重点研究了其在医疗大数据领域的应用。随后,在2016年时,Google团队成功将该技术应用于移动设备环境。FL的核心理念在于通过多节点协同训练模型来实现各方本地数据的安全共享与有效利用,在此过程中确保各参与方的数据不会被直接访问或泄露。

联邦学习可分为横向联邦学习和纵向联邦学习,其依据是参与方数据分布模式。具体而言,在横向联邦学习中(如图2所示),研究者们主要基于不同数据集中的相似维度进行融合操作,以提升样本规模。而纵向联邦学习即指同一基础样本具有不同的属性特征时的情形:各个参与方对各自拥有的特征信息进行本地处理,并将各节点处理后的部分结果综合汇总形成完整的模型架构(如图3所示)。

图2

2横向联邦学习示例

图3

3纵向联邦学习示例

虽然联邦学习声称能够实现数据共享与隐私保护的双重目标,
然而它仍存在一些不足。
尽管它不直接泄露用户数据,
却未能对中间统计信息、
model evaluation 和最终输出结果进行有效保护;
此外,
在 model evaluation phase 也缺乏隐私保护措施。
在实际应用中,
model evaluation phase 涉及大量敏感信息,
包括但不限于 model parameters、
input data 以及生成的结果(如诊断报告).

SFL是一种针对现有联邦学习技术缺陷的技术。它基于原有技术基础发展而成,在保留联邦学习分布式计算特征的同时,在数据共享机制上实现了创新性突破:仅传输加密后的中间统计信息而不泄露原始个体数据;同时对模型参数进行了优化处理以增强安全性。这种设计理念使得SFL在生物医疗数据共享过程中实现了全生命周期的安全保障机制。

在隐私保护计算领域占据重要地位的技术主要包括安全多方计算(Secure Multiparty Computation, MPC)、可信执行环境(Trusted Execution Environment, TEE)以及联邦学习(Federated Learning)。这些技术不仅广泛应用于互联网各行业,在数据处理全生命周期中均发挥着关键作用。此外,在这一领域逐渐取得突破性的进展的技术包括差分隐私(Differential Privacy)、零知识证明(Zero-Knowledge Proof)、同态加密(Homomorphic Encryption)以及区块链(Blockchain)等。值得注意的是,这些技术并非相互替代的关系而是相辅相成的工具体系,在此过程中能够实现高效协同以保障数据的安全性与完整性

2****医疗场景下的隐私保护计算技术应用

2.1 基因组学分析

基于基因组学分析的方法,例如全基因组关联研究、致病基因分析以及癌症早期筛查等方式,在疾病预防与治疗方面发挥着至关重要的作用。以GWAS为例,该方法通过对比患者全基因组范围内的单核苷酸多态性位点与对照样本,鉴定出大量可能导致目标性状的变异基因位点。相较于候选基因策略,GWAS的优势在于无需事前设定潜在致病基因,从而避免了研究过程中的"弯路"问题。此外,由于GWAS首次发现了许多此前未被发现的新型基因及其染色体区域,这一研究方法为探索复杂疾病的发病机制、寻找致病因素以及开发新疗法和新药物提供了重要的理论依据和实践指导。

由于基因数据具有高度敏感性,首要任务是保障数据隐私的安全性。一旦基因数据从医疗机构的管理范畴中脱离出去,就难以实现有效控制,无论是传输过程还是在可信第三方存储中,都可能面临数据泄露的风险。因此,在隐私保护型基因组学研究领域中,则可采用安全联邦学习等技术实现隐私建模目标。所谓隐私建模是指在多中心数据分析时,使患者级别的原始数据不再局限于医疗机构的管理边界内——即通过交互加密的方式统计分析信息并完成数据融合,在不暴露患者个人信息的前提下实现跨机构的数据建模与分析功能。同时借助联邦学习技术特点——即部分计算本地完成——就可以显著减少对海量基因数据带来的通信开销负担

Wu[8]提出了一种名为iPRIVATES的技术框架,其主要应用于支持强直性脊柱炎的大规模基因分析.与以往的技术框架不同,该方法不仅注重单一技术的设计,还融合了多种技术和算法.这种设计使得其利用联邦学习分布式计算的优势得以实现,即在不交换明文数据的情况下完成数据处理.同时,该框架还结合了其他技术来弥补联邦学习在中间统计信息共享、模型评估以及输出结果等方面的保护不足.这样一来,基因数据的安全性得到了更好的保障.具体而言,在数据共享环节中,不同数据源与全局服务提供商之间的通信链路成为潜在的安全威胁区域.例如,攻击者可能通过对中间统计信息或联合分析结果的窃听来获取敏感信息;此外还可能通过中间人攻击手段获取敏感信息.针对此类风险的研究团队采用了基于安全套接字层消息验证码的方法加以防范.而对于全局服务器而言,内部安全威胁始终是其面临的主要挑战之一.例如基于似然比检验(Likelyhood-ratio Test,LLR)的方法可以在基因组数据共享信标网络中重新识别个体身份.为此研究团队在该框架中引入了基于可信执行环境(SGX)的安全机制以应对这一类风险

在研究过程中,研究人员基于模拟数据集以及真实世界数据进行评估iPRIVATES的性能表现。实验结果表明,该框架能够支持多家医院及多个研究机构的全基因组数据协作,其效果与采用集中式计算方案相当,从而验证了该框架的有效性[9]。

2.2 罕见病研究

在罕见病研究领域中,样本量不足是一个普遍存在的问题。由于疾病的特殊属性和独特性,在单一医疗机构内获取足够的病例数量以支持一项结果具有高度可靠性和可信度的研究方案往往显得力不从心。在跨区域医疗机构间进行患者的医疗数据共享时会面临诸多技术与伦理层面的障碍,在这种情况下患者的医疗数据的安全流动也面临着严格的法律限制。对于某些罕见病种而言,仅仅依靠单个国家或地区的病例资源往往无法满足一项研究所需的基础条件;这使得研究人员不得不寻求多国合作以获取足够的样本容量,在这种情况下相关的数据分析也将面临跨国间的数据合规性规定带来的额外挑战

Chen[10]介绍了跨三国(美国、英国与新加坡)儿童川崎病研究的实践案例。传统的国际合作往往需要将患者数据物理上集中于一个站点以实现整合。然而,在这一案例中所采用的技术框架——PRINCESS则不同,它通过分布式计算的方式使原始数据无需物理转移便能实现共享与分析.在此过程中,无论是有意还是无意,都不会泄露个人隐私数据及中间结果.这种设计确保了所有数据共享均符合各国相关法规的要求,从而解决了医疗数据跨境流动的障碍.此外,该框架还集成了可信执行环境、多方安全计算以及同态加密等多项技术手段.对于缺乏可信硬件支持的合作方而言,基于软件的技术方案同样适用,因此实现了安全的大规模跨国遗传数据分析的实际操作.

2.3 新药辅助研发

药物研发包含靶点发现与验证、先导化合物优化等四个主要阶段:传统的药物研发费时费力且周期长成功率低因此越来越多的研究者希望将人工智能等技术应用于药物研发以提高效率并缩短研发时间首先在靶点发现与验证阶段传统的做法是基于假设进行验证工作需要通过不断验证来确认正确的假设在面对海量线索时要人工从中筛选关键点并推断其中的逻辑关系这一过程必然冗长且效率低下而引入人工智能则能显著提升这一环节的效率同时实现对其中复杂关系的全面把握

然而,在高度依赖数据驱动的领域中,完整的知识图谱与逻辑体系的构建往往需要经过海量数据的训练积累。出于利益考量,众多药厂及研发机构都不愿将自身数据泄露给其他方,且在法律层面也设有严格规定,禁止未经安全防护的数据流动。为此,隐私保护计算技术应运而生并发挥着关键作用。在靶点发现与验证环节中,通过隐私求交技术能够识别出具有相同疾病特征的患者群体,从而从中筛选出真正具有临床价值的关键靶点;由于该方法不会泄露患者的个人隐私信息,因此不仅降低了企业面临的安全风险,还能够充分利用多维度的数据资源实现研发目标

此外,在药物研发的不同阶段中(如药物效果评估等),同样需要依赖大量的数据积累过程。Cox比例风险回归模型(Cox Proportional Hazards Model, 简称"COX模型")是一种广泛应用的生存分析方法,在评估药物或干预措施的效果方面发挥着关键作用。为了提高分析结果的准确性,则通常需要收集大量样本用于模型训练工作;通过实现跨机构的数据共享,则能够显著增加样本容量从而达到上述目标的要求。为了能够在共享数据的过程中同时保护患者的隐私安全,Lu[11]团队开发了一种基于分布式COX模型的在线服务系统:WebDISCO,该系统主要用于支持多个中心之间开展带有关怀隐私保护的基础性学习生存分析工作;该系统通过对个人级别的敏感数据进行本地处理,并仅交互较低敏感度的关键统计信息来构建全局性的COX模型。实验结果显示,采用分布式计算方式构建的COX模型与集中式计算所得的结果具有高度一致性,其平均方差值介于10至15和10至12之间;这一结果验证了分布式COX模型这一概念的有效性和实际应用前景。

2.4 医学影像分析

医学影像学数据是生物医疗领域中一个关键组成部分。与新药研发过程相似,在医学影像分析中人工智能技术的应用也日益广泛。通过智能辅助诊断疾病、精准勾画病变区域以及自动分析病理切片等方式来协助医生和研究人员完成临床诊断和研究工作。然而,在实际应用中存在诸多制约因素:因存在数据孤岛问题、传统脱敏技术的局限性导致隐私泄露风险、以及监管层面的数据管理不足等问题。这些因素限制了人工智能技术在医学影像领域的广泛应用和发展前景。

一项研究对发表于2020年的相关文献进行了系统性调查,具体方法是通过胸部X光检查(CXR)技术和电子计算机断层扫描(CT)图像运用机器学习技术构建模型,目的是检测或预测新冠病毒感染情况[12]。研究团队[12]从共计2212篇文献中精选出62篇质量较高的文献,然而结果发现这些模型在临床应用中并不具有价值。研究人员表示,造成这一结果的主要原因是参与建模的数据集质量与规模不足。其中超过一半的模型依赖于公共数据集,而这类数据集缺乏足够的多样性特征,从而可能导致分析结果出现偏差趋势,最终使得相关模型无法应用于临床实践。

隐私保护计算通过在数据所有方管理边界内达成患者级明文数据的数据虚拟聚合功能,在此基础之上既能有效保障患者的隐私安全又可确保药厂等关键数据源方的合法权益。当这些关键的数据源方自愿投入资源进行共享时就能突破传统数据库的技术限制实现跨领域多元化的深度协同运算从而显著提升模型性能并缓解上文中提到的模型缺乏临床实际应用价值的问题。

在实际应用中,有效传输与存储这类特殊场景中的数据是一个关键难点。由于这些场景不仅要求确保数据隐私的同时,还必须保证其完整性和可用性,因此直接对加密影像进行压缩或先加密后进行压缩等传统方法均不再适用这一情况。传统的无损或有损压缩算法都无法处理加密后的原始影像信息,这会导致解码过程中出现信息损失甚至不可逆的情况;而如果先对未加密的数据进行压缩编码则会完全破坏原始影像的信息特征以实现高度的去噪去模糊等预处理操作以达到提高信噪比的目的这一做法同样无法满足既需要高效编码又需要严格保护原始信息安全的需求。为了克服上述技术难题,Wang团队开发了一种新型的安全性与隐私保护型医学图像分层编码器SFCM该系统能够在不降低编码效率的前提下实现对原始影像信号的有效去噪去模糊等预处理操作并且能够为后续的数据分析提供可靠的基础支持

3****未来方向及挑战

3.1 平台兼容性问题

隐私保护计算技术体系在精准防疫、基因分析、临床医学研究等多个领域均取得广泛应用与实践。然而因为医疗行业涉及的算力应用场景错综复杂精度要求与数据规模均面临较高挑战这也对隐私保护计算平台的技术能力提出了更高的硬性指标需求。此外由于不同机构可能采用自研或第三方提供的隐私保护计算平台基于各自的技术特色会导致同区域内的机构间能够建立互联互通机制但不同平台之间则存在割裂无法实现资源交互进而使得分散存在的数据孤岛逐渐转变为独立的数据群岛。

因此,制定不同平台之间互联互通的标准是破除数据群岛现象、释放数据潜力的关键一步。中国信息通信研究院等标准化组织致力于推进这一互联互通标准的建设。具体而言,互联互通是指各平台在充分展现各自特色的基础上协同完成某项特定任务的能力。鼓励各平台技术充分展现各自特色、自主发展;但当需要时可采用标准化接口协作完成相关任务。

隐私保护计算行业间的互通标准推行落地, 将有助于推动基于数据驱动的医疗领域研究的发展, 同时也会促进新经济模式与商业模式的产生与发展, 反向驱动数据要素的生产与释放, 使其能够更好地被利用, 完成医疗等行业的数字化转型与智能化升级。

3.2 落地部署面临的挑战

首先讨论的是医疗领域中的安全性问题,在与一般行业相比时具有更高的敏感度和更为严格的保护要求。举基因数据为例,在单独分析时无法直接追溯到特定个体;然而,在结合多个"单一属性"的情况下,则有可能推断出身份信息或患者不愿公开的关键信息。值得注意的是,在遗传学特性方面存在显著相似性——当基因信息泄露时不仅会影响个人本身还可能波及其直系亲属群体从而导致负面影响扩大化。在多数研究项目中都会将收集的数据提交给专业机构进行运算处理即便假设这些机构完全可靠一旦脱离医疗机构的直接管控就可能面临数据泄露或运算错误的风险因此为了确保计算过程中的潜在威胁能够被及时发现并阻止隐私保护计算系统必须建立恶意模型作为基本假设(而非传统意义上的半诚实模型)。这样一来就需要求相关服务提供商具备强大的技术实力以便应对基于恶意模型的算法设计比基于传统模型更为复杂和困难的问题。

其次是在数据类型与处理复杂性方面的挑战。医疗领域拥有的医学数据呈现出多样化特征,在常规的结构化数据之外还包含着丰富的非结构化文档形式,其中包括医嘱记录、医学影像文件以及基因测序等特定类型的数据,这些特殊的数据类型在其他行业并无对应的处理标准与规范.从处理难度层面来看,医疗领域的数据分析工作相比其他行业具有显著提升的空间.在多数行业场景中,仅需应用逻辑回归模型或决策树等基础算法即可满足基本需求,但进入医疗领域后,数据分析所需的方法体系将面临大幅升级压力.具体而言,全基因组关联分析这一任务涉及对海量基因数据进行精确比对配准工作之后才能进行致病基因筛选;而对于医学影像分析则需要专业人员根据临床表现勾画出病变区域;在面对医生开具的医嘱记录这类非结构化文本时,系统必须具备自然语言理解能力以提取关键要素并将其转化为可计算的表格格式或数据库条目.基于此,现有的开源框架系统往往难以直接适配医疗领域的特殊需求,建议成立跨学科专家联盟协同攻关这一前沿技术难题,以期开发出真正契合医学场景的专业解决方案.

在实际应用中,计算精度是一个关键考量因素。对于非医疗行业的相关业务(如征信、风控等),通常只需提供一个数值作为评估依据即可满足生产需求;该数值与传统集中式计算方法得出的结果基本一致便能被采用。然而,在医疗领域中,则对隐私保护机制提出了更为严苛的要求:任何引入该机制的行为都必须确保计算结果的绝对准确性;否则即便出现微小偏差也难以容忍。具体而言,在医疗场景中若因实施隐私保护计算而产生误差,则这一误差就不再可接受;因此研发团队必须要么实现零误差的目标(尽管这在技术上极为困难),要么将允许的最大误差降至最小可能范围之内

4****结束语

就技术层面而言,在促进数据互联互通方面,隐私保护计算确实是最优的选择。就技术层面而言,在促进数据互联互通方面…

全部评论 (0)

还没有任何评论哟~