Advertisement

AI在医学领域:联邦学习 (FL) 在肿瘤学的应用综述

阅读量:

联合国健康计划署的数据隐私保护技术通过FL实现了一种创新性解决方案,在ML领域开发出了高效的安全FL算法,在Oncology领域应用研究中展现出显著的效果,在Precision Medicine方案构建中实现了更高的准确度,在Multi-modal框架下构建了精确的个性化医疗方案,在Data Privacy保护下实现了对复杂问题的有效处理

肿瘤学领域正经历着快速变革,这一变化得益于机器学习技术的整合应用,它能够提供丰富的临床数据分析,超越传统分析模式.然而目前大多数基于机器学习的研究仍局限于本地医疗资源环境.尽管这些集中在本地环境下的研究已经取得了一定成效,但随着临床医学数据呈现指数级增长并呈现多样化趋势,包括影像学资料、电子健康记录以及分子特征等多个维度的数据日益庞大带来了巨大挑战.随着医疗合作日益深化以及标准化医疗数据库的趋势愈发明显,仅依赖本地医疗资源和人口统计数据进行单中心研究所面临的局限性愈发凸显.因此开展多中心研究以从不同地区获取多样化的医疗资源成为一种更为全面的数据建模方法.然而这种分散化的医疗资源难以被单一化的机器学习模型充分整合利用,可能会影响其泛化能力、实际性能表现以及全球适用性和可信度.尽管将来自不同医疗机构的数据集中存储于统一的大湖系统或许能提供一个替代方案,但这种做法容易受到隐私泄露风险、复杂的多源共享协议以及跨国界法律障碍等问题的影响

_联邦学习(FL)作为这些局限性的潜在解决方案应运而生。使用FL,ML算法可以在本地数据集上同时训练,而无需数据离开其环境_ 。这种去中心化的方法允许医院和研究机构控制自己的数据,解决隐私问题和监管限制,同时从集体洞察中受益。FL在肿瘤学中特别有前景,因为数据涉及敏感的患者信息,及时的协作分析可以对患者的结果产生重大影响。然而,FL的采用并非没有挑战。在不影响数据内容的情况下平衡有效的模型训练和可以增加计算开销并可能影响数据内容的患者隐私技术,确保多个中心的数据质量和一致性,以及保持稳健的模型性能和可信度,都是紧迫的问题。

1 概述

1.1 集中式ML的局限性

  • 数据孤岛: 在集中的数据分析架构下(如云平台),各节点的数据来源分散可能导致集成效果不佳。
  • 信息完整性问题: 在传统集中式架构中,默认策略是将各个数据中心孤立存放(即单点存储),这在面对大规模分布式系统时容易引发资源浪费与维护成本上升的问题。
  • 数据异质性: 由于各中心采用不同的采集策略以及人口统计特征存在显著差异,在数据分析过程中可能导致一致性缺失(即分析结果偏差较大)。

1.2 联邦学习的优势

  • 数据分布: 联邦学习通过本地数据集同时训练ML模型,并避免了数据迁移过程,在此过程中隐私得到了有效保护。
  • 模型共享: 通过共享和整合不同中心的模型资源,在不牺牲性能的前提下提升了整体效能。
  • 协同分析: 联邦学习不仅支持多中心协同分析这一功能,在提升研究效率的同时也为患者预后提供了更优保障。

1.3 联邦学习的挑战

  • 模型训练与隐私保护的平衡: 在平衡模型训练与隐私保护的过程中, 需要构建有效的隐私保护技术, 并在某种程度上保证模型训练的效果。
  • 数据质量和一致性: 重视不同中心数据的质量、一致性和可靠性, 以此为基础确保模型的性能和可信度。
  • 模型性能和可信度: 建立科学合理的评估体系, 从而确保联邦学习模型的性能和可信度。

2 方法

2.1 文献回顾策略

2.1.1 文献检索策略

  • 时间段:从2020年1月1日到2023年9月1日
  • 数据库:PubMed、Scopus和Web of Science
  • 关键词:涉及肿瘤学、联邦学习以及机器学习等多个关键词和MeSH术语

2.1.2 筛选流程

对5,766篇文献进行了初步的文献筛选,在后续的筛选过程中逐渐精炼出25篇符合质量标准的期刊文章,并对其内容进行了深入分析。

PRISMA流程图

阶段1 - 识别:基于数据库搜索与其他资源的一系列潜在相关性高的研究文献。

阶段2 - 筛选:基于标题和摘要的初步筛选,去除那些明显不相关的文献。

阶段3 - 排除:在完成初步筛查后,随后通过阅读全文来剔除不符合纳入标准的文献

阶段4 - 纳入:最终纳入综述的文献数量。

2.2 评估标准

  • 联邦学习主要分为集中式架构和分布式架构两种主要类型。
  • 聚合策略采用由参与设备更新或模型参数驱动的整合方式。
  • 设备分类涵盖跨设备环境下的多种场景,并涉及跨数据孤岛问题。
  • 数据应用领域广泛涵盖医学影像分析、电子健康记录管理等多个方面。
  • 隐私保护采用差分隐私算法以及加密技术作为核心手段。
  • 模型评估体系基于准确率、召回率以及F1分数等关键指标展开评估。
  • 联邦学习的具体应用涵盖提升模型的一般化能力、提高预测精度、保护数据隐私性、深化疾病认知能力以及实现领域间的适应性转移,并通过缩短训练时间来优化整体效率。

2.3 研究重点

  • 临床应用场景:主要涉及以下几大方面:首先是建立疾病类型的鉴别标准;其次是通过影像学标志物辅助判断肿瘤特征;然后是基于医疗大数据分析指导治疗方案选择;接着是对患者病情严重程度的动态监测;此外还包括对药物副作用的监测预警以及患者的生存质量评估,并特别关注肿瘤是否会复发。
  • 机器学习算法:涵盖多种分类方法:经典的监督学习方法如支持向量机(SVM)和随机森林(RF)适用于分类问题;深度学习框架中的卷积神经网络(CNN)在图像分析任务中表现出色;预训练语言模型则在自然语言处理领域取得了显著成果;此外还有生成对抗网络(GAN)用于生成高质量的数据样本。
  • 数据多样性考察:包括各研究对象的基础信息:即患者的样本数量及其分布情况;以及所收集的数据量及其质量水平。

2.4 评估联邦学习方法的严谨性

  • 比较框架: 该研究是否涉及将联邦学习方法与集中式机器学习模型进行对比分析?
  • 性能比较: 该研究中联邦学习方法的表现如何?它是否在性能上优于或与其在可比性上相媲美?

3 结论

3.1 研究趋势

机器学习(ML)相关的出版物随时间的变化趋势

与FL(联邦学习)相关的出版物随时间的变化趋势

条带/线条:体现每一年针对特定临床应用发表的论文数量;其中通过使用不同颜色或样式来区分各种临床应用场景的具体实例包括肿瘤识别、疾病类型区分以及严重程度评估等。

(b)条形图/线型:用于表示每年在特定领域(如生物信息学)内发表的论文数量。不同颜色或样式标记则可能代表不同的研究方向与目标,例如数据隐私保护、机器学习性能提升等目标中的某一项。

  • 增长态势:联邦学习在肿瘤学领域的应用呈现稳步增长态势,在过去四年中实现了从零到13篇的显著提升。
  • 核心技术领域:研究主要涉及多种机器学习技术,在大型预训练模型等基础算法上取得了突破性进展。
  • 临床聚焦点:研究重点在于肿瘤识别及疾病类型区分(并列分号),同时还包括严重程度评估(括号补充)、治疗反应预测(括号补充)、生存分析(括号补充)以及肿瘤复发评估(括号补充)等多个维度。
  • 应用场景扩展:研究重点集中于提高模型泛化能力和预测精度,并通过多维度拓展进一步强化数据隐私保护意识与疾病认知能力。

3.2 联邦学习分析

  • _Data types: Large pre-trained models are mainly applied to medical imaging data, with UNet specifically targeting MRI, CT, PET-CT, and X-ray data. CNNs are utilized for analyzing diverse data types. Classical machine learning models primarily focus on EHR and feature extraction from imaging data. Generative adversarial networks are mainly employed for MRI and CT imaging applications.**_
  • Task type: Most research is concentrated on classification tasks, followed by segmentation and detection tasks.
  • Clinical applications: The primary fields of clinical application are tumor recognition and differentiation between disease types, followed by assessing severity, predicting treatment response, conducting survival analysis, and evaluating tumor recurrence.

3.3 数据多样性

  • 参与人数: 研究中的参与人数存在显著差异,在多数情况下参与者数量介于百人至千人之间(约在1.5万人左右),但也有一些研究覆盖了数千人甚至上万人。
    • 样本量大小: 不同的研究对样本量的设定也存在较大差异,在常规情况下样本量主要集中在一千至五千个影像样本中(约在千万级别),但也有一些研究则涵盖了数十万至上百万的影像样本。
    • 数据类型: 在数据来源方面,
      大部分研究表明倾向于采用公开获取的数据集作为基础,
      但仍有一部分文献采用了私密性较高甚至混合来源的数据集进行分析。

3.4 联邦学习实施细节

  • 联邦学习技术: 大部分研究未明确指出所采用的联邦学习技术。
    • 改写:大部分研究未详细描述其采用的联邦学习技术。
  • 聚合策略: 最多的研究尚未提及其具体的聚合策略选择。
    • 改写:大多数研究未提及其具体的聚合策略选择。
  • 设备类型: 研究中很少涉及具体设备类型的讨论。
    • 改写:设备类型一栏中很少涉及具体设备类型的讨论.
  • 隐私保护技术: 相关文献中仅有一小部分对隐私保护技术的选择进行了详细描述.
    • 改写:仅有少数研究详细描述了所采用的技术手段.

3.5 评估联邦学习范围的严谨性

  • 模型泛化能力: 大部分研究表明,联邦学习有助于提升模型泛化能力。具体而言,在整合各中心数据的基础上进行优化可进一步强化其泛化性能。
  • 预测精度: 大部分研究表明,在联邦学习框架下可显著提高预测精度。通过系统性地消除各中心间存在的数据偏差并深入挖掘复杂模式信息得以实现。
  • 数据隐私: 有限数量的研究表明,在采用差分隐私机制及加密技术的基础上可有效保障数据隐私。
  • 疾病理解: 有限数量的研究表明,在综合多源医学知识框架下利用联邦学习方法可显著提升疾病认知水平。

全部评论 (0)

还没有任何评论哟~