Advertisement

【论文阅读】实验分析:Integrating single-cell multi-omics data through self-supervised clustering

阅读量:

Combining single-cell multi-omics datasets via a self-supervised clustering approach on ScienceDirect

代码地址:https://github.com/biomed-AI/scFPN


论文阅读

论文阅读

论文阅读

论文阅读

中已经介绍了scFPN模型,这里学习一下论文的实验写法。


数据来源与预处理

14, 23

14, 23

为了实验验证 scFPN 的有效性,在文献【14, 23

24

24

24

25

25

25

基线方法与评价指标

27

27

主要涉及四个关键评估标准:聚类精度(Clustering Precision, CP)、归一化互信息(Normalized Mutual Information, NMI)、调整兰德指数(Adjusted Rand Index, ARI)以及福尔克斯–马洛斯指数(Fowlkes–Mallows Index, FMI)。

CA 计算的是正确分类实例的比例这一指标衡量的是正确分类比例但它也可能受类别不平衡的影响而 NMI 则通过量化聚类结果与真实标签之间的共享信息并对簇大小进行归一化处理来评估性能

将本文所提出的 scFPN 方法与现有的两种主要类型进行对比分析,并具体探讨其在以下几种不同模型中的应用表现:首先是传统生成模型(如 SeuratMOFA+ ),其次是基于深度学习的多模态生成框架(包含但不限于 MultiVIscMMCoboltscVIscMVP)。

实验设置

在本研究中开发了一种基于 scATACscRNA 的编码器网络架构。各层维度依次设计为:输入层 - 128 - 64 - 32;而全连接解码器模块与编码器结构对称配置;特征金字塔网络则按照层次设置为:256 - 128 - 64。

算法包含两个主要环节:前期训练与后续训练环节。其中前期训练环节设定迭代次数为一百次,在后续训练环节则设定迭代次数为五十次。优化器由Adam算法控制实现,并采用学习率值为1×10^−3的方式进行参数更新;此外所提出的基线方法遵循其原始文献中的具体设定以确保实验结果的一致性与可靠性

每种方法的聚类结果均通过Louvain算法获取,并基于各方法生成的嵌入对细胞类型进行分类及分析,默认参数设置用于计算

最后,在实验环境中运行的是 Ubuntu Linux发行版18.04.7 LTS 搭载有 Intel® Core (TM) i7-8700K CPU @ 3.70 GHz 处理器,并配备256GB内存配置及GeForce RTX 3090图形处理器。

聚类性能

比较 scFPN 与其他七种主流多组学整合技术在性能上的差异。研究结果表明,在匹配的 scRNA-seqscATAC-seq 数据集中,** scFPN **在性能上表现出明显优势

考虑到现有的配对单细胞实验样本数量有限,本研究选择了六个具有代表性的开源配对实验样本集合

这些实验样本集合由多个测序平台共同生成(见表 1)

该研究的数据包括两个不同细胞系混合形成的胞内环境样本,以及来自人类和小鼠的真实生物样本

为了保证测试公正性,研究采用了这些样本中人工标记的具体细胞类型作为参考标准

通过 ARINMICAFMI 四个指标对性能进行评估。

首先,在两个配对细胞系数据集以及四个配对的 scRNA-seqscATAC-seq 数据集上评估了该方法的性能表现。图 2 和表 A.2 显示,scFPN 的平均 ARI 值为 0.7102, 比排名第二的 **scVI(ARIs=0.6114)高约9.88%, 比第三名的 **scMVP(ARIs=0.6046)高10.56%。在 NMI 指标方面,**scFPN 的平均值为 0.7621, 分别比 scMVP(NMI=0.7328)高4.0%, 比 scVI(NMI=0.73)高4.4%。此外,**scFPN 的平均 CA 值为 0.7843,FMI 平均值为 0.7611, 分别比 scVI(CA=0.6965,FMI=)**提高约8.78%和9.48%

30

值得注意的是,在现有对比研究的基础上,在处理具有高度异质性的小型数据集(如混合细胞数据)时,基于概率论的多模型集成方法(例如 scVI 和 scMVP)能够展现出较好的效果。然而,在面对大规模真实细胞谱图数据时,则受到批次效应以及系统性和非系统性噪声的影响【30

基于新 Paired-tag 数据集(RNA + H³K⁴me³),我们进行了实证分析以验证 scFPN 的广泛适用性

随后

研究者对所述方法在内存占用效率和扩展性方面的性能表现进行了系统性考察,并基于GEO数据集GSE194122的数据,在测试样本量从1千至6万的情况下进行了详细评估。

如图A-2所示,在处理一批细胞时(例如1000个细胞),scFPN 的内存效率表现优异:其在处理这批细胞时的平均基因表达量为455,969条/秒,并且能够有效减少计算资源的需求(仅为约45%)。值得注意的是,在扩展至6万细胞时其内存需求达到17.8 GB与较高效的其他方法(如Cobalt和scVI)相当。值得注意的是,在扩展至6万细胞时其内存需求达到17.8 GB与较高效的其他方法(如Cobalt和scVI)相当。同样地,在资源受限的环境中运行效果依然出色:在低配置条件下其性能仍能稳定工作并完成所需任务。研究表明,在资源受限的情况下运行效果依然良好

消融实验

scFPN主要基于网络每一层采用金字塔式架构进行多模数据整合,在每层中融合来自不同领域的数据信息,并通过双自监督学习机制进一步优化模型性能。为了验证各子模块的重要性及其对整体性能的贡献, 通过设计相应的消融实验来评估各组件的作用效果(见图 1 和图 B.1)。

当采用专家乘积(PoE)方案取代两种模态之间的连接操作时(其中PoE是一种典型的多视图整合策略),观察到在ARIs与NMI两个指标上性能平均分别降低了4.52%与3.64%(其中CA指标下降幅度为3.67%,FMI指标下降幅度为3.76%)。这通过对比实验结果表明,在最大化互信息以实现数据对齐的同时相比仅依赖于嵌入连接操作的方法具有明显优势

同样地,在仅移除双自监督优化模块(scFPN-SOM)的情况下

另一方面,在替换了特征金字塔框架(scFPN-FPN)之后使用简单的多层感知器层时,在整体性能上也出现了下降趋势;具体而言,在AR值上下降幅度约为3%,NMI值下降幅度约为1.2%;同时CA指标下降约达2.2%,FMI指标同样出现大约2.25%的降幅。这一结果表明,在生物语义信息的保留方面,类残差金字塔架构优于单纯密集连接结构。

采用调整损失函数(公式 (13))中各组成部分权重的方法来考察对其模型性能的影响。如图A.3所示的结果分析显示,在微调各个损失组件权重时, 该方法表现出较小的性能波动。然而, 在移除任何一个单独损失函数的情况下, 则会导致整体性能明显下降, 这一现象充分验证了我们所提出的方案对于不同损失函数权重的变化表现出较强的鲁棒性特征, 各个子模块均能对其整体系统性能产生显著影响

作者还考察了不同基因型及 ATAC 特征数目对 scFPN 性能的影响。如图A.4所示,在不同组合条件下scFPN的表现具有显著差异性。随着基因型及ATAC特征数目增多能够显著提升聚类效果但当基因为数与ATAC特征数超过某一阈值时继续增加反而会降低边际收益。基于ARI和NMI指标计算得出的最佳聚类效果出现在基因为数为2 × 1e3、ATAC特征数目为2 × 1e4时该参数设置与默认设置(基因为数2 × 1e3、ATAC特征数目1e4)接近程度较高这也说明,在选择合适的基因为数与ATAC特征数目上取得平衡对于获得理想聚类效果至关重要

为了检验scFPN的鲁棒性之外还进行了超参数敏感性分析如图A.5所示结果显示在合理的参数范围内该方法对超参数值表现出良好的稳定性

scFPN 的潜在嵌入流形展现细胞类型的潜在区分

作者系统性研究了 scFPN 的嵌入流形在潜在空间中的特征表现。通过 UMAP 方法提取 scFPN 不同子网络的潜在嵌入表示,并对原始单细胞 RNA-seq、ATAC-seq 数据、各模态压缩嵌入空间以及整合后的联合潜在表示进行了聚类性能对比分析。在 PBMC 10K-1 细胞谱系数据集上进行实验时,在使用 scRNA-seq 和 scATAC-seq 编码器时分别获得了 ARI 值提升达 40.56% 和 33.01%(如图 3(A)所示)。

在此基础上,通过构建由两种模态潜在嵌入空间构成的联合流形,该方法充分挖掘了两种生物语义信息间的关联性,并通过评估指标A RI和N MI量化验证,发现所提出的方法较单一嵌入方式在性能上实现了显著提升:具体而言,在scRNA-omics数据集上的A RI值从原来的0.3039显著提升至现在的0.7243;而在scATAC-omics数据集上的N MI值同样实现了从原来的1.5881到现在的1.9542的跃升幅度;此外,在其他测试数据集上也呈现出类似的性能优势(如图A.6所示)。

在此基础上

如图所示,在数据GSE194122中, MultiVI的潜在空间错误地将自然杀伤细胞(NK细胞)与其前驱淋巴细胞(ILCs)归为同一组, 同样地, 在scMM中也存在这一问题。相比之下, 在scMVP之外, 其对CD4+/8+细胞性质群体的空间分布更为紧凑且层次分明, 这一特点有助于揭示了从原始T细胞向终末分化T细胞演进的过程。在Ma等人的研究范围内, scMM则将造血干细胞与表皮衍生干细胞混为一谈, 而其他三种方法(包括scFPN)的表现较为均衡

scFPN 通过跨模态插补促进特征模式富集

37

39

39

39

研究发现PBMC 10K-1 条件下的scRNA-seq数据中,“LILRA4 在插补处理后的 scFPN 数据中富集于浆细胞样树突状细胞(pDC)区域”。作为关键标记基因,在抗原呈递过程中发挥核心作用,并在其特异性表达水平显著,在图4A中可观察到明显的高表达区域【39

联合优化后,LILRA4 的 Moran's I 从插补前的 0.1736 提升到 0.2448。

40

40

40

40



该系统基于跨模态插值方法增强了特征表达的完整性,在实现研究目标的过程中仍需依赖于生物信息学基础来支撑其分析框架。

全部评论 (0)

还没有任何评论哟~