【论文阅读】Integrating single-cell multi-omics data through self-supervised clustering

论文地址:Integrating single-cell multi-omics data through self-supervised clustering - ScienceDirect
代码地址:https://github.com/biomed-AI/scFPN
摘要
单细胞测序技术的进步使得个体细胞能够同时在多种组学层面进行测序 ,例如转录组学、表观基因组学和蛋白质组学。整合多组学单细胞数据提供了一种更深入、更全面的基因组机制视角。然而,由于不同组学之间的分布差异巨大,现有的整合方法大多通过领域适配或类似策略对组学进行对齐。这些方法的性能有限,可能是因为不同组学之间差异过大。在此,作者提出了一种新颖的单细胞多模态融合方法——scFPN ,通过聚类策略来优化嵌入表示。
具体而言,scFPN 首先通过模态特定的变分自编码器(VAE)和特征金字塔网络(FPN)对每种组学数据进行嵌入学习。随后,学习到的分层嵌入被融合,并输入到一个双重自监督优化模块中,用于吸引相似细胞、分离不同细胞。作者在六个来自不同测序平台的最新数据集上进行了全面实验,结果表明,scFPN 在多种先进方法中表现出优越性。更重要的是,通过对去噪和原始数据的补全分析,scFPN 在标记物富集分析中展示了生物学上的可解释性。
引言
单细胞测序技术的最新进展使得多组学/模态数据(如转录组学、表观基因组学和蛋白质组学)的单细胞分辨率测序成为可能 [1]。单细胞组学数据在揭示诸如免疫细胞特征和细胞命运决定等领域的关键洞见中起到了重要作用,这些领域若仅通过单一模态数据分析可能仍难以揭示 [2]。因此,整合模态数据成为单细胞数据分析过程中最关键的任务之一。然而,由于不同模态之间的分布差异,这项任务仍然充满挑战 [3]。例如,单细胞 ATAC 测序(scATAC-Seq)与单细胞 RNA 测序(scRNA-Seq)之间的配对组学数据存在差异:scATAC-Seq 是离散数据,包含数十万个开放染色质区域;而 scRNA-Seq 是连续数据,涉及数千个基因。这些问题阻碍了数据整合及其在诸如细胞聚类等下游分析中的应用。
为了解决这一问题,多种分析方法被设计用于整合单细胞模态数据。例如,统计学方法 [4-6] 通过在低维空间对潜在结构进行对齐来实现模态数据整合。例如,LIGER [6] 使用整合非负矩阵分解来学习低维空间并构建共享的因子邻域图以实现联合聚类;类似地,scAI [5] 通过统一的矩阵分解模型迭代分组表观基因组数据,以解决单细胞表观基因组稀疏性问题;MOFA+ [4] 采用计算效率高的变分推断来重构低维数据表示。然而,这些基于广义线性模型的方法由于无法有效捕获单细胞数据中的复杂结构而受到限制。最近,一种基于机器学习的方法 Seurat 先将染色质可及性转换为转录组,然后通过加权最近邻(WNN)和监督主成分分析(sPCA)执行多模态整合 [7]。尽管这些基于统计或机器学习的方法在许多情况下取得了成功,但它们在对齐模态数据之前执行线性降维,未能捕获单细胞数据中固有的复杂非线性关系。
近年来,深度生成模型在整合模态数据方面的应用日益受到关注,能够有效建模高维单细胞测序数据。其中一个强大的模型是表现力强的变分自编码器(VAE) [8],它由一对神经网络组成:一个将数据编码到潜在空间,另一个对其进行解码以重构数据分布。例如,Cobolt [9] 使用对称多模态 VAE 模型和专家乘积(PoE)[10] 来整合单细胞模态数据集;scMVAE [11] 进一步探讨了三种联合学习策略以融合模态嵌入;scMM [12] 通过专家混合(MoE)[13] 改进模态数据融合方式;scMVP [14] 引入了非对称深度生成模型,有效处理联合测序协议中常见的更高稀疏性;MultiVI [15] 提出了一个从潜在表示生成的概率框架,可以学习配对和非配对数据的联合表示;StabMap [16] 则通过利用非重叠特征改进了映射过程,推断共享特征的拼接数据拓扑,并通过最短路径将所有细胞投影到参考坐标;MIDAS [17] 是一个通过自监督模态对齐和潜在解耦实现维度降维、数据补全和批次效应校正的深度概率框架。然而,上述方法通常只在最终瓶颈空间对模态数据进行对齐,而未考虑不同模态分层嵌入之间的交互。
事实上,每种模态数据的分层特征可以通过特征金字塔网络(FPN)[18] 实现交互。FPN 使用自上而下的架构和横向连接,在多个尺度上构建高层语义特征图。该设计作为通用特征提取器在多种应用中表现出色。受 FPN 模型的启发,作者提出了一种单细胞多模态融合方法 scFPN ,通过开发特征金字塔网络高效整合分层特征以学习联合表示。scFPN 首先通过模态特定的变分自编码器(VAE)对每种模态数据进行嵌入。然后,scFPN 高效地融合每个网络层的跨组学分层特征,并通过特征金字塔网络形成联合表示。为进一步优化联合表示,作者引入了一个双重自监督优化模块(SOM)[19],用于吸引相似细胞并分离不同细胞。最终,变分自编码器和 SOM 模块同时进行优化。
作者在六个来自不同测序平台的最新数据集上进行了全面实验,结果证明 scFPN 优于多种先进方法。此外,通过对原始数据的去噪和补全分析,scFPN 在标记物富集分析中表现出生物学可解释性。
模型
scRNA-seq 数据(𝑅𝑐×𝑔)提供了细胞基因表达水平的信息,而 scATAC-seq 数据(𝑅𝑐×𝑝)提供了染色质可及性的信息。将这两类数据整合,可以获得更全面和精确的细胞表示(𝑅𝑐×𝑧),从而克服单一数据类型的局限性。这种整合表示不仅提高了聚类和可视化的准确性,还有助于识别和解释细胞群体中潜在的结构和动态变化。
scFPN 是一种深度嵌入模型,用于单细胞多模态数据的无监督整合。它具有以下两个主要创新点:
- 采用了最初用于目标检测的特征金字塔网络(FPN),用于高效融合多尺度嵌入。这种设计可以避免以往研究中仅使用单一尺度嵌入所导致的不准确问题。据我们所知,这是首次尝试在单细胞测序分析中进行多尺度特征融合。
- scFPN 将融合的表示学习与自监督聚类优化相结合,从而更好地学习嵌入,将相似的细胞聚拢在一起。
具体而言,如图 1 所示,scFPN 在预训练阶段通过独立的 VAE 对每种单细胞模态数据进行建模。编码过程中,每种模态的每层特征会通过层次金字塔网络进一步融合。融合的表示随后通过双重自监督优化模块进行优化,从而实现更高效的训练和更准确的整合结果。

模态数据的 VAE 建模
对于每个细胞,观察到的单细胞数据的 k 个模态可以表示为:
xc={xc1,xc2,…,xck}
其中,每个模态的维度 d1,…,dk对应于该模态的特征数量。对于每个单细胞模态向量 xci (i∈[1,k]),通过模态特定变分自编码器(VAE)的独立编码器 Ei,学习其潜在表示 zci。具体而言,对于模态 i,VAE 编码器在第 l 层的输出 Hi(l) 计算如下:

其中,fEi是激活函数,Wi(l)和 bi(l) 分别为权重矩阵和偏置参数。
编码器的最终潜在表示 zci可通过以下公式获得:
通过各模态的编码器,可以得到所有单细胞模态的潜在表示:
{zc1,zc2,…,zck}
为了学习所有单细胞模态的联合表示,将各模态的潜在表示连接为:
zc=concatenation(zc1,zc2,…,zck)
联合潜在表示 zc随后被用于通过各自的 VAE 解码器重建每个单细胞模态的输入数据。具体来说,模态 i 的单细胞数据的重建为:

其中,fDi是模态 i 的解码器模块,由多层感知器(MLP)组成。
接下来,通过最大化观察到的单细胞模态数据(xci)的对数似然,训练每个模态特定的 VAE:
随后,损失函数被重写为证据下界(ELBO),进一步分解为两个部分:

其中,第一个项是重建项 ,用于最小化生成输出数据 x^ci与原始输入数据 xci之间的距离:
- 对于 scATAC-seq 数据,计算 x^ci和 xci 的二元交叉熵。
- 对于 scRNA-seq 数据,计算 x^ci和 xci的均方误差。
第二个项是正则化项 ,最小化后验分布 N(μ,σ2)与先验分布 N(0,1)在潜在表示 zci上的 Kullback–Leibler 散度 ,用于衡量两种概率分布的差异。
分层特征金字塔网络
在对每种模态的每个VAE进行预训练后,设计了一个特征金字塔网络(Feature Pyramid Network,FPN)以整合单细胞模态数据的分层特征。FPN模块采用多层感知机(MLP)。具体来说,在编码过程中,将不同模态的对应层特征进行拼接,并通过FPN学习融合表示。FPN第 l 层的输出 F(l) 计算如下:

其中,ϕ是激活函数,Hk(l+1) 表示模态 xk在第 l+1 层的特征。术语 F(l−1)指代 FPN 在第 l−1层的特征,而 W(l)和 b(l)分别表示权重矩阵和偏置参数。由于原始输入特征的数量在模态之间有所不同,从第二层开始融合异质特征。因此,F(0)=concatenation(H1(1),…,Hk(1))。
双重自监督优化模块
由于 FPN 模块的跨模态表示学习缺乏标签指导,在训练过程中难以获得优化反馈。为此,引入了双重自监督优化算法(Dual Self-Supervision Optimization Algorithm),将潜在嵌入输入到自监督优化模块(Self-Supervision Optimizing Module,SOM)中【19–21】。其目标函数基于 Kullback–Leibler 散度(DKL),公式如下:

其中,qcj表示将细胞 c 分配到簇 j 的概率。该分配概率通过细胞 c 的嵌入 hc和簇中心嵌入 uj 之间的相似性,利用 Student 的 t-分布来量化,如下所示:


由于目标分布 P 是基于 Q 形成的,因此 Q 中嵌入的学习是自优化的,旨在使其更接近目标分布 P。
最后,通过以下组合损失函数对方法进行优化:

其中,λ 和 β 是控制总损失函数平衡的超参数。在本研究中对所有数据集均设置 λ=β=1。完成 scFPN 训练后,从 FPN 模块获得的融合表示将用于聚类和可视化。
实验


这篇论文的思路和模型结构都不复杂,实验还是挺丰富的,下一篇再分享。。。
