论文阅读:scDAC: deep adaptive clustering of single-cell transcriptomic data with coupled autoencoder--

代码地址:https://github.com/labomics/scDAC
动机: 单细胞RNA测序(scRNA-seq)数据的聚类分析是揭示细胞异质性的关键步骤。为了从scRNA-seq数据中发现异质性细胞类型,已有许多聚类方法被提出。然而,如何在大规模scRNA-seq数据中实现适应性聚类,并准确反映内在生物学特性的聚类数量,仍然是一个巨大的挑战。
结果: 在此,作者提出了一种单细胞深度适应性聚类(scDAC)模型,通过结合自编码器(AE)和狄利克雷过程混合模型(DPMM)。通过联合优化AE和DPMM的模型参数,scDAC能够实现具有准确聚类数量的适应性聚类 ,应用于scRNA-seq数据。作者在五个具有不同细胞类型数量的子样本数据集上验证了scDAC的性能,并将其与15种广泛使用的聚类方法在九个scRNA-seq数据集上的表现进行了比较。结果表明,scDAC能够适应性地找到准确的细胞类型或亚型数量,并优于其他方法。此外,scDAC的性能对于超参数的变化具有鲁棒性。
引言
scRNA-seq是一种在单细胞分辨率下进行转录组测序的技术(Hwang et al. 2018)。对scRNA-seq数据的分析有助于基于不同细胞的基因表达识别细胞类型,这在基因调控机制研究(Xu et al. 2016)、生物体发育过程(Guo et al. 2019)等方面发挥着重要作用。 单细胞聚类分析是识别细胞类型、揭示细胞异质性和多样性的关键步骤,也是后续分析的必要过程。
目前有许多聚类方法可以应用于scRNA-seq数据(Duo et al. 2018)。例如,k-means通过迭代更新K个聚类中心进行聚类(Hartigan and Wong 1979)。SC3通过并行获取不同参数的多个聚类结果,然后执行层次聚类来获得最终结果(Kiselev et al. 2017)。CIDR通过主坐标分析(PCoA)进行降维,并考虑掉落事件,然后进行层次聚类(Lin et al. 2017)。DBSCAN是一种基于密度的空间聚类非参数算法,广泛应用于许多场景中(Ester et al. 1996)。Louvain是一种基于图的社区检测聚类算法(Blondel et al. 2008);基于Louvain,Traag et al.(2019)提出了Leiden算法,通过添加局部优化过程,使聚类结果更加稳定。FFC是一种基于图的方法,通过迭代传播标签进行聚类(Chen et al. 2022)。
然而,以上所有算法都有一些不容忽视的局限性。**其中一个局限性是,为了处理高维度的scRNA-seq数据,这些算法将聚类过程分解为两个独立的步骤:降维和聚类。它们的性能依赖于诸如主成分分析(PCA)和统一流形近似与投影(UMAP)等降维方法(Becht et al. 2019, McInnes et al. 2020)。由于降维方法没有考虑后续的聚类过程,它们往往会丢失对聚类至关重要的信息,从而导致结果无法很好地对应生物学意义。**另一个局限性是,许多算法不适用于大规模的scRNA-seq数据,因为所需的内存通常与细胞数量呈二次方关系。随着scRNA-seq数据的迅速增长,亟需准确且可扩展的聚类方法。
为了解决这些局限性,已经提出了一些基于深度学习的聚类方法。基于AE,GLDC通过构建与样本相似性图相关的加权邻接矩阵,计算每个样本在低维表示下的聚类概率分布(Huang et al. 2023)。scDeepCluster是一种基于AE模型的深度聚类方法,并具有零膨胀负二项(ZINB)层以适应高掉落场景(Tian et al. 2019)。 但是,ZINB的强假设使得scDeepCluster缺乏灵活性,可能导致不满意的聚类结果(Svensson 2020)。scGMAI和scVAE是使用高斯混合模型的聚类方法,分别基于AE和VAE架构(Grønbech et al. 2020, Yu et al. 2021)。然而,高斯混合模型的聚类结果依赖于细胞类型数量的参数,并且随着手动指定的细胞类型数量的变化而变化,这使得很难获得最优结果。 SDCN、scCCESS和scCAN在利用AE选择相关特征后,采用经典的聚类技术(Bo et al. 2020, Tran et al. 2022, Yu et al. 2022)。 然而,由于AE的主要目标是重建原始数据,它可能无法确保提取专门优化用于聚类的特征,从而可能导致不满意的聚类结果。 scDHA将两个AE模块与k最近邻(kNN)结合(Tran et al. 2021)。由于kNN倾向于将细胞聚类为大的细胞组,它往往无法检测到稀有的细胞类型。这些深度聚类方法的共同优势是它们都可以扩展到大规模的scRNA-seq数据。然而,它们仍然存在一些局限性,例如难以实现最优结果和忽略稀有细胞类型。此外,这些方法都无法自适应地获得聚类的数量。它们需要用户手动输入聚类数,或通过遍历多个参数集并基于某种度量推断聚类数。
作为深度学习的一个重要分支,图自编码器(GAEs)近年来也被广泛应用于scRNA-seq数据的聚类分析。其中两个显著的例子是scGNN(Wang et al. 2021)和graph-sc(Ciortan and Defrance 2022),它们利用GAEs捕捉细胞之间以及细胞与基因之间的结构关系。此外,scMGCA(Yu et al. 2023)和CellVGAE(Buterez et al. 2022)分别基于图卷积自编码器和变分图自编码器架构,具有图注意力层。所有这些方法都在通过GAEs获得的低维表示上应用经典的聚类技术。然而,降维过程和聚类过程的分离往往会导致降维过程中关键信息的丢失,从而可能损害聚类结果。为了解决这一缺点,已经提出了一些 将降维过程与聚类过程结合的GAE方法 。一个这样的例子是scGAC(Cheng and Ma 2022),它基于图注意力自编码器。通过采用迭代自优化聚类方法,scGAC使降维和聚类模块相互促进,从而增强聚类结果。然而,scGAC需要用户指定细胞类型的数量。
事实上,自适应聚类数量对于聚类方法在scRNA-seq数据中发现真实异质性至关重要。在许多应用场景中,无法提前知道聚类数量。随意指定聚类数量会导致错误的聚类结果,从而导致生物学发现出现误差。对于那些通过遍历参数来获得聚类数量的聚类方法,工作量和时间成本是不可忽视的问题,尤其是在大规模数据集中。此外,这些方法要求用户具备判断参数是否最优的经验。
在此,我们提出了一种基于自编码器(AE)和狄利克雷过程混合模型(DPMM)耦合的深度自适应聚类方法——scDAC(Hinton and Salakhutdinov 2006, Antoniak 1974)。scDAC利用AE模块的可扩展性,并通过DPMM模块实现适应性聚类,且不会忽略稀有细胞类型。为了实现准确的聚类,我们通过联合优化两个模块的参数来耦合AE和DPMM,从而** 使AE的降维过程受到DPMM聚类的约束** 。我们在五个子样本数据集和九个scRNA-seq数据集上评估了scDAC的性能。结果表明,scDAC能够自适应地、准确地对scRNA-seq数据进行聚类。此外,scDAC对超参数变化具有鲁棒性。
方法
scDAC的架构
scDAC,一种用于scRNA-seq数据的深度无监督自适应聚类模型。scDAC的输入数据是包含N个细胞和G个基因的表达矩阵。输出是N个细胞的聚类标签向量。scDAC基于AE结构。对于细胞n,基因表达向量xn∈RG被输入到AE模块,以获得非线性降维结果zn∈RD。同时,通过DPMM模块的先验分布对zn施加约束。我们定义损失为AE对xn的重构误差和zn与DPMM潜在变量的负对数联合概率。在训练过程中,通过交替优化AE和DPMM的参数来最小化损失。训练完成后,我们通过DPMM模块从zn推断出每个细胞的聚类标签yn∈N+。scDAC的工作流程如图1所示。


实验

讨论
在大规模scRNA-seq数据分析中,迫切需要能够准确反映生物学意义的自适应聚类方法,这仍然是一个相当具有挑战性的问题。为了解决这个问题,我们开发了一种自适应聚类方法scDAC,通过将AE和DPMM结合并共同优化这两个模块,来处理大规模scRNA-seq数据。对子样本数据和真实scRNA-seq数据集的结果表明,scDAC能够在来自不同测序平台、物种、器官、实验条件和规模的大规模scRNA-seq数据集上实现自适应聚类,并且优于其他15种广泛使用的方法。此外,scDAC能够准确识别与生物学意义高度一致的细粒度聚类。
降维是高维scRNA-seq数据中的一个重要步骤。通常,降维是不偏向的,并且没有细胞聚类的信息。如果能够将聚类信息引入降维过程,降维后的表示将保留聚类信息,从而提高聚类性能。为此,我们采用AE进行降维,并共同优化AE和DPMM的参数,即AE的降维受到DPMM聚类的约束。通过添加这一约束,AE和DPMM相互影响:聚类基于低维表示,而表示又受到DPMM聚类模块学习的分布的影响。与将AE和DPMM模块分离的AE+DP方法相比,scDAC通过结合AE和DPMM提高了聚类算法的性能。
降维和自适应聚类的结合还可以扩展到多组学和多批次的单细胞测序数据聚类。随着单细胞测序技术的快速发展,对于多组学和多批次的自适应和精确聚类方法在不久的将来将变得迫切需要。
最近对于非参聚类很感兴趣,后续会详细的读一下模型和代码。。。
