Advertisement

论文阅读:Clustering of single-cell multi-omics data with a multimodal deep learning method

阅读量:

该研究团队于2022年在《自然·通讯》杂志上报道了采用多模态深度学习方法对单细胞多ome组数据进行聚类分析的研究

论文地址:https://doi.org/10.1038/s41467-022-35031-9

代码地址:https://github.com/xianglin226/scMDC/releases/tag/v1.0.0


目录

摘要

引言

单细胞聚类分析的现状

深度学习方法的应用

模型

讨论


摘要

单细胞多模态测序技术 旨在同时分析同一细胞中的不同模态数据。这为在单细胞水平联合分析多模态数据以识别不同的细胞类型提供了独特的机会。正确的聚类结果对于后续复杂的生物学功能研究至关重要。然而,将不同的数据源结合起来进行单细胞多模态数据的聚类分析仍然是一个统计和计算方面的挑战。在此,我们开发了一种新颖的多模态深度学习方法,scMDC,用于单细胞多组学数据的聚类分析。scMDC 是一种端到端的深度模型,能够显式表征不同的数据源,并联合学习深度嵌入的潜在特征以进行聚类分析。 广泛的模拟和真实数据实验表明,scMDC 在不同的单细胞多模态数据集上优于现有的单细胞单模态和多模态聚类方法。其线性扩展的运行时间使 scMDC 成为分析大型多模态数据集的有前景的方法。

引言

单细胞RNA测序(scRNA-Seq)能够揭示单个细胞内部的状态信息,并提供详细的数据支持。基于scRNA-Seq技术的发展,在过去几年中出现了许多新型多模态测序方法,在同一实验样本中能够整合分析不同类型的分子数据。
例如,在转录组研究领域出现了CITE-Seq(转录组联合表观遗传标记分析)技术和REAP-Seq(转录组与蛋白质互作表型分析),这两种方法已经成功实现了对mRNA表达水平以及相关蛋白质量的同步测定。
这些多模态分析方法主要基于现有的单细胞测序平台设计,并且通过抗体衍生标签(ADT)计数的方法来精确测量表面蛋白的浓度。
具体而言,在液滴中将ADT标记物与DNA条形码纳米颗粒相结合,并将其包裹于同一液滴中的单个细胞内进行捕获。
另外一种方法 REAP-Seq 则整合了 DNA 条形码抗体技术和现有的 scRNA-Seq 方法学框架。

除了探索单细胞转录组以及表观遗传蛋白的行为外,在这一领域内逐渐兴起的一项关键技术和工具是基于大肠杆菌中超活体Tn5酶驱动的小型RNA引导RNA引物辅助切片杂交与线状DNA测序(SCRNA-seq)。这项技术的关键在于利用超活体Tn5酶将未被修饰且处于打开状态的染色质区域进行标记并切割。随后通过对这些切片进行处理就能帮助我们识别出处于开放状态的部分。进而分析这些区域所涉及的关键分子机制进而分析这些区域所涉及的关键分子机制进而分析这些区域所涉及的关键分子机制进而分析这些区域所涉及的关键分子机制

就整体而言这些多模态测序技术为单细胞研究提供了复杂而全面的表征途径

此外,在进行实验时,在使用scATAC-seq测序数据的基础上能够反映出染色质通透性特征的同时也能够呈现出相互补充的关系。通过结合多种表观遗传学标记的信息我们得以实现对细胞亚纯化的高分辨率分类分析。

单细胞聚类分析的现状

在单细胞研究领域中 聚类分析被视为一种核心技术 在这一过程中 研究人员可以通过对聚类结果的深入分析 从而能够在细胞类型或亚型等层次上深入探究生物学活动的本质 与此同时 针对scRNA-seq数据这一特殊技术手段的聚类方法已逐渐得到广泛应用 尽管如此 但这些传统方法往往未能充分挖掘多模态数据的独特潜力 因此在实际应用中往往难以满足多模态数据分析的需求

近年来,在处理CITE-seq数据方面逐渐增多了一些聚类方法。这些方法中有一些已经取得了一定的效果,并且在实际应用中展现出良好的性能特征。其中采用分层贝叶斯混合模型联合建模scRNA-seq和ADT数据的BREM-SC是一种具有代表性的算法;然而它依赖于基于特定假设的数据分布形式这一前提条件限制了其适用范围;同时在处理大规模数据时计算效率较低的问题也未能得到根本解决。相比之下;Seurat V4提出的加权最近邻(WNN)算法以及Specter则通过图构建方法进行聚类;这两者在实现上都展现出更高的效率;但目前这两种算法仍存在无法完全满足scRNA-seq数据分析需求的问题

深度学习方法的应用

此外,在多模态数据分析领域中有一些研究致力于探索不同模态之间的关联性,并通过建立多模态特征之间的联系来实现更好的结果提取与知识发现目的

为了有效解决上述问题,在本研究中我们提出了一个基于深度学习的多模态单细胞聚类模型——Single Cell Multimodal Deep Clustering(scMDC) 。该模型采用多模态自动编码器架构,并特别适用于处理scRNA-seq数据中的高缺失率问题;同时引入了基于KL散度的损失函数来优化潜在特征提取过程。该模型不仅实现了对多模态数据的整合分析,并且完成了有效的聚类任务。实验结果表明,在CITE-seq和SMAGE-seq数据集上的性能优于现有方法,并且在处理大规模数据时展现出较高的效率和可靠性。

综上所述,在多模态单细胞数据分析领域中

模型

scMDC 的结构示意图展示了其独特的设计框架。该系统搭建了一个编码器模块来整合多模态数据,并在每个模态节点分别配备了两个解码器模块(如图 a所示)。该系统适用于聚类分析CITE-seq数据以及10x单细胞多组学中的ATAC与基因表达联合测序(SMAGE-seq)数据。人工叠加的噪声点用螺旋符号表示。在处理多批次数据时,scMDC系统采用条件自编码器模式运行,在此模式下一个独热编码的批次向量B(维度为b)将分别与编码器的输入特征(原始特征维度为m)和解码器的输入特征(潜在特征维度为z)建立连接关系

scMDC提取了数据潜在维度Z(z维),整合了不同模态的数据;并在Z维度上实现了深度K-means算法与KL散度损失函数;通过ACE模型识别各聚类间的特征标记(图b);随后可依据ACE所学基因排序展开通路解析(图c)。

讨论

我们开发了一种命名为 scMDC 的新框架——专为对不同单细胞多组学数据进行聚类分析而设计的多模态深度学习方法。该框架主要依赖于一个多模态自编码器来进行 mRNA 和 ADT/ATAC 数据的整合建模。在自编码器的关键瓶颈层上实施深度 K-means 聚类策略,并依靠 KL 散度损失函数来促进各细胞群体间的有效区分。scMDC 作为一个端到端式的深度学习模型,在优化过程中能够实现对其全部组件的有效同步优化

当前主流的 CITE-seq 数据聚类方法主要采用了两类不同的策略:一类是基于浅层贝叶斯模型的方法(如BREm-SC),另一类则是通过融合了mRNA与ADT两种类型的distance-based graphs(如CiteFuse与Seurat)来整合来自不同技术的数据信息。然而这些现有技术均未能显式建模 mRNA 或者 ADT 计数数据中的 drop-out events以及过离散现象。通过我们进行的实际测试发现 基于多模态深度学习的方法不仅能够更有效地识别这两种技术的关键特征差异 而且还能够提供更为精确的结果。

聚类结果在后续研究中扮演了核心角色(如差异表达分析与基因集富集分析)。我们采用了基于深度学习框架的差异表达算法,并根据分配至目标聚类的概率值对基因进行了排序。经过排序后的基因列表能够执行基因集富集分析(GSEA)技术,并从功能层面深入探讨不同细胞类型之间的关系。相较于传统统计方法(例如 Wilcoxon 检验与 DESeq2),本研究采用的深度学习驱动的方法已在 Lu 等人的研究中得到了验证。

利用 GPU 加速后,在处理大规模多组学数据集时表现出极高的效率水平。通过整合分析所得信息可知, scMDC 作为一种方法, 在分析单细胞多组学数据方面展现出 promise.


这篇是关于单细胞多组学数据聚类方法的早期研究之一。作为该领域的基础性工作之一,下一步可以系统性地实现其代码复现并进行实验结果分析。

全部评论 (0)

还没有任何评论哟~