Advertisement

论文阅读:Multi-omics single-cell data integration and regulatory inference with graph-linked embedding

阅读量:

Cao, Z., Gao, G. The integration of multi-omic single-cell datasets and the application of graph-linked embedding methods for regulatory network inference appeared in Nat. Biotechnol., volume 40, pages 1458–1466 (2022).

研究资料的链接:https://doi.org/10.1038/s41587-022-01284-4

代码地址:GitHub - gao-lab/GLUE: Graph-linked unified embedding for single-cell multi-omics data integration


多组-omics单细胞数据集集成与图连接嵌入结合的调控推断研究基于图神经网络架构的调控机制探索


该资源库提供了一个高效的解决方案。在实验过程中,我们观察到系统响应时间显著下降。研究的核心目标是通过优化算法提升数据处理效率。该方法不仅简化了操作流程,还提高了系统的稳定性。通过引入新的评估指标,我们能够更准确地衡量系统性能。这项研究的创新点在于其独特的算法设计和广泛的适用性。

尽管当前多组学单细胞测量方法的发展使得对单细胞样本进行多种组学特征同步采集变得可行,但实际应用场景中,现有的单细胞测序数据大多只涉及单一组学层面。在多模态组学数据分析中存在一个显著的挑战:不同分析层次(如基因、蛋白质等)往往呈现出各自独特的表征维度。为了克服这一限制并实现更全面的数据整合,我们提出了一种名为GLUE(图连接统一嵌入)的计算框架。该框架通过系统性地建模跨组学层之间的调控关系,显著提升了异质单细胞多组学数据整合的效果。在一系列具有代表性的测试任务中,包括三重组学集成、调控推断联合分析以及基于百万单细胞的多组学人类细胞图谱构建等复杂场景下,GLUE展现出超越现有最先进的数据整合工具的优势:不仅准确率和稳健性更高,而且计算效率得到显著提升。通过将GLUE技术应用于这些前沿研究领域,我们成功实现了对已有注释数据的有效纠正与优化。此外,该框架还具备高度的模块化设计特点,在应对新类型的数据分析任务时展现出极强的灵活性和可扩展性。

引言

单细胞测序技术的显著发展使得该类分析方法得以实现,其通过多组学层(包括染色质可及性(scATAC-seq)、DNA甲基化(snmC-seq、sci-MET)和转录组(scRNA-seq)等手段),为揭示不同细胞类型功能的潜在调控基础提供了独特的机会。值得注意的是,尽管最近出现了一些多组学整合技术,但现有方法通常将各组学数据独立分析,这导致了未配对的数据集,因此需要开发高效且精确的计算工具来整合这些多组学数据。

在整合非配对多组学数据(亦称对角整合)时,计算的主要挑战是不同模态间的特征空间差异 (例如,在scATAC-seq中可及的染色质区域与scRNA-seq中的基因表达)。一种高效途径是借助先验知识将多模态数据映射到一个共同的特征空间,并运用单组学整合方法。尽管这种显式的“特征映射”方法操作简便,但也已被证实会带来信息损失。基于耦合矩阵分解算法可规避显式转换,但其在处理超过两个组学层面时存在局限性。此外,通过非线性流形对齐匹配来自不同组学层面的细胞群的方法理论上可以消除对先验知识的需求,并减少跨模态的信息损失;然而,这种技术主要应用于具有有限种类细胞的小型数据集。

数据量的持续增长构成一项重要挑战。新开发的技术通常会生成百万细胞规模的数据集,而当前的整合方法主要受限于所处理数据量较小的情况。为了有效处理日益增加的数据流量,计算整合方法需要在设计阶段考虑可扩展性因素。

在GLUE框架中,我们实现了跨组学调控关系的系统建模和整合分析功能。通过将调控网络嵌入到图结构中进行学习,GLUE能够有效捕捉并解释复杂系统的动态调控机制。基于系统评估指标和实际应用案例,该方法展现出显著的性能优势:在处理异质单细胞多组学数据时,不仅实现了准确性和稳定性,还具有良好的扩展性。进一步说明,GLUE设计为可推广的框架,允许以模块化的方式轻松扩展并快速适应特定场景。

借助图表指导嵌入学习以实现未匹配的多组数据整合

基于前人研究发现,我们采用了变分自编码器来建模低维细胞嵌入。考虑到各组学层具有不同的生物学特性以及实验技术的固有差异,我们对每一个组学层都进行了单独配置,并采用与该层特征空间匹配的概率生成模型(见图1和方法部分)。

我们建议采用一种基于先验生物学知识的引导图(“调控关系图”)来系统性地构建模型框架,以关联不同数据类型的特征表达。该图通过符号标记的边关系建立调控网络,其中顶点代表基因和可及染色质区域,而边则指示可能的转录调控方向。具体而言,在整合scRNA-seq与scATAC-seq数据时,可以通过符号标记的边关系建立调控网络,其中顶点代表基因和可及染色质区域(即ATAC峰),正向或负向边可以分别连接可及区域与其可能的下游/上游基因。在此图的基础上,采用基于图嵌入的自洽性增强机制,通过对抗多模态对齐作为迭代优化过程,最终实现数据驱动调控关系的准确推断(详细内容请参考下文)。

经该系统进行的系统性基准测试验证,其性能表现优异。

我们首先构建了三种基于SNARE-seq、SHARE-seq和10X Multiome 的金标准数据集,同时对两个未配对的数据集(Nephron和MOp)进行了评估。与现有方法相比,GLUE实现了更高的生物学保留度以及更优的组学混合效果(如图2a所示),在所有测试基准集中均表现出最佳性能;这些结果通过一致性的流形近似技术和UMAP投影分析得到了多细胞嵌入体的可视化验证

一个理想的整合方法不仅应在细胞类型的配对上实现精准对齐,在更细致层面也需要满足这一需求。基于真实配对关系的数据集,我们通过FOSCTTM(较真值更接近的样本比例)指标量化了单细胞配准误差,并验证了该方法的优势。在三个测试数据集中,GLUE均表现出最佳的性能表现,显著优于其他对比方法:相对于第二名方案,在图2c中SNARE-seq数据集误差减少了3.6倍,在SHARE-seq和10X Multiome数据集中分别降低了1.7倍和1.5倍。

在上述评估过程中,我们基于ATAC峰值与RNA基因在基因体或近端启动子区域重叠时进行关联的标准方案构建GLUE引导图,并将其应用到其他特征转换方法中。鉴于调控相互作用相关知识尚不完善,一种有效整合方法必须具备抗干扰能力以确保稳定性能。为了验证此方法的鲁棒性,我们对其在调控相互作用随机替换现有相互作用一定比例及完全不存在相互作用情况下的稳健性进行了进一步评估。结果显示,在所分析数据集中的所有三个指标下,即使当系统遭受高达90%的扰乱时,GLUE仍展现出了最小的性能变化幅度,这充分体现了其卓越的鲁棒性特征。

考虑到它是基于神经网络的,GLUE在对小型数据集进行训练时可能存在不足之处。为了确保结果的可靠性,我们对不同规模的子样本数据集进行了多轮评估。当细胞数量降至约2000个时,GLUE仍然表现最佳;然而,当数据量进一步减少至不到1000个细胞时,对齐误差变得更为显著。同时,我们发现GLUE在超参数和特征选择设置的广泛范围内显示出较强的稳定性。

GLUE完成了高效的三组学整合工作

基于模块化架构以及抗性配准策略的支持下,GLUE能够较为灵活地扩展至超过两个组学层次。在一项案例研究中,我们采用GLUE对成年小鼠皮层神经细胞的三个组学层面进行了融合分析,具体包括基因表达、染色质可及性和DNA甲基化特征。

在神经细胞中,尽管存在染色质可及性的差异,但基因体DNA甲基化一般会与基因表达呈现反向关系。基于模型将引导图中的边符号进行整合,GLUE方法旨在协调调节关系,并通过简化数据处理过程来规避传统方法中所需的复杂转换。对于多组学引导图的构建而言,我们采用负面关联将基因体mCH和mCG特征与具体基因联系起来;同时,在染色质可及性节点与其他基因的连接中,保持正面关系。

在可访问区域与基因之间的关系保持不变的情况下,GLUE对齐成功揭示了三个组学层之间共享的细胞状态流形(图3a–d)。值得注意的是,原始的细胞类型并未在相同的分辨率上进行注释,且即使在单一层次中,许多细胞类型也可以进一步聚类成更小的亚型 (补充图8a–f)。为了统一细胞类型注释,使用集成的细胞嵌入进行了基于邻近的标签转移,我们观察到12种细胞类型中有14种细胞类型的标记物重叠高度显著(图3e,三向Fisher精确检验,FDR<5×10⁻¹⁷)(补充图8g–o和9及方法),表明对齐可靠。GLUE对齐有助于提高所有组学层的细胞分型效果,包括进一步将scRNA-seq的‘MGE’簇划分为Pvalb+(‘mPv’)和Sst+(‘mSst’)亚型(图3和补充图8中绿色圆圈/流动标注),将scRNA-seq的‘CGE’簇和scATAC-seq的‘Vip’簇划分为Vip+(‘mVip’)和Ndnf+(‘mNdnf’)亚型(图3和补充图8中深蓝色圆圈/流动标注),以及将snmC-seq的‘mDL-3’细胞和部分scATAC-seq的‘L6 IT’细胞鉴定为claustrum细胞(图3和补充图8中浅蓝色圆圈/流动标注)。

该三重组学整合方法不仅揭示了不同表观遗传调控机制的定量贡献,还通过分析mCH、mCG以及染色质可访问性之间的关系,得出了具有统计学意义的研究结论。研究发现,在涉及mCH、mCG及染色质可访问性的基因表达调控中,mCH水平在预测皮层神经元基因表达方面表现出最强的影响力(平均R²=0.187)。当将表观遗传效应综合考虑时,预测能力进一步提升至0.236,这表明各表观遗传机制之间存在非冗余贡献(图3f)。通过分层次分析不同神经元群体的表现特征,在DNA甲基化水平中,尤其是mCH在更深层基因的表达调控中具有更强的可预测性。相比之下,mCH在浅层基因中的表现稍逊一筹(补充图10a)。综合所有基因层面进行考察时,各表观遗传机制对基因表达预测力的整体呈现正相关趋势(补充图10b),但这种关联性因基因特征的不同而有所差异。例如,在较长基因中,mCH所展现的预测能力更高,这一发现与已有研究结果一致;而在涉及染色质可访问性的分析中,则显示出该因素在表达变异性较大的基因方面具有更强的解释力(补充图10c)。通过在线iNMF方法重复验证了上述分析结论,这种方法目前是唯一能够实现三组学数据整合的有效手段。然而,与之相比,其细胞类型分辨率和表观遗传相关性均低于其他现有方法(补充图11)。

基于GLUE的方法,我们实现了整合性调控预测。

在GLUE框架下,通过显式建模的调控交互图进一步实现了类似于贝叶斯方法的技术。该方法利用先验知识与观测数据进行后验调控推理过程。具体而言,在该方法中,特征嵌入模块被设计用于同时恢复基于知识导向的引导图与单细胞多组学数据结构。余弦相似度指标能够整合来自两个不同来源的信息,并据此计算出一个综合评价得分,即调控评价值。

为了举例说明,我们采用了10X官方提供的外周血单核细胞多组学数据集,并将其整合至GLUE平台作为未配对的scRNA-seq和scATAC-seq数据进行分析。通过构建长程引导图,我们将ATAC-seq高通量区域与转录组数据中的基因关联起来,并采用基于染色质接触概率幂律函数的加权方法(方法)。通过可视化分析,我们验证了GLUE在多组学数据整合中的准确性和可靠性(见补充图表12a和12b)。如预所见,在配对分析中,调控评分与基因组间的负相关关系显著(图4a),同时表现出与经验峰-基因高度相关的特征(图4b)。此外,在不同随机种子的多次运行测试中,我们观察到GLUE结果的一致性和稳定性(补充图表12c)。

为了深入探讨该评分机制在顺式调控中的实际作用及其与实验数据的吻合性,我们采用了多组独立验证策略。通过与其他实验数据的对比,包括基于染色体互交图谱(pcHi-C)和基因定位效应标记(eQTL),GLUE调控评分表现出显著优势:其在预测pcHi-C支持的峰–基因对方面具明显优势(图4a),且在预测与经验峰值-基因相关性匹配度上超越了LASSO方法,同时优于基于共存可访问性的Cicero算法(图4b和补充图12d)。对于eQTL数据集也是如此支持,其表现同样优异(补充图12e–h)。

GLUE框架还允许通过引导图直观地纳入其他调控证据,例如pcHi-C。因此,我们进一步训练了包含距离加权交互以及pcHi-C和eQTL支持交互的复合引导图模型(补充图13)。通过将其与从随机打乱的特征嵌入中获得的NULL分布进行比较来评估调控评分的显著性(方法)。如预期的那样,尽管多组学对齐对引导图的变化不敏感,但推断的调控交互对pcHi-C和eQTL的富集表现更强(补充图13a–d)。高置信度的交互中同时受pcHi-C、eQTL和相关性支持的大部分可以稳定地被恢复(FDR<0.05),即使在引导图中受干扰(补充图13e)。此外,GLUE推导的转录因子(TF)–靶基因网络(方法)与TRRUST v2数据库中手动整理的连接相比表现出更显著的一致性,优于单独基于证据的网络(补充图13f、补充图14和补充数据2)。

我们发现GLUE推导出顺式调控的交互模式,为阐明已知TF–靶对的调控机制提供了关键线索。研究显示SPI1是NCF2基因的重要调控因子,在单核细胞中表现出显著的高表达水平(如图15a和b所示)。通过GLUE分析我们鉴定出三个远程调控区域,分别位于转录起始位点下游约120kb、25kb及上游20kb的位置(图4d),这些区域全部与SPI1结合。值得注意的是,大多数推导出的调控关系尚不明确,例如CD83分子与特定调控区域相关联,在TSS附近分别位于约25kb和10kb处(图4e)。此外,CD83在单核细胞和B淋巴细胞中均表现出高度表达特征,但其推导出的调节因子显示更为特化的表达模式(如补充图15c至f所示),这表明不同类型的免疫细胞可能对其调控机制存在差异。通过补充图16我们进一步展示了其他GLUE推导出的相关调控关系。

GLUE完成了对数百万细胞的图谱级整合

由于技术的持续进步,单细胞实验的数据流量不断攀升。近期研究已构建出包含数百万个细胞的人类细胞图谱数据库,并将其应用于基因表达分析和染色质通路的研究。然而,鉴于实验数据规模庞大、样本间高度异质且单细胞覆盖范围有限,此外不同类型的细胞在数据库中的分布不均衡导致对其整合分析提出了极高的计算挑战。这些图谱的综合处理尚未达到单细胞水平的有效实现。

GLUE基于批处理优化技术实现的神经网络架构展现出显著的时间复杂度优势,在图谱级应用领域展现出广阔的应用前景(补充图17a)。通过该文所提出的多层次训练体系,我们成功构建了整合基因表达和染色质可及性数据的一体化人类多组学细胞图谱(图5)。

尽管整合后的图谱在很大程度上保留了原有标注的一致性(补充图17c–e),但我们也发现了若干差异。例如,在scATAC-seq中原本被标记为“星形胶质细胞”的细胞在转录组分析中被归类到“兴奋性神经元”簇,这一现象在补充图17中以粉色圆圈和箭头方向加以标注(该簇的基因表达特征包括PAX6、HES1和HOPX等经典标记基因在ATAC区域呈高度转录水平)。进一步分析发现,在神经元与胶质细胞重合标记及染色质激活区域,该簇表现出明显的多能性特征(补充图18-19),这提示其可能由放射状胶质细胞的多能祖细胞演化而来。基于GLUE整合方法所得到的结果表明,scATAC-seq中的模糊注释问题得到了显著改善。例如,“星形胶质细胞/少突胶质细胞”这一群体被成功拆分为两个独立单元(分别对应于补充图17中蓝色和棕色圆圈标记的区域),并被明确归位到scRNA-seq中的“星形胶质细胞”及“少突胶质细胞”特定簇。这些发现不仅验证了整合方法的有效性,也为后续研究提供了可靠的参考依据,特别是在跨模式分类任务中,通过整合批次校正后的图谱资源可以实现更高的准确性(补充图20-21)。整体而言,该研究展示了基于GLUE的多组学整合在保留单细胞分辨率的同时,能够以系统化、数据驱动的方式实现多模态细胞类型的鉴定。

为了比较,我们采用了在线iNMF方法进行整合操作。值得注意的是,这种方法是唯一能够在全规模数据中实现整合的其它方法之一;然而结果显示这些方法的效果仍显不足(补充图22a、b及图23)。同时,我们还尝试通过Seurat v3将数据作为聚合元细胞导入分析,但同样未能取得理想结果(补充图22c和d)。

探讨

资源的高效利用与优化配置在现代工业生产中具有不可替代的作用。

本节将着重探讨如何通过科学的设计方案与合理化的管理策略达到资源最大化利用及生产效率提升的目的。在现有技术路径中深入挖掘改进潜力,并借助数据分析方法实现精准优化。

在本研究中,我们整合运用了具备组学特异性的自编码器、基于图论的方法以及对抗性数据对齐技术。通过模型架构设计中特意考虑的各组学层面间的影响关系,在本研究构建了一个名为GLUE的新框架,专门针对无配对的单细胞多组学数据分析场景,并显著地提高了分析精度和稳定性。在模型架构设计中,我们特意考虑了各组学层面间的影响关系,在模型架构设计中,我们特意考虑了各组学层面间的影响关系,在模型架构设计中,我们特意考虑了各组学层面间的影响关系。该框架特别能够处理这类复杂的数据集成问题,并且在数据量不断扩展的情况下保持良好的预测效果。值得注意的是,在贝叶斯统计视角下,GLUE所进行的调控预测结果可以被视作一种基于已有数据的后验估计。通过持续引入新的观测样本信息,系统的预测精度会不断提升。

从概念上讲,尽管无配对多组学整合与批次效应校正存在一定相似性,但前者在挑战性程度上有显著提升,这是因为其涉及的特征空间具有特殊性和多样性。虽然特征转换看似提供了一种直接的解决方案,但不可避免的信息损失可能带来负面影响。Seurat v3和bindSC等方法则采用启发式策略,在不转换数据的情况下充分利用原始特征空间中的信息,这或许解释了它们在性能上优于仅依赖信息损失的方法的原因。此外,已知的细胞类型被利用通过(半)监督学习引导整合过程,但这种方法的应用范围受到限制,因为这种监督性学习通常无法获得支持,并且在这种情况下正是多组学整合的主要目标之一。值得注意的是,其中一种方法引入了与自编码器架构和对抗性对齐相似的设计框架,但它依赖于匹配的细胞类型或簇来进行对齐操作。事实上,GLUE在概念上更接近于耦合矩阵分解方法,但其卓越的表现主要得益于基于深度生成模型的独特设计。

我们观察到,在现有架构下,整合具有共同属性的组学层次是可行的。具体而言,该框架支持结合共享特征的组学层次结构,并可采用代理顶点来模拟相同类型的节点。此外,通过协调各组学模块的信息处理单元,我们能够实现多模态信息的相互推断。值得注意的是,在整合不同领域的数据时,需要特别谨慎地评估潜在偏差的影响。鉴于近期研究显示数据推断可能引入误导性结果并影响基因调控精度,这一功能仍需进一步验证。

GLUE作为一个具有扩展性强的框架,在设计上采用了模块化架构,其数据自编码器和图自编码器均具备灵活调整的可能性。在当前研究项目中,我们对scRNA-seq和scATAC-seq采用的是负二项分布模型,而snmC-seq则使用了零膨胀对数正态分布。值得注意的是,潜在的分布参数可以根据特定需求进行重新配置,从而适应其他组学层次的数据特征,并结合最新的数据建模技术以捕捉更多元化的信息特性。

GLUE框架中的指导图主要局限于各层特征间的连接关系,在传统的图结构中,我们仅考虑了不同层级之间的调控边。然而,图作为一种直观且灵活的调控知识表示工具,不仅能够呈现复杂的调控网络结构(如同一层次内部的交互关系、非特征节点的作用以及多维关联性),还可以通过采用更先进的图神经网络架构来提取更加丰富的信息特征。特别地,在这一研究领域中,超图建模的最新进展为我们提供了新的思路和方法论工具,以便更好地整合和分析涉及多个调控因子的复杂调节机制,并据此进行精准的调控预测。

实验多组学技术的最新进展为配对数据提供了更多使用机会。然而,在现有同步多组学协议中,尽管在数据质量和吞吐量方面仍未达到单组学水平,但配对细胞在锚定不同组学层中展示了显著的潜在价值,并且可以在实际应用中合理搭配未配对样本。为了支持灵活拓展以整合配对信息,GLUE框架通过添加损失项来惩罚配对细胞嵌入距离等方式,能够轻松扩展并整合这些数据。这一改进方案或许能为未来的拼接整合研究提供新的方向。

除了传统的多组学整合方案之外,我们还观察到GLUE框架特别适合于跨物种数据的整合分析。该方法在特定条件下展现了其独特的优势:尤其是当研究对象为远缘物种,并且需要处理一对一配对的直系同源基因数量有限时。具体而言,在这种设定下,我们可以将所有直系同源基因进行编码并构建GLUE指导图,从而实现数据整合。值得注意的是,该框架的概念思路与近期提出的SAMap方法具有一定的关联性。

我们发现当前GLUE模型通过整合输入数据集实现调控关系的推断机制,这一过程可能来源于多个时空特异性回路的汇总,特别是来自不同组织的数据。除了整体整合模型之外(例如基于整个图谱的整体模型),还可以分别在单个组织细胞层次构建专门化的调控模型,并可能结合时空特性相关的背景信息进行更精细的调控推断。

我们坚信GLUE作为一个灵活高、可扩展性强的框架,为基于大规模单细胞分辨率的多组学整合提供了全新的研究视角。


对我来说,生物学领域的知识过于丰富,导致我感到诸多难以驾驭的部分

这篇论文将对模型方法进行详细阐述。

全部评论 (0)

还没有任何评论哟~