Advertisement

10X单细胞(10X空间转录组)层次聚类分析intra-tumor variability programs

阅读量:

你好!朋友们!今天我们将深入探讨如何发现肿瘤相关基因组调控区域。参考文献《An Integrative Model of Cellular States, Plasticity, and Genetics for Glioblastoma》中的研究采用了层次聚类技术(HCT)这一有效数据挖掘工具。然而,并非所有方法都尽善尽美。

本节的第一部分中, 首先对肿瘤细胞进行分类, 然后确定非恶性细胞的类型, 并采用tSNE分析和非恶性细胞类型的识别技术

相对表达值用于对通过 tSNE 质量控制的所有细胞进行分类

三个明显的亚群与三种非恶性细胞类型的特定标记物表现出高度的共Expressivity(同样地,在识别正常细胞时依赖于这些标志物)。基于此,我们制定了针对每种细胞类型的具体基因组合,并通过计算各组平均Expressivity值来评估每个样本单元的功能状态。对于巨噬细胞群体而言其代表性的基因包括CD14 AIF1 FCER1G FCGR3A TYROBP CSF1R;而对于T淋巴ocyte群体则由CD2 CD3D CD3E CD3G所标志;少突胶质母细胞则由MBP TF PLP1 MAG MOG CLDN11等特征性基因所界定。在所有样本中只有Expressivity值高于4的标准被用于分类鉴定;而对于Expressivity值低于4的情况则不予考虑;此外我们仅进行了二次tSNE分析以进一步确认恶性样本群体的所有成员并设置主成分分析组件数量为NumPCAComponents等于30

然后是CNA分析识别恶性细胞,就是我们常用的inferCNV

基于对分析基因按染色体位置排序并应用移动平均值于相对表达值来计算的方法,CNA是指每个染色体窗口包含100个基因。我们将每种非恶性细胞类型的细胞用于定义正常核型的参考值,然后从所有细胞中扣除其平均CNA值。随后我们对每个细胞采用两个基于CNA的测量指标进行评估。“CNA信号”是具体而言是整个基因组内所有基因点位CNA值平方后的平均数,它反映了整体变化范围。“CNA相关性”则是指该特定细胞与来自相应肿瘤的所有非恶性的参考样本之间相关性程度,如果一个细胞同时满足其CNA信号数值超过0.02,并且与其所属肿瘤类型相关的CNA谱相似度超过0.4,则依据CNA分析将其归类为恶性类型(如图所示)。

接下来识别瘤内的programs

在处理过程中,在每一个肿瘤样本中,我们将细胞按照能够充分表达的所有基因进行分层聚类分析。

接下来,在谨慎地筛选的基础上留下了多个cluster用于后续分析,并特别关注那些部分重叠的cluster

通过为每个构建了一个由关键基因组成的表达特征集,并对其余所有的这些特性进行了深入分析以揭示它们在生物学上的意义。总体而言,在不同类型的肿瘤中发现的高度相似性表明,在大多数情况下(错误发现率[FDR]<0.01, 超几何测试),每个特性都与另外9个肿瘤中的大部分表现出显著重叠

具体做法

首先,我们从每个肿瘤中提取单个恶性细胞进行平均linkage层次聚类分析,并采用1 - Pearson相关系数(基于所有分析基因)作为计算集群间距离的标准。在确定无需预先设定的簇的数量以及层次树中的层级划分时,我们首先恢复所有潜在形成的集群,并通过以下标准对其进行筛选与剔除:(1)排除那些仅由单个肿瘤中的少于5个恶性细胞或超过肿瘤总恶性细胞数80%的集群。(2)对于剩余集群,在计算其优先表达基因数量时要求:每条基因在整个肿瘤内所有其他恶性细胞中的平均表达水平至少高出3倍,并且通过t检验方法得出p值需低于0.05(并应用Benjamini-Hochberg校正法控制假阳性率)。随后我们分别统计调整后p值低于0.05(标记为Nsig1)和低于0.005(标记为Nsig2)的显著基因数目。(3)最终筛选出同时满足Jaccard指数大于75%及Nsig1显著性较高的集群作为高度差异性表达的目标集群并予以保留用于后续分析。这种方法被应用于27个不同肿瘤样本后总共识别出479个集群群落其中包括多个大尺寸及其亚尺寸的小型集群案例。最后我们以这些具有显著差异性表达特征的基因集合作为每个目标集群的独特标识从而构建了479种特征基因集

接下来定义寻找到的programs的特征分数

给定一组反映特定细胞类型或生物学功能的表达特征的基因(Gj),即我们之前识别的程序组,在此对每个细胞i进行评估以计算分数SCj(i),该分数测定细胞i中Gj的相对表达程度与对照基团单位(Gjcont)中的相对平均值之差:SCj(i)=average[Er(Gji)]-average[Er(Gjcont,i)]。其中对照基团单位定义如下:首先将所有分析基因按照30个聚合表达水平(Ea)进行分类;然后对于Gj中的每个基因,在同一Ea分类中随机选择100个基因为对照基团单位(Gjcont)。这样做的目的是使对照基团单位在分布上与Gj具有可比性,并通过倍增100倍的操作放大其平均值表现;其规模与所研究的基团单位相当。(这一评分方法较为独特)

接下来Integration of individual signatures into meta-modules

Jaccard指数衡量了 signautres 之间重叠的程度,并基于 average linkage 方法对这些 signautres 进行层次聚类分析。 研究识别出四组 显著的 signautres,并将其中两组 稳定地划分为两个亚群(下图)。

进而生成六个signatures,并作为定义六个meta-modules的基础。针对每组特征,在其对应的signatures中设定meta-modules:对于每个特征而言,在其对应的潜在cluster内所有细胞与该肿瘤内所有其他恶性细胞之间进行比较以确定其表达对数比的变化趋势。每个病例至少包含六个不同类型的肿瘤:随后将这些对数值在属于同一(或亚)群组的所有特征上取平均值;只有当每个case中至少包含了六种不同的肿瘤类型时才能进行后续分析:最后将每个meta-module定位为具有平均对数值超过2的所有基因,并且仅考虑该组程序中对数值最高的50个基因。(这种方法实际上与WGCNA方法一致:但推荐采用NMF方法更为适宜)

细胞对meta-module的划分

恶 性 细 膈 被 分 配 到 评 分 最 高 的 meta - modules 中 ,其中 包括六种 类型的 meta - modules(MES1-like、MES2-like、NPC1-like、NPC2-like、AC-like 和 OPC-like),但 不 包 括 细 胚 周 期 所 属 的 meta - modules。通常 将 MES1 类型 和 MES2 类型 的细 超 合 并 为 一 组 MES 样 细 超 ,同 理 ,NPC1 类 型 和 NPC2 类 型 的细 超 合 并 为 一 组 NPC 样细 超 。随后 ,我们 使用 下 述三 个 准 则 定义 混合体 : (i)其 第二个 meta - modules 的得 分 高于 设 定值 1 。 (ii)该模块的得分高于映射到该元模块的相应细胞群中得分最高的模块 。 (iii)其 第二个和第三个 module之间的得 分 差至少达到0.3 。

当使用不同的标准时,在很大程度上来说杂交的结果及其类型基本不变。 任意一对meta-modules的"预期数量"(下图)是由重新计算每个肿瘤中细胞对应的meta-modules分数所得数值决定的。

Each meta-module was shuffled separately, ensuring that any relationships among them were removed without altering their score distributions or the distinctiveness between tumor distributions. This shuffling procedure was executed 100 times, and for each instance, we applied aforementioned criteria to quantify hybrid occurrences. The average counts along with their standard deviations served as a benchmark for expected hybrid numbers.

生活很好,有你更好

全部评论 (0)

还没有任何评论哟~