对一篇单细胞RNA综述的评述:细胞和基因质控参数的选择
原文链接 :
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6072887
摘要
随着单细胞RNA测序技术的发展与完善,在认识细胞作为功能单元这一基础科学问题上取得了新的认识与进展。不仅能够基于包含数百至数千个单细胞基因表达谱的数据集得出新的研究结论,并且还可以识别出具有独特基因表达模式的新亚类群体(这些群体在传统的转录组测序数据中往往难以被识别出来)。
但是恰当的分析以及单细胞RNA测序所得大量数据并非很容易掌握;这要求必须掌握从收集细胞样本到得出合理结论所涉及的实验技术和数据分析方法。
在本文综述中, 作者深入探讨了这些新技术的基础理论, 并特别关注单细胞转录组分析中的关键概念. 具体而言, 则归纳总结了以下几点: 针对单细胞过滤过程所采用的质控方法; 为了应对mRNA捕获效率较低而采取的标准化与归一化方法; 以及用于降维处理后生成二维可视化图表的聚类与可视化算法.
Hemberg Lab第九期单细胞转录组数据分析 - Scater package用于执行single-cell filtering
Hemberg-lab单细胞转录组数据分析(第十期)- 基于Scater的基因筛选与评估流程
分析流程

对于获得的DGE数据集实施质量控制步骤
正文
最初阶段, 科学家们就开始探索单细胞基因表达图谱这一工具, 用于深入研究少数单一细胞内部特定选择性转录本的存在与特性。随着高通量测序技术和高效分离细胞方法的不断进步, 现代单细胞测序平台应运而生, 并逐渐完善和发展成熟(包括但不限于Fluidigm C1、DropSeq、Chromium 10X、SCI-Seq等以及过去十年间开发出众多其他先进的单细胞测序技术)。这些技术的进步不仅推动了单细胞测序技术的发展进程, 同时也为后续研究提供了更为精确可靠的实验基础。(Hemberg-lab单细胞转录组数据分析(二)- 实验平台)
此表呈现了当前广泛采用的单细胞测序方法及其所需基础技术。其价格主要由测序所需细胞数量、深度以及使用的测序平台决定。表中列出的价格为单个文库制作成本区间内的最低费用
| Sequencing Method | Starting Cell No. | Cell Separation | Notes | Cell Capture | Transcript Capture | Representative Library Prep Cost per Cell1 |
|---|---|---|---|---|---|---|
| Fluidigm C12 | ~1,000 cells | cells capture insize-specific chambers | must know the size of cells of interest; allows forstaining and imaging prior to cell rupture | 96- or 800-chamber units areavailable | an average of 6,606 genes/cell (no data on percentage) | $1.70 |
| DropSeq | ~150,000 cells/run | droplet-based separation | remains the mostcost-effective and most customizable | ~5% of cells per run (approximately 7,000 cells) | ~10.7% of the cell’s transcripts | $0.06 |
| Chromium 10X | ~1,700 cells/run | droplet-based separation | the most commerciallysuccessful method; almost fully automated | ~65% of cells per run (approximately 1,000 cells) | ~14% of the cell’s transcripts | $0.10 |
| SCI-Seq | ~500,000 cells (depends on experimental design) | FACS sorter; cellsare never singly isolated | combinatorial indexing of individual methanol-fixedpermeable cells | 5%–10% of cells | ~10%–15% of the cell’s transcripts | 0.05–0.143 |
表1
该技术能够一次性地检测数百至成千上万单个细胞的转录组数据,在逆转录或其他后续步骤中,则是通过DNA barcodes标记mRNA来判断来自哪个细胞。
尽管每种技术在分离细胞与标记mRNA方面的处理方式各不相同,
但它们都采用了类似的计算流程来分析单细胞转录组数据。
在本文综述中探讨了流程中常用的多种算法,并以DropSeq为代表进行介绍(表1)。此外,在大多数采用DNA barcode标记mRNA来源的单细胞测序技术中这些方法同样适用
单细胞转录组主要应用于:
深入了解组织中的细胞异质性 。
鉴定未知的细胞类型 。
识别特定的细胞亚型其原理在于分析感兴趣区域中的差异性基因表达特征
从稀有细胞群中分离出信号 ,这些信号在普通转录组中很难被分离出来。
给未知Maker的细胞类型推断可能的Maker ,如细胞表面蛋白等。
这一原理源于在单细胞转录组分析中,通过聚类不同细胞间的差异表达基因来识别具有显著特征的群体。从而可以将对聚类影响最大的基因视为该兴趣细胞群潜在的关键调控基因。
细胞谱系和分化调控的研究探讨 ,例如通过实验手段诱导一组干细胞分化,并在不同时间点进行单胞计数技术可获得分化各个阶段的‘snapshot’。这些snapshot可用于分析细胞到达终末分化状态所遵循的轨迹以及在每个分支点受到差异调控的关键基因。
不过这些应用几乎都主要依赖于由顶尖生物信息学实验室研发并发布的某些特定算法。在本综述中, 作者重点介绍了在使用这些特定算法之前必须先完成的数据质量控制与标准化处理工作, 并深入探讨了较为基础的细胞聚类分析以及可视化展示技术。
基于Droplet方法生成单细胞基因表达数据集
DropSeq及其商用版本10X均采用基于液滴(Droplet)的技术模式来构建单细胞基因表达数据集。在液滴生成过程中,通过微流体技术将每个样本单元(cell)与相应的捕获元件(beads)封装于油囊化液体微粒中。
凝珠(beads)表面覆盖着数量众多的DNA寡核苷酸探针(DNA oligos)。这些探针在3'端连接了一个由多个T碱基组成的尾巴(生信宝典注:这一设计专一于捕获具有poly-A尾标记记的小RNA以及非编码RNA)。在5'端则有一个用于标记细胞的独特序列(cell barcode)。每个凝珠上的所有寡核苷酸都共享相同的cell barcode标识符,并且在中间位置还有一个高度多样化的唯一分子标识符(unique molecular identifier, UMI)。值得注意的是,在一个凝珠表面所集成的所有DNA oligos都将拥有各自的独特UMI标签(见图1)。
在含有细胞的微液滴中,当微液滴内部发生裂解时,在磁珠表面发生DNA寡核苷酸分子被磁珠吸附并结合到释放出的转录本上。随后微液滴破裂,在多个细胞群体同时完成逆转录反应并通过PCR技术扩增模板后,利用高通量测序平台获得相应序列数据。将获得的序列数据与参考基因组数据库进行比对分析,并结合已知基因注释信息,在比对结果中识别出来自同一来源RNA的关键特征信息。通过比对结果中的cell barcodes信息来识别同一来源的RNA。最后基于UMI计数方法统计每个样本单元格内各基因表达出的数量,并将这些统计结果整理成包含样本单元格ID以及对应各基因数量信息的数据表格文件

图一:Drop-Seq Bead的结构和所得序列文库
DropSeq单细胞测序珠由DNA单核苷酸聚合物构成,在其3'端形成一个由多聚胸腺嘧啶尾基团组成的尾基团以实现对细胞内mRNA分子的有效结合;在5'端则带有该特定cell barcode序列以实现对特定细胞类型的特异性识别;其内部包含一个高度多样化的唯一分子标识符UMI,并且每个凝珠表面所连接的寡核苷酸均具有独一无二的UMI标记
(B)测序文库的结构。
红色:PCR引物,也可用作测序引物;
绿色和蓝色:来自珠子的细胞和分子barcode;
橙色:捕获的带有poly(A/T)尾巴的转录本。
从如此复杂的测序数据中得到的可靠结论 取决于后续的计算分析。
majority of commonly used single-cell sequencing algorithms lack a graphical user interface. Consequently, in order to effectively perform pairing, grouping, and visualization of these algorithms, a basic understanding of programming is necessary.
此外
单细胞测序领域的生信专家在其分析过程中负责对使用的计算工具设定合适的筛选标准,并防止出现具有误导性的结果。从而使其分析结果能够提供有价值的生物洞见。
质控指标
基于液滴的实验可以被视为对单个液滴内的单个细胞进行无数次单独处理的过程;因此必须实施质量控制措施以去除低质量数据。质量控制措施则通过设定不同的评估标准识别并剔除不符合要求的数据
QC指标—每个细胞检测到的转录本数量或测序序列比对到参考基因组的比例
QC参数设定的阈值在不同分析场景下可能有所差异,并受所测细胞类型或组织区域的影响而定。
常用的QC指标 包括每个细胞中的转录本数目以及占总测序量的比例。
当单个细胞的转录本数目低于或超出预先设定好的阈值时,则会将其标记为异常单元并予以排除;其中该阈值既可通过研究者自行设定(例如:每个样本中转录本数目少于20条或者达到5,001条以上),也可通过程序依据均值两倍标准差范围进行自动识别并处理这些情况:具体而言,在此情况下其总和超过均值两倍标准差的所有单个样本会被剔除
因为大量转录本的存在通常与双聚体现象有关(即同一液滴内可能包含多个细胞),这种异常数据需要从数据分析中剔除;当一个细胞检测到的转录本数量极少时,则表明捕获效率较低(这可能由细胞死亡、过早破裂或随机释放的mRNA所致)。
除了上述提到的QC指标外;例如;通过直接去除表达特定基因的所有细胞;我们可以有效地去除那些不需要关注的干扰细胞;此外;只包含两个或更多特定基因表达达到一定比例的细胞的情况。
在确定QC阈值时,必须考虑所分析组织的多样性。例如,在实验设计中发现癌细胞数量与正常血细胞数量相比显著较低的情况下,则需要相应调整转录本数量的标准(counts of transcripts)。由于在该组织中血细胞占优地位,在与活跃癌细胞比较时其RNA量被认为是相对静止的状态。因此若将筛选标准设定为移除转录本数目高于平均值2倍标准差的样本,则癌细胞因其较高的转录活性可能会被误判为doublets而全部移除。(生信宝典注:相比于很多人生搬硬套Seurat示例数据中的200, 2500的筛选标准, 采用n倍标准差的方式更具灵活性, 特别是对于不关注稀有类型的情况. 若自己对此了解较深, 则可能需要结合具体数据分布再设定合适的n值. 若本身不够了解, 则建议先采用较为宽松的标准进行初步筛选后再逐步优化. 最终还需根据异常点聚集的位置再审视RNA数目异常分布情况以作出合理判断.)
QC指标—线粒体基因的数量
在QC参数中,另一个常见的指标是线粒体基因数量。在线粒体基因为应激状态的重要标志时,在分析过程中通常需排除那些在线粒体基表达水平较高的(约为50%以上)细胞,在大多数实验研究范围内这类特殊状态并不感兴趣。
但是如同转录本数量一样 该参数的高度也受到组织类型以及研究问题的影响 如举例所示 心肌细胞由于其高能量需求 在心脏中的总mRNA量中有30%用于线粒体功能 而低能量需求的组织 则仅有5%甚至更低的比例在线粒体中定位 因此 线粒体中的mRNA占总量的30%在心肌细胞中表明健康的代谢状态 而在淋巴细胞中这一比例却显示异常
QC指标—筛选基因
根据实验目标需求,在分析结果时还可以引入特定特征度量化指标来进行辅助判断。对于那些普遍表达水平较低且各组间统计学差异不显著的基因,则可以通过设定特定条件来筛选其潜在生物学意义:首先需要确定的是针对每个样本单元设定一个合理的筛选标准;其次可以在后续分析中选择以下任一策略:一是对于某个特定样本单元而言,在其对应的测序数据中每一个区域单元内的基因为例数目均低于5;二是对于整个数据集而言总和不超过300个计数值即可满足筛选要求
尽管筛选掉这类基因能够加速计算进程,但这种做法可能会导致我们遗漏一些尽管表达量微小却在数据差异中具有重要贡献的基因
数据标准化和归一化
在对多批测序数据进行对比分析时(或:当需要对多组测序数据进行相互比对分析时),应采取措施减少批次效应的影响。(或:为确保实验结果的一致性与可靠性,在对多组测序数据进行比对分析前应尽力消除可能产生的批次效应。)这些批次效应的产生源于不可避免的技术因素(或:这些差异源于不可忽略的技术因素),具体包括样本冷冻存放在不同时间(或:样本冷冻存放在不同时间段)、多次冻融处理过程(或:多次冻融操作次数)、RNA提取的具体步骤(或:RNA提取的具体方法)以及测序深度参数设置等多个方面。
研究人员应尽量维持这些实验和测序过程中的变量稳定。然而,在涉及数以千计的独立液滴测序中(或:基于液滴的测序), 在标准化过程中必须考虑到每个独特类型的偏差, 以便比较不同类型的细胞.
特异性偏差 是由于mRNA捕捉效率的差异所导致的,在各个液滴中检测到的mRNA分子数量并不呈现统一的比例关系这一现象被称为**"dropout events"**(也称作"dropouts"),这种现象也是造成数据分析中出现数据稀疏性问题的主要原因之一。这些关于数据稀疏性的讨论将在后续章节中进行深入阐述
在bulk RNA测序中,在标准化处理的数据大多来源于来源相近的生物样本(例如将血细胞与血细胞进行对比),然而,在单细胞测序中由于每个样本单元本身并非同一类别的个体,在这种情况下就需要相应地调节标准化参数以维持各样本间的异质性特征并消除批次效应的影响。同时还需要修正由于技术差异所带来的批次效应以及细胞特异性的偏差。
mRNA的捕获效率相对较低(例如,在DropSeq方法中,每个液滴平均大约能捕获约10%左右的mRNA),这也是液滴单胞形测序数据分析过程中面临的主要挑战之一。由于这些被称为“dropout事件”的现象存在,“dropout events”这一术语暗示着部分mRNA未能成功被捕获并被有效测量到的现象会导致构建后的DGE矩阵中绝大多数条目均为零值。这正是导致数据稀疏性的重要原因。因此在深入分析这些观测值之前进行标准化和归一化处理显得尤为关键。然而需要注意的是,在生物学层面做出这样的假设可能并不总是准确(Unfortunately, this requires making assumptions about the cells that can be biologically inaccurate)。
一种可接受的标准化测序数据的方法是利用管家基因进行比较。
首先基于文献资料和对测序生物样品的理解基础之上,在文献综述的基础上筛选出一个稳定的 house-keeping 基因用于后续实验操作。假设所选的 house-keeping 基因在所有细胞中的表达水平一致,在此前提下通过标准化处理使选定的 house-keeping 基因在各细胞中的表达水平保持一致。(什么?你做的差异基因方法不合适?)
但是这个方法也可能不够精确,因为这些持家基因在不同类型的细胞中的表达量并不总是稳定的。另一个思路则是基于所有或一部分细胞中所有表达一致的基因来进行标准化处理。该方法假定,在所有的单个样本中或者多个样本之间的转录水平存在一致性,并在此基础上进行数据归一化处理以消除潜在的技术偏差影响。具体而言,在这种情况下我们假设每一个样本内部或者多个样本之间的转录水平存在一定的稳定性
降维和可视化
PCA
在基因表达谱经过标准化处理之后, 采用无偏聚类算法能够识别出更为接近的细胞群体
常被采用为主的技术之一是主成分分析法(PCA)。这种技术因其相对简便而广受欢迎。
作为一种较为简便的线性降维工具,在数据分析中常被采用。
它不仅能够反映多维数据之间的相关性,
具体而言,在单细胞分析中主要依赖的是高可变基因的表达谱来推断细胞间的关系。
PCA整合相关基因形成metagene或主成分(PC)。其中PC1主导最大比例的数据差异,在一个实验中可观察到细胞间约30%的变化是由PC1中的基因所主导;第二个主成分PC2能够主导剩余约20%的数据差异(具体而言,在另一个实验中细胞间20%的变化源于PC2中的基因),而第三个主成分PC3则贡献了8%左右的变化幅度。从这个角度来看,主成分的重要性与其对数据变异程度的贡献度直接相关。
关于PCA的解释,还是推荐我们的文章:
长期应用下来才发现原来PCA可视化竟然存在严重的偏差!
使用较低排名值的主成分通常不会有帮助;因为它们不仅会增加计算负担,而且几乎未对细胞间差异展示添加任何信息.由此可见,选择用于可视化的主成分数量至关重要.常见的确定方法就是绘制knee曲线或elbow曲线,如上图所示.

图中呈现了各个主成分的标准差数值分布情况,在统计学上反映了各个主成分对数据差异解释的程度。具体而言,在第4、第5和第6个主成分处于拐点位置时,则建议优先考虑前四个、前五个及前六个主成分来进行后续分析。
Humboldt-Berlin公司 - 单细胞转录组数据分析(十一)- 基于Scater工具的单细胞测序主成分分析可视化
Hemberglab single-cell transcriptomics analysis (twelve) - scater single-cell expression tSNE visualization
Hemberglab single-cell transcriptomics analysis (twelve) - scater single-cell expression tSNE visualization
t-SNE
t-Distributed Stochastic Neighbor Embedding (t-SNE)是一种普及的降维与数据可视化工具
该系统采用机器学习算法以实现降维操作,并特别适合将高维数据投影到二维或三维空间进行可视化展示的同时能够有效保持细胞间相对距离信息。
例如,在发现采用七个主成分能够有效地捕捉细胞多样性特征时,则意味着必须使用七个轴或维度以展示其空间分布特性。其特性在于能够保持高维空间中细胞之间的关联性,并将其映射至二维坐标系中;而且这些邻近关系在二维投影中依然得以保留。同时对比而言可知:PCA分析是一种线性的降维方法;而t-SNE则是一种非线性的降维算法。
注意事项:有关数据生成效率和可替代的单细胞平台
综述中所涉及的计算方法其核心应用集中在基于液滴的分离技术上,并非仅限于此。具体实例包括DropSeq以及Chromium 10X等技术
不过普遍使用的单细胞测序平台都是通过独特的DNA barcode系统给每个细胞的mRNA打上标签,并以此为基础获取每个细胞的基因表达信息。此外,在上述介绍中提到的类似原理与算法同样适用于其他方法的数据集分析。值得注意的是,在不同平台之间可能存在技术上的差异或仪器配置的不同。
该研究团队发布了一篇综述(https://www.ncbi.nlm.nih.gov/pubmed/29534489),深入阐述了细胞分离、标记技术和DNA扩增方法,并进一步探讨了各类平台的核心原理,并比较分析了各方法的优势与不足。
首先通过酒精固定细胞以获得高渗透性状态随后采用流式细胞仪对固定后的细胞进行分选最终将一定数量的细胞均匀分配至多孔板的每个孔中(见表1)
每个孔内的细胞通过反转录结合了该孔特有的寡核苷酸。随后将所有各孔中的细胞合并在一起,并采用较低密度的方法进行另一轮荧光激活细胞分选(FACS)。随后添加第二个独特的特异型bar code,并赋予每个cell独一无二的bar code组合 。此流程可反复操作以降低同一bar code被不同cell共享的概率。
该种基于barcodes的标记方法用于单独标记单个细胞时需要依赖特定算法以生成DGE矩阵。相比之下,在基于液滴技术的方法中,则是通过将每个单独细胞分配到唯一的一个barcodes来实现定位或识别目的;而每个单独细胞通常是由一组特定barcodes共同决定位置或特征的位置信息或相关属性数据等关键参数指标的综合体现。值得注意的是,在这种方法中至少需要执行两轮分选流程以实现精确分选目标群体;这不仅会显著增加分选过程所需的时间成本而且可能导致较大的分选负担并可能干扰基因表达等关键生物学过程的表现效果
另一个例子是设定转录本与细胞的比例以消除doublets, 因为每种方法产生的doublets比例各不相同
在Fluidigm C1系统内设置特定尺寸的分隔区域用于捕获单一细胞。每个96-区域内的样本均经过光学显微镜观察后发现双聚体的比例降至3%。由于样本有时会因相互堆积而难以区分(即难以单独识别),导致双聚体比例非零。
若通过显微镜观察后仍剩约3%以上单个细胞或未经检测数据中约7%以上单个细胞(即超过平均值)其对应的转录本计数显著高于平均水平则这可能意味着该批次样本主要由少量具有高度转录活性的单个细胞与大量无明显转录活性的大批样本构成或者也可能是由于双倍体信号占比较高进而可能导致这一现象出现因此在这种情况出现时建议更换更小尺寸分瓶器以进一步筛选样本
当前主流的单细胞分析流程基于具有最大表达差异的基因这一基础设计。该方法有助于研究人员通过分析这些基因来识别未知类型的细胞标记基因。若希望研究非常相似的细胞类型或从主要类型中筛选亚型,则应在分析前对样本进行筛选,并增加感兴趣类型的样本数量以提高检测精度。(单细胞分群后如何确定每一类群对应的Marker基因?)
尽管荧光激活细胞分选技术(FACS)已被证实对其基因表达的影响微乎其微,此技术仍有助于延长细胞处于非最佳培养条件并在单细胞悬浮液中存活的时间.这些变化可能会影响细胞状态并导致mRNA以及线粒体mRNA水平的变化.此外,在使用小区室,微流控分选仪或连续培养装置时可能会引发应激反应,并对某些更为敏感或易遭受伤害的细胞类型产生不利影响.因此,在基于液滴法进行的单细胞测序实验中难以检测到那些自身较为脆弱或易受影响的特定亚型.
结论
本综述重点探讨了几个关键概念,在单细胞基因表达数据分析方面具有重要意义,并且对于根据细胞类型或条件来选择参数也同样至关重要。此外,我们还列举了其他相关技术实例,这有助于将分析方法扩展至无需液滴支持的单细胞测序数据。
分析流程首先由原始测序文件生成一个包含了每个细胞基因计数的DGE矩阵开始;经过质量控制步骤(QC),我们去除了可能由双链模板缺陷(doublets)以及实验条件下的应激状态等因素引入的异常数据点;随后我们进行了标准化处理以及归一化操作以消除不可比性问题(这些问题主要源于mRNA捕获效率较低的情况)。这使得不同样本之间的测量结果能够更加准确地进行比较;在此基础上,我们利用高通量测序数据中高度可变的基因特征来进行降维处理,并采用聚类分析方法将相似的表现型样本分组;最后我们将这些结果以二维或三维空间中的相关性图谱的形式展示出来。
通用算法 ,通常这些算法包含在易于使用的程序包中:
Seurat是一个基于R语言开发的程序包,它能够生成与多种后续分析算法兼容的R对象(https://satijalab.org/seurat/)
该方法不仅涵盖了用于细胞周期分配的方法(http://bioconductor.org/packages/release/bioc/html/scran.html)。
该系统通过提升能力, 包含完善的算法体系, 构建了一个灵活且强大的分析框架(https://github.com/IMB-Computational-Genomics-Lab/ascend)注:此链接为项目GitHub存储地址
评估以上和其他一些软件包检测到的高变基因的准确性和精确性:https://www.ncbi.nlm.nih.gov/pubmed/29481632
后续分析算法 ,基于实验目的,可选的更有针对性地下一步分析的算法:
Monocle _ _ ,该算法的目标是通过研究单个细胞的分化路径来揭示其潜在发育机制(http://cole-trapnell-lab.github.io/monocle-release/);
SingleSplice是一个专为分析单细胞群体中的variable splicing events提供高效解决方案的开源工具(GitHub: https://github.com/jw156605/SingleSplice)
OncoNEM 是一种用于分析肿瘤细胞间相互作用模式的推导平台(https://bitbucket.org/edith_ross/onconem/src)。
单细胞测序工具及其应用的系列可在以下网站找到,而这些网站还会及时提供最新的工具.
