生信小白学习日记Day2——NGS基础 illumina高通量测序原理
2019年5月26日这一天是星期日,并伴有微雨天气。
说明:参考生信宝典的内容以及相关文章的总结。
原文请关注公众号生信宝典。
所有参考的文章都有相应的链接可供查阅。
生信宝典
NGS基础——高通量测序原理
本文系统阐述了测序文库构建的基本原理以及链特异性文库构建的具体途径和识别手段,并详细探讨了测序簇生成过程、双端测序过程及其在实际应用中的重要性。文章内容均基于一系列PPT材料,并通过截图获取后便于进一步学习和理解。以Illumina公司最为常用的测序技术为例,在实验操作中我们主要关注的是基于具有荧光标记功能的dNTP分子,在实时监控下完成DNA链的连续合成。
- 第一步,将DNA随机打断为短片段

- 第二步,序列两端添加接头

为了固定目标片段并使其结合到带有预设寡核苷酸序列的flow cell表面,在后续步骤中进行链扩增与测序操作。那么flow cell具体是什么呢?它是一个流动池装置,在这种装置中各种液体如同在流动的小房间里一样循环运转。以Hiseq2500为例,在这种设备上通常配备有两张flow cell装置,每个流池拥有8个通道(也称为8条 lane)。其中一条 lane 的常规PE150测序实验能够产生超过120Gb的有效数据量。考虑到大多数样品并不需要如此大量的测序数据量,在实际操作中通常会将多个文库样本混合放置在同一条 lane 中(即同一个 flow cell 上)。为了实现测序后的样本分离开来,在文库制备过程中需要对文库样品施加不同的 index 标记(也有人称之为 barcode 标识),从而确保后续分析时能够分辨出各个样本的具体信息。此外,在这一流程中还包括 PE 和 SE 引物的应用(双端测序引物),以及 P5 和 P7 引物的作用(共价连接型接头)。这些引物分别与目标片段的一条单链结合固定于 flow cell 或者称为 lane 中的位置上。通过一张详细的技术图表来进行说明:

第三阶段:簇生成过程(参考来源<> ,总结更加清晰简单易懂)
在Flowcell均匀分布着两种不同类型的寡核苷酸序列,并分别与其对应的碱基配对(即分别为P5'和P7)。

待测sequence通过与folwcell中的相应序列进行交叉互换,在此基础之上构建互补链(即反向链),其两端分别标记为P5’和P7’。


3. 接下来模板链被切断并洗下

The complementary sequences between the P7' on the reverse strand and the P7 on Flowcell were analyzed, achieving DNA synthesis. This process is well-known as the bridge PCR technique.

接下来构建双螺旋结构解开,并与Flowcell上的接头进行杂交配对,在随后依次延伸并解链…如此在Flowcell上完成35次循环。

4. 完成桥式PCR反应后, 通过氢氧化钠溶液解开双链结构, 再次利用甲酰胺基嘧啶糖苷酶(Fpg)具有特异性地切除8-氧鸟嘌呤糖苷(8-oxo-G)的能力, 从而实现对特定磷酸化位点的选择性消除. 这种操作会特异性地将P5’端与互补链的连接处断开, 留下与Flowcell上的P7端相连的一条单链. 同时, 为了避免不必要的DNA延伸, 游离端的3’末端被封闭以防止延伸

- 第四步,测序
测序相关的引物通过连接到靠近P5位置的特定结合位点(sequencing primer binding site 1)上,并在实验系统中同时引入四种脱氧核苷三磷酸(dNTP)以及DNA聚合酶进行反应操作。其中每一种dNTP均具有荧光标记特性,并且其对应的碱基携带独特的荧光标记体系;此外,在3'端连接了一个特殊的三氮杂环结构(叠氮基),该结构能够阻止后续碱基与其相互作用以实现精确延伸定位功能

在此时,在聚合酶的作用下(即当聚合反应开始进行时),与Forward链对应位置配对的dNTP就会结合到新合成链上。由于叠氮基的存在,在后续延伸过程中会发生阻碍现象:即当合成过程中遇到叠氮基时无法继续延伸。这时用适量水冲洗掉未结合的dNTP及酶,并对Flowcell进行扫描。通过扫描得到的结果显示,在此位置上检测到对应的荧光标记。值得注意的是,在此流程中同时存在多个这样的流动单元(即Flowcell),它们都在执行同样的测序反应操作:因此一个完整的循环过程便能够实现多个样本的同时测序(这也是高通量测序技术的核心优势所在)。完成此轮测序后,在后续步骤中需加入化学终止剂处理以消除残留叠氮基及荧光标记,并重新启动测序循环(即完成碱基连接、检测及终止过程)。如此反复操作直至所有DNA链中的碱基序列均被完整测序完毕,并最终获得完整的Forward方向读取序列数据(即Forward read序列)。

- Index测序流程:当所有循环结束后将读取到的产品进行去除处理,在链上找到与index1 primer结合的位点,并通过杂交结合的方式完成index1的合成及检测

- 以类似的方法进行index2和reverse strand的测序。
链特异性文库构建
本文也源自sixu_9days的博客:<>
在DNA双螺旋结构中,与其互补的一条称为** antisense strand **。尽管它与RNA呈现反向互补关系,但其实际上是为RNA提供模板的那一侧。因此,在此语境下也被称为模板碱基配对序列或简称为模板序列。
要注意的是,在一个含有多个基因的双链DNA分子中,并非所有基因的正链都位于同一条母链上
正义链(sense strand)= 编码链(coding chain)= 非模板链
在forward chain上是可以同时存在sense chain和antisense chain的。因为这完全是两个不同的概念。
通过这张建库示意图来分析普通RNA-Seq建库与链特异性建库的主要差异之处。

首先介绍传统的RNA-Seq构建策略:其过程是将单链cDNA双链化后,在两端对称地连接了一对Y形 adapters ,从而形成文库。这一方法的一个不足之处在于其基于双链DNA进行测序的特点:当测序完成后我们便无法分辨所得read来源于正链还是负链
而chain-specific library preparation(采用dUTP方法举例)则通过以下步骤实现:首先利用随机引物合成为RNA的单个模板序列生成一条cDNA单链;随后在合成互补单链的过程中,在第二条单链合成都使用dUTP替代dTTP;并在加入适配器后使用UDGase处理以去除含有U标记的互补单链;降解反应完成后剩余文库中仅含有第一条cDNA(负模板)。该条负模板两端带有不同接头标记;通过PCR扩增后将获得第一条cDNA(负模板)作为测序对象。因此最终所得插入DNA片段均来源于第一条cDNA(负模板),这也是为什么称此过程为fr-firststrand的原因所在:在测序过程中先得到正模板 reads(正方向),再得到负模板 reads(能够区分正方向与反方向两条模板的读取结果)。当这些reads与参考基因组比对时,在基因方向上的正向reads即为forward reads,在相反方向上的正向reads则为reverse reads;同样地,在基因反向方向上的负向reads即为forward reads,在相反方向上的负向reads则为reverse reads;从而实现对所有forward和reverse reads的有效区分与筛选。因此在评估基因表达水平时可避免因反向互补read干扰而导致的结果偏差;此外该技术对于lncRNA测序也同样不可或缺:主要原因包括一、能够有效提高测序效率;二、能显著减少非特异性背景噪音;三、便于后续数据解读与分析。
1)lncRNA的来源是具有链特异性的;
lncRNA的来源起源于编码蛋白质(mRNA)的一条反义链序列;在常规非特异性建库的情况下,则难以鉴别该序列究竟是来源于天然反义lncRNA(NAT-antisense lncRNA),还是直接来自对应的mRNA;
3)链特异性建库通过更加精准地统计转录本数量并明确基因结构来实现对获得的转录本来源的有效区分;稍作休息后下午将开始继续开始学习下一部分的内容。
