Advertisement

Real-Time DNA Sequencing from Single Polymerase Molecules

阅读量:

The Instantaneous DNA Analysis of Single Enzymatic Molecule Types by Real-Time Sequencing

在这里插入图片描述

Abstract

①We characterized the temporal sequence of their enzymatic incorporation into a growing DNA strand using zero-mode waveguide nanostructure arrays. These structures enable the parallel and simultaneous detection of thousands of single-molecule sequencing reactions through optical observation volume confinement.
②By coupling fluorescent groups to the terminal phosphate group of dNTPs, continuous observation of DNA synthesis over thousands of bases is achieved without encountering steric hindrance. This refers to the fact that the fluorescence-based spatial hindrance does not impede DNA synthesis.
③Consensus sequences were constructed from single-molecule reads at 15-fold coverage, demonstrating a median accuracy of 99.3% with systematic errors exceeding only fluorophore-dependent error rates.

Introduction

该方法依赖于DNA聚合酶本身的低错误率(发挥出DNA聚合酶自身的低错误率),但并未利用其潜在的高催化效率(high catalytic efficiency)或高持续合成能力(high processivity)。如何理解?大肠杆菌的DNA聚合酶I具有三个主要功能区域:除了具有向左延伸(5'→3')的DNA聚合酶活性之外,在向左延伸的同时还具有切割核苷酸的能力(去除引物),以及在向右延伸时能识别互补序列的能力(检查)。如果去除掉向左延伸(5'→3')方向上的外切核酸酶活性,则会形成一种特殊的限制性内切片段(Klenow片段)。这种片段在双链测序合成中得到应用时会表现出更高的效率。

在这里插入图片描述
在这里插入图片描述

②NGS:然而,在这些方法中都采用了酶活性受限的方式(通过各种终止策略),结果却未能实现更长序列读取(约400个核苷酸限制),此外它们并未充分利用聚合酶催化的高保真度大速率DNA合成特性。
③Goal & Challenge:基于DNA聚合酶作为实时测序引擎的想法早已提出(即直接以单碱基对分辨率追踪聚合过程),但其实现一直面临诸多技术瓶颈。
为充分发挥这些酶固有的高效性、高准确性及高转化效率等优势,则需同时解决多项技术难题。
其一:合成过程中的速度呈现波动性变化;
其二:所使用的dNTP标签不应干扰聚合酶催化反应;
其三:需在维持酶活性的同时避免所使用的dNTP标签产生非特异性的吸附;
其四:最终仍需依靠一种精确识别与区分四种不同标记dNTPs的技术手段

Methods

Technology

once a fluorescent moiety is linked to the terminal phosphate group (phosphorylated), the DNA polymerase-mediated formation of the phosphodiester bond leads to the release of the fluorophore from the incorporated nucleotide, thereby producing naturally unmodified DNA. (当一个荧光团与末端磷酸基连接时(经过磷酸化处理),DNA聚合酶催化的磷酸二酯键形成导致荧光团从结合核苷酸中脱离出来(解离),从而生成天然未修饰的DNA)
The Φ29 DNA polymerase was chosen for these studies due to its stability as a single-subunit enzyme with exceptional speed, accuracy, and high processivity in replication. It efficiently utilizes phospholinked dNTPs and has been employed in strand-displacement DNA synthesis, achieving minimal sequencing context bias during whole-genome amplification. (在本研究中被选用的是稳定的单亚基DNA聚合酶Φ29型,在复制速度、准确性以及高保真性方面表现优异(具有极高的复制效率)。它能够高效利用磷连接dNTPs并被用于链置换复制模式(一种不断循环复制模式),在全基因组扩增过程中表现出极小的序列上下文偏差)
We developed a surface chemistry approach that enables selective immobilization of DNA polymerase molecules within the detection zone of ZMW nanosensors with high efficiency. (我们开发了一种表面化学方法,在ZMW纳米传感器检测区域实现了对DNA聚合酶分子的选择性固定化(附着),并且具有很高的固定效率)
Methylation can be detected, and both the timing of base-specific pulses and spectral features associated with methylation will change accordingly, providing opportunities to capture methylation patterns. (甲基化情况可以通过该技术进行检测(测定)。在甲基化情况下下的碱基特定脉冲时间和光谱特征都会发生变化(相应地变化),从而提供捕捉到甲基化信息的可能性)

Structure & Pipeline

在这里插入图片描述

(Fig. A) A single DNA template-associated Φ29 DNA polymerase is fixed at the base of a zero-mode waveguide (ZMW).
(Fig. B) An illustrative timeline depicting the event sequence of phospholinked dNTP incorporation, alongside an expected temporal profile of fluorescence intensity generated by the ZMW.

(标记dNTP插入的位置及其后续反应轨迹,在ZMW测序中预期呈现出的时间性荧光信号变化曲线)
(1) 在聚合酶活性位点上,在线性DNA模板上以磷酸化核苷酸为配对基团所建立的特异相互作用关系

(1) 在聚合酶的催化位点dNTP与模板互补配对
(2) 该染色体通道的荧光输出被催化反应显著提升
(3) 脱氧核苷酸二酯键的形成释放了染色剂-磷酸二酯酶中间体产物,在ZMW中扩散出去从而终止荧光脉冲

(磷酰酯键的形成导致染料-连接剂-焦磷酸盐中间体生成,并该中间体向周围区域扩散以阻止荧光脉冲。(4) 聚合酶移位至下一位置并开始DNA扩增过程。
)

the following adjacent nucleotide interacts with the active site, initiating the subsequent pulse.

((4)聚合酶转移到下一个位置,

(5)下一个同源核苷酸与活性位点结合,开始随后的脉冲。)

PS:荧光脉冲由DNA聚合酶产生,在ZMW检测区域内保留带有颜色标签的互补核苷酸。其持续时间主要取决于催化反应速率,在染料链接基焦磷酸盐断裂后迅速扩散离开该区域。

在这种情况下(长时间),远超过扩散的时间尺度(约2-10毫秒)或非互补采样(小于1毫秒),表现为一个低稳定的背景信号。

在这里插入图片描述

Using synthetic DNA to illustrate approach

To demonstrate the operational principle of our DNA sequencing technique, we have constructed a synthetic, straight, single-strand DNA template incorporating a two-base artificial sequence motif.

为了阐述我们的DNA测序方法的工作原理, 我们采用了合成一个线性单一链式DNA模板, 然而, 在实际操作中, 我们仅选用A555-dCTP即胞嘧啶脱氧核苷三磷酸(dCTP), 而A647-dGTP即鸟嘌呤脱氧核苷三磷酸(dGTP), 从而仅获得G与C两种脱氧核糖核酸单体

在这里插入图片描述

(Fig. A) GC分布区域
(CFG. B&C) 催化金属离子被引入以触发聚合反应。

potential of long-read DNA sequencing

we conducted a similar two-base signature sequence pattern experiment using a single-stranded 72-base circular DNA template (as shown in Figure 3A). The template was set up in such a way that cytosines were present on only half of its circumference, with guanines occupying the remaining half. The Φ29 DNA polymerase exhibited exceptional processivity, surpassing 70,000 base pairs per reaction without requiring cofactors. It will perform multiple rounds of strand-displacement synthesis along the circular template.

我们采用了72碱基组成的单链圆环状DNA分子作为双链序列模式实验(图3A)的模板。通过设计实现了胞嘧啶均匀分布在圆环的一半区域而鸟嘌呤则均匀分布于另一半区域。在无需辅助配对因子支持的情况下Φ29 DNA聚合酶表现出极强的持续复制能力(超过70000个碱基)。该酶将在圆形模板周围反复执行基于单链位点间的strand-displacement类型的精准复制反应

在这里插入图片描述

occasional pauses in DNA polymerization activity manifest as gaps in the trace. The total synthesized DNA length as a function of time (Fig. 3C) exhibits distinct intervals of persistent polymerization rates during extended reads. Two predominant polymerization rates, approximately 2 and 4 bases per second, were identified, indicating the presence of diverse long-lived polymerase modes that transiently switch between each other. No spatial correlation was detected in the speed variations across a ZMW array. The pulse characteristics associated with these two states demonstrated statistical equivalence, except for a reduced interpulse interval in the faster state (fig. S2). Similar behavior was also observed when varying fluorescent markers and nucleotides were employed along with templates containing distinct sequences (fig. S3), suggesting that these states are neither specific to the phospho-labeled dNTPs utilized nor to particular sequence contexts.

在这里插入图片描述

在本研究中设计了...结构,并进行了...实验以验证其可行性]
【其中包含了共...条序列数据,并通过...方法对实验结果进行了分析

About errors

⚠在最佳加载条件下,在泊松分布下满足以下情况:空ZMW单元格占36.8%,只有一个聚合酶作用于其上的占36.8%,而有两个或更多聚合酶作用于其上的占26.4%。
⚠无需将其视为错误来源:dNTP浓度足够纯度高,并且通过脉冲时间分析未观察到碱基插入事件。
⚠从这些数据中可以看出,在这些读长下主要由删除事件造成错误(缺失),这些删除事件源于插入事件或插入间歇时间过短无法可靠检测到。
⚠大多数插入错误是由于同源核苷酸在磷酸二酯键形成前从活性位点解离造成的结果:导致错误地重复了一个脉冲。
⚠根据上述实验结果可知:无论序列上下文如何影响都不会产生偏好性影响,在reads中仅存在随机误差。

思路是关于SMRT测序方法存在的主要矛盾。当生成Continuous Long Reads (CLR)时,则会导致随机读出错误率显著上升;而采用简读测序技术构建Circular Consensus Sequencing (CCS)模型,则能够实现高精度read capability的同时却牺牲了长读测序的优势。

在这里插入图片描述
在这里插入图片描述

官方SMRT流程文档

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

SMRT下机文件示例

DATA sample:DNA N6-adenine methylation in Arabidopsis thaliana

在这里插入图片描述

NCBI链接:https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=SRR3734499
具有.h5后缀的是原始二进制数据文件,需使用Pacbio软件进行打开

在这里插入图片描述

subreads.fasta及subreads.fastq文件具有以下后缀的是经初步处理得到的标准规范格式碱基文件;
1.m代表电影(movie)的标准缩写形式;
测序时间点采用yymmdd_hhmmss格式记录;
3.该记录中用于表示测序的时间信息;
4.SMRT Cell Barcode中的接头所包含的特殊序列;
5和6这两项通常是固定的设置值

在这里插入图片描述

读质量(RQ):通过内置算法预测来自零模波导孔的subreads准确性;有时使用QC Score或Read Score来替代评估指标。
Pacbio官方软件中的算法通过分析read的脉冲特征及碱基文件信息(包括峰值信噪比、平均基对质量及脉冲间隔时间等参数)来训练并预测读物映射精度。
在选择Inset reads时需遵循两个标准:一是基于序列长度的质量判断(短序列不一定低质),二是依据ZMW内部状态参数(如p0、p1及p2的状态)。
polymerase read即指高质量测序所得reads;这些测序结果通常包含adaptor序列,并可通过多次测序获得多个subreads。
polymerase reads在进入后续分析前需经过特定处理;这一过程主要包括去除低质量片段及识别接头序列

在这里插入图片描述

遵循FASTA格式的信息

在这里插入图片描述

(something interesting on BBS) RQ is close to quality values in fastq file

官方软件

在这里插入图片描述

Oxford Nanopore单纳米孔测序

在这里插入图片描述

Advantage

Nanopore DNA测序提供了无标签单分子测序的优势,并且能够实现无需样本扩增即可进行测序。
与第二代系统类似,纳米孔技术适合并行化操作,并有多项成本估算显示完整的人类基因组进行纳米孔测序大约需要1,000至10万之间。
此外,在读取一个完整DNA片段时序列质量应保持恒定不变,
因此使用纳米孔技术可以从单个DNA分子中获得长读片,
这将提供许多优势,
包括从头测 sequening的可能性,
染色体结构变异的高分辨率分析,
以及远程单倍型映射的可能性。

Nanopore sequencing principle

Structure

在这里插入图片描述

基本的研究对象是图中贯穿膜层的部分称为 reader 构造出纳米间隙(注意:此处指 reader 仅能容纳单个碱基)。这些 reader 的上方部分被称作 motor 或者红色蛋白分子其本质是一种解开双螺旋结构的关键酶。整个膜片具有极高的电阻率在这样的环境中电流只能通过特殊的纳米间隙流动。两侧提供离子环境并施加电压后在 reader 中不同类型的碱基依次通过纳米间隙时会引发这一区域出现不同程度上的阻碍现象这种现象积累下来就会被检测到。

Pipeline

为了实现两条链的测序,在双链DNA(dsDNA)的基础上构建了一个文库。这个文库所使用的制备工艺与短读型第二代平台具有相似性(SQK MAP005和SQK MAP005.1)。该文库包含两种不同的适配器(图1A),它们被连接到原始DNA分子上。第一种适配器——领导适配器——由两个部分互补的寡聚体构成(退火后形成Y形结构)。第二种适配器——发夹适配器——则是一个内部互补的单寡聚体(形成发卡结构)。本研究中所使用的测序试剂盒中的两个适配器均预先加载了驱动DNA分子通过纳米孔移动的蛋白分子(图1B)。这些蛋白分子不仅能够引导带有连接靶向结合蛋白的DNA片段到达孔口附近(图1C),还能够将它们引导至孔口附近区域进行后续操作。当领导适配器上的互补区域被到达时(即双链区被解旋),附着于领导适配器上的蛋白分子解旋了双链DNA,并允许模板的第一条单链碱基依次通过纳米孔而被传感器检测到电流变化;随后到达发夹适配器时,则利用另一种蛋白分子使互补链同样得以顺利通过纳米孔这一过程与前一过程类似;然而这种二维文库方案在后续的发展中逐渐被淘汰了这一方案;实际上,在后续的发展中ONT逐渐被淘汰了这一方案;与此同时还有1D和1D/2两种类型选择性接头设计;其中1D/2接头设计能够使第二条单链紧接着通过而不会产生干扰但存在一定概率的存在误差情况

在这里插入图片描述
在这里插入图片描述

The current MinION flow cell comprises 512 channels, each linked to four wells that may contain embedded nanopores within an electrically resistant bilayer (Figure 1D). Each channel sequentially captures data from one of the four wells during an initial multiplexing scan (File S2 Glossary), enabling the simultaneous sequencing of up to 512 independent DNA molecules.

在这里插入图片描述

Determine the bases & Errors

Original current measurements or occurrences over time are termed squiggle plots. The current base-caller in use modeled the features of potential 45 (=1,024) possible 5-mers. Base-calling was determined by finding an optimal path (Figure 1G) through an HMM composed of successive states for each sequence using application of the Viterbi algorithm. For its analysis capabilities, this approach achieved an accuracy level of approximately83% for one-dimensional barcodes and approximately90% for two-dimensional barcodes.

在这里插入图片描述

MinION下机文件fast5
fast5格式存储了nanopore测序过程中全部的输出信息。里面记录着设备运行时全部的信息,包括捕获的电信号值,设备运行时间,电压,温度等等信息。
由于fast5格式可以存储所有的信息,因此,优点就是内容非常全。但是缺点也非常明显,就是占用空间特别大。例如23M左右的碱基序列,存储为fastq格式大概45M,压缩之后大约是23M,而原始的fast5文件则需要占用613M的存储,大约30倍。
一般测序公司只提供fastq格式文件,这个做后续所有的分析其实已经足够了。如果是想要后面重新做碱基校正,可以保留,或者做碱基修饰检验,表观遗传学方面的分析,是需要这个fast5文件的。
个人感觉有点类似于R语言中的S3、S4类,分门别类的储存数据。

Reference

[1] Rank, D., Baybayan, P., Bettman, B., Bibillo, A., Bjornson, K., Chaudhuri, B., … Turner, S. (2009). 实时DNA测序技术从单个聚合酶分子实现. 科学, (January), 133–138.
[2] PacBio官方文档:PacBio术语词典
[3] PacBio官方文档:SMRTbell™模板准备指南
[4] PacBio官方文档:对SMRT sequencing准确性视角理解
[5] PacBio官方文档:模板准备指南
[6] https://zhuanlan.zhihu.com/p/77547922
[7] https://en.wikipedia.org/wiki/FASTQ_format
[8] PacBio官方文档:SMRT®分析编码概述
[9] Magi, A., Semeraro, R., Mingrino, A., Giusti, B., & D'Aurizio, R. (2017). nanopore测序数据解析技术现状及应用与发展挑战. 短信生物informatics, 19(6), 1256–1272.
[10] Clarke, J., Wu, H. C., Jayasinghe, L., Patel, A., Reid, S., & Bayley, H. (2009). 单分子纳米管测序中的连续基识别技术. Nature Nanotechnology, 4(4), 265–270.
[11] Ip CLC及其团队: MinION分析与参考集consortium: 第一期数据发布与解析版本号v1;审稿人批准数量为2. F1000Research 2015(4): 1075
[12] Ip CLC及其团队: MinION分析与参考集consortium: 第一期数据发布与解析版本号v1;审稿人批准数量为2. F1000Research 2015(4)
[13] https://zhuanlan.zhihu.com/p/91629114

Data

[1] http://datasets.pacb.com/2013/Human10x/READS/index.html
[2] https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM2157793

PS

Pacbio Inc was founded in 2004, leveraging research from Cornell University to integrate semiconductor and photonics technologies into biotechnology. Illumina acquired Pacbio on November 1, 2018. The Oxford Nanopore Ltd was established by professors from the Department of Chemistry at the University of Oxford in 2005.

全部评论 (0)

还没有任何评论哟~