Advertisement

生信自学笔记(二)生物信息

阅读量:

基本类型

1. 核苷酸序列数据

DNA 或 RNA 当中四种碱基的排列顺序。

  • DNA : A T C G
  • RNA : A G C U

2. 蛋白质序列和结构数据

蛋白质序列是指由 20 种氨基酸组成的序列(即蛋白质的一级构象)。
蛋白质结构数据指的是蛋白质三维空间信息的具体体现。这种三维空间信息是在各组二维构象的基础上通过盘曲折叠形成的一种具有特定规律性的三维空间构象。蛋白质二级构象(英语:Protein secondary structure)在生物化学及结构生物学领域中被定义为一种生物大分子链,在局部区域内的空间模式特征. 该特征通常是由生物大分子链中的氨基之间形成的氢键网络所决定的. 在原子分辨率的研究中, 蛋白质二级构象主要通过主链上氨基之间的氢键关系来表征.

这里写图片描述

3. 分子标记数据

分子标记是一种基于基因水平的信息传递工具,
它能够直接识别并定位特定的DNA序列特征,
并且可以在各种组织器官甚至单个细胞层面上实施检测,
具有多样性和稳定性等显著优点,
因而得到了广泛应用,
它主要包括RFLP、RAPD、AFLP、SSR等多种经典技术形式。

这里写图片描述

4. 生物芯片数据

基于玻璃或高分子材料,并配合微型机电系统或精密加工技术所制作的高科技元件如同半导体芯片般具备快速处理复杂运算的能力。

在分子生物学领域中,生物芯片通常被视为一个小型化的实验室装置,并且能够同时执行数百到数千个生化反应过程。

生物芯片技术起源于核酸分子杂交技术,并基于生物分子间特异相互作用的原理将生化分析过程集成于芯片表面实现信息存储与整合。

不同芯片上的载体材料分别为:

  • 基因芯片:基于 cDNA 或寡核苷酸技术开发的一种生物信息学工具。它是通过逆转录酶从 mRNA(通常为主链 mRNAs)中合成的一种双链核酸分子,在分子生物学研究和基因工程中具有重要应用价值。互补 DNA(complementary DNA, cDNA)常用于将真核生物的遗传信息转移到原核细胞中进行研究和分析。当一个 cDNA 包含多种来源的不同 mRNAs 时,则形成一个 cDNA 库(cDNA library),这种技术在基因表达分析和功能研究中得到了广泛应用。此外还可以制作仅包含单一种类 mRNAs 的 cDNA 片段以实现精确的研究目标。

    • 蛋白质芯片:蛋白质或抗原。

    • 细胞芯片:细胞

    • 组织芯片:组织切片

DNA 测序技术

第一代测序技术

该技术通常被称作双脱氧链终止法或桑格法。这是一种广泛应用的核酸测序方法,用于分析 DNA 结构。由英国生物化学家弗雷德里克·桑格在1977年首次提出。该技术及其衍生方法统称为第一代 DNA 测序技术,在人类基因组计划中是采用的主要测序手段之一。

基本原理(搬运自 wiki + 果壳)

双脱氧链终止法采用 DNA 复制原理。 Sanger 测序反应体系中包括目标 DNA 片段、脱氧三磷酸核苷酸(dNTP)、双脱氧三磷酸核苷酸(ddNTP)、测序引物及 DNA 聚合酶等。 测序反应的核心就是其使用的 ddNTP:由于缺少 3’-OH 基团,不具有与另一个 dNTP 连接形成磷酸二酯键的能力,这些 ddNTP 可用来中止 DNA 链的延伸。此外,这些 ddNTP 上连接有放射性同位素或荧光标记基团,因此可以被自动化的仪器或凝胶成像系统所检测到。
DNA 是脱氧核糖核酸,这就像有一个东西他一边是螺母一边是螺钉,可以一个接一个连起来,然后把螺母视为 - OH,双脱氧就是少一个螺母,如果连上 ddNTP 就无法继续延伸了。
将待测的核酸链分为四份 ,分别加入四种双脱氧核苷酸 后,以加入 ddGTP 为例(相应地还有ddATP、ddCTP、ddTTP ),在 DNA 聚合酶合成到需要 G 碱基的核苷酸时,普通 dGTP 和双脱氧的 ddGTP 都有一定概率被合成到核酸链上。那些合成上 ddGTP 的核酸链不再延伸,而合成上 dGTP 的会继续朝下反应。这样,加入 ddGTP 的这份溶液最后会生成所有以 G 结尾的长度不一的核酸链。
将这四份核酸链溶液同时进行电泳检测,从条带的位置以及链越短在凝胶中迁移越远 的原则,即可判断出这些核酸链相互间的长短关系,从而推算出序列信息。短的跑得快在前面,长的慢在后面,由于四种溶液分开,所以断在哪里,哪个位置就是这种核苷酸。
总而言之一句话,某个地方有某种碱基,那它不一定会断裂,但是如果断裂了,一定是因为断裂处有这种碱基。

还有一种化学降解法,此处先略去不表

第二代测序技术

主要是三大测序公司 (Illumina、454、ABI) 研发的测序仪在引导潮流。

基本原理(搬运自 PLOB

2.1. Illumina Solex 技术的基本原理及过程:
(1) 文库制备

将基因组 DNA 切割成几百个碱基(或更短)的小片段,并在其两端连接上接头标记。

(2) 产生 DNA 簇

采用专有知识产权制备的芯片表面,在该表面层制备了一层单链引物。随后将DNA片段经解旋处理后形成单链结构,并通过与芯片表面特定区域的碱基互补配对作用结合其中一端(5'端或3'端)。另一端则随机与邻近区域内的另一条引物互补配对作用结合形成桥状结构(bridge)。整个实验过程共经历约30轮循环扩增操作,在此过程中每个样本经过约1000倍的扩增倍数后形成特定长度的单克隆DNA片带。随后对该片带进行线性化处理,并在目标区域一侧附加测序引物使其能够杂交到通用序列模板上完成后续分析工作

(3) 测序—边合成边测序 (Sequencing By Synthesis) 的原理:

加入了经过改造的新型 DNA 聚合酶以及四种荧光标记标记化的dNTP后,在实验中发现其中这些核苷酸被称为可逆终止子,并且由于它们具有可以被化学修饰处理的能力,在每个循环中只能添加一个碱基。随后通过使用激光扫描技术在反应板表面检测到每条模板序列在第一轮合成过程中添加的所有核苷酸类型,并对这些末端进行化学修饰处理后恢复其3'端粘性状态接着添加下一个核苷酸如此反复直至完成所有双链结构形成之后统计每一轮检测到的所有信息即可推断出对应DNA片段的具体序列目前该技术的最大限制在于较长片段可能导致较高的错误率;此外在实际应用中还存在多个因素会导致信号强度下降的问题如荧光标记部分未被完全修饰导致的信息丢失等

(4) 数据分析

自动读取碱基,数据被转移到自动分析通道进行二次分析。

2.2. ROCH-454 技术的基本原理及过程 :

(1) 样品输入并片段化

当样品的碱基数量达到千碱基以上时(或样品碱基数量级在千碱基以上),应将其切割成300至800bp左右的小片段;而对于小分子非编码RNA或经PCR扩增产生的产物,则无需进行此步骤。较短的PCR产物可以直接进入后续步骤。

(2) 文库制备

基于一系列标准化的分子生物学技术手段, 通过将 A 和 B 接头(其中 3'端和 5'端均具特异性)连接至 DNA 片段, 实现了接头顶点的选择性标记. 这些接头顶点随后还将被应用于纯化、扩增以及测序等后续步骤. 最终, 带有 A 和 B 接头的单链 DNA 片段构建而成的文库即为本研究所需样品文库.

将单链DNA文库固定在专门设计用于捕获的DNA磁珠上。每个捕获磁珠都装载着一个独一无二的单链DNA片段。通过乳化的扩增试剂使结合于磁株上的文库转化为油包水型混合物。这样就能形成仅含有一个捕获并其特化的单链DNA片段的小型反应室。

(4) 乳液 PCR 扩增

独特片段通过微反应器实现了复制过程,在此过程中未受到竞争性干扰以及污染序列的干扰影响。当乳液被破碎时,在磁珠表面仍然附着有大量拷贝序列。

带有 DNA 标记的捕获磁珠随后被放置于 PTP 平板上进行后续测序操作。接着将该 PTP 平板放入测定仪中,并准备四种碱基分别对应的四个独立试剂瓶。按照 A-T-C-G 顺序依次循环输入到平板上,并运用焦磷酸测序技术通过软件对测定数据展开分析以确定各碱基排列顺序。

2.3 ABI 测序原理及其过程:

ABI 测序与其它第二代测序技术的主要区别在于它主要采用 DNA 连接酶而非 DNA 聚合酶,并且采用了荧光探针这一特点使得 ABI 测序具有显著的技术优势。

(1) 文库制备

基因组 DNA片段被切割后,在两端连接上黏性末端(ligate),从而构建文库 libraries;若进行转录组测序,则需先将RNA逆转录生成 cDNA fragments,并相应地构建相应的文库 libraries。

(2) 乳液 PCR / 微珠富集

在 PCR 反应开始前,在高速旋转的矿物油表面注入包含 PCR 所有反应成分的水溶液即可形成独立存在的 PCR 反应空间;在理想状态下每个水滴仅含有一个 DNA 模板以及一个 P1 磁珠;由于水相中的 P2 引物与磁珠表面 P1 引物介导作用导致的 PCR 反应其产物数量呈指数级增长;当 PCR 反应结束后 P1 磁珠表面将附着有大量拷贝数目相同的 DNA 模板扩增产物

(3) 微珠沉积

带有3’修饰标记的单个微珠被均匀地附着在一块透明薄片上。当进行样品制备时,在微珠表面形成的小室会将整个样品薄片划分为一个独立的小区域;这些小区域的数量可以是1、4或8个。SOLiD 系统的优势在于能够显著提高单位样品空间内的微球数量,并且在同一实验系统中能够高效地实现更高的通量

(4) 连接测序

SOLiD连接反应所需的底物是一种由8个碱基组成的单链荧光探针混合物,在探针的一端分别使用6-FAM、CY5、CY3和Texas Red四种荧光染料进行标记;探针中间部分(第3到第5位)由随机碱基构成,并且其中第1和2位构成编码区来标识不同的染料类型;而第3到第5位则使用特殊碱基z来允许与任何碱基配对;单向SOLiD测序程序由五个阶段依次完成,在第一个阶段中使用n引物进行第一次连接反应;由于每个磁珠仅包含均匀分布的单一DNA链模板,在此阶段中只引入一种8个碱基数混合物;随后通过化学处理解旋并去除多余的尾部区域后暴露探针上的第五个磷酸基团;在后续阶段中每次测量都会增加5个新的碱基数,并根据荧光颜色信息逐步推断出后续的位置信息

第二阶段连接引物编号为n-1相较于第一阶段偏移一位能够提取出起始位置在第0、1位的多个碱基对的颜色信号在测序过程中通过五轮测序反应将这些与模板序列对应的颜色信号依次连接起来从而构建出完整的 SOLiD原始颜色序列数据集

(5) 数据分析

测序完成后,通过颜色编码构建了SOLiD原始序列集。通过双碱基对所对应的颜色信息,从而能够推导出具体的碱基类型。

这里写图片描述

第三代测序技术

基本原理(搬运自 baidu)

第三代测序技术原理主要包含两大核心技术体系:

第一大体系是基于单分子荧光测序的技术范式,其典型代表包括美国 Spiral生物 (Helicos) 开发的 SMS 技术以及美国太平洋生物 (Pacific Bioscience) 推出的 SMRT 技术。这些方法均采用荧光标记技术对脱氧核苷酸进行处理,并通过显微镜实时捕捉相关信号数据。

在这一测序模式中,荧光标记被施加于脱氧核苷酸分子上后即可进入 DNA 链状结构中进行定位并实时监测其强度变化特征值参数值变化情况。

当该标记脱氧核苷酸与 DNA 链结合时,在特定条件下会发生化学键合作用并伴随荧光信号强度发生相应变化。

当该标记脱氧核苷酸与 DNA 链形成化学键后随即被聚合酶切除时会触发荧光基团脱离DNA链并伴随发光信号消失的现象发生。

由于这种 fluorescent 标记系统具备高度耐受性特征不会对聚合酶的工作状态产生任何影响因素。

全部评论 (0)

还没有任何评论哟~