Advertisement

Metagenome Assembly - Part1:基于德布莱英图(De Bruijn graph)的宏基因组de novo拼接

阅读量:

最近正在处理一批宏基因组数据的拼接工作,
其中的主要任务是将Read序列整合到Contig中。
初次尝试时遇到了诸多不懂之处,
经过学习和实践后有所总结。
最终整理成几篇博客内容,
方便以后复习回顾。
本文旨在介绍一种方法——基于德布莱英图( De Bruijn graph)进行宏基因组拼接的过程与原理。

一、为什么使用德布莱英图?

实现短序列read拼接的主要算法可分为两类:一类是基于重叠图(Overlap Graph)的方法,另一类则基于德布莱英图的方法。通常用于桑格测序(Sanger sequencing)所得测序数据拼接的方法多以重叠图为基础,其中最常用的是所谓的重叠布局一致化(OLC)方法。该方法通过将具有重叠区域reads构建为节点并连接这些节点来形成网络结构,并将这些节点整合为最终 consensus序列的基础就是每个Read作为图中的点而拥有足够的overlap则是建立图中的连接的基础

在这里插入图片描述

在这种情况下(即当处理能力较为有限且各序列之间存在明显的重叠区域), 该种方式能够达到最佳效果. 在针对二代测序数据设计的一些拼接器中, 他们普遍采用了OLC方法, 然而这一传统方法存在明显的计算负担, 即使是针对非常简单的物种进行从头构建, 也需要数十万甚至上千万数量级的短序列. 因此单纯依赖于这种方法显然并不实际. 此外, 在海量短序列的大背景下, 现代所关注的250bp及300bp较长片段被视为新兴技术的一部分(因为它们的应用前景非常广阔). 尽管如此, 这些较长片段仍面临着被现有OLC方法有效识别并加以利用的巨大挑战.

因为 OLC 方法无法适应较短的读长和较大的读数目,在本研究中我们发现更多基于拼接二代测序数据 assembler 都采用了德布莱英图方法。在本文中我们将其简称为 DBG 即 de Bruijn graph。DBG 方法通过将序列分割成长度为 k 的小片段(称为 k-mer)来减少计算量。对于一条长度为 N 的序列从起点到终点逐步提取每个 k-mer 共可获得 N−k+1 个 k-mers 每两个相邻的 k-mers 之间都有长度为 k−1 的 overlap 区域

在这里插入图片描述

通过将序列分解为k-mers的应用,在大量短序列数据集中显著降低了数据冗余性。这与上图所示的情况相似:当一条特定序列被分割成3-mers时,在德布莱英图中会多次出现相同的GAT k-mer,并被反复利用以减少整体数据量和计算量的需求。对于特定的拼接任务而言, 最大的有效k-mer大小取决于读长及错误率, 同时如何选择合适的k值也是决定最终组装质量的关键因素(目前仍在进一步调查)。实际上, 在拼接之前通常会预先确定合适的k值.例如, 使用像K梅尔吉这样的软件即可预估出一个合理的k-mer范围.

德布雷恩图具备另一项显著的优势,在基因组中的某些重复片段通常不会出现在德布雷恩图上,这有助于防止出现一些错误的组装结果(尽管这并非彻底解决)。

第一节的内容与图片的整理源自:https://banana-slug.soe.ucsc.edu/_media/bioinformatic_tools:abyss_technote_illumina.pdf

二、从德布莱英图到拼接结果

基于一组测序数据,在运用特定算法生成了德布莱英图之后,则如何将此图转换为序列的过程是什么?首先我们需要明确的是:该德布莱英图具备**欧拉图(Eulerian Graph)**的特点。这意味着我们需要寻找一条能够遍历所有边至少一次的通路(path)。当然我们还想让它能够遍历所有节点至少一次。然而问题在于:**哈密顿图(Hamiltonian Graph)**作为世界难题之一的NP-Complete问题,在当前阶段难以形成一个普适性的模型来解决这个问题。

基于上述欧拉通路的特点,在以下给出的一组德布莱英图中,默认情况下其拼接后的结果应为GATTACATTACAA;具体来说,则要求该分支回路必须至少经历一次循环。

在这里插入图片描述

实际上当序列被截断为短k-mer时其不确定性程度有所提升如图所示该系统在处理过程中可能出现的状态转换情况

在这里插入图片描述

存在大量不同的路径能够满足特定条件,在实际应用中(assembler)程序会返回一组符合条件的substring集合。这些substring可以通过组合来形成多条完整的路径。例如,在上文所示的图中(ASSEMBLER函数),返回的具体集合为{ACTGA, GACC, GAGTG, GAATG}。其中第一个元素代表该图的核心入口节点;第二个元素则标识着图中的出口节点;第三个和第四个元素分别对应图中蓝色和绿色标注的分支循环路径。通过有选择地排列这些分支就可以生成完整的完整路径序列。

通过连接得到的contig是没有分枝节点存在的结构体,在这种情况下我们所追求的目标就是一个简单的单一路径或者说是一条连续序列的形式表现出来的方式就是我们所需要的模型构建基础之一

在这里插入图片描述

这一部分其实还有大佬讲的更详细一点,参考:https://zhuanlan.zhihu.com/p/54466660。

三、几个值得关注的问题(之后边学习边写)

这就是说我现在特别关注的是从read到contig这一拼接过程的基本流程,在其实用环节中存在几个问题。

  1. 以上介绍的都是单k-mer实现序列拼接,但是现在的Assemblers普遍输入k-mer list,也就是说它会有多个k值进行迭代式的拼接。为什么要用multi-k-mer的方法?k值以及k-max、k-min该如何选择?
  2. Assembler的参数该如何选择?或者说该如何针对不同的数据情况选择?
  3. 德布莱英图只是一个基础,不同的Assembler,比如Megahit、MetaSPAdes、IDBA-UD等都在DBG的方法上进行了自己的改良优化,它们的详细原理是什么(关系到它们的适用场景和参数选择)?
  4. 还有很多使用中遇到的问题……

在学习过程中记录了这些笔记,并整理制作成一个文档集。随后将会继续撰写以上几个问题的学习笔记以及几款Assembler的使用说明书(对于‘怎么整合’这个问题以后再详细探讨)。stay tuned 😃

参考文献和学习资料:

https://zhuanlan.zhihu.com/p/54466660

http://bilkent.edu.tr/~calkan(teaching.cs.481)(pdfslides)(20)(intro_to_assembly).PDF

http://compbio.charite.de/tl_files/groupmembers/robinson/genome-assembly-1.pdf

该链接指向特定的研究小组成员罗宾逊教授发表的关于基因组组装的第二版PDF文件

Including a large-scale genomic study across diverse populations

Significant Human Microbiome Diversity Was Revealed Through Analysis of Over 15 Million Genomes Across Various Demographics

Metagenomic Samples Spanning Different Ages and Geographical Regions Were Collected

This study contributes to our understanding of microbial communities in diverse human settings

Authors conducted a comprehensive assessment of eleven novel metagenomic assembly tools to evaluate their practicality and effectiveness in the context of metagenome assembly (Forouzan et al., 2018). The study was published in the Journal of Microbiological Methods in August 2018 (Volume 151), covering pages 99–105 (Forouzan et al., 2018). The corresponding DOI for this article is https://doi.org/https://doi.org/https://doi.org/https://doi.org/https://doi.org/https://doi.org/, and it is also indexed under PMID: https://pmid=https://pmid=https

前往该资源的位置:banana-slug.soe_ucsc._edu/_media/bioinformatic_tools:abyss_technote_illumina.pdf

全部评论 (0)

还没有任何评论哟~