Advertisement

Improved long read correction for de novo assembly using an FM-index

阅读量:

改进了使用FM索引的从头组装的长读校正

摘要

长读测序正以前所未有的方式重塑基因组研究的发展前景,尤其是在从头组装这一领域取得了突破性进展. 尽管其固有的高错误率,通过延长 reads 的长度,显著提升了基因组拼接过程的一致性和精确度. 然而这些技术高昂的成本和产出水平限制了它们在处理复杂基因组时的实际应用.

一种可行的方法是基于'混合'程序集来减少组装新基因组的成本与时间。'混合'程序集采用了长读进行初步扫描,并采用短读进行精确定位。针对此问题而言,在此问题上我们开发了一个新型辅助FM索引的多字符串Burrows-Wheeler变换。为了提高效率和准确性,在此问题上我们开发了一个新型辅助FM索引的多字符串Burrows-Wheeler变换。本方法通过一组互补的短读序列对长读序列中的错误进行纠正。实验结果显示,在现有技术基础上我们的方法能够显著提高纠错效率。经过测试分析表明我们的新算法在性能上优于当前最先进算法

Introduction

基于基因组学研究的发展,在长读测序技术方面取得了显著进展。其中PacBio Biosciences所发展的SMRT测序技术和Oxford nanopore technologies推出的nanopore测序平台具有显著优势:每个读数通常达到10,000碱基长度,并且能够跨越基因组中复杂的区域或重复序列区域。传统上只能依赖于基于短片段的测序方法来完成这部分工作。然而由于这些长 read 技术较高的误差率带来了新的信息学与分析层面的挑战。为了促进全基因组组装工作的潜力得以充分发挥纠正相关错误则需要依靠更加高效精准的技术手段[10 2 16 22]

自校正算法主要包含仅利用其他长读序列进行校正的方法。涵盖SPAI[20]、H GAP[10]以及PB CR[16]在内的自校正方法通过将长读数据相互对齐并生成一致序列来提高准确性。为了确保生成的一致性具有高度准确性,这些方法依赖于较高覆盖率的长读序列来克服高错误率所带来的挑战。然而,在这种情况下相对较高的每个精确核苷酸的成本会导致仅使用长读进行深度排序的成本显著增加,并且这种方法通常会变得昂贵和不经济

基于相同样本集的短读排序方案被采用以辅助提升长读质量。与传统方法相比,短读测序由于其测序错误率更低的特点,不仅显著降低了每个碱基测序的成本,而且使每个准确的核苷酸成本大幅降低。当前最先进的人工智能辅助 assembler 系统主要包括 LoRDEC[22]、Cerulean[26]、ECTools[14]、DBG2OLC[9]以及hybrid spades[1]等工具。这些混合 assembler 方法相较于专门用于长读组装的方法而言更加精准,并且能够在较低的成本下构建出更加连续和完整的序列图谱

对于具有生物医学或经济重要性的大型复杂基因组而言,其应用受限的关键障碍在于,在最短时间内以最低计算资源实现尽可能精确的基因组组装。现有技术通常需要在高性能计算集群上运行数小时至数日才能访问配备有大内存配置的多个节点[4,22]。鉴于调整程序参数往往需要经过多次迭代优化的过程,这一高昂的计算成本成为一个显著障碍。

一种新型复合型方法命名为FMLRC用于纠正错误 reads 我们开发了一种新型复合型方法命名为FMLRC用于纠正错误 reads

此BWT被用作隐式的de Bruijn图,并通过类似于LoRDEC[22]中的种子-扩展或种子-桥接策略来实现功能。LoRDEC首先构建了一个基于k-mers的de Bruijn图[22]。随后对该图进行了剪裁处理,将频率低于指定阈值(用户定义)的所有低频k-mers从图中移除,并将长读数据与此剪裁后的图进行对比,从而将数据划分为真实读和弱化读区域。位于实体区域内的所有k-mers都被包含在剪裁后的简短读de Bruijn图中,而位于弱化区域的所有k-mers均不在该图中。通常情况下,LoRDEC假设弱区是由排序错误造成的,建议使用该图中最接近并相互重叠的k-mers序列来替代这些异常序列[22]。当弱区内部存在一致性的长read时,将其端点(即桥接端点或路径)纳入分析;若存在多个支持性桥接结构,则选择与原始序列编辑距离最近的那个桥接结构进行评估[22]。两端对称的情况仅有一个实体区域相连.在这种特殊情况下,LoRDEC会搜索与弱头尾序列最匹配的最佳扩展路径以完成重建过程

虽然经研究证实LoRDEC能够纠正长读序列[22]中的主要错误, 但为了获得更好的效果, 用户需选定合适的筛选后的短k-mer大小以及相应的筛选后的阈值来进行修剪操作. 传统的显式de Bruijn图架构在本质上限制了该算法对长度超过k值的低复杂度序列处理能力. 当LoRDEC进入复杂度较低的区域时, 算法往往难以找到有效的路径, 因为其在探索图数据时已达到预设的最大限度. 此外, 所有参数通常采用启发式方法设定, 因此在更改相关参数时, 必须首先重新构建完整的de Bruijn图网络才能开始后续校正过程.

相比之下,在BWT中具有高频率的长读序列中发现了k-mer种子"。随后,在这些种子之间搜索最匹配中间长读序列的高权重路径。通过不断优化锚点大小k这一参数,并采用逐步增大的方法来纠正错误信息的同时避免不准确de Bruijn图遍历导致重复出现的小规模k-mers短序列问题。由于fm索引能够高效检索任意长度的子字符串信息"从而使我们的方法不受限制于单个装箱内k-mer大小的选择因此它能够捕获所有可能存在的de Bruijn图读取测序数据集中的信息。此外"由于BWT是一种无损编码并且允许动态调整任何修剪阈值而无需重构整个de Bruijn图这一特性使得我们的方法具有很高的灵活性和适应性"我们的方法是独特的因为它能够同时适用于短k-mer和长k-mer构建过程中的校正工作从而使得校正算法能够在低复杂度区域进行有效的纠正直到达到长k-mer所需的大小限制为止。如图1所示我们对整个方法进行了详细的概述。

FMLRC是一种用于纠正长序列错误的混合纠正方案,在其核心优势在于基于FM-index的BWT技术,并通过隐式构建的de Bruijn图来迭代修正任意长度序列中的错误。 图中k-mer节点的存在性使得我们能够比现有的混合纠错方案更有效地解决低复杂度和重复出现元素的问题,并且整体准确率显著提升。 通过对比实验分析现代重叠布局汇编与FMLRC在长读汇编中的应用效果。

全部评论 (0)

还没有任何评论哟~