北京大学生物信息学-第五周-新一代测序(NGS) 回帖 BWT算法
新一代测序
Read:一段被测序仪读出的简短DNA片段。
读:测序仪读出短DNA片段。
将DNA序列及其质量信息输入系统即可获得FASTAQ数据。


序列回帖和变异鉴定
Reads Mapping: 将测得的DNA片段——Reads——定位到基因组中?通常被视为深度测序的关键步骤?无论其结果如何快或慢地完成定位操作?它本质上仍属于双序列比对这一领域的问题?与传统意义上的双序列比对比存在显著差异的地方在于……


对Read来说是全局比对,对基因组来说是局部比对。

很多时候都会是无效的,所以采取seeding-extending策略。

索引:
对数据的分组

哈希:
只需要常数时间就可以完成对基因组的查找:


抽屉原理:


BWT转换:被逐一比对处理后可将片段进行扩展处理以显著提升内存利用率以及比对效率

与基于BLAST的搜索数据相比,在新一代测序技术中存在较高的误差率需要警惕测序过程中产生的假象对结果的影响。

• **SNP调用( SNP calling)**的主要目标是识别特定的DNA序列变异( SNPs),即确定哪些基因座存在差异。
• **基因型调叫( Genotype calling)**是通过测序数据确定个体特定基因型的一系列步骤。



关于回帖、变异鉴定的补充材料
BWT即为:对原始序列进行特定变换的一种方法。具体操作步骤如下:首先将第一排序列中的第二个元素向前移动一位,并将其置于队列末尾位置;然后反复执行这一操作以生成左边矩阵。接着对左边矩阵进行按行划分单元格并按首字母顺序排列后处理得到右边矩阵。最后取出行末尾的那一列数据即可得到下方序列。观察发现左边矩阵的第一列等于右边矩阵对应位置的数据行中的第二行内容;当I=2时上式成立。




该文详细介绍了BWT算法,并对其性能给予了高度评价。该文通过生动形象的例子展示了BWT算法的基本原理与实现过程。直观易懂且描述清晰的技术文章值得推荐阅读。https://www.cnblogs.com/super-zhang-828/p/6856011.html
