Advertisement

生物信息学 之 序列比对

阅读量:

为了深入探讨DNA、RNA以及蛋白质序列在结构与功能上的异同点。

similarity

similarity

similarity

similarity

同源性【homology】 <==> 多序列比对 (Multiple Sequence Alignment)

paralogs

平行关系

当两个基因序列之间的亲缘关系越密切时,则它们被判定为同源基因的可能性也就越高;然而,并非所有亲缘关系密切的基因都一定是真正的同源基因(趋近进化),同样地,并非所有看似相同的基因都能推断出它们具有共同的祖先(发散进化)

双序列比对:

全局对比与局部对比是信息处理中的两个关键方面。
在局部对比中,确定最佳配对是识别相似区域的关键步骤。
基于动态规划算法的最佳配对查找策略广泛应用于多个领域。

Needleman-Wunsch Algorithm(for Global Alignment )

Smith-Waterman Algorithm(for Local Alignment)

常用工具:BLAST FASTA

BLAST:

复制代码
    Blastn:核酸检索核酸库
    Blastp:蛋白质检索蛋白质库
    Blastx:核酸(先翻译6ORFs)检索蛋白质库
    tblastn:蛋白质检索核酸库(先翻译)
    tblastx:核酸(先翻译)检索核酸库(先翻译)
    PSI-BLAST:远亲蛋白
    bl2seq:two seq

FASTA:

复制代码
    FASTA  <=>  Blastn;Blastp
    FASTX  <=>  Blastx
    TFASTAX  <=>  tblastn

蛋白质计分矩阵
PAM(接受点突变)
BLOSUM(块替换矩阵)

多序列比对

  • 精确法 (Exact)/ 高维动态规划算法 (DP): 具有低效率且高内存消耗的特点,并且尤其适用于序列数量较少的情况。

  • 渐进法 (Progressive methods): 主要包括基于树状结构的CLUSTAL W算法及其扩展版本和基于星状结构的对比齐方法。

  • 迭代法 (Iterative methods): 确定性算法(如MAFFT、MUSCLE),以及概率性算法(如遗传算法、模拟退火、隐马尔可夫模型)。

  • 一致性方法(基于一致性的方法):T-Coffee

    • 序列分析方法(寻找模式的算法):motif-finding algorithm
      • 轮廓分析方法(轮廓分析的算法):profile-analysis algorithm

全部评论 (0)

还没有任何评论哟~