【MOOC-生物信息学-序列比较】
一、认识序列
FASTA格式
第一行:“>”+名称或其他注释
第二行及以后:字符串表示序列
二、序列的相似性
1.序列相似的重要性
相似的序列往往起源于同一个共同的祖先序列,它们很可能有相似的空间结构和生物学功能,即
相似的序列->相似的结构->相似的功能
可用序列相似、结构功能已知的蛋白质推测当前仅知道序列的蛋白质
2.一致度与相似度
一致度(identity):如果两个序列(蛋白质或核酸)长度相同,那么它们的一致度定义为它们对应位置上相同的残基(一个字母,胺基酸或碱基)的数目占总长度的百分数,即
identity=(一致字符的个数/全局比对长度)*100%
相似度(similarity):如果两个序列(蛋白质或核酸)长度相同,那么它们的相似度定义为它们对应位置上相似的残基与相同的残基的数目和占总长度的百分数,残基两两相似的量化关系被替换记分矩阵所定义,即
similarity=(一致及相似的字符个数/全局比对长度)*100%
做法:先做双序列全局比对,再根据比对结果和比对长度计算一致度和相似度
三、替换记分矩阵
1.核酸序列的替换记分矩阵
3种常见的DNA序列的替换记分矩阵

2.蛋白质序列的替换记分矩阵
3种常见的蛋白质序列的替换记分矩阵

其它2种蛋白质序列比对的替换记分矩阵

四、序列两两比较—打点法
1.做法
序列 s 水平书写,序列 t 竖直书写,长度记为 n,m ,进行 n*m 次比较,相同的打点,形成打点矩阵。
连续的对角线及对角线的平行线代表两条序列中相同的区域,易于发现串联重复序列及出现次数。
2.在线工具
Dotlet: http://myhits.isb-sib.ch/cgi-bin/dotlet
五、序列两两比较—序列比对法
1.做法
序列 s 和 t 上下排列,在某些位置插入空格后,依次比较它们在每一个位置上字符的匹配情况,从而找出使这两条序列产生最大相似度得分的排列方式和空格插入方式。
另:序列比对法可用于多序列比对,两两比对,其中,两两比对又分为全局比对和局部比对。
2.算法
全局比对:Needleman-Wunsch Algorithm
局部比对:Smith-Waterman Algorithm
(其实都可用局部比对
3.在线工具
EMBL:https://www.ebi.ac.uk/Tools/psa
(不会选择替换记分矩阵就用默认的BLOSUM62
“|”:上下一致
“:”:上下相似
“.”:上下不相似
“ ”:字母对空位
gap open:gap开头的penalty
gap extend:gap延续的penalty
(调整以上两个参数以达到期望的比对结果,end gap同理
六、BLAST(Basic Local Alignment Search Tool)
1.关于BLAST


2.NCBI_BLASTp
BLASTp:标准BLAST
特点:能找到和搜索序列十分相近的序列,但远缘序列找不到
3.NCBI_PSI-BLAST
PSI-BLAST(Position-Specific Iterated BLAST):位点特异性迭代BLAST
特点:能找到远缘序列,但撒网搜索
算法:每次利用位置特异权重矩阵 (Position-Specific Scoring Matrix, PSSM) 搜索数据库后再利用搜索的结果重新构建PSSM,然后用新的PSSM再次搜索数据库,如此反复,直至没有新的结果产生为止。
4.NCBI_PHI-BLAST
PHI-BLAST(Pattern-Hit Initiated BLAST):模式识别BLAST
特点:精准搜索,能找到与输入序列相似的并符合某种特定模式的序列
模式:序列特征模式可能代表某个翻译后修饰的发生位点,也可以代表一个酶的活性位点,或者一个蛋白质家族的结构域、功能域。
5.三种BLAST的区别
6.其它BLAST

SMARTBLAST特点:精准搜索的结果包含数据库中与输入序列最相似的三条序列,以及研究得最透彻的物种中可以展现一定的进化关系的最相似的两条序列
7.在线工具
七、多序列对比
1.简介
(1)定义
多序列比对(multiple alignment):对两条以上的生物序列进行全局比对
(2)用途
确定:一个未知的序列是否属于某个家族
建立:系统发生树,查看物种间或者序列间的关系
模式识别:一些特别保守的序列片段往往对应重要的功能区域,通过多序列比对,可以找到保守片段,即很相似的片段
已知推未知:把已知的有特殊功能的序列片段通过多序列比对做成模型,然后根据该模型推测未知的序列片段是否也具有该功能
其它:预测蛋白质/RNA二级结构等
(4)注意事项

2.在线工具
Clustal-Omega:https://www.ebi.ac.uk/Tools/msa/clustalo
Tcoffee:http://tcoffee.crg.cat
格式转换工具—fmtseq:http://www.bioinformatics.org/JaMBW/1/2
3.美化工具
| 名称 | 网址 | 特点 |
|---|---|---|
| Jalview | http://www.jalview.org | JAVA,可嵌入网页 |
| Boxshade | https://embnet.vital-it.ch/software/BOX_form.html | 擅长黑白作图 |
| ESPript | http://espript.ibcp.fr/ESPript/ESPript | 功能强大 |
| MView | https://desmid.github.io/mview | 擅长转换成HTML源码 |
4.寻找保守区域
(1)序列标识图—Weblogo


(2)序列基序—MEME
(3)指纹图谱数据库—PRINTS

