2022.01.23【读书笔记】丨生物信息学与功能基因组学(第六章 多重序列比对 上)
- 学习目标
- 理解使用ClustalW进行多重序列比对(MSA)的三个主要阶段;
概述几种其他类型的多重序列比对(MSA)工具及其特性,并详细探讨这些工具的工作机制及其实现细节;深入分析这些工具在算法设计上的创新之处;研究这些工具与其Comparative aspects之间的差异,并评估其性能优劣;同时尝试将其应用于实际案例中以验证其适用性
* 理解进行基准研究的重要性,并且理解关于MSA的几个基本结论;
-
关于基因组区域中MSA的一些关键问题展开探讨。
- 第六章 引言
- 在本章中将深入分析MSA的基本特性及其应用背景。
-
具体阐述了五种主要分析方法及其适用范围。
-
认识用于MSA的数据库,比如Pfam;
-
讨论基因组DNA的多重序列比对。
-
- 在本章中将深入分析MSA的基本特性及其应用背景。
- 第六章 引言
-
多重比对序列的概念
- 多重序列比对其包括一组至少3条蛋白质(或核酸)序列既可以部分匹配也可以完全匹配。
每个蛋白质家族不总是存在一个"正确"的比对结果(尽管如此)其三维结构几乎完全一致。
-
一个多重序列比对的本质特征在于它包含一组特定位置上的氨基酸残基配对。
-
这种配对关系可以通过分析氨基酸残基的独特特性来识别。
-
具体来说,在这些配对中存在高度保守的氨基酸残基类型。
-
例如能够形成二硫键的半胱氨酸即属于此类。
- 存在保守的motif,如跨膜跨度或免疫球蛋白功能域。
具有蛋白质二级结构的稳定特性,并非仅仅用于形成α螺旋、β折叠以及过渡域的氨基酸基团。
* 存在显示了插入或缺失的一致模式的区域。
-
多重序列比对的典型应用和实际策略
- 在哪些情况下采用多重序列比对比其他方法更具优势?
- 等待验证
- 在哪些情况下采用多重序列比对比其他方法更具优势?
-
1. 如果一个蛋白质与大量其他蛋白质关联,则这些相关联的蛋白质成员一般会提供该蛋白功能、结构以及其进化的相关信息
大多数蛋白质家族有亲缘关系的成员中,则通过MSA方法能够相较于双序列对更具灵敏性地识别出这些蛋白质家族间的进化联系。
* 3\. 查看数据库搜索结果时,MSA的格式对于显示保守残基与motif更直观。
4. 测定突变(SNP)是否具有危害性的一类算法通常基于DNA与蛋白质的多重序列对比分析来评估不同物种间的相似性水平——有害突变的结果往往集中在更为保守的位置
关于种群数据的研究能够深入地帮助我们理解多个涵盖进化特征、结构组成以及功能作用的生物问题及其内在规律。
Whenever the complete genome of any species is sequenced, a major aspect of this research involves determining which protein families these gene products belong to.
系统发育方法基于多组序列间的比较结果作为初始数据输入,并构建出系统的进化关系图谱。
-
8. 含有转录尹祖结合部位和其他保守元件共同存在的序列主要依据于多重序列比对检测中的保守非编码区域。
-
6.2 物种中常用的多重序列比对方法
- 常用的方法
-
精确分析法
-
渐进比对法
-
迭代法
-
基于一致性的方法
-
基于结构的方法
-
- 常用的方法
-
精确方法
Needleman-Wunsch(缩略语)被用于双序列对比配对中的动态规划算法
采用双序列对比的动态规划方法,在处理过程中,对比矩阵呈现出多维度特征;其目的是为了实现所有配对之间的相似度分数总和的最大化。
优势在于其能够生成最优比对结果。然而,在处理大量数据时这一方法并不切实际。当处理包含多个序列的数据集时(设总共有n个这样的序列),计算所需时间需求为T(n)=O(2^n * l^n),其中n代表数据集中所有序列的数量而l代表每个具体数据项的长度。相比之下,在ClustalW中使用的是一个更为高效的方法,并且其时间复杂度达到了O(n⁴ + n l²)的程度。这些算法虽然迅速完成任务但在寻找全局最优解方面存在明显不足
-
渐进行为比较法
Fitch 和 Yasunobu (1975) 最初由该方法用于处理 5S 核糖 RNA 序列的配对过程;Hogeweg 和 Hesper (1984) 进一步阐述了这一发现。随后由 Da-Fei Feng 和 Russell Doolittle 在 1987 年至 1990 年间进行了推广。 -
分析方法
-
为了准确评估蛋白质间的相似性程度, 首先需要计算所有待比对蛋白质序列间的两两比对得分, 其中优先选择具有最高相似度的序列作为初始对比对象; 随后逐步引入其他序列参与比较, 最终形成完整的相互关系网络以供分析。
优势与劣势:能够迅速地比较大量序列的主要制约因素是最终的结果取决于添加顺序。
* 常用的渐进比对工具
* ClustalW
* 网页工具

- 按阶段划分开展工作流程
- 第一阶段: 进行一系列双序列比对
- 在第一阶段中, 使用动态规划算法生成所有待比较蛋白质之间的双序列对比结果
- 例如,在五个序列的情况下, 可以得到十个具体的对比得分数值
- 在第一阶段中, 使用动态规划算法生成所有待比较蛋白质之间的双序列对比结果
- 第一阶段: 进行一系列双序列比对

* 第二步:建立引导树
* 利用距离(或相似度得分)矩阵计算一个引导树
-
典型的引导树构建方法有两种(本章将详细介绍)
* 采用算术平均无权重成对组别法(UPGMA)* 邻接法 * 树的主要特征 * 拓扑结构(分支的顺序) * 进化距离(分支的长度) * 树可以用来反映参与多重比对的多个序列相关程度

- 第三阶段:以引导树上的出现顺序为基础进行若干步骤操作,并建立多重对比链表
- 算法指导将从树中选取两个最为接近的具体记录来进行双重对比操作。这两个特定的现存记录位于叶子节点位置。
- 下一个记录会被纳入双重对比体系,并会启动新的双重对比流程。

- 迭代法
- 迭代法通过渐进比对策略计算出一个次优解。
随后运用动态规划或其他算法修正比对结果直至解收敛。
处理了一个初始树,并重新评估了两侧谱的对比关系。
从而这些方法建立了一个初始对比基准,并对其进行逐步优化和改进。
这些目标函数用于最大化分数.
- 迭代法通过渐进比对策略计算出一个次优解。

渐进比对法存在局限性,在比对阶段一旦出现问题就难以修正,通过迭代方法能够有效解决这一问题
- MAFFT是一个用于多重序列比对的工具包, 采用渐进式比较方法.
- 类似于ClustalW的单步渐近算法, 在细分阶段应用快速傅里叶转换技术.
两阶段模式下,在第一阶段进行多重序列比对;第二步则基于第一阶段结果评估复杂程度,并实施二次渐近分析.
在PartTree中采用渐进式的对比方法来分析数据间的差异关系。该方法通过匹配的6元组用于计算配对间的距离,并通常被称为k-mer计数法。

-
MUSCLE操作主要包含三个主要步骤
-
被采用为渐进多重序列比对的方法,从而生成一个初步的比对结果
- 改进树并且构建了一个新的渐进比对
-
按照科学的方法对粪狗树进行系统操作,从而获取相应的子集;对引导的树进行优化处理以实现更好的结构.移除其中一条边(或枝干),从而构建出一个二分结构.

-
基于一致性的原理
- 核心观点:在序列X、Y及Z之间,在X的残基匹配到Z的前提下,并且Z匹配到Y的情况下,则推测X应匹配到Y。
-
该方法在双序列比对的打分过程中综合考量了多组序列的信息内容。其独特性体现在能够系统地整合来自多重序列比对比双序列比对的证据。
* ProbCons算法包含五步-
该算法计算每一对序列的后验概率矩阵
-
计算每一个双序列比对的准确度期望
-
利用“概率一致性转换”对每一个双序列比对的质量得分进行重新估计
-
利用层次聚类法构建一个准确度期望的引导树
-
按照引导树给出的顺序,渐进地对序列进行比对
-

- 基于结构
- 利用一个或多个待对比对蛋白质的三维结构数据可能会有助于提升多重序列比对的效果。这些算法能够整合与蛋白质相关的三维结构信息,并且包括PRALINE和T-COFFEE中的Expresso模块。

- 6.3 基于标准数据集的研究:探讨方法与挑战
- 基于标准数据集的研究能够为各种算法和软件提供可靠的参考依据。
- 研究结果表明,在这种情况下所得出的答案是由高质量的真阳性关系构成的。
- 研究人员通过对不同软件程序进行客观评估来确定最精确的结果。
评价标准数据集质量的关键因素是其相关性。其相关性体现在基准数据集中应包含用户在日常使用中可能遇到的各种具体任务
* 可解性:任务不应该太简单或者太难
* 可伸缩性:有些任务是小规模的,而有些任务序列分析大量的蛋白质
* 可获得性:基准数据库应该是公开的
* 独立性:用于构建基准数据库的方法不应该被用于进行序列比对
* 可拓展:基准数据集应该随着时间的改变而拓展以适应新的问题
-
可应用于多种序列对比分析的基础基准数据库包括BAliBASE、HOMSTRAD、OXBench、PREFAB、SABmark以及IRMBASE等数据库。
-
常用方法通常是基于蛋白质已知三维结构进行比对分析;
-
其三维结构则通常通过X射线衍射与结晶技术相结合的方式获取。
-
MSA算法在基准数据集中的性能可以通过打分函数进行评估, 常用的评价方法是衡量成对加和得分。
-
诚挚邀请您加入生信交流群! 如二维码已失效, 请及时添加VX: bbplayer2021。

