Advertisement

【学习笔记】山东大学生物信息学-03 分子进化与系统发生

阅读量:

课程地址山东大学生物信息学

文章目录

  • 三、分子进化与系统发生
    • 3.1 基本概念
    • 3.2 系统发生树
    • 3.3 系统发生树的构建
    • 3.4 MEGA7 构建 NJ 树

三、分子进化与系统发生

3.1 基本概念

分子进化

  • 分子进化 :利用利用软件,从分子水平上 (DNA\、RNA、蛋白质序列) 构建各种生物间的系统发生树。准确度依赖软件的优劣及参数的设置。
  • 美国人 Linus Dauling 于 1964 年提出了分子进化的理论。在分子水平上 (DNA、RNA 或蛋白质序列)而不是基于物种的外在特征,来研究进化过程。
  • 基于某一个特定的分子 在不同物种中的序列差异 来构建系统发生树。
  • 基本假设
    (1) DNA、RNA 或蛋白质 序列包含了物种的所有进化史信息
    (2) 分子钟理论 : 一个特定蛋白质的进化变异的速度 在不同物种中是基本恒定 的。即两个蛋白质的序列越相近,他们距离共同祖先就越近。

同源

  • 同源 Homologs:来源于共同祖先的相似的序列为同源序列。
  • 相似序列并不一定是同源序列。
  1. 直系同源Orthologs:来自于不同物种的,由垂直家系 (物种形成)进化而来的基因。并且典型的保留了与原始基因相同的功能
  2. 旁系同源Paralogs:在同一物种中的来源于基因复制 的基因,可能会进化出新的与原来有关的功能
  3. 异同源Xenologs:通过水平基因转移 , 来源于共生或病毒 侵染所产生的相似基因。
    在这里插入图片描述
  • 相似度与同源性
    ◆ 相似度 → 可量化
    序列 A 与序列 B 的相似度是 80% ✔
    序列 A 与序列 B 是相似的 ✔
    同源性不可量化
    序列 A 与序列 B 的同源性是 80% ✖
    序列 A 与序列 B 是同源序列 ✔

3.2 系统发生树

系统发生树

  • 构建系统发生树的意义

    1. 对于一个未知的基因或蛋白质序列,确定其亲缘关系最近的物种。
    2. 预测 一个新发现的基因或蛋白质的功能
    3. 有助于预测一个分子功能的走势。
    4. 追溯一个基因的起源
  • 系统发生树的结构
    在这里插入图片描述

  • 各种形状的系统发生树
    在这里插入图片描述

  • 系统发生树可以随意旋转 :从任何一个点发出的枝子围着这个点旋转都不改变树的生物学意义。
    在这里插入图片描述

有根树和无根树

  • 有根树无根树 :两者可以互换,根的位置通过外类群 (outgroup)确定。
  • 无根树 只反映分类单元之间的距离 ,而不涉及谁是谁的祖先问题。
  • 有根树 反映了树上基因或蛋白质进化的时间顺序 , 通过分析有根树的树枝的长度 ,可以了解不同的基因或蛋白质以什么方式和速率进化。做有根树需要指定外类群。
  • 外类群outgroup:你所研究的内容之外的一个 group。保证它在你要研究的内容之外,但又不能太远可以 不只是一个物种,而是多个 (2-3 个即可)。
  • 例如,想要分析一个基因在不同人种 之间的进化关系,可选择黑猩猩 加入作为外类群一同参与建树。保证所选外类群在你的研究范围之外,但又不能太远。
  • 外类群分支处的节点就是根。
    在这里插入图片描述

物种树和分子树

  • 物种树 是基于每个物种整体 的进化关系(基于整个基因组) 构建的。
  • 分子树 是基于不同物种 里某个基因或蛋白质序列 之间的关系构建的。
    在这里插入图片描述

3.3 系统发生树的构建

构建方法

复制代码
1. 基于距离的方法 UPGMA neighbor-joining (NJ) (计算速度最快,结果最粗糙)
2. 最大简约法 maximum parsimony (MP) (高不成低不就,很少有人用)
3. **最大似然法** maximum likelihood (ML) (建议用,计算速度和准确度都适中)
4. 贝叶斯推断法 Bayesian inference (最慢,结果最准确)  
在这里插入图片描述

目前流行的建树软件

软件 说明 地址
PHYLIP 免费的、集成的进化分析工具 http://evolution.genetics.washington.edu/phylip.html
MEGA 图形化、集成的进化分析工具 http://www.megasoftware.net/
PAUP 商业软件,集成的进化分析工具。收费 http://paup.csit.fsu.edu/
PHYML 最快的 ML 建树工具 http://www.atgc-montpellier.fr/phyml/
MrBayes 基于贝叶斯方法的建树工具 http://mrbayes.csit.fsu.edu/

基于距离的 UPGMA 法

  • 非加权分组平均法 (UPGMA) 构建实例
  • Unweighted Pair Group Method with Arithmetic mean
  • 详见视频系统发生树的构建 P67
  • UPGMA 法是通过计算所有序列两两间的距离 ,再根据距离远近 构建系统发生树。
  • 序列两两间的距离 可以用双序列比对 得出的一致度/相似度 代表,或用其他简化值代替。
  • 用序列间不同的碱基数目 作为序列间遗传距离的度量。
    在这里插入图片描述
  1. 用表格记录距离;

  2. 距离最小 (1) 的 AB 合并聚集(分支点为 d(AB)/2=0.5)看成一个整体,计算 AB 与 C、D 的距离;
    在这里插入图片描述

  3. 找出新的最小距离 CD(2),再将 CD 合并聚集(分支点为 d(CD)/2=1)

  4. 将 CD 看成一个整体,计算 CD 与 AB 的距离 (3)。

  5. 将 AB 和 CD 合并归为一类,分支点为 d(CDAB)/2=1.5。
    在这里插入图片描述

树上枝条的长短反映其与共同祖先的距离。

用什么序列建树?DNA 还是蛋白质?
◆ 如果 DNA 序列 两两间的一致度大于 70% ,就选用 DNA 序列
◆ 如果 DNA 序列两两间的致度小于 70%的话,DNA 序列和蛋白质序列 都可以用(经验:蛋白质 序列更好)。

3.4 MEGA7 构建 NJ 树

  • MEGA7 :免费,操作简单(自动效果好),业界普遍认可(可用于文章发表),支持多操作系统。
  • 详见视频MEGA7 构建 NJ 树 P68

全部评论 (0)

还没有任何评论哟~