【学习笔记】山东大学生物信息学-03 分子进化与系统发生
发布时间
阅读量:
阅读量
课程地址 :山东大学生物信息学
文章目录
- 三、分子进化与系统发生
-
- 3.1 基本概念
- 3.2 系统发生树
- 3.3 系统发生树的构建
- 3.4 MEGA7 构建 NJ 树
三、分子进化与系统发生
3.1 基本概念
分子进化
- 分子进化 :利用利用软件,从分子水平上 (DNA\、RNA、蛋白质序列) 构建各种生物间的系统发生树。准确度依赖软件的优劣及参数的设置。
- 美国人 Linus Dauling 于 1964 年提出了分子进化的理论。在分子水平上 (DNA、RNA 或蛋白质序列)而不是基于物种的外在特征,来研究进化过程。
- 基于某一个特定的分子 在不同物种中的序列差异 来构建系统发生树。
- 基本假设 :
(1) DNA、RNA 或蛋白质 序列包含了物种的所有进化史信息 ;
(2) 分子钟理论 : 一个特定蛋白质的进化变异的速度 在不同物种中是基本恒定 的。即两个蛋白质的序列越相近,他们距离共同祖先就越近。
同源
- 同源
Homologs:来源于共同祖先的相似的序列为同源序列。 - 相似序列并不一定是同源序列。
- 直系同源
Orthologs:来自于不同物种的,由垂直家系 (物种形成)进化而来的基因。并且典型的保留了与原始基因相同的功能 。 - 旁系同源
Paralogs:在同一物种中的来源于基因复制 的基因,可能会进化出新的与原来有关的功能 。 - 异同源
Xenologs:通过水平基因转移 , 来源于共生或病毒 侵染所产生的相似基因。

- 相似度与同源性
◆ 相似度 → 可量化
序列 A 与序列 B 的相似度是 80% ✔
序列 A 与序列 B 是相似的 ✔
◆ 同源性 → 不可量化
序列 A 与序列 B 的同源性是 80% ✖
序列 A 与序列 B 是同源序列 ✔
3.2 系统发生树
系统发生树
-
构建系统发生树的意义
- 对于一个未知的基因或蛋白质序列,确定其亲缘关系最近的物种。
- 预测 一个新发现的基因或蛋白质的功能 。
- 有助于预测一个分子功能的走势。
- 追溯一个基因的起源 。
-
系统发生树的结构 :

-
各种形状的系统发生树

-
系统发生树可以随意旋转 :从任何一个点发出的枝子围着这个点旋转都不改变树的生物学意义。

有根树和无根树
- 有根树 和无根树 :两者可以互换,根的位置通过外类群 (outgroup)确定。
- 无根树 只反映分类单元之间的距离 ,而不涉及谁是谁的祖先问题。
- 有根树 反映了树上基因或蛋白质进化的时间顺序 , 通过分析有根树的树枝的长度 ,可以了解不同的基因或蛋白质以什么方式和速率进化。做有根树需要指定外类群。
- 外类群
outgroup:你所研究的内容之外的一个 group。保证它在你要研究的内容之外,但又不能太远 。可以 不只是一个物种,而是多个 (2-3 个即可)。 - 例如,想要分析一个基因在不同人种 之间的进化关系,可选择黑猩猩 加入作为外类群一同参与建树。保证所选外类群在你的研究范围之外,但又不能太远。
- 外类群分支处的节点就是根。

物种树和分子树
- 物种树 是基于每个物种整体 的进化关系(基于整个基因组) 构建的。
- 分子树 是基于不同物种 里某个基因或蛋白质序列 之间的关系构建的。

3.3 系统发生树的构建
构建方法
1. 基于距离的方法 UPGMA neighbor-joining (NJ) (计算速度最快,结果最粗糙)
2. 最大简约法 maximum parsimony (MP) (高不成低不就,很少有人用)
3. **最大似然法** maximum likelihood (ML) (建议用,计算速度和准确度都适中)
4. 贝叶斯推断法 Bayesian inference (最慢,结果最准确)

目前流行的建树软件 :
| 软件 | 说明 | 地址 |
|---|---|---|
| PHYLIP | 免费的、集成的进化分析工具 | http://evolution.genetics.washington.edu/phylip.html |
| MEGA | 图形化、集成的进化分析工具 | http://www.megasoftware.net/ |
| PAUP | 商业软件,集成的进化分析工具。收费 | http://paup.csit.fsu.edu/ |
| PHYML | 最快的 ML 建树工具 | http://www.atgc-montpellier.fr/phyml/ |
| MrBayes | 基于贝叶斯方法的建树工具 | http://mrbayes.csit.fsu.edu/ |
基于距离的 UPGMA 法
- 非加权分组平均法 (UPGMA) 构建实例
- Unweighted Pair Group Method with Arithmetic mean
- 详见视频 :系统发生树的构建 P67
- UPGMA 法是通过计算所有序列两两间的距离 ,再根据距离远近 构建系统发生树。
- 序列两两间的距离 可以用双序列比对 得出的一致度/相似度 代表,或用其他简化值代替。
- 用序列间不同的碱基数目 作为序列间遗传距离的度量。

-
用表格记录距离;
-
距离最小 (1) 的 AB 合并聚集(分支点为 d(AB)/2=0.5)看成一个整体,计算 AB 与 C、D 的距离;

-
找出新的最小距离 CD(2),再将 CD 合并聚集(分支点为 d(CD)/2=1)
-
将 CD 看成一个整体,计算 CD 与 AB 的距离 (3)。
-
将 AB 和 CD 合并归为一类,分支点为 d(CDAB)/2=1.5。

树上枝条的长短反映其与共同祖先的距离。
用什么序列建树?DNA 还是蛋白质?
◆ 如果 DNA 序列 两两间的一致度大于 70% ,就选用 DNA 序列 。
◆ 如果 DNA 序列两两间的致度小于 70%的话,DNA 序列和蛋白质序列 都可以用(经验:蛋白质 序列更好)。
3.4 MEGA7 构建 NJ 树
- MEGA7 :免费,操作简单(自动效果好),业界普遍认可(可用于文章发表),支持多操作系统。
- 详见视频 :MEGA7 构建 NJ 树 P68
全部评论 (0)
还没有任何评论哟~
