第七章分子系统发育分析 进化树 .

上传人:Si****n 文档编号:144910692 上传时间:2020-09-14 格式:PPT 页数:114 大小:6.34MB
返回 下载 相关 举报
第七章分子系统发育分析 进化树 ._第1页
第1页 / 共114页
第七章分子系统发育分析 进化树 ._第2页
第2页 / 共114页
亲,该文档总共114页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第七章分子系统发育分析 进化树 .》由会员分享,可在线阅读,更多相关《第七章分子系统发育分析 进化树 .(114页珍藏版)》请在金锄头文库上搜索。

1、第七章 分子系统发育分析,姚正培 yao_,本章内容,引言 生物进化的分子机制 系统进化树及其构建 分子系统发育分析软件及应用,引言,生物学家:We have a dream Tree of Life: 重建所有生物的进化历史并以系统树的形式加以描述,引言,梦想走进现实:How? 最理想的方法:化石! 零散、不完整,引言,梦想走进现实:How? 比较形态学和比较生理学:确定大致的进化框架 细节存很多的争议,引言,梦想走进现实:How? 第三种方案:分子进化 1964年,美国进化生物学家 E. Zuckerkandl和 量子化学家Linus Pauling提出分子进化理论 基本假设 核酸和蛋白质

2、序列中含有生物进化历史的全部信息 理论 分子进化速率恒定。 分子钟:物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间)有一定的数量关系。 发生在分子层面的进化过程:DNA, RNA和蛋白质分子,引言,分子钟成立的证据: 1、至少某些生物大分子(如珠蛋白)的进化速率在相当长的地质时间内的相对稳定、均匀; 2、许多不同物种的多种同源大分子在相当长时间内的平均进化速率近似恒定。,建立分子钟的大致步骤 1、选择所要比较的生物大分子种类 根据具体研究目标和已掌握的资料,选择进化速率相对恒定、速率大小合适、分布范围能涵盖各待比较物种的生物大分子。 2、选择所要比较的物种,确定各比较

3、组合及其所代表的进化事件 3、获得生物大分子一级结构的资料 4、获得有关的代表性进化事件发生的地质时间数据 5、通过比较大分子一级结构,选择合适的数学模型,计算得到进化产生的分子差异d,通过回归分析等统计方法得到大分子的进化速率r(t) 6、由此可以推断未知进化事件的发生时间,Example: Molecular clock for 17 mammal species Inferred pairwise nucleotide substitutions among 17 mammal species from seven gene products, as estimated from pro

4、tein studies, plotted against date of divergence, as estimated from the fossil record. The line is drawn from the origin through the oldest point (marsupial / placental divergence at 125 MYBP). The strong linear relationship suggests that molecular differences between pairs of species are proportion

5、al to the time of their separation, rather than the degree of organismal difference. Therefore, measures of genetic divergence can be used to date the time of divergence for species pairs for which no fossil data are available: genes function as Molecular Clocks. (from A. C. Wilson 1976),关于分子钟的讨论和争议

6、 1、对长期进化而言,不存在以恒定速率替换的生物大分子一级结构;(基因功能的改变、基因数目的增加) 2、不存在通用的分子钟; 3、争议: 分子钟的准确性 中性理论(分子钟成立的基础),第一节 生物进化的分子机制,分子途经研究生物进化的可行性 分子进化的模式 分子进化的特点 研究分子进化的作用,分子途径研究生物进化的可行性,普适性 由4种核酸组成 分子水平的进化表现为:DNA序列的演化、氨基酸序列演化、蛋白质结构及功能的演化 可比较性 比较不同物种的有关DNA序列 建立DNA序列的演化模型、氨基酸序列的演化模型 蛋白质结构的演化模型 基因组包含丰富的编码信息 与形态、性状包含的信息相比,基因组序

7、列、蛋白质序列包含更多、更复杂的信息结构,基因变异,1、核苷酸替代、插入/缺失、重组 2、基因复制,固定在生物个体 以及物种内,遗传漂变,自然选择,传递给后代,产生新的形态、性状,分子进化的模式,分子进化的模式,1. DNA突变:替代,插入,缺失,倒位 核苷酸替代:转换 (Transition) 物种分类 大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析;功能预测 进化速率分析:例如,HIV的高突变性;哪些位点易发生突变?,研究分子进化的作用,Tree of Life: 16S rRNA,研究分子进化的作用,Out of

8、Africa,53个人的线粒体基因组(16,587bp),人类迁移的路线,第二节 系统进化树及其构建,系统进化树的概念 系统进化树的种类 系统进化树的构建,系统进化树的概念,所有生物都可以追溯到共同的祖先,生物的产生和分化就像树一样生长、分叉,以树的形式来表示生物之间的进化关系是非常自然的事。,系统进化树的概念,phylogenetic tree/evolutionary tree 系统进化树/生物进化树/系统发育树/系统发生树/系统树/进化树/演化树 是表明被认为具有共同祖先的各物种相互间进化关系的树形图。,系统进化树的概念术语,祖先节点/树根,内部节点/分歧点,该分支可能的祖先节点,分支/

9、世系:长度对应演化距离(如估计的演化时间),末端节点:代表最终分类,可以是物种,群体,或者蛋白质、DNA、RNA分子等,A,B,C,D,E,系统进化树的概念,进化树分支的图像称为进化的拓扑结构 理论上,一个DNA序列在物种形成或基因复制时,分裂成两个子序列,因此系统进化树一般是二歧的。,A,B,C,D,E,F,G,F,G,C,D,E,A,B,系统进化树的概念,直系同源(orthologs): 同源的基因是由于共同的祖先基因进化而产生的。 旁系同源(paralogs): 同源的基因是由于基因复制产生的。 用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。,旁系同源,直系同源,拓扑结

10、构: 有根树: 反映时间顺序 无根树: 反映距离,系统进化树的种类 有根树、无根树,外围支,考虑4个分类群时,共有15种可能的有根树,a,b,c,d,a,c,b,d,a,d,b,c,考虑4个分类群时,共有3种可能的无根树,#Taxa 无根树 有根树,3 1 3 4 3 15 5 15 105 6 105 945 7 945 10,395 30 3.58X1036 2.04X1038,Taxa增多,计算量急剧增加,选出真实树的拓扑结构十分困难,因此,目前算法都为优化算法,不能保证最优解。,系统进化树的种类 有根树、无根树,系统进化树的种类 标度树、非标度树,标度树:分支的长度表示变化的程度 非标

11、度树:分支只表示进化关系,支长无意义,一个单位,系统进化树的种类 物种树、基因树,物种树:代表一个物种或群体进化历史的系统进化树,两个物种分歧的时间为两个物种发生生殖隔离的时间 基因树:由来自各个物种的一个基因构建的系统进化树(不完全等同于物种树),表示基因分离的时间。,系统进化树的构建,构建系统进化树的步骤 构建系统进化树的方法 构建进化树的一般原则,构建系统进化树的步骤,多序列比对(自动比对,手工校正),选择建树方法以及替代模型,建立进化树,进化树评估,构建系统进化树的方法,1. 最大简约法 (maximum parsimony, MP) 适用序列有很高相似性时 2. 距离法 (dista

12、nce) 适用序列有较高相似性时 3. 最大似然法 (maximum likelihood, ML) 可用于任何相关序列集合 计算速度: 距离法 最大简约法 最大似然法,构建系统进化树的方法 最大简约法(MP),理论基础为奥卡姆 (Ockham)原则:计算所需替代数最小的那个拓扑结构,作为最优树 在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树 缺点:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,可能会给出一个不合理的或者错误的进化树推导结果,信息位点 能将所有可能的树区别出来的位点。 至少存在2个不

13、同碱基/氨基酸且每个不同碱基/氨基酸至少出现两次的位点。,构建系统进化树的方法 最大简约法(MP),上例,1. Position 5, 7, 9为信息位点 2. 基于position 5的三个MP树: Tree 1长度1,Tree 2 非信息位点 (uninformative): 不含有信息的位点 不变位点 (invariant): 属于非信息位点,比较的所有序列都有同样的核苷酸。即每一棵描述所有序列间进化关系的树都有相同的突变数目(0)。,(1,2)(3,4),(1,3)(2,4),(1,4)(2,3),图5.1 4条同源序列的比对(每条序列有6个核苷酸),6个位点构造4个物种之间进化关系的

14、可能无根树,不变位点,(1,2)(3,4),不变位点,非信息位点,不变位点,非信息位点,非信息位点,不变位点,非信息位点,非信息位点,非信息位点,不变位点,非信息位点,非信息位点,非信息位点,信息位点,不变位点,非信息位点,非信息位点,非信息位点,信息位点,信息位点,信息位点的共同特征: 如果一个位点是信息位点,那么它(1)至少有两种不同的核苷酸,并且(2)这些核苷酸至少出现两次。,5.1.2 无权简约法,最简约树:考虑每个信息位点所有可能的树,分别给每棵树进行打分,统计每个位点的核苷酸最小替换数目。所有简约信息位点最小核苷酸替换数的总和最小的树记为最简约树。 4条序列比对的例子可能是最简单的

15、例子: 在只包含4条序列的分析中,每个信息位点只能支持 3 棵可能的树中的1棵,含有最多信息位点的树就是最简约树。,5条或更多序列数据集的计算复杂得多。原因在于: 随序列数增加,无根树数目也增加; 每个信息位点可能有多棵树,整个数据集的最大简约树不一定是含最多信息位点的树; 每棵树的核苷酸替换数目的计算更加困难。 n个物种可能得到无根系统发生树 (Nu) 数目: Nu=(2n-5)!/2n-3(n-3)!,下图是描述5条不同序列之间关系的15棵可能无根树中的3棵。这3棵无根树有相同的简约度,它们的最小替换数都是2。由简约规则,推断出的祖先的候选核苷酸分别列在每个内部节点的旁边。,计算祖先核苷酸

16、位置的算法: 如果一个内部节点的两个直接后代节点上的核苷酸的交集非空,那么这个节点的最可能的候选核苷酸集就是这个交集; 否则为它的两个后代节点上的核苷酸集的并集。,上述方法只适用于信息位点,不适用于非信息位点。 非信息位点的最小替换数:外部节点上不同核苷酸数目减去1 (与树的拓扑结构无关) 例如: 5条序列的比对中,有一个位置上的核苷酸是 G、G、A、G和T,则最小替换数就是 3-1=2 。 非信息位点对所有可能的树的贡献都是等价的,在简约分析中往往被完全排除。 树的长度(length):当一棵树在信息位点和非信息位点的替换数的总和是一个确定的数值时,这个数值就是指树的长度。,5.1.3 加权简约法,赋值的必要性: “

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 管理信息系统

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号