生物信息技术概述.ppt

上传人:F****n 文档编号:96952282 上传时间:2019-08-31 格式:PPT 页数:129 大小:2.10MB
返回 下载 相关 举报
生物信息技术概述.ppt_第1页
第1页 / 共129页
生物信息技术概述.ppt_第2页
第2页 / 共129页
生物信息技术概述.ppt_第3页
第3页 / 共129页
生物信息技术概述.ppt_第4页
第4页 / 共129页
生物信息技术概述.ppt_第5页
第5页 / 共129页
点击查看更多>>
资源描述

《生物信息技术概述.ppt》由会员分享,可在线阅读,更多相关《生物信息技术概述.ppt(129页珍藏版)》请在金锄头文库上搜索。

1、金丽华,生物信息技术 项目3 进化树的构建,项目3 课程导学,生物是怎么进行进化的? 从什么数据中我们可以看出生物分子的进化过程呢? 猴子和人类有多大的相似性? 在本项目中,我们利用系统进化树的方法来理解生物的进化过程。,项目任务,1) 学习并理解分子进化。 2)能理解分子钟和中性理论 3) 能看懂进化树 4)能利用MEGA5.1软件画出系统进化树。,学习内容,1.分子进化与系统发育 2. 分子进化树与系统进化树 3.利用MEGA 5.1 构建进化树(实操任务),分子进化与系统发育,内容提要,分子进化分析介绍 系统发育树重建方法 Phylip软件包在分子进化分析中的应用 PAUP*在分子进化分

2、析中的应用 MEGA分子进化树分析软件,从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。 蛋白和核酸序列 通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。,分子进化研究的目的,系统发育树是什么?,对一组实际对象的世系关系的描述(如基因,物种等)。,祖先节点/树根,内部节点/分歧点,该分支可能的祖先结点,分支/世系,末端节点,A,B,C,D,E,代表最终分类,可以是物种,群体,或者蛋白质、DNA、RNA分子等,系统发育树: 术语,A,B,C,D,E,F,G,树只代表分支的拓扑结构,F,G,C,D,E,A,B,分子进化研究的基础(假设),核苷酸和氨基酸序列中含有生

3、物进化历史的全部信息。,在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。(分子钟理论, 1965 ),分子进化研究的基础(理论),虽然很多时候仍然存在争议,但是分子进化确实能阐述一些生物系统发生的内在规律。,分子进化研究的基础(实际),从一个分歧数据可以推测其他,序 列 分 歧 度,分歧时间,x,分子钟理论,速率恒定的证据:血色素,中性理论,“在生物分子层次上的进化改变不是由自然选择作用于有利突变引起的,而是在连续的突变压之下由选择中性或非常接近中性的突变的随机固定造成的,中性突变是指对当前适应度无影响的突变。” 否认自然选择在生物进化中的作用,认为生物大分子

4、的进化的主要因素是机会和突变压力,进化及遗传模型,1、序列有指定的来源并且正确无误。 2、序列是同源的,而序列不是“paralog”的混合物。 3、序列比对中,不同序列的同一个位点都是同源的 4、在接受分析的一个序列组中,序列之间的系统发育史是相同的。 5、样本足以解决感兴趣的问题。,进化及遗传模型,6、样本序列之间的差异代表了感兴趣的宽组。 7、样本序列之间的差异包含了足以解决感兴趣的问题的系统发育信号。 8、样本序列是随机进化的。 9、序列中的所有位点的进化都是随机的。 10、序列中的每一个位点的进化都是独立的。,直系同源(orthologs):同源的基因通过物种形成的事件而产生,或源于不

5、同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。 并系同源(paralogs):同源基因在同一物种中,通过至少一次基因复制的事件而产生。,直系同源与旁系同源,paralogs,orthologs,paralogs,orthologs,Erik L.L. Sonnhammer Orthology,paralogy and proposed classification for paralog subtypes TRENDS in Genetics Vol.18 No.12 December 2002 http:/ 0168-9525/02/$ see front

6、matter 2002 Elsevier Science Ltd. All rights reserved.,以上两个概念代表了两个不同的进化事件 用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。,趋同进化的基因(Convergent evolution ) 通过不同的进化途径获得相似的功能,或者功能替代物 (genes have converged function by separate evolutionary paths),异源基因或水平转移基因 (xenologous or horizontally transferred genes) 由某一个水平基因转移事件而得到

7、的同源序列,Bacterium 1,Bacterium 3,Bacterium 2,Eukaryote 1,Eukaryote 4,Eukaryote 3,Eukaryote 2,Bacterium 1,Bacterium 3,Bacterium 2,Eukaryote 1,Eukaryote 4,Eukaryote 3,Eukaryote 2,Phylograms show branch order and branch lengths 进化树,有分支和支长信息,2.进化分支图,进化树,Cladograms show branching order - branch lengths are

8、meaningless 进化分支图,只用分支信息,无支长信息。,archaea,archaea,eukaryote,eukaryote,eukaryote,eukaryote,通过外围支来确定树根,archaea,bacteria outgroup,根,eukaryote,eukaryote,eukaryote,eukaryote,无根树,archaea,archaea,archaea,有根树,外围支,无根树,有根树,外围支,无根树和有根树:潜在的数目,#Taxa 无根树 有根树,3 1 3 4 3 15 5 15 105 6 105 945 7 945 10,395 30 3.58X1036

9、 2.04X1038,Taxa增多,计算量急剧增加,因此,目前算法都为优化算法,不能保证最优解,4.基因树,物种树,We often assume that gene trees give us species trees,a,b,c,A,B,D,Gene tree,Species tree,系统发育树重建分析步骤,多序列比对(自动比对,手工比对),建立取代模型(建树方法),建立进化树,进化树评估,1. 最大简约法 (maximum parsimony, MP) 2. 距离法 (distance) 3. 最大似然法 (maximum likelihood, ML),系统发育树重建的基本方法,最

10、大简约法 (MP),1. 理论基础为奥卡姆剃刀 (Ockham)原则:计算所需替代数最小的那个拓扑结构,作为最优树 2. 在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树 3. 优点:不需要在处理核苷酸或者氨基酸替代的时候引入假设 (替代模型) 4.缺点:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,可能会给出一个不合理的或者错误的进化树推导结果,1. 信息位点,必须在至少2个taxa中具有相同的序列性状 2. 信息位点是指那些至少存在2个不同碱基/氨基酸且每个不同碱基/氨基酸至少出现两次的位点,信息

11、位点 (Sites are informative),上 例,1. Position 5, 7, 9为信息位点 2. 基于position 5的三个MP树: Tree 1长度1,Tree 2 & 3长度2 3. Tree 1更为简约,2. 距离法,又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系,计算序列的距离,建立距离矩阵,通过距离矩阵建进化树,简单的距离矩阵,由进化距离构建进化树的方法有很多,常见有: (1) Fitch-Margoliash Method (FM法):

12、 对短支长非常有效 (2) Neighbor-Joining Method (NJ法/邻接法):求最短支长,最通用的距离方法 (3) Neighbors Relaton Method(邻居关系法) (4) Unweighted Pair Group Method (UPGMA法),通过距离矩阵建树的方法,1.找出关系最近的序列对,如A和B 2.将剩余的序列作为一个简单复合序列,分别计算A、B到所有其他序列的距离的平均值 3.用这些值来计算A和B间的距离 4.将A、B作为一个单一的复合序列AB,计算与每一个其他序列的距离,生成新的距离矩阵 5.确定下一对关系最近的序列,重复前面的步聚计算枝长 7

13、.从每个序列对开始,重复整个过程 8.对每个树计算每对序列间的预测距离,发现与原始数据最符合的树,Fitch-Margoliash方法(FM法),Fitch-Margoliash方法 (FM法),D和E最接近!,分成三组:D, E, 以及ABC,DE距离=d+e (1) D到ABC间的平均距离=d+m (2) E到ABC间的平均距离=e+m (3) (2)-(3)+(1) d=4,e=6,C最接近DE!,分成三组:C, DE, 以及AB,c+g+(e+d)/2=19 (1) c+f+(a+b)/2=40 (2) (e+d)/2+(a+b)/2+f+g=41 (2) (1)+(2)-(3) 得:

14、c=9,c+g+(e+d)/2=19 (e+d)/2=5,c=9,则g=5,由:(a+b)/2+f+g+(d+e)/2=41 得:f=20 由:a+f+c=39 得:a=10,则b=12,练习题 计算以下序列的进化距离,画出进化树。,序列1: AACTG TTAGT CAATT GATTC CAATG GTCCA TAAAC GAATC 序列2: AACAG TCAGT CAAGT GTTTC CTTTG GTCCA TCGAC GAATC 序列3: AAGGG TCTGT CACAG GATGG CATCG GTCGG TAAAC GAGAC 序列4: AAGGG TCTGT CACAG G

15、AAGG CATCG GTGGG TAAAC GTGAC 序列5: AACAC ACAGT CAAGA GTTTC CTTGG GTCCA TCGTC GAATC,NJ法/邻接法,Neighbor-JoiningMethod (NJ法/邻接法):邻接法(Neighbor-joiningMethod)由Saitou和Nei(1987)提出。该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。相邻是指两个分类单位在某一无根分叉树中仅通过一个节点(node)相连。通过循序地将相邻点合并成新的点,就可以建立一个相应的拓扑树。,NJ/邻接法,1. 与FM方法非常类似 2. 保证总的支长最短,总支长:a+b+c+d+e=314/4=78.5,找到距离最近的两个点,1.任意两个节点选为相邻序列的总支长计算公式:,2.计算SAB, SBC, SCD, SDE等数值,3.该例中, SAB最小,把A、B看成一个新的复合序列,构建一个新的距离表,重复以上过程,计算A, B的分支长度,AB组合出现3次,DE组合出现3次,CD、AC、BC组合各一次,则AB和DE各为两对关系最近的邻居。(关系最近的邻居作为邻居的次数最多),将邻居看成一个新的复合序列,重复这个过程,邻居关系法,UPGMA法,称为 (应用算术平均数的非加权成组配对法,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号