分子进化分析与相关分析软件的应用PPT课件

上传人:优*** 文档编号:149214061 上传时间:2020-10-25 格式:PPT 页数:122 大小:1.18MB
返回 下载 相关 举报
分子进化分析与相关分析软件的应用PPT课件_第1页
第1页 / 共122页
分子进化分析与相关分析软件的应用PPT课件_第2页
第2页 / 共122页
分子进化分析与相关分析软件的应用PPT课件_第3页
第3页 / 共122页
分子进化分析与相关分析软件的应用PPT课件_第4页
第4页 / 共122页
分子进化分析与相关分析软件的应用PPT课件_第5页
第5页 / 共122页
点击查看更多>>
资源描述

《分子进化分析与相关分析软件的应用PPT课件》由会员分享,可在线阅读,更多相关《分子进化分析与相关分析软件的应用PPT课件(122页珍藏版)》请在金锄头文库上搜索。

1、.,1,分子进化分析与相关分析软件的应用,生命科学学院 2005.4,.,2,内容提要,分子进化分析介绍 系统发育树重建方法 Phylip软件包在分子进化分析中的应用 PAUP*在分子进化分析中的应用,.,3,内容提要,分子进化分析介绍 系统发育树重建方法 Phylip软件包在分子进化分析中的应用 PAUP*在分子进化分析中的应用,.,4,从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。 蛋白和核酸序列 通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。,分子进化研究的目的,.,5,系统发育树是什么?,对一组实际对象的世系关系的描述(如基因,物种等)。,.,6,

2、一个系统发育树,末端,物种,顶端,中间节点,中间枝条,根,末端分支,叶子,节点,.,7,A,B,C,D,E,F,G,树只代表分支的拓扑结构,F,G,C,D,E,A,B,.,8,分子进化研究的基础(假设),核苷酸和氨基酸序列中含有生物进化历史的全部信息。,.,9,在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。(分子钟理论, 1965 ),分子进化研究的基础(理论),.,10,虽然很多时候仍然存在争议,但是分子进化确实能阐述一些生物系统发生的内在规律。,分子进化研究的基础(实际),.,11,从一个分歧数据可以推测其他,序 列 分 歧 度,分歧时间,x,分子钟理论

3、,.,12,直系同源(orthologs): 同源的基因是由于共同的祖先基因进化而产生的. 旁系同源(paralogs): 同源的基因是由于基因复制产生的. (以上定义源自Fitch, W.M. (1970) Distinguishing homologous from analogous proteins. Syst. Zool. 19, 99113),直系同源与旁系同源,.,13,paralogs,orthologs,.,14,paralogs,orthologs,Erik L.L. Sonnhammer Orthology,paralogy and proposed classifica

4、tion for paralog subtypes TRENDS in Genetics Vol.18 No.12 December 2002 0168-9525/02/$ see front matter 2002 Elsevier Science Ltd. All rights reserved.,.,15,以上两个概念代表了两个不同的进化事件 用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。,.,16,趋同进化的基因 (genes have converged function by separate evolutionary paths),.,17,异源基因或水平转移基

5、因 (xenologous or horizontally transferred genes),.,18,Bacterium 1,Bacterium 3,Bacterium 2,Eukaryote 1,Eukaryote 4,Eukaryote 3,Eukaryote 2,Bacterium 1,Bacterium 3,Bacterium 2,Eukaryote 1,Eukaryote 4,Eukaryote 3,Eukaryote 2,Phylograms show branch order and branch lengths 进化树,有分支和支长信息,2.进化分支图,进化树,Clado

6、grams show branching order - branch lengths are meaningless 进化分支图,只用分支信息,无支长信息。,.,19,Rooted by outgroup,archaea,archaea,archaea,bacteria outgroup,root,eukaryote,eukaryote,eukaryote,eukaryote,无根树,archaea,archaea,archaea,Monophyletic group(单源群),Monophyletic group,3.有根树,无根树,外围群,有根树,外围群,.,20,4.基因树,物种树,W

7、e often assume that gene trees give us species trees,a,b,c,A,B,D,Gene tree,Species tree,.,21,内容提要,分子进化分析介绍 系统发育树重建方法 Phylip软件包在分子进化分析中的应用 PAUP*在分子进化分析中的应用,.,22,系统发育树重建分析步骤,多序列比对(自动比对,手工比对),建立取代模型(建树方法),建立进化树,进化树评估,.,23,Bioinformatics Sequence and Genome Analysis David W.Mount Chapter 6 Phylogenetic

8、Prediction,The Source Below Come From:,.,24,系统发育树重建的基本方法,最大简约法(maximum parsimony,MP) 距离法(distance) 最大似然法(maximum likelihood,ML),.,25,最大简约法(MP),最大简约法(maximum parsimony,MP)最早源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡姆(Ockham)哲学原则,这个原则认为:解释一个过程的最好理论是所需假设数目最少的那一个。对所有可能的拓扑结构进行计算,并计算出所需替代数最小的那个拓扑结构,作为最优树。,.

9、,26,序列个数与树的个数的关系,.,27,.,28,信息位点(Sites are informative),所谓信息位点,它必须在至少2个分类群中具有相同的序列性状。 信息位点是指那些至少存在2个不同碱基且每个不同碱基至少出现两次的位点。,.,29,优点: 最大简约法不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)。 此外,最大简约法对于分析某些特殊的分子数据如插入、缺失等序列有用。,最大简约法(MP),.,30,缺点: 在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树。 然而在分析序列上存在较多的回复突变或平行突变,

10、而被检验的序列位点数又比较少的时候,最大简约法可能会给出一个不合理的或者错误的进化树推导结果。,最大简约法(MP),.,31,.,32,距离法,距离法又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系 。,.,33,计算序列的距离,建立距离矩阵,通过距离矩阵建进化树,.,34,一种简单的距离矩阵,.,35,由进化距离构建进化树的方法有很多,常见有: 1.Fitch-Margoliash Method(FM法) 2. Neighbor-Joining Method (NJ法/邻

11、接法) 3. Neighbors Relaton Method(邻居关系法) 4.Unweighted Pair Group Method (UPGMA法),通过矩阵建树的方法,.,36,Fitch-Margoliash方法(FM法),.,37,.,38,DE距离=d+e (1) D到ABC间的平均距离=d+m (2) E到ABC间的平均距离=e+m (3) (2)-(3)+(1) d=4,e=6,.,39,.,40,c+g+(e+d)/2=19 (1) c+f+(a+b)/2=40 (2) (e+d)/2+(a+b)/2+f+g=41 (2) (1)+(2)-(3) 得:c=9,.,41,c

12、+g+(e+d)/2=19 (e+d)/2=5,c=9,则g=5,.,42,由:(a+b)/2+f+g+(d+e)/2=41 得:f=20 由:a+f+c=39 得:a=10,则b=12,.,43,1.找出关系最近的序列对,如A和B 2.将剩余的序列作为一个简单复合序列,分别计算A、B到所有其他序列的距离的平均值 3.用这些值来计算A和B间的距离 4.将A、B作为一个单一的复合序列AB,计算与每一个其他序列的距离,生成新的距离矩阵 5.确定下一对关系最近的序列,重复前面的步聚计算枝长 7.从每个序列对开始,重复整个过程 8.对每个树计算每对序列间的预测距离,发现与原始数据最符合的树,Fitch

13、-Margoliash方法(FM法)小结,.,44,NJ/邻接法,任意两个节点选为相邻序列的总支长计算公式,.,45,把A、B看成一个新的复合序列,构建一个新的距离表,重复以上过程。,.,46,邻居关系法,AB组合出现3次,DE组合出现3次,CD、AC、BC组合各一次,则AB和DE各为两对关系最近的邻居。(关系最近的邻居作为邻居的次数最多),将邻居看成一个新的复合序列,重复这个过程。,.,47,UPGMA法,d=e=10/2=5,.,48,c=19/2=9.5 g=c-d=9.5-5=4.5,.,49,a=b=22/2=11,.,50,f1+a=f2+c=40.5/2=20.25 f1=9.2

14、5 , f2=11.75,.,51,距离矩阵的改进:将序列相似性转化为距离记分,蛋白质的正规化相似性记分,Sreal:实际的相似性记分值 Srand:背景平均记分值(随机情况下可能的记分值) Sident:该长度下相似性记分的预测值,.,52,P=0.007时Srand的值为:,其中,、K由打分矩阵给出 对于长度为m和n的序列的排列的预测值Sident为:,Sii为匹配记分,Pi为每种氨基酸的比例,n为较短序列的长度,.,53,修正后的相似值S表示为:,一旦得到S值,就可以用1-S计算序列的距离,实际中的距离计算则用下面的式子:,.,54,最大似然法(ML),最大似然法(maximum lik

15、elihood,ML)最早应用于系统发育分析是在对基因频率数据的分析上,后来基于分子序列的分析中也已经引入了最大似然法的分析方法。,.,55,最大似然法分析中,选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树。在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率球最大值来估计枝长 。,最大似然法(ML),.,56,最大似然法的建树过程是个很费时的过程,因为在分析过程中有很大的计算量,每个步骤都要考虑内部节点的所有可能性。 最大似然法是一个比较成熟的参数估计的统计学方法,具有很好

16、的统计学理论基础,在当样本量很大的时候,似然法可以获得参数统计的最小方差。只要使用了一个合理的、正确的替代模型,最大似然法可以推导出一个很好的进化树结果。,最大似然法(ML),.,57,碱基变化的通用模型,.,58,.,59,.,60,L(Tree1)=L1L2 L6,L(Tree2)=L1 L2 L6,.,61,似然值最大,即SUM最大的拓扑树则为最优树。,.,62,由于最大似然法的分析过程需要耗费较多的时间,针对这种情况,发展出了许多优化的可以加快最大似然法寻找最优树的搜索方法,如启发式搜索,分枝交换搜索等。最大似然法具有坚实的统计学理论基础,充分的使用了分析序列中的信息资源,只要采用了合理的替代模型,可以得出很好的进化树分析结果。,最大似然法(ML),.,63,.,64,选择外类群(Outgroup),选择一个或多个已知与分析序列关系较远的序列作为外类群 外类群可以辅助定位树根 外类群序列必须与剩余序列关系较近,但外类群序列

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 专业基础教材

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号