《分子进化分析ppt课件》由会员分享,可在线阅读,更多相关《分子进化分析ppt课件(114页珍藏版)》请在金锄头文库上搜索。
1、分子进化分析与相关进化模式例子1 1pptppt课件课件. .分子进化分析介绍系统发育树重建方法相关进化模式例子2 2pptppt课件课件. .从物种的一些分子特性出发,从而了从物种的一些分子特性出发,从而了解物种之间的解物种之间的生物系统发生生物系统发生的关系。的关系。 蛋白和核酸序列通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。分子进化研究的目的3 3pptppt课件课件. .系统发育树是什么?对一组实际对象的世系关系的描述(如基因,物种等)。4 4pptppt课件课件. .一个系统发育树末端物种顶端中间节点中间枝条根末端分支叶子节点5 5pptppt课件课件. .AB
2、 CDEFG树只代表分支的拓扑结构FGCDEAB6 6pptppt课件课件. .分子进化研究的基础(假设)核苷酸和氨基酸序列中含有生物进化历史的全部信息。7 7pptppt课件课件. .在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。(分子钟理论, 1965 )分子进化研究的基础(理论)8 8pptppt课件课件. .虽然很多时候仍然存在争议,但是分子进化确实能阐述一些生物系统发生的内在规律。分子进化研究的基础(实际)9 9pptppt课件课件. .从一个分歧数据可以推测其他序 列 分 歧 度分歧时间xy分子钟理论1010pptppt课件课件. .直系同源(o
3、rthologs): 同源的基因是由于共同的祖先基因进化而产生的.旁系同源(paralogs): 同源的基因是由于基因复制产生的. (以上定义源自Fitch, W.M. (1970) Distinguishing Fitch, W.M. (1970) Distinguishing homologous from analogous proteins. homologous from analogous proteins. Syst. Zool. Syst. Zool. 19, 19, 9999 113113) 直系同源与旁系同源1111pptppt课件课件. .paralogsortholog
4、s1212pptppt课件课件. .paralogsorthologsErik L.L. Sonnhammer Orthology,paralogy and proposed classification for paralog subtypes TRENDS in Genetics Vol.18 No.12 December 2002http:/ 0168-9525/02/$ see front matter 2002 Elsevier Science Ltd. All rights reserved.1313pptppt课件课件. . 以上两个概念代表了两个不同的进化事件 用于分子进化分析
5、中的序列必须是直系同源必须是直系同源的,才能真实反映进化过程。1414pptppt课件课件. .趋同进化的基因(genes have converged function by separate evolutionary paths)1515pptppt课件课件. .异源基因或水平转移基因(xenologous or horizontally transferred genes)1616pptppt课件课件. .Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Bacterium 1Bact
6、erium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Phylograms show branch order and branch lengths进化树,有分支和支长信息2.进化分支图,进化树进化分支图,进化树Cladograms show branching order - branch lengths are meaningless进化分支图,只用分支信息,无支长信息。1717pptppt课件课件. .Rooted by outgrouparchaeaarchaeaarchaeaeukaryoteeukaryoteeu
7、karyoteeukaryotebacteria outgrouprooteukaryoteeukaryoteeukaryoteeukaryote无根树无根树archaeaarchaeaarchaeaMonophyletic group(单源群单源群)Monophyleticgroup3.有根树,无根树,外围群有根树,无根树,外围群有根树有根树外围群外围群1818pptppt课件课件. . 4.基因树,物种树基因树,物种树We often assume that gene trees give us species treesabcABDGene treeSpecies tree1919ppt
8、ppt课件课件. .系统发育树重建分析步骤多序列比对(自动比对,手工比对)建立取代模型(建树方法)建立进化树进化树评估2020pptppt课件课件. .系统发育树重建的基本方法最大简约法(maximum parsimony,MP)距离法(distance)最大似然法(maximum likelihood,ML)Bayes法2121pptppt课件课件. .最大简约法(MP)最大简约法(maximum parsimony,MP)最早源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡姆(Ockham)哲学原则,这个原则认为:解释一个过程的最好理论是所需假设数目最少的那
9、一个。对所有可能的对所有可能的拓扑结构进行计算,并计算出所需替代数拓扑结构进行计算,并计算出所需替代数最小的那个拓扑结构,作为最优树。最小的那个拓扑结构,作为最优树。 2222pptppt课件课件. .序列个数与树的个数的关系2323pptppt课件课件. .优点:最大简约法不需要在处理核苷酸或者氨不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)。基酸替代的时候引入假设(替代模型)。此外,最大简约法对于分析某些特殊的分子数据如插入、缺失等序列有用。最大简约法(MP)2424pptppt课件课件. .缺点:在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简
10、约法能够推导获得一个很好的进化树。然而在分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会给出一个不合理的或者错误的进化树推导结果。最大简约法(MP)2525pptppt课件课件. .距离法距离法又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化根据一定的假设(进化距离模型)推导得出分类群之间的进化距距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系 。2626pptppt课件课件. .计算序列的距离,建立距离矩阵通过距离矩阵建进化树2727pptppt课件
11、课件. .一种简单的距离矩阵2828pptppt课件课件. .由进化距离构建进化树的方法有很多,常见有:1.Fitch-Margoliash Method1.Fitch-Margoliash Method(FMFM法)法) 2. Neighbor-Joining Method (NJ2. Neighbor-Joining Method (NJ法法/ /邻接法邻接法) ) 3. Neighbors Relaton Method(3. Neighbors Relaton Method(邻居关系法邻居关系法) )4.Unweighted Pair Group Method (UPGMA4.Unwei
12、ghted Pair Group Method (UPGMA法法) )通过矩阵建树的方法2929pptppt课件课件. .最大似然法(ML)最大似然法(maximum likelihood,ML)最早应用于系统发育分析是在对基因频率数据的分析上,后来基于分子序列的分析中也已经引入了最大似然法的分析方法。3030pptppt课件课件. .最大似然法分析中,选取一个特定的替选取一个特定的替代模型来分析给定的一组序列数据,使得代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结值,然后再挑出其中似然率最大的拓
13、扑结构作为最优树构作为最优树。在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率球最大值来估计枝长 。最大似然法(ML)3131pptppt课件课件. .最大似然法的建树过程是个很最大似然法的建树过程是个很费时费时的过程,因的过程,因为在分析过程中有很大的计算量,每个步骤都要为在分析过程中有很大的计算量,每个步骤都要考虑内部节点的所有可能性。考虑内部节点的所有可能性。最大似然法是一个比较成熟的参数估计的统计最大似然法是一个比较成熟的参数估计的统计学方法,具有很好的统计学理论基础,在当样本学方法,具有很好的统计学理论基础,在当样本量很大的时候,似然法可以获得参数统
14、计的最小量很大的时候,似然法可以获得参数统计的最小方差。只要使用了方差。只要使用了一个合理的、正确的替代模型一个合理的、正确的替代模型,最大似然法可以推导出一个很好的进化树结果。最大似然法可以推导出一个很好的进化树结果。 最大似然法(ML)3232pptppt课件课件. .碱基变化的通用模型3333pptppt课件课件. .由于最大似然法的分析过程需要耗费较多的时间,针对这种情况,发展出了许多优化的可以加快最大似然法寻找最优树的搜索方法,如启发式搜索,分枝交换搜索等。最大似然法具有坚实的统计学理论基础,充分的使用了分析序列中的信息资源,只要采用了合理的替代模型,可以得出很好的进化树分析结果。最
15、大似然法(ML)3434pptppt课件课件. .选择外类群(Outgroup)选择一个或多个已知与分析序列关系较远的序列作为外类群外类群可以辅助定位树根外类群序列必须与剩余序列关系较近,但外类群序列与其他序列间的差异必须比其他序列之间的差异更显著。bacteria outgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外围群外围群3535pptppt课件课件. .进化树的可靠性分析自展法(Bootstrap Method)从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列重复上面的过程,得到多组新的序
16、列对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性3636pptppt课件课件. .原始排列Alpha AACAACBeta AACCCCGamma ACCAACDelta CCACCAEpsilon CCAAAC Bootstrap1Alpha ACAAACBeta ACCCCCGamma ACAAACDelta CACCCAEpsilon CAAAAC Bootstrap2Alpha AAAACCBeta AACCCCGamma CCAACCDelta CCCCAAEpsilon CCAACC Bootstrap3Alpha ACAAACBeta ACCCCCG
17、amma CCAAACDelta CACCCAEpsilon CAAAAC3737pptppt课件课件. .分子进化模式1、专性胞内菌Rickettsia核心基因进化机制2、蓝藻二元信号转导中的环化酶进化机制3、蓝藻限制性修复系统进化机制4、苏云金芽孢杆菌杀虫蛋白进化机制5、SARS进化机制3838pptppt课件课件. .1、专性胞内菌Rickettsia核心基因进化机制3939pptppt课件课件. .4040pptppt课件课件. .4141pptppt课件课件. .2、蓝藻二元信号转导中的环化酶进化机制4242pptppt课件课件. .4343pptppt课件课件. .4444pptp
18、pt课件课件. .4545pptppt课件课件. .4646pptppt课件课件. .4747pptppt课件课件. .3、蓝藻限制性修复系统进化机制4848pptppt课件课件. .4949pptppt课件课件. .5050pptppt课件课件. .5151pptppt课件课件. .4、苏云金芽孢杆菌杀虫蛋白进化机制5252pptppt课件课件. .5353pptppt课件课件. .5454pptppt课件课件. .5、SARS进化机制5555pptppt课件课件. .5656pptppt课件课件. .5757pptppt课件课件. .5858pptppt课件课件. .5959pptppt课
19、件课件. .此部分供同学们自学6060pptppt课件课件. .常见的分子进化分析程序1.Phylip 由华盛顿大学遗传学系开发,是一个免费的系统由华盛顿大学遗传学系开发,是一个免费的系统发育分析软件包,可以通过以下地址下载。发育分析软件包,可以通过以下地址下载。http:/evolution.genetics.washington.edu/phylip.hthttp:/evolution.genetics.washington.edu/phylip.htmlml2. PAUP*2. PAUP* 最早是在苹果机上开发的具有菜单界面的进化分析软件,早先版本只有MP法,后续版本已经包括距离法和ML
20、法,现今有mac,win,linux等多种版本,该软件不是免费软件,使用者需要向开发者购买。6161pptppt课件课件. .Phylip软件包介绍Phylip是一个免费的系统发生(phylogenetics)分析软件包。以下链接可以下载: http:/evolution.genetics,washington.edu/phylip.http:/evolution.genetics,washington.edu/phylip.htmlhtml 由华盛顿大学遗传学系开发,由华盛顿大学遗传学系开发,19801980年首次公布,年首次公布,目前的版本是目前的版本是3.63.6(20002000年年6
21、 6月)。月)。6262pptppt课件课件. .Phylip软件包介绍 Phylip包含了35个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。 Phylip有多种不同平台的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。6363pptppt课件课件. . Phylip是目前最广泛使用的系统发生分析程序,主要包括一下几个程序组:分子序列组,距离矩阵组,基因频率组,离散字符组,进化树绘制组。 Phylip软件包介绍6464pptppt课件课件. .分子序列组: 1.蛋白质序列:protpars,proml,p
22、romlk, protdist 2.核酸序列:dnapenny,dnapars, dnamove,dnaml,dnamlk, dnainvar,dnadist,dnacompPhylip软件包分组介绍6565pptppt课件课件. .距离矩阵组:Fitch,kitsch,neighbor基因频率组:Gendist,contml离散字符组Pars,mix,move,penny,dollop,dolmove,dolpenny,clique,factorPhylip软件包分组介绍6666pptppt课件课件. .进化树绘制组:drawtree,drawgram其他:restdist,restml,s
23、eqboot,contrast treedist,consense,retreePhylip软件包分组介绍6767pptppt课件课件. . Phylip软件包的文档是非常详细的,对于每个独立的程序,都有一个独立的文档,详细的介绍了该程序的使用及其说明。 此外,Phylip软件包还包括程序的源代码(c语言)。Phylip软件包的文档6868pptppt课件课件. .Phylip软件包的应用1,根据你的分析数据,选择适当的程序 如,你分析的是DNA数据,就在核酸序列分析类中选择程序(dnapenny,dnapars, dnamove,dnaml,dnamlk, dnainvar,dnadist,
24、dnacomp )如果分析的是离散数据,如突变位点数据,就在离散字符组里面选择程序。6969pptppt课件课件. .2.选择适当的分析方法如你分析的是DNA数据,可以选择简约法(DNAPARS),似然法(DNAML, DNAMLK),距离法等(DNADIST)。Phylip软件包的应用7070pptppt课件课件. .3.进行分析 选择好程序后,执行,读入分析数据,选择适当的参数,进行分析,结果自动保存为outfile,outtree。 Phylip软件包的应用7171pptppt课件课件. .Outfile是一个记录文件,记录了分析的过程和结果,可以直接用文本编辑器(如写字板)打开。out
25、tree是分析结果的树文件,可以用phylip提供的绘树程序打开查看,也可以用其他的程序来打开,如treeviewPhylip软件包的应用7272pptppt课件课件. .7373pptppt课件课件. .出发数据已经排列好的蛋白序列。重构算法距离法(protdist.exe) 最大简约法(protpars.exe) 最大似然法(proml.exe)统计分析拨靴法(bootstrap)实际应用(从蛋白序列推导进化树)7474pptppt课件课件. .实际操作 Phylip软件包中的每个分析程序都是一个独立的应用程序。我们选择好了分析算法后,按一定的顺序组合使用选择的程序,就可以获得按选择的算法
26、分析的结果(进化树)。例子:从我们刚刚通过clustal比对获得的蛋白序 列推测进化树。 选择方法:距离法(protdist.exe)7575pptppt课件课件. .第一步:双击执行第一步:双击执行protdist.exe,protdist.exe,根据提示输入分析根据提示输入分析的的 文件名文件名( (程序默认是程序默认是infile)infile)。7676pptppt课件课件. .第二步:设定各个参数,执行程序,获得距第二步:设定各个参数,执行程序,获得距 离矩阵数据输出文件离矩阵数据输出文件outfileoutfile。第三步:选择通过距离矩阵推测进化树的算法第三步:选择通过距离矩阵
27、推测进化树的算法(fitch.exe(fitch.exe,kotsch.exekotsch.exe,neighbor.exe)neighbor.exe)。第四步:将刚获得的输出文件改名为第四步:将刚获得的输出文件改名为infileinfile,执,执行选择的推测算法行选择的推测算法(neighbor.exe)(neighbor.exe)。设置好参数。设置好参数后执行程序,获得后执行程序,获得outfileoutfile和和outtreeouttree两个结果输两个结果输出。出。7777pptppt课件课件. .7878pptppt课件课件. . 获得的结果文件中,获得的结果文件中,outtre
28、eouttree文件是一个树文件,文件是一个树文件,可以用可以用treeviewtreeview等软件打开。等软件打开。outfileoutfile是一个分析结是一个分析结果的输出报告,包括了树和其他一些分析报告,果的输出报告,包括了树和其他一些分析报告,可以用记事本直接打开。可以用记事本直接打开。outfileouttree7979pptppt课件课件. .加入统计分析(bootstrap)我们刚刚获得的进化树是纯粹的根据先前获得的排列数据所推导出来的。有很多可能使得这个树并不一定可靠。1.测序的出错。2.多序列比对算法本身的问题。3.其他的问题。我们可以引进一些统计分析来寻找更优的进化树最
29、常见的就是bootstrap分析。8080pptppt课件课件. .Bootstrap分析Phylip软件包中有两个用于执行bootstrap分析的程序。(seqboot.exe,consence.exe)。分析过程:1.Seqboot产生大量的数据组2.应用选择的算法对产生的数据组进行分析。3.由consence获得最优树。8181pptppt课件课件. .PAUP*的使用PAUP*PAUP*的数据格式的数据格式(Nexus)(Nexus)#NEXUSbegin taxa;dimensions ntax=12;taxlabelsLemur_cattaTarsius_syrichta;end;
30、begin characters;dimensions nchar=898;format missing=? gap=- matchchar=. interleave datatype=dna;options gapmode=missing;matrixLemur_catta AAGCTTCATAGGAGCAACCATTCTAATAATCGCACATGGCCTTACATCATCCATATTATTHomo_sapiens AAGCTTCACCGGCGCAGTCATTCTCATAATCGCCCACGGGCTTACATCCTCATTACTATTPan AAGCTTCACCGGCGCAATTATCCT
31、CATAATCGCCCACGGACTTACATCCTCATTATTATTGorilla AAGCTTCACCGGCGCAGTTGTTCTTATAATTGCCCACGGACTTACATCATCATTATTATTPongo AAGCTTCACCGGCGCAACCACCCTCATGATTGCCCATGGACTCACATCCTCCCTACTGTTHylobates AAGCTTTACAGGTGCAACCGTCCTCATAATCGCCCACGGACTAACCTCTTCCCTGCTATT8282pptppt课件课件. . begin begin assumptions;assumptions; chars
32、et coding = 2-457 660-896;charset coding = 2-457 660-896; charset noncoding = 1 458-659 897-898;charset noncoding = 1 458-659 897-898; charset 1stpos = 2-4573 660-8963;charset 1stpos = 2-4573 660-8963; charset 2ndpos = 3-4573 661-8963;charset 2ndpos = 3-4573 661-8963; charset 3rdpos = 4-4573 662-.3;
33、charset 3rdpos = 4-4573 662-.3; exset coding = noncoding;exset coding = noncoding; exset noncoding = coding;exset noncoding = coding; usertype 2_1 = 4usertype 2_1 = 4weights transversions 2 times transitionsweights transversions 2 times transitions a c g ta c g t aa. 2 1 2. 2 1 2 c 2 . 2 1c 2 . 2 1
34、gg1 2 . 21 2 . 2 tt2 1 2 .2 1 2 . ; ; usertype 3_1 = 4usertype 3_1 = 4weights transversions 3 times transitionsweights transversions 3 times transitions a c g ta c g t aa. 3 1 3. 3 1 3 c 3 . 3 1c 3 . 3 1 gg1 3 . 31 3 . 3 tt3 1 3 .3 1 3 . ; ; taxset hominoids = Homo_sapiens Pan Gorilla Pongo Hylobate
35、s;taxset hominoids = Homo_sapiens Pan Gorilla Pongo Hylobates; end;end; begin begin paup;paup; constraints ch = (Homo_sapiens,Pan);constraints ch = (Homo_sapiens,Pan); constraints chg = (Homo_sapiens,Pan,Gorilla);constraints chg = (Homo_sapiens,Pan,Gorilla); end;end;8383pptppt课件课件. .PAUP*的数据格式(Nexus
36、) 主要包括taxa,characters,assumptions,sets,trees,codons,distances,paup八个八个数据块。 对于一个常规的分析,taxa,characters块是必须的。而分析的命令可以通过菜单操作(mac),或者键盘命令(win,linux),也可以在nexus文件中加入paup命令块8484pptppt课件课件. .1.TAXA块 主要是定义所分析的数据(如分子序列)个数,以及这些数据的名称(如物种名称)。2. CHARACTERS 块 主要是定义数据矩阵(如多序列比对结果)和其他一些相关的信息(如序列特征值,序列有效区域等)PAUP*的Nexus
37、的文件块8585pptppt课件课件. .3. ASSUMPTIONS块 定义了对数据的一些设定,如那些特征值是不需考虑的,怎么处理gap这个特征值等,用户自定义的一些数据也放在这块,如自定义的打分矩阵。4. SETS块 定义了一系列的数据组,如特征值组,物种组等,这些设置都是为了方便后续的分析。 8686pptppt课件课件. .5. TREES 块 定义了用户自己设定的树。用于后续的分析,如作为限制树等。6. CODONS 块 定义了遗传密码子的一些信息。如编码的位置(哪些是编码的,密码子的位点等)。7. DISTANCES 块 定义了一些距离矩阵。8787pptppt课件课件. .8.
38、PAUP 块 是软件的核心块,所有的分析命令和一些参数设置(90多个命令)都放在这一块。 这一块并不是分析输入数据所必须的,这些命令可以写在这一块(文件中),这时载入文件时就开始根据该块的命令进行分析(有点类似dos的批处理过程)。当然也可以通过键盘命令逐一敲入 ,交互进行分析。 批处理的方式在分析过程比较长,耗时比较久的时候是比较有用的。当然在进行处理之前一定要先保证该批处理过程没有问题。8888pptppt课件课件. .一个PAUP*的基本分析实例1.通过clustalw/clustalx获取一个多序列比对结果(可能要经过人工调整,推荐用bioedit做辅助编辑器)。保存成nexus格式的
39、文件,或者用其他格式转换软件转换成nexus格式。paup*中也有一个tonexus命令可以将其他格式(包括phylip,GCG等格式)的文件转换为nexus格式的文件。8989pptppt课件课件. .2.2.在在PAUP*PAUP*程序中读入数据(程序中读入数据(NexusNexus格式)格式)输入命令的地方打开文件的窗口程序自带的测试数据执行该文件还是编辑该文件?执行文件时将文件数据读入程序,编辑文件则调用一个文本编辑器。如果不是nexus格式,执行时候会出错,然后调用文本编辑器打开。9090pptppt课件课件. .3.数据输入完成,开始分析 两个很有用的命令 ?:显示所有的命令 命令
40、 ?:显示命令的所有参数9191pptppt课件课件. .分析(开始一)1.开始之前 打开记录文件?(跟踪整个分析过程)命令:log start file =your_log_file_name;停止:log stop;9292pptppt课件课件. .2.设置数据 哪些用于分析?如:include coding/only; exclude coding/only;哪些物种要分析(删除不要的)?如: delete 1; 或者 delete taxa_name undelete 1;分析(开始二)9393pptppt课件课件. .3.确定建树方法最大简约法?最大似然法? 距离法?命令:Set S
41、et criterion=criterion=parsimonyparsimony| |likelihoodlikelihood| |distancedistance; 分析(建树一)9494pptppt课件课件. .4.确定其他参数Set ?查看其他参数的设置,改为自己所需要的设置。如:set maxtree=10000 increase=no autoclose=yes;set maxtree=10000 increase=no autoclose=yes;分析 (建树二)9595pptppt课件课件. .5.确定搜索方法(对于距离法不适用) 穷尽法:alltrees 分支跳跃查找:ban
42、db 启发式搜索:hsearch 其他:puzzle(只在likelihood时有效)分析 (建树三)9696pptppt课件课件. .6.开始搜索树之前(设置各个建树方法的参数)距离法:dset如:dset distance=tamnei negbrlen=allow最大简约法:pset如 pset collapse=no gapmode=newstate最大似然法:lset如:lset nst=6 clock=yes分析 (建树四)9797pptppt课件课件. .7.再次确认参数 是否要设置外围群(outgroup)?如 outgroup 1,2 ;或者 outgroup taxa_se
43、t;其他参数?分析 (建树五)9898pptppt课件课件. .7.开始搜索树距离法:NJ,UPGMA最大简约法,最大似然法Hsearch ?参数是否要更改?如:hsearch andseq=random swap=spr分析 (建树六)9999pptppt课件课件. .8.8.进化树的评估进化树的评估 选择评估方法?选择评估方法?BootstrapBootstrap(自展法)(自展法) 用的最多,用的最多,是对进化树重新取样的评估方法,是对进化树重新取样的评估方法,可以对距离法,简约法,似然法以及衍生出的可以对距离法,简约法,似然法以及衍生出的任何其他方法构建的进化树进行评估。其分析任何其他
44、方法构建的进化树进行评估。其分析结果是一组数字,这个数字描述了进化树进化结果是一组数字,这个数字描述了进化树进化分支的支持比例,也就是进化树分支的稳健性。分支的支持比例,也就是进化树分支的稳健性。分析(树评估一)100100pptppt课件课件. .分析 (树评估二)未经过未经过bootstrap的树的树Bootstrap后的树后的树101101pptppt课件课件. . BOOTSTRAPBOOTSTRAP optionsoptions/heuristic-search-optionsheuristic-search-options| |branch-and-bound-search-bra
45、nch-and-bound-search-optionsoptions; ; 使用分支限制或者是启发式搜索的方法进行使用分支限制或者是启发式搜索的方法进行bootstrapbootstrap分析。分析。 参数:参数: BSEED = BSEED = integer-value integer-value 随机数种子。随机数种子。 NREPS = NREPS = integer-value integer-value bootstrapbootstrap重复的次数,默认值为重复的次数,默认值为100100。 SEARCH = HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA S
46、EARCH = HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA 搜索方式搜索方式 CONLEVEL = CONLEVEL = integer-value integer-value bootstrap bootstrap重复次数的最低比率,默认为重复次数的最低比率,默认为5050。 KEEPALL = YES|NO KEEPALL = YES|NO WTS = IGNORE|SIMPLE|REPEATCNT|PROPORTIONAL WTS = IGNORE|SIMPLE|REPEATCNT|PROPORTIONAL NCHAR = CURRENT| NCHAR = CUR
47、RENT|number-of-characters number-of-characters 每次重复采样的数目。每次重复采样的数目。 GRPFREQ = YES|NO GRPFREQ = YES|NO 显示显示bootstrapbootstrap分割频率分割频率 TREEFILE = TREEFILE = bootstrap-tree-file-name bootstrap-tree-file-name 树的文件树的文件 FORMAT= NEXUS|ALTNEXUS|FREQPARS|PHYLIP|HENNIG FORMAT= NEXUS|ALTNEXUS|FREQPARS|PHYLIP|H
48、ENNIG BRLENS = YES|NO BRLENS = YES|NO 分支的长度分支的长度 *REPLACE = YES|NO *REPLACE = YES|NO CUTOFFPCT = CUTOFFPCT = integer-value integer-value 定义显示的最低定义显示的最低bootstrapbootstrap分割频率。分割频率。 ExampleExample bootstrap nreps=200 treefile=boot.tre search=heuristic/addseq=random;bootstrap nreps=200 treefile=boot.tr
49、e search=heuristic/addseq=random;分析 (树评估三)PAUP*中的中的bootstrap命令命令102102pptppt课件课件. .对折分析(jackknife) 跟bootstrap类似,只是在对原始数据取样的时候不会取重复的数据位点。因为它重复取样的时候是在原始数据中除去一个或者多个比对位点。 对折分析得出的结果和bootstrap是一样的。命令和参数都类似,用的比bootstrap少很多。分析 (树评估四)103103pptppt课件课件. . JACKKNIFE JACKKNIFE optionsoptions/heuristic-search-opt
50、ionsheuristic-search-options| |branchand-bound-search-optionsbranchand-bound-search-options; ; 对折分析对折分析 PCTDELETE = PCTDELETE = real-value real-value 每个对折分析循环中删除的每个对折分析循环中删除的data setdata set百分数百分数 JSEED = JSEED = integer-value integer-value 随机数种子随机数种子 NREPS = NREPS = integer-value integer-value 对折循环
51、次数对折循环次数 SEARCH = HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA SEARCH = HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA 树的搜索方法(树的搜索方法(NJNJ和和UPGMAUPGMA仅在最优规仅在最优规 则为则为distancedistance时才可用)时才可用) RESAMPLE = NORMAL|JAC RESAMPLE = NORMAL|JAC CONLEVEL = CONLEVEL = integer-value integer-value boostrapboostrap中出现的最小比例(最为保留中出现的最小比例(最
52、为保留groupgroup),默认),默认为为5050,即,即5050 KEEPALL = YES|NO KEEPALL = YES|NO 低于低于conlevelconlevel的树,若与一致树兼容,也保留的树,若与一致树兼容,也保留 WTS = IGNORE|SIMPLE|REPEATCNT|PROPORTIONAL WTS = IGNORE|SIMPLE|REPEATCNT|PROPORTIONAL GRPFREQ = YES|NO GRPFREQ = YES|NO 显示对折分区频率显示对折分区频率 TREEFILE = TREEFILE = tree-file-nametree-fil
53、e-name FORMAT = NEXUS|ALTNEXUS|FREQPARS|PHYLIP|HENNIG FORMAT = NEXUS|ALTNEXUS|FREQPARS|PHYLIP|HENNIG *REPLACE = YES|NO *REPLACE = YES|NO CUTOFFPCT = CUTOFFPCT = integer-value integer-value 对折频率表中显示的最小频率。对折频率表中显示的最小频率。 ExampleExample JACKKNIFE nreps=200 treefile=tree.tre search=heuristic/addseq=rando
54、mJACKKNIFE nreps=200 treefile=tree.tre search=heuristic/addseq=random分析 (树评估五)PAUP*中的中的jackknife命令命令104104pptppt课件课件. .KHtestKHtest和和SHtestSHtest 用来测试一个特定的次优化的用来测试一个特定的次优化的mlml或者或者mpmp拓扑结拓扑结构同最优化的拓扑结构相比是否显著不同(通常构同最优化的拓扑结构相比是否显著不同(通常用来做用来做Hypothesis testHypothesis test)。)。 PAUP*PAUP*中这两个测试是作为中这两个测试是作
55、为pscorespscores和和lscoreslscores的的一个参数,默认关闭,需要进行这两个测试的时一个参数,默认关闭,需要进行这两个测试的时候,要打开该参数。候,要打开该参数。PscorePscore中有中有KHtestKHtest,不支持,不支持SHtestSHtestLscoreLscore中有中有KHtestKHtest和和SHtestSHtest分析 (树评估六)105105pptppt课件课件. .如:Pscores all/khtest=normal;Lscores all/khtest= normal shtest=rell; 测试得出的结果是返回一个显著性差异系数(P
56、值)。分析 (树评估七)106106pptppt课件课件. .其他测试随机测试:permute不一致的长度差异测试: hompart分析 (树评估八)107107pptppt课件课件. .分析结束之前1.保存分析结果Savetrees 根据要求将内存中的树保存到文件如:savetrees file=tree.tre brlens=yes savebootp=both from=1 to=2;2.停止记录文件Log stop;108108pptppt课件课件. .退出3.如果要进行下一项分析,想让原来改过的参数全部变回默认设置 命令:factory 所有参数恢复默认设置4.确定要退出后 命令 :
57、quit109109pptppt课件课件. .一些有用的命令1.Treeinfo 查看内存中树的情况(多少个?有根还是无根?查看内存中树的情况(多少个?有根还是无根?)。)。2.clear 清除内存中所有的树。清除内存中所有的树。3.showtree 查看内存中的树(默认显示第一个树,可以加入参数)查看内存中的树(默认显示第一个树,可以加入参数) 如:如:showtree allshowtree all;showtree 2showtree 2,3 3;4.gettrees 从树文件中读取树到内存中从树文件中读取树到内存中110110pptppt课件课件. .5.dscores5.dscore
58、s,pscorespscores,lscoreslscores 计算树的距离,简约性,相似性分值。计算树的距离,简约性,相似性分值。6.ingroup/outgroup6.ingroup/outgroup 取消和设定外围群取消和设定外围群7.Contree 7.Contree 根据一定的规则求解一致树根据一定的规则求解一致树8.Deroottrees8.Deroottrees 将有根树转换为无根树将有根树转换为无根树9.Roottrees 9.Roottrees 根据当前设定的根据当前设定的outgroupoutgroup将无根树转换为有根树将无根树转换为有根树111111pptppt课件课件
59、. .10.Filter根据设定的规则筛选树。11.详细的命令请参考paup*软件的command reference。112112pptppt课件课件. .Paup块的一个例子 begin paup;begin paup; Log star file=log.txt;Log star file=log.txt; set criterion=likelihood autoclose=yes maxtrees=10000 increase=no; set criterion=likelihood autoclose=yes maxtrees=10000 increase=no; lset nst
60、=6 rmatrix=estimate basefreq=estimate pinv=estimate lset nst=6 rmatrix=estimate basefreq=estimate pinv=estimate rates=gamma shape=estimate;rates=gamma shape=estimate; hsearch addseq=random nreps=100; hsearch addseq=random nreps=100; bootstrap nreps=1000 search=heuristic brlens=yes; bootstrap nreps=1000 search=heuristic brlens=yes; savetrees file=tree.tre savebootp=both from=1 to=1; savetrees file=tree.tre savebootp=both from=1 to=1; log stop; log stop; quit; quit; end;end;113113pptppt课件课件. .此课件下载可自行编辑修改,供参考!感谢您的支持,我们努力做得更好!