第九章 分子进化与系统发育

上传人:汽*** 文档编号:590124073 上传时间:2024-09-12 格式:PPT 页数:137 大小:9.32MB
返回 下载 相关 举报
第九章 分子进化与系统发育_第1页
第1页 / 共137页
第九章 分子进化与系统发育_第2页
第2页 / 共137页
第九章 分子进化与系统发育_第3页
第3页 / 共137页
第九章 分子进化与系统发育_第4页
第4页 / 共137页
第九章 分子进化与系统发育_第5页
第5页 / 共137页
点击查看更多>>
资源描述

《第九章 分子进化与系统发育》由会员分享,可在线阅读,更多相关《第九章 分子进化与系统发育(137页珍藏版)》请在金锄头文库上搜索。

1、第九章第九章 分子进化与系统发育分子进化与系统发育授课教师:唐 明MolecularEvolutionandPhylogenetics本章的主要内容一、基本概念二、系统发育分析的原理三、系统发育分析的流程四、相关生物信息学资源的介绍一、基本概念生物进化拉马克和达尔文的进化论,最先提出于19世纪。主要观点:拉马克用进废退;达尔文生物多样性是进化的结果,自然选择学说。自20 世纪中叶,随着分子生物学的不断发展,进化研究也进入了分子进化(molecular evolution)研究水平,并建立了一套依赖于核酸、蛋白质序列信息的理论和方法。分子分子进化化(molecular evolution): 研

2、究较长时间内生物遗传信息改变的原因和结果的学科领域。Kimura(木村)的中性理论反达尔文的进化论多样性源于随机,非自然选择的主导。很多突变是遗传漂变,不是自然选择的结果。有的突变是中性或接近中性,不妨碍生物的生存和繁殖。催生了很多领域的研究分子进化的速率问题分子进化的恒定性问题中性突变和功能性约束问题种群中的多态性问题提供了一个很好的背景假设可以用很好的统计模型去实践可以用随机过程的理论去推导生物进化与生物信息学的关系:海量数据的出现,需要利用计算机科学和信息科学,才能进行现代生物进化的分析。一、基本概念系统发生系统发生(phylogeny): 是指生物形成或进化的历史。系统发生学系统发生学

3、(phylogenetics): 研究物种(遗传学特征)之间的进化关系,认为特征相似的物种在遗传学上接近.系统发生的结果常以系统发生树表示。 经典经典系统发生学系统发生学主要是物理或表型特征如生物体的大小、颜色、触角个数通过表型比较来推断生物体的基因型(genotype),研究物种之间的进化关系。有时候亲缘关系远的物种也能进化出相似的表型,即所谓的趋同同进化化(convergent evolution)。因此以表型为依据的进化分析有时候并不正确。现代现代系统发生学系统发生学利用从遗传物质中提取的信息作为物种特征,具体地说就是DNA序列或蛋白质分子。根据现有生物基因或物种多样性重建生物的进化史是

4、一个非常重要的问题。根据核酸和蛋白质的序列信息,可以推断物种之间的系统发生关系。基本原理: 从一条序列变为另一条序列所需要的变换越多,两条序列的相关性就越小,从共同祖先分歧的时间越早,进化距离越大;反之,两个序列越相似,它们的进化距离可能越小。用于构建系统树的数据有二种类型:特征特征数据数据(character-baseddata):它提供了基因、个体、群体或物种的信息。距离距离数据数据(distance-baseddata):它涉及的则是成对基因、个体、群体或物种的信息。距离数据可由特征数据计算获得,但反过来则不行。这些数据可以矩阵的形式表达。距离或相似性的计算总体上是要依据一定的遗传模型,

5、并能够表示出两个分类单位间的变化量。Character-basedmethods:Usethealignedcharacters,suchasDNAorproteinsequences,directlyduringtreeinference.TaxaCharactersSpecies AATGGCTATTCTTATAGTACGSpecies BATCGCTAGTCTTATATTACASpecies CTTCACTAGACCTGTGGTCCASpecies DTTGACCAGACCTGTGGTCCGSpecies ETTGACCAGTTCTCTAGTTCGDistance-basedmethod

6、s:Transformthesequencedataintopairwisedistances,andthenusethematrixduringtreebuilding. A B C D E Species A- 0.20 0.50 0.45 0.40 Species B0.23 - 0.40 0.55 0.50 Species C0.87 0.59 - 0.15 0.40 Species D0.73 1.12 0.17 - 0.25 Species E0.59 0.89 0.61 0.31 -直系同源(orthologs):同源的基因是由于共同的祖先基因进化而产生的。旁系同源(paralo

7、gs):同源的基因是由于基因复制产生的。直系同源与旁系同源paralogsorthologsparalogsorthologs以上两个概念代表了两个不同的进化事件 用于分子进化分析中的序列必须是直系同源必须是直系同源的,才能真实反映进化过程。系统发生树系统发生树(phylogenetic tree): 系统发生研究的表现形式,用来描述物种(遗传学特征:形态,基因序列,蛋白质序列等等)之间进化关系。通俗的称谓是进化树。 系统树分有根(rooted)和无根(unrooted)树。系统发育树的构成末端物种节点枝条 (branch)根 (root)末端分支节点 (node)Rooted by outg

8、rouparchaeaarchaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryotebacteria outgrouprooteukaryoteeukaryoteeukaryoteeukaryote无根树无根树archaeaarchaeaarchaea有根树,无根树,外有根树,无根树,外类类群群有根树有根树外外类类群群有根树反映了树上物种或基因的时间顺序。无根树只反映分类单元之间的距离而不涉及谁是谁的祖先问题。选择外类群(outgroup)选择一个或多个已知与分析序列关系较选择一个或多个已知与分析序列关系较远的序列作为外类群远的序列作为外类群外类群可以外类

9、群可以辅助定位树根辅助定位树根 (root)外类群序列必须与剩余序列关系较近,外类群序列必须与剩余序列关系较近,但外类群序列与其他序列间的差异必须但外类群序列与其他序列间的差异必须比其他序列之间的差异更显著。比其他序列之间的差异更显著。bacteria outgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外外类类群群Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Bacterium 1Bacterium 3Bac

10、terium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Phylograms show branch order and branch lengths进化树,有分支和支长信息进化分支图,进化树进化分支图,进化树Cladograms show branching order - branch lengths are meaningless进化分支图,只用分支信息,支长信息无意义。基因树,物种树基因树,物种树我们经常用基因树代表物种树,这就涉及到正确我们经常用基因树代表物种树,这就涉及到正确选择用于比较的目的基因。选择用于比较的目的基因。abcABD

11、Gene treeSpecies tree用于比较物种亲缘关系的基因序列古细菌:16SrDNA,16S-23SrDNA间隔区细菌:16SrDNA,16S-23SrDNA间隔区真菌:18SrDNA等昆虫:线粒体16SrDNA等哺乳动物:线粒体16SrDNA等二、系统发育分析的原理二、系统发育分析的原理系统树的构建主要有三种方法:距离距离矩矩阵法法(distance matrix method):是根据每对物种之间的距离,其计算一般很直接,所生成的树的质量取决于距离尺度的质量。距离通常取决于遗传模型。最大最大简约法法(maximum parsimony): 较少涉及遗传假设,它通过寻求物种间最小的

12、变更数来完成的。最大似然最大似然法法(maximum likelihood):对于模型的巨大依赖性是其特征,该方法在计算上繁杂,但为统计推断提供了基础。距离法构建进化树的原理距离法构建进化树的原理距离法又称为距离矩阵法,它首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出各个分类群之间的进化距离,构建一个进化距离矩阵(distance matrix)。进化树的构建则是基于这个矩阵中的进化距离关系。0.20.250.250.45例,如果有三个物种,例,如果有三个物种,其两两距离如下:其两两距离如下:dab=0.5dac=0.9dbc=0.9通过求解方程,得到通过求解方程,得到如图

13、所示的一棵树。如图所示的一棵树。 edabc距离法的思路首先要定义两个序列/物种间的进化距离。然后把距离相近的序列/物种放在一起。这样就得到最终的进化树。问题的关键是如何定义一个距离?如何用一个距离去描述两个序列/物种间的进化差异?(其实,我们常说的差异度就是一种最基本的距离。如果我们在考虑理化性质,涉及到每个氨基酸/核苷酸的差异,那样这个距离就会相对准确了)。根据序列间的差异转变为一种简单的距离矩阵根据序列间的差异转变为一种简单的距离矩阵遗传距离的替代模型JukesandCantor单参数模型(JC):四种碱基间的替换概率相同,即A=G=T=C=0.25Kimura两参数模型(K2P):两种

14、嘧啶和两种嘌呤之间的替换概率相同,但一种嘧啶和一种碱基之间的概率不同,即(A=G)+(T=C)=1F84模型(F84):四种碱基间的替换概率不同,即A+G+T+C=1由进化距离构建进化树的方法有很多,常见有:1. Fitch-Margoliash Method (FM法) 2. Neighbor-Joining Method (NJ法/邻接法) 3. Neighbors Relation Method (邻居关系法)4. Unweighted Pair Group Method using arithmetic averages (非加权对组算术平均法,UPGMA)通过距离矩阵建树的方法通过距

15、离矩阵建树的方法UPGMA法d=e=10/2=5距离最短,代表亲缘关系最近c=19/2=9.5g=c-d=9.5-5=4.5d(DE)A=(AE+AD)/2=(41+39)/2=40a=b=22/2=11AB(CDE)A-2239.5B-41.5(CDE)-d(CDE)A=(AE+AD+AC)/3=(41+39+39)/3=39.5(AB)(CDE)(AB)-40.5(CDE)-f1+a=f2+c=40.5/2=20.25f1=9.25 , f2=11.75d(CDE)(AB)=(d(CDE)A+d(CDE)B)/2 = (41.5+39.5)/2=40.5最大最大简约法法最大简约法(maxi

16、mum parsimony, MP)的理论基础是奥卡姆(Ockham)哲学原则(若无必要,勿增实体):解释一个过程的最好理论是所需假设数目最少的那一个。对所有可能的拓扑结构进行计算,并计算出所需替代数最少的那个拓扑结构,作为最优树。简约法的思路相信我们今天生物的多样性是通过最简单的突变模式得到的。因此逐个检测联配序列的同源位点,同时参考各种可能的进化树,找到一棵/多棵树上面的突变位点最少。这种方面的问题是丢失了很多有用的信息,它只能利用差异,但相同的部分没有用到。这是不合理的。对于每种可能的拓扑结构,每一节点的序列就是产生两个直接后裔序列所需变更最小的序列。然后可以找到整个系统树所需的变更总数

17、,具有最小总数的系统树就是最简约的。序列个数与树的个数最大简约法利用存在序列之间的差异的位点,即信息位点。信息位点(informative sites): 指那些至少存在2个不同的碱基且每个不同碱基至少出现2次的位点。只有一个碱基且只在一个序列中出现的位点不属于信息位点,因为那种独特的碱基位点是由于在直接通向它所在序列的分枝上发生单个碱基变更所引起的。最大简约法就是寻找替换的次数最少的树最大简约法就是寻找替换的次数最少的树. 我们只我们只考虑信息位点考虑信息位点.(以位点以位点5为例为例)优点:最大简约法不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)。此外,最大简约法对于分析某些特

18、殊的分子数据如插入、缺失等序列有用。缺点:Felsenstein认为该法不是以统计原理为基础。如果在进化时间范围内碱基变更的量较小,则简约法是很合理的,但对于存在大量变更的情形,随着所用资料的增加,简约法可能给出实际上更为错误的系统树。最大似然法(最大似然法(ML)最大似然法(maximumlikelihood,ML)最早应用于系统发育分析是在对基因频率数据的分析上,后来基于分子序列的分析中也已经引入了最大似然法的分析方法。似然法的思路前面的方法都不能很好的进行数学统计。似然法则在一定程度上弥补了这一不足。不过统计学观点对于对做生物学的不好理解。首先我们定义一个突变模型,就是一个氨基酸/核苷酸

19、突变成另外一个的概率有多大。然后我们看自己观测到的数据在这种模型下以及某一种进化树的情况下的最吻合的程度。最后我们必然会找到一个进化树,在某种进化模型下,最为吻合。这样我们就找到了进化关系。最大似然法分析中,选取一个特定的替选取一个特定的替代模型来分析给定的一组序列数据,使得代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结值,然后再挑出其中似然率最大的拓扑结构作为最优树构作为最优树。在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率最大值来估计枝长 。最大似然法(ML

20、)各种碱基替代模型缺点:最大似然法的建树过程是个很费时的过程,因为在分析过程中有很大的计算量,每个步骤都要考虑内部节点的所有可能性。优点:最大似然法是一个比较成熟的参数估计的统计方法,具有很好的统计学理论基础,在当样本量很大的时候,只要使用了一个合理的、正确的替代模型,最大似然法可以推导出一个很好的进化树结果。 怎样知道你的序列的最适模型,可以使用Modeltest和PAUP*联合进行计算。 最大似然法(ML)进化树的评估进化树的评估自展值评估自展值评估(bootstrap):Bootstrap是由Felsenstein(PHYLIP的编写者)引入分子分类领域的,现己成为分析分子树置信区间最常

21、用的方法。可以对任何建树方法进行评估。模拟研究表明,在合适的条件下也就是各种替换速率基本相等,树枝基本对称的条件下,如果自引导数值大于70,那么所得的系统发育进化树能够反映真实的系统发生史的可能性要大于95%。可靠性分析可靠性分析 通过系统发生分析推断出来的树的不同部分可通过系统发生分析推断出来的树的不同部分可能有不同的置信度,造成统计误差的一个原因是数能有不同的置信度,造成统计误差的一个原因是数据采样误差。因此对分析的对象多次采样,比较不据采样误差。因此对分析的对象多次采样,比较不同样本得到的估计值。同样本得到的估计值。 具体做法:从原始数据中采集部分数据组新的具体做法:从原始数据中采集部分

22、数据组新的数据集,构建系统发生树数据集,构建系统发生树, ,重复该过程,产生重复重复该过程,产生重复采样数据集采样数据集, ,并同时生成对应的自展树,检验自展并同时生成对应的自展树,检验自展树对最终系统发生树各分支的支持率。树对最终系统发生树各分支的支持率。最后计算出最后计算出来的数值为自展值来的数值为自展值( (Bootstrap value)。不同的算法有不同的适用目标。是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。最好是我们来发展一个更好的算法来解决,这就发展成为了一个交叉学科。算法的选择算法的选择分析算法优势劣势适用软件邻接法(Neighbour joining)算法

23、简单,速度最快将序列数据转换为距离数据的过程中不可避免地会丢失部分进化信息PAUPMEGAPHYLIP最大简约法(Maximum parsimony)对于较大数据集速度较快;若分支较短,运算结果较好当分支长度有实质变异的情况下进化树不准确PAUPMEGAPHYLIP最小进化法(Minimum Evolution)能够用于非直接赋值的数据集(如免疫学、遗传学数据)的分析当分支支长较长时距离算法可能出现错误PAUPMEGAPHYLIP最大似然法(Maximum Likelihood)在得到最优替代模型的情况下,似然法算法最准确对于序列很多的大型数据集运算最慢PAUPPAMLPHYLIP贝叶斯推论(

24、Bayesian inference)和最大似然法联系紧密;运算速度比最大似然法快在实际应用中马尔科夫-蒙特卡洛算法的计算是否充分理论上较难确定;运算过程较其他算法复杂MrBayesBAMBE算法的选择算法的选择MasatoshiNei著,高教出版社翻译出版,分子进化与系统发育参考书目参考书目三、系统发育分析的流程收集数据寻找同源基因多重联配模型选择系统发育分析假设检验,对进化树进行评估1.收集数据和同源基因收集数据实验中通过测序,得到的数据计算机模拟基于序列相似性的搜索Blast文献序列搜索,分析和比对以及使用Cluxtal, phylip用邻接法做进化树的简易教程唐 明www.ncbi.n

25、lm.nih.govGenBank与日本DNA数据库(DNADataBankofJapan,DDBJ)以及欧洲生物信息研究所的欧洲分子生物学实验室核苷酸数据库(EuropeanMolecularBiologyLaboratory,EMBL),所有这3个中心都可以独立地接受数据提交,而3个中心之间则逐日交换信息,并制成相同的充分详细的数据库向公众开放。因此他们是相等的。BLAST(BasicLocalAlignmentSearchTool)即碱基局部对准检索工具,是一种序列类似性检索工具。它采用统计学记分系统,能将真正配对的序列同随机产生的干扰序列区别开来;同 时采用启发式算法系统,即采用的是局

26、部对准算法(LocalAlignmentAlgorithm),而不是全序列对准算法(GlobalAlignmentAlgorithm)。Blast是通过比对(alignment)在数据库中寻找和你的查询序列(query)相似度很高的序列。通俗地说就是在已知的序列数据库中找和你的序列差不多的序列。序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索,找出与之相似的序列,从而评判新测定的序列是重复别人 的工作,还是在前人的基础上有所创新,或是发现了新的序列。(1)经由WWW使用的BLASTwww.ncbi.nlm.nih.gov,进入NBCI主页,然后链接到BLAST主页。

27、 (2)网络版的BLASTBLAST2是标准的网络BLAST客户软件,它可以通过NCBI匿名的FTP服务器(ftp:/ncbi.nlm.nih.gov)下的/blast/network/blast2/获取。PowerBlast是用于大规模分析基因序列的网络BLAST客户应用软件,它可以通过NCBI匿名的FTP服务器(ftp:/ncbi.nlm.nih.gov)下的/blast/network/blast2/powerBLAST/获取。blastp:将待查询的蛋白质序列及其互补序列一起对蛋白质序列数据库进行查询;blastn:将待查询的核酸序列及其互补序列一起对 核酸序列数据库进行查询;blas

28、tx:先将待查询的核酸序列按六种可读框架(逐个向前三个碱基和逐个向后三个碱基读码)翻译成蛋白质序列,然后将翻译结果对蛋白质序列数据库进行查询;tblastn:先将核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后将待查询的蛋白质序列及其互补序列对其翻译结果进行查询;tblastx:先将待查询的核酸序列和核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后再将两种翻译结果从蛋白质水平进行查询。 将序列粘帖进去nr:所有非冗余的GenBank+EMBL+DDBJ+PDB序列;但不包括EST、STS、GSS或HTGS序列。month:最近30天注释的新增加的或修订的GenBan

29、k+EMBL+DDBJ+PDB序列dbEST:GenBank+EMBL+DDBJ+PDB中EST部分的无冗余数据。dbSTS:GenBank+EMBL+DDBJ+PDB中STS部分的无冗余数据。htgs:高允许能力(HighThroughput)基因序列。yeast:yeast(SaccharomycesCerevisiae)基因核酸序列。E.coli:大肠杆菌(E.coli)基因核酸序列。pdb:蛋白质数据库。KabatKabatnuc:免疫学上感兴趣的核酸序列Kabat数据库。Vector:GenBank载体数据库。mito:线粒体序列数据库。alu:从重复序列数据库(REPBASE)选取

30、的Alu重复序列,适用于过滤查询序列中Alu重复序列。通过匿名FTP从ncbi.nlm.nih.gov下的 /pub/jmc/alu目录中获取。epd:真核生物的启动子数据库。gss:基因搜寻序列,包括单递基因数据、外切核酸酶捕获序列和AluPCR序列。 Blastn:应该是出现较早的算法。比对的速度慢,但允许更短序列的比对(如短到7个碱基的序列)。Megablast:主要用来鉴定一段新的核酸序列,它并不注重比对各个碱基的不同和序列片断的同源性,而只注重被比对序列是否是数据库未收录的,是否为新的提交序列或基因。DiscontiguousMegablast:灵敏度(sensitivity)更高,

31、用于更精确的比对。主要用于跨物种之间的同源比对。Guidetree引导树细菌,变形菌门,gamma变形菌亚门,气单胞杆菌科,气单胞杆菌属2.多重联配Multiplesequencesalignment生物学意义找出同源基因演化过程中的同源位点(每一列)多重联配的算法和blast算法相似。但blast只是求得两条序列的最佳联配,而多重联配要求得到所有序列联配后的最佳匹配,是一个多维空间搜索问题。多重连配所用的软件:Clustal-W:http:/www.ebi.ac.uk/Tools/msa/clustalw2/http:/www.genome.jp/tools/clustalw/http:/w

32、ww.clustal.org/download/current/Clustal-X:http:/www.clustal.org/download/current/ClustalOmega(最新的):http:/www.clustal.org/omega/#Download什么是fasta文件格式?怎么建立?新建一个txt文本文件,命名如:XXX.txtFasta文件的格式: 序列名称序列序列名称序列把fasta格式的序列粘贴进去设定参数设定输出格式Phylip软件使用的格式PAUP*和Mrbayes等软件使用的格式*.phy的输出格式使用Bioedit等软件进行矫正Clustal-X的输出结果

33、.aln格式文件这个文件是默认输出,可以转换成各种格式,而且很多软件都支持这种格式。.dnd格式文件 引导树(Guidetree)。就是根据两两序列相似值构建的一个指导后面多重联配的启发树。不能做进化分析。进化分析要考虑的所有同源位点的一个综合效应,因此应该用.aln格式文件专门做进化分析。输出结果使用Bioedit等软件进行编辑。BioEdit软件界面Phylip是目前最广泛使用的系统发生分析程序,主要包括一下几个程序组:分子序列组,距离矩阵组,基因频率组,离散字符组,进化树绘制组。Phylip软件下载地址:http:/evolution.genetics.washington.edu/ph

34、ylip.html目前最新版本为 version3.69 3.Phylip软件包介绍分子序列组: 1.蛋白质序列:protpars,proml,promlk, protdist2.核酸序列:dnapenny,dnapars, dnamove,dnaml,dnamlk, dnainvar,dnadist,dnacomp3.1Phylip软件包分组介绍距离矩阵组:Fitch,kitsch,neighbor基因频率组:Gendist,contml离散字符组Pars,mix,move,penny,dollop,dolmove,dolpenny,clique,factorPhylip软件包分组介绍进化树

35、绘制组:drawtree,drawgram其他:restdist,restml,seqboot,contrasttreedist,consense,retreePhylip软件包分组介绍3.2Phylip软件包的应用1.根据你的分析数据,选择适当的程序 如,你分析的是DNA数据,就在核酸序列分析类中选择程序(dnapenny,dnapars, dnamove,dnaml,dnamlk, dnainvar,dnadist,dnacomp)如果分析的是离散数据,如突变位点数据,就在离散字符组里面选择程序。2.选择适当的分析方法如你分析的是DNA数据,可以选择简约法(DNAPARS),似然法(DNA

36、ML, DNAMLK),距离法等(DNADIST)。3.进行分析 选择好程序后,执行,读入分析数据,选择适当的参数,进行分析,结果自动保存为outfile,outtree。Phylip软件包的应用3.4使用Phylip做一个邻接法的树将XXX.phy文件拷到PHYLIP文件夹中的exe文件夹下1234核酸序列使用邻接法做进化树,依次使用seqboot, dnadist, neighbor, consense四个程序做进化树,蛋白质序列,则使用prodistseqboot重复抽样:双击重复抽样:双击seqboot,输入,输入BPH.phy,回车,回车输入R,回车,把数字改为1000。代表自举值b

37、ootstrap=1000。如果bootstrap值太低,则树不可靠其他不管,输入Y,回车。Randomnumberseed”(随机种子数),数值必须是4n+1(n为正整数),例如输入“5or9or13等等”,此为随机数,对结果没影响。然后再回车。可以看到计算过程。看到exe文件夹中出现一个outfile文件,然后可以把seqboot关掉了dnadist计算核苷酸距离矩阵计算核苷酸距离矩阵 把刚才的outfile改名,如dnadistinfile双击dnadist,输入dnadistinfile,回车输入M,然后输入D,再输入1000,和上面步骤要一致即自举值bootstrap=1000输入1

38、000后,回车。再输入y,回车。可见运算过程。运算完成后,再次出现一个outfile文件。关掉dnadist程序。neighbor邻接法建树邻接法建树将outfile改名,如neighborinfile。双击neighbor,然后输入neighborinfile输入n,选择neighbor-joining,使用邻接法做树输入m,再输入1000,回车。Randomseed,还是输入9。然后输入y,回车。可见运算过程。算完后,文件夹中多了outtree和outfile两个文件。然后关闭neighbor程序。consense构建一致树构建一致树 此时,exe文件夹中又多了一个outfile和一个ou

39、ttree文件。现在一共有dnadistinfile,neighborinfile,outfile,outtree等4个文件。将outtree改名,如neighborintree将outfile改名,如neighboroutfile双击consense不要改动参数,直接输入y,回车然后可以看见多了两个文件,outtree和outfileouttree就是最终得到的一致树,使用treeview软件打开查看outtree文件。树文件另存为矢量图,使用Adobeillustrator编辑。4.使用MEGA建树的介绍MEGA是图形化软件,操作界面比较人性化和简单。举例如下:01AAATTTCCCGGG

40、AAATTT02AAATTTCCGCCGAAATTT03AAAGGTGGCGCCAATTTA04AATGGTGGGCGCTTTAAA网址和下载:网址和下载:建立一个fasta格式的文件*.fas用于PAUP和Mrbayes用于MEGA四、相关网络资源介绍四、相关网络资源介绍http:/evolution.genetics.washington.edu/phylip/software.html推荐的软件相关论文的引用数量,引用率依次是PAUP*、Mrbayes和PHYLIP。PHYLIP:比较经典,易操作MEGA:图形化软件,易操作MrBayes:贝叶斯分析专用PAUP*:功能很全,但是收费软件

41、Modeltest:分析最适遗传模型,不是做树TreeView:看进化树用的,不是做树5-AGAGTTTGATCTGGCTCAGATTGAACGCTGGCGGCAGGCCTAACACATGCAAGTCGAGCGGCAGCGGGAAAGTAGCTTGCTACTTTTGCCGGCGAGCGGCGGACGGGTGAGTAATGCCTGGGAAATTGCCCAGTCGAGGGGGATAACAGTTGGAAACGACTGCTAATACCGCATACGCCCTACGGGGGAAAGCAGGGGACCTTCGGGCCTTGCGCGATTGGATATGCCCAGGTGGGATTAGCTAGTTGGTGAGGT

42、AATGGCTCACCAAGGCGACGATCCCTAGCTGGTCTGAGAGGATGATCAGCCACACTGGAACTGAGACACGGTCCAGACTCCTACGGGAGGCAGCAGTGGGGAATATTGCACAATGGGGGAAACCCTGATGCAGCCATGCCGCGTGTGTGAAGAAGGCCTTCGGGTTGTAAAGCACTTTCAGCGAGGAGGAAAGGTCAGTAGCTAATATCTGCTGACTGTGACGTTACTCGCAGAAGAAGCACCGGCTAACTCCGTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTAATCGGAAT

43、TACTGGGCGTAAAGCGCACGCAGGCGGTTGGATAAGTTAGATGTGAAAGCCCCGGGCTCAACCTGGGAATTGCATTTAAAACTGTCCAGCTAGAGTCTTGTAGAGGGGGGTAGAATTCCAGGTGTAGCGGTGAAATGCGTAGAGATCTGGAGGAATACCGGTGGCGAAGGCGGCCCCCTGGACAAAGACTGACGCTCAGGTGCGAAAGCGTGGGGAGCAAACAGGATTAGATACCCTGGTAGTCCACGCCGTAAACGATGTCGATTTGGAGGCTGTGTCCTTGAGACGTGGCTTCCGGAG

44、CTAACGCGTTAAATCGACCGCCTGGGGAGTACGGCCGCAAGGTTAAAACTCAAATGAATTGACGGGGGCCCGCACAAGCGGTGGAGCATGTGGTTTAATTCGATGCAACGCGAAGAACCTTACCTGGCCTTGACATGTCTGGAATCCTGCAGAGATGCGGGAGTGCCTTCGGGAATCAGAACACAGGTGCTGCATGGCTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCCTGTCCTTTGTTGCCAGCACGTAATGGTGGGAACTCAAGGGAGACTG

45、CCGGTGATAAACCGGAGGAAGGTGGGGATGACGTCAAGTCATCATGGCCCTTACGGCCAGGGCTACACACGTGCTACAATGGCGCGTACAGAGGGCTGCAAGCTAGCGATAGTGAGCGAATCCCAAAAAGCGCGTCGTAGTCCGGATTGGAGTCTGCAACTCGACTCCATGAAGTCGGAATCGCTAGTAATCGCAAATCAGAATGTTGCGGTGAATACGTTCCCGGGCCTTGTACACACCGCCCGTCACACCATGGGAGTGGGTTGCACCAGAAGTAGATAGCTTAACCTTCGGGAGGGCGTTTACCACGGTGTGATTCATGACTGGGGTGAAGTCCTAACAAGGTAGCCGT-3用一个细菌的16SrDNA序列举例说明有疑问,联系

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 营销创新

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号