分子进化与系统发育分析ppt课件

上传人:cn****1 文档编号:568702679 上传时间:2024-07-26 格式:PPT 页数:92 大小:3.73MB
返回 下载 相关 举报
分子进化与系统发育分析ppt课件_第1页
第1页 / 共92页
分子进化与系统发育分析ppt课件_第2页
第2页 / 共92页
分子进化与系统发育分析ppt课件_第3页
第3页 / 共92页
分子进化与系统发育分析ppt课件_第4页
第4页 / 共92页
分子进化与系统发育分析ppt课件_第5页
第5页 / 共92页
点击查看更多>>
资源描述

《分子进化与系统发育分析ppt课件》由会员分享,可在线阅读,更多相关《分子进化与系统发育分析ppt课件(92页珍藏版)》请在金锄头文库上搜索。

1、生物信息学第四章第四章分子进化与系统发育分析分子进化与系统发育分析TreeofLifer重建所有生物的进化历史并以系统树的形重建所有生物的进化历史并以系统树的形式加以描述式加以描述生物进化理论r达尔文进化论:达尔文进化论:进化:变异的遗传进化:变异的遗传自然选择:解释为何演变发生的机制自然选择:解释为何演变发生的机制种群中个体变异的遗传学基础:孟德尔遗传种群中个体变异的遗传学基础:孟德尔遗传孟德尔豌豆实验:杂交的表现特征是基因表达孟德尔豌豆实验:杂交的表现特征是基因表达的结果,而不是基因杂交遗传的结果,而不是基因杂交遗传r中性进化论:并非所有种群中保留下来的突中性进化论:并非所有种群中保留下来

2、的突变都由自然选择所形成;大多数突变是中性变都由自然选择所形成;大多数突变是中性或接近中性,不妨碍种群的生存与繁衍。或接近中性,不妨碍种群的生存与繁衍。研究生物进化历史的途径r1.最确凿证据是:生物化石!最确凿证据是:生物化石!零散、零散、不完整不完整r2.比较形态学、比较解剖学和生理学等:确比较形态学、比较解剖学和生理学等:确定大致的进化框架定大致的进化框架 细节存很多的争议细节存很多的争议分子进化r1964年,年,LinusPauling提出分子进化理论;提出分子进化理论;r从物种的一些分子特性出发,从而了解物种从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。之间的生物系统

3、发生的关系。r发生在分子层面的进化过程:发生在分子层面的进化过程:DNA,RNA和和蛋白质分子蛋白质分子r基本假设:核苷酸和氨基酸序列中含有生物基本假设:核苷酸和氨基酸序列中含有生物进化历史的全部信息。进化历史的全部信息。分子进化的模式rDNA突变的模式:替代,插入,缺失,倒位;突变的模式:替代,插入,缺失,倒位;r核苷酸替代:转换核苷酸替代:转换(Transition)&颠换颠换(Transversion)r基因复制:多基因家族的产生以及伪基因的产基因复制:多基因家族的产生以及伪基因的产生生A.单个基因复制单个基因复制重组或者逆转录重组或者逆转录B.染色体片断复制染色体片断复制C.基因组复制

4、基因组复制DNA突变的模式替代替代插入插入缺失缺失倒位倒位核苷酸替代:转换&颠换r转换:嘌呤被嘌呤转换:嘌呤被嘌呤替代,或者嘧啶被替代,或者嘧啶被嘧啶替代嘧啶替代r颠换:嘌呤被嘧啶颠换:嘌呤被嘧啶替代,或者嘧啶被替代,或者嘧啶被嘌呤替代嘌呤替代基因复制:单个基因复制重组重组逆转录逆转录基因复制:基因组复制酿酒酵母酿酒酵母克鲁雄酵母克鲁雄酵母研究结果:克鲁研究结果:克鲁雄酵母中的同源雄酵母中的同源基因数量与酿酒基因数量与酿酒酵母相比为酵母相比为1 1:2 2r物种分类及关系:从物种的一些分子特性出发,物种分类及关系:从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统构建系统发育

5、树,进而了解物种之间的生物系统发生的关系发生的关系treeoflifer大分子功能与结构的分析:同一家族的大分子,大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析;功能性分析,构建系统发育树,进行相关分析;功能预测预测r进化速率分析:例如,进化速率分析:例如,HIV的高突变性;哪些位的高突变性;哪些位点易发生突变?点易发生突变?分子进化研究的目的TreeofLife:16SrRNAOutofAfrica5353个人的线粒体基因组个人的线粒体基因组( (16,587bp) )人类迁移

6、的路线人类迁移的路线同源物定义rOrtholog(直系同源物直系同源物):两个基因通过物种形成:两个基因通过物种形成的事件而产生,或源于不同物种的最近的共同祖的事件而产生,或源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。般具有相同的功能。rParalog(旁系同源物旁系同源物):两个基因在同一物种中,:两个基因在同一物种中,通过至少一次基因复制的事件而产生。常常具有通过至少一次基因复制的事件而产生。常常具有不同功能。不同功能。rXenolog(异系同源物异系同源物):由某一个基因水平转移:由某一个基因水平转移事件

7、而得到的同源序列。水平转移的基因功能主事件而得到的同源序列。水平转移的基因功能主要根据在前后宿主中变化而确定,然而功能却常要根据在前后宿主中变化而确定,然而功能却常常相似。常相似。paralogsorthologs直系同源物vs.旁系同源物异源基因或水平转移基因xenologousxenologousorhorizontallytransferredgenesorhorizontallytransferredgenes同源性与相似性r相似性相似性(Similarity)序列比对过程中用来描述检测序列和目标序列序列比对过程中用来描述检测序列和目标序列之间相似之间相似DNA碱基或氨基酸残基序列所占

8、比例;碱基或氨基酸残基序列所占比例;定量描述;定量描述;r同源性同源性(Homology)两个基因或蛋白质序列具有共同祖先的结论;两个基因或蛋白质序列具有共同祖先的结论;定性判断;定性判断;r相似不一定同源相似不一定同源,同源不一定相似。同源不一定相似。r氨基酸序列相似性超过氨基酸序列相似性超过30%,很很可能可能同源。同源。序列同源性模型中的进化假设r所有的生物都起源于同一个祖先;所有的生物都起源于同一个祖先;r序列不是随机产生,而是在进化上,不断序列不是随机产生,而是在进化上,不断发生着演变;发生着演变;r基本假设:基本假设:序列保守性序列保守性结构保守性结构保守性注意:反之未必注意:反之

9、未必序列保守性序列保守性结构保守性结构保守性本章内容提要r第一节,密码子偏好及分析第一节,密码子偏好及分析r第第二二节,节,氨基酸序列的进化演变氨基酸序列的进化演变r第三节,分子系统发育分析第三节,分子系统发育分析r第四节,分子系统发育分析软件介绍第四节,分子系统发育分析软件介绍第一节,密码子偏好及分析r密码子密码子(codon):在随机或者无自然选择的在随机或者无自然选择的情况下,各个密码子出现频率将大致相等情况下,各个密码子出现频率将大致相等;r密码子偏好:各个物种中,编码同一氨基酸密码子偏好:各个物种中,编码同一氨基酸的不同同义密码子的频率非常不一致的不同同义密码子的频率非常不一致;r可

10、能的原因:密码子对应的同功可能的原因:密码子对应的同功tRNA丰度丰度的不同的不同-Anticodon标准密码子大肠杆菌RNA聚合酶大肠杆菌RNA聚合酶(2)r密码子偏好非常明显;例如密码子偏好非常明显;例如r同为编码同为编码Leu的同义密码子的同义密码子CUA和和CUG,二者出现的次数显著不等,二者出现的次数显著不等,CUA(1次次),CUG(141次次);r再如:编码再如:编码Arg的四个密码子的四个密码子CGU,CGC,CGA,CGG,出现次数分别为:出现次数分别为:89,46,1,0.r提示:对应提示:对应CGG的同功的同功tRNA可能不存在!可能不存在!tRNA&Anticodonr

11、每一个密码子,对应一每一个密码子,对应一个个tRNA;rtRNA通过通过Anticodon来来识别识别codon,联系,联系mRNA和氨基酸序列的和氨基酸序列的合成;合成;r密码子的使用偏好:由密码子的使用偏好:由密码子对应的密码子对应的tRNA的进的进化及丰度来决定。化及丰度来决定。碱基出现的频率r1.假如:每个核苷酸位点上的替代是随机发生的,假如:每个核苷酸位点上的替代是随机发生的,则则A,T,C,G出现的频率应该大致相等。出现的频率应该大致相等。r2.实际情况:实际情况:DNA受到受到自然选择自然选择的压力,各个位的压力,各个位点的碱基出现频率并不相等。点的碱基出现频率并不相等。r3.需

12、要解决的问题:需要解决的问题:A.每个位点上受到什么样的选择压力?每个位点上受到什么样的选择压力?B.各个位点的碱基频率反映了什么样的规律?各个位点的碱基频率反映了什么样的规律?r4.表征表征/统计的方法:计算统计的方法:计算G+C的含量,并进行比的含量,并进行比较较分子进化的理论r自然选择理论:自然选择理论:阳性选择:促进有益突变;阳性选择:促进有益突变;w定向选择:固定有益的等位基因;定向选择:固定有益的等位基因;w平衡选择:保持多态性;平衡选择:保持多态性;阴性选择(净化选择):清除有害突变;阴性选择(净化选择):清除有害突变;r中性理论:中性理论:阳性选择:少有;阳性选择:少有;阴性选

13、择:普遍存在;阴性选择:普遍存在;中性进化:普遍存在;中性进化:普遍存在;同义替代vs.非同义替代64个密码子,编码个密码子,编码20个氨基酸个氨基酸GTTGTCGTAGTGCGTCGC脯氨酸脯氨酸P P组氨酸组氨酸H H四倍简并四倍简并二倍简并二倍简并TGGTGC色氨酸色氨酸W W半胱氨酸半胱氨酸C C同义替代同义替代非同义替代非同义替代基因的编码区和非编码区r基因的基因的DNA由编码区(由编码区(Codingregion)和)和非编码区(非编码区(Non-codingregion)构成;)构成;r编码区可以转录信使编码区可以转录信使RNA,进而调控蛋白质,进而调控蛋白质的合成;的合成;r非

14、编码区不能转录成信使非编码区不能转录成信使RNA,但是它可以,但是它可以调控遗传信息的表达;调控遗传信息的表达;r原核基因:编码区全部编码蛋白质;原核基因:编码区全部编码蛋白质;真核基因:编码区分为外显子和内含子真核基因:编码区分为外显子和内含子,只有只有外显子能编码蛋白质;外显子能编码蛋白质;分子进化选择压力r进化选择压力:进化选择压力:A.编码区:阳性选择编码区:阳性选择1%;阴性选择;阴性选择19%;中;中性进化性进化80%;B.非编码区:非编码区:100%的中性进化的中性进化r中性进化:中性进化:同义突变,同义突变,约占核苷酸置换总数的四分之一;约占核苷酸置换总数的四分之一;非编码区非

15、编码区DNA序列的突变对蛋白质的合成很少序列的突变对蛋白质的合成很少有影响。有影响。编码区:密码子r1.对于同义的密码子,第一位少部分可以允许不同,对于同义的密码子,第一位少部分可以允许不同,例如,编码例如,编码Ser的六个密码子:的六个密码子:TCT,TCC,TCA,TCG,AGT,AGCr2.第二位必须相同第二位必须相同r3.第三位绝大多数可以不同第三位绝大多数可以不同近似随机;近似随机;r4.因此:因此:A.第一位:阴性进化占大部分,中性进化占小部分第一位:阴性进化占大部分,中性进化占小部分B.第二位:阴性进化第二位:阴性进化C.第三位:阴性进化占小部分,中性进化占大部分第三位:阴性进化

16、占小部分,中性进化占大部分密码子偏好的应用及计算r基本假设:在高表达的基因中,密码子的选择,基本假设:在高表达的基因中,密码子的选择,更倾向于使用更倾向于使用“优化优化”的同义密码子的同义密码子r推论推论1:给定一个物种的一些高表达的基因,我:给定一个物种的一些高表达的基因,我们可以估算优化的同义密码子的分布们可以估算优化的同义密码子的分布r推论推论2:接着,我们可以对给定的一个未知基因:接着,我们可以对给定的一个未知基因的序列进行密码子分布的分析,预测该基因的表的序列进行密码子分布的分析,预测该基因的表达量!达量!r推论推论3:对于一个表达量很低的基因,我们是否:对于一个表达量很低的基因,我

17、们是否能够通过将少量的密码子改变成优化密码子,从能够通过将少量的密码子改变成优化密码子,从而显著提高基因的表达量?而显著提高基因的表达量?RSCUr相对同义密码子使用度相对同义密码子使用度(relativesynonymouscodonusage,RSCU)r定义:观测到的某一同一密码子的使用次数,除以定义:观测到的某一同一密码子的使用次数,除以“期望期望”的该密码子出现次数的该密码子出现次数编码第编码第i i个氨基酸个氨基酸的第的第j j个密码子的个密码子的出现次数出现次数编码第编码第i i氨基酸的氨基酸的同义密码子的数目同义密码子的数目编码第编码第i i个氨基酸个氨基酸的第的第j j个密码

18、子的个密码子的RSCURSCU值值密码子相对适应度TherelativeTherelativeadaptivenessadaptivenessofaofacodoncodon r编码第编码第i个氨基酸的第个氨基酸的第j个同义密码子的个同义密码子的“相相对适应性对适应性”:r即该同义密码子的观察值,除以编码该氨即该同义密码子的观察值,除以编码该氨基酸的同义密码子的最大值基酸的同义密码子的最大值大肠杆菌&酵母CAI:密码子适应指数CodonCodonAdaptationIndexAdaptationIndexL L为基因中所使用为基因中所使用的密码子数的密码子数rCAI值介于值介于01之间之间,该

19、值越大表示偏性越强该值越大表示偏性越强;rCAI值一般用来预测种内基因的表达水平,值一般用来预测种内基因的表达水平,以及预测外源基因的表达水平。以及预测外源基因的表达水平。r不同物种不同物种CAI的计算依赖于各自的参考数据的计算依赖于各自的参考数据集。集。大肠杆菌和酵母:部分基因的CAI异源基因:在其他物种中的CAI第二节,氨基酸序列的进化演变r分子进化的分析:基于氨基酸序列的分析早分子进化的分析:基于氨基酸序列的分析早于于DNA序列序列r优势:氨基酸序列更为保守,对年代跨度大优势:氨基酸序列更为保守,对年代跨度大的进化分析有帮助;数学模型较的进化分析有帮助;数学模型较DNA远为简远为简单单r

20、p距离:距离:p-distancer泊松校正,泊松校正,d距离距离P-distancer两条蛋白质序列之间的氨基酸差异数为两条蛋白质序列之间的氨基酸差异数为nd,序列的氨基酸数目均为序列的氨基酸数目均为n,则,则P距离:距离:不同物种的血红蛋白不同物种的血红蛋白链中差异氨基酸的数目及比例:(长度:链中差异氨基酸的数目及比例:(长度:140aa140aa)所有的插入所有的插入/ /缺缺失均删除失均删除PC:泊松校正r序列差异的百分比序列差异的百分比(p)与分歧时间与分歧时间t的关系:的关系:t较短的较短的时候,回复突变较少,两者大致成线性关系;当时候,回复突变较少,两者大致成线性关系;当t较大时

21、,回复突变增多,二者成非线性关系较大时,回复突变增多,二者成非线性关系r基本假设:令基本假设:令r为某一位点每年的氨基酸替代率,为某一位点每年的氨基酸替代率,并假设所有位点的并假设所有位点的r都相同都相同r在时间在时间t年之后,每个位点替代的平均数为:年之后,每个位点替代的平均数为:rt给定一个位点,氨基酸替代数给定一个位点,氨基酸替代数k(k=0,1,2,3,)的可的可能性遵循泊松分布,即能性遵循泊松分布,即r因此,某一位点氨基酸不变的概率为因此,某一位点氨基酸不变的概率为泊松距离r祖先序列未知:不知道当前的序列从何演化而来祖先序列未知:不知道当前的序列从何演化而来r解决方案:对两条已经有解

22、决方案:对两条已经有t年分化的序列,一条序列年分化的序列,一条序列某位点无替代的概率为:某位点无替代的概率为:,两条序列同源位点,两条序列同源位点均无替代概率为:均无替代概率为:r此概率可用此概率可用1-p估计:估计:q=1-p;r两个序列间每个位点氨基酸替代总数(两个序列间每个位点氨基酸替代总数(d=2rt):):rd=-ln(1-p),即泊松距离,即泊松距离P-距离vs.泊松距离第三节,分子系统发育分析r1.系统发育树:分子进化树系统发育树:分子进化树/分子进化分析分子进化分析r2.通过进化树的构建,分析分子之间的起源通过进化树的构建,分析分子之间的起源关系,预测分子的功能。关系,预测分子

23、的功能。r3.建树方法:建树方法:A.最大简约法最大简约法(MaximumParsimony)B.距离法距离法(distance-basedmethods)C.最大似然性法最大似然性法(MaximumLikelihood)D.贝叶斯(贝叶斯(Bayesian)推断)推断祖先节点/树根内部节点/分歧点,该分支可能的祖先结点分支/世系末端节点ABCDE代代表最终分表最终分类,可以是类,可以是物种,群体,物种,群体,或者蛋白质、或者蛋白质、DNADNA、RNARNA分分子等子等系统发育树:术语Taxon ATaxon BTaxon CTaxon D116遗遗传变化传变化Taxon ATaxon BT

24、axon CTaxon D时时间间Taxon ATaxon BTaxon CTaxon D无无意义意义分分支图支图 进进化树化树 时时间度量树间度量树以以上三种类型的系统发育树表示相同的分支状况,上三种类型的系统发育树表示相同的分支状况,相同的进化关系相同的进化关系系统发育树:三种类型遗遗传变化传变化无无意义意义时时间间遗遗传变化传变化无无意义意义以以上三种类型的系统发育树表示相同的分支状况,上三种类型的系统发育树表示相同的分支状况,相同的进化关系相同的进化关系时时间间遗遗传变化传变化无无意义意义以以上三种类型的系统发育树表示相同的分支状况,上三种类型的系统发育树表示相同的分支状况,相同的进化

25、关系相同的进化关系时时间间遗遗传变化传变化无无意义意义分支图进化树时间度量树树只代表分支的拓扑结构AB CDEFGFGCDEAB通通过外类群过外类群来确定树根来确定树根根根bacteria outgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea有根树有根树外类群外类群无根树,有根树,外类群通通过外类群过外类群来确定树根来确定树根有根树有根树外类群外类群通通过外类群过外类群来确定树根来确定树根有根树有根树外类群通通过外类群过外类群来确定树根来确定树根有根树eukaryoteeukaryoteeukaryoteeukary

26、otearchaeaarchaeaarchaea无根树无根树和有根树:潜在的数目#Taxa无根树无根树有根树有根树31343155151056105945794510,395303.58X10362.04X1038Taxa增多,计算量急剧增加,因此,目前算法都为增多,计算量急剧增加,因此,目前算法都为优化算法,不能保证最优解优化算法,不能保证最优解多序列比对(自动比对,手工校正)多序列比对(自动比对,手工校正)选择建树方法以及替代模型选择建树方法以及替代模型建立进化树建立进化树进化树评估进化树评估系统发育树重建分析步骤r1.最大简约法最大简约法(maximumparsimony,MP)适用序列

27、有很高相似性时适用序列有很高相似性时r2.距离法距离法(distance)适用序列有较高相似性时适用序列有较高相似性时r3.最大似然法最大似然法(maximumlikelihood,ML)可用于任何相关序列集合可用于任何相关序列集合r计算速度:计算速度:距离法距离法最大简约法最大简约法最大似然法最大似然法系统发育树重建的基本方法1.最大简约法(MP)r根据信息位点提供的各序列间的替换情况,在所有可根据信息位点提供的各序列间的替换情况,在所有可能的树中筛选含最小替换数的树的方法。能的树中筛选含最小替换数的树的方法。r理论基础为奥卡姆剃刀理论基础为奥卡姆剃刀(Ockham)原则:计算所需替原则:计

28、算所需替换数最小的那个拓扑结构,作为最优树。换数最小的那个拓扑结构,作为最优树。r在分析的序列位点上没有回复突变或平行突变,且被在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树。获得一个很好的进化树。r优点优点:不需要在处理核苷酸或者氨基酸替代的时候引:不需要在处理核苷酸或者氨基酸替代的时候引入假设入假设(替代模型替代模型)缺点缺点:分析序列上存在较多的回复突变或平行突变,:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,可能会给出而被检验的序列位点数又比较

29、少的时候,可能会给出一个不合理的或者错误的进化树推导结果。一个不合理的或者错误的进化树推导结果。r信息位点:能将所有可能的树区别出来的信息位点:能将所有可能的树区别出来的位点。位点。r信息位点是指那些至少存在信息位点是指那些至少存在2个不同碱基个不同碱基/氨基酸且每个不同碱基氨基酸且每个不同碱基/氨基酸至少出现两氨基酸至少出现两次的位点。次的位点。信息位点(Sitesareinformative)上例rPosition5,7,9为信息位点为信息位点;r基于基于position5的三个的三个MP树树:Tree1长度为长度为1,Tree2&3长度为长度为2rTree1最为简约:总长最为简约:总长=

30、4Tree2长长5;Tree3长长6r计算结果:计算结果:MPtree的最优结果为的最优结果为tree12.距离法r又称距离矩阵法,首先通过各个物种之间又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一推导得出分类群之间的进化距离,构建一个进化距离矩阵。再依据进化距离,分别个进化距离矩阵。再依据进化距离,分别依次将序列合并聚类,构建进化树。依次将序列合并聚类,构建进化树。简单的距离矩阵r由进化距离构建进化树的方法有很多,常见由进化距离构建进化树的方法有很多,常见有:有:(1)Fitch-Margo

31、liashMethod(FM法法):对短支对短支长非常有效长非常有效(2)Neighbor-JoiningMethod(NJ法法/邻接法邻接法):求最短支长,最通用的距离方法求最短支长,最通用的距离方法(3)NeighborsRelatonMethod(邻居关系法邻居关系法)(4)UnweightedPairGroupMethodwithArithmeticMean(UPGMA,非加权组平均法,非加权组平均法)通过距离矩阵建树的方法(1)Fitch-Margoliash方法(FM法)=D和和E最接近!最接近!DEABCedmr示例分成三组:分成三组:D,E,以及以及ABC(1)FM法示例DE距

32、离距离=d+e=10(1)D到到ABC间的平均距离间的平均距离=d+m=32.7(2)E到到ABC间的平均距离间的平均距离=e+m=34.7(3)(2)-(3)+(1)d=4,e=6DEABCedm分成三组:分成三组:C,DE,以及以及AB=C最接近最接近DE!c+g+(e+d)/2=19(1)c+f+(a+b)/2=40(2)(e+d)/2+(a+b)/2+f+g=41(2)(1)+(2)-(3)=c=9=g=5由:由:(a+b)/2+f+g+(d+e)/2=41得:得:f=20由:由:a+f+c=39得:得:a=10,则,则b=12N-J/邻接法r与与FM方法非常类似方法非常类似r保证总的

33、支长最短保证总的支长最短r总支长:总支长:a+b+c+d+e=314/4=78.5找到距离最近的两个点r1.任意两个节点选为相邻序列的总支长计算公式任意两个节点选为相邻序列的总支长计算公式:r2.计算计算SAB,SBC,SCD,SDE等数值等数值r3.该例中,该例中,SAB最小最小把把A、B看成一个新的复合序看成一个新的复合序列,构建一个新的距离表,重复列,构建一个新的距离表,重复以上过程以上过程计算A,B的分支长度d=e=10/2=5UPGMA法c=19/2=9.5g=c-d=9.5-5=4.5a=b=22/2=11AB(CDE)A-2239.5B-41.5(CDE)-(AB)(CDE)(A

34、B)-40.5(CDE)-f1+a=f2+c=40.5/2=20.25f1=9.25,f2=11.75最大似然法(ML)r最大似然法最大似然法(maximumlikelihood,ML):最早应用最早应用于对基因频率数据的分析上于对基因频率数据的分析上r选取一个特定的替代模型来分析给定的一组序列数选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最值,然后再挑出其中似然率最大的拓扑结构作为最优树;优树;r在最大似然法的分析中,所考虑的参数并不是拓扑在最大似然法的分析中,所

35、考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率求最大结构而是每个拓扑结构的枝长,并对似然率求最大值来估计枝长;值来估计枝长;r缺点:费时,每个步骤都要考虑内部节点的所有可缺点:费时,每个步骤都要考虑内部节点的所有可能性能性r改进:启发式算法,改进:启发式算法,分枝交换搜索等分枝交换搜索等构建进化树的一般原则r1.可靠的待分析数据可靠的待分析数据r2.准确的多序列比对准确的多序列比对r3.选择合适的建树方法:选择合适的建树方法:A.序列相似程度高,序列相似程度高,MP首先首先B.序列相似程度较低,序列相似程度较低,ML首先首先C.序列相似程度太低,无意义序列相似程度太低,无意义r4.

36、一般采用两种及以上方法构建进化树,无一般采用两种及以上方法构建进化树,无显著区别可接受显著区别可接受构建进化树的一般原则(2)r选择一个或多个已知与分析序列关系较远的选择一个或多个已知与分析序列关系较远的序列作为外类群序列作为外类群;r外类群可以辅助定位树根外类群可以辅助定位树根;r外类群序列必须与剩余序列关系较近,但外外类群序列必须与剩余序列关系较近,但外类群序列与其他序列间的差异必须比其他序类群序列与其他序列间的差异必须比其他序列之间的差异更显著。列之间的差异更显著。外类群(Outgroup)bacteria outgroupeukaryoteeukaryoteeukaryoteeukar

37、yotearchaeaarchaeaarchaea外类群外类群进化树的可靠性分析r单纯由预先获得的多序列比对结果数据所推单纯由预先获得的多序列比对结果数据所推导出的进化树有时并不一定可靠。导出的进化树有时并不一定可靠。r改进办法:引进一些统计分析来寻找更优的改进办法:引进一些统计分析来寻找更优的进化树,检验结果的可靠性。进化树,检验结果的可靠性。r最常见的就是最常见的就是bootstrap评估。评估。r从排列的多序列中随机有放回的抽取某一列,从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列;构成相同长度的新的排列序列;r重复上面的过程,得到多组新的序列;重复上面的过程,得到多

38、组新的序列;r对这些新的序列进行建树,再观察这些树与对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性。原始树是否有差异,以此评价建树的可靠性。r一般一般Bootstrap的值的值70,则认为构建的进化,则认为构建的进化树较为可靠。树较为可靠。自展法-进化树的可靠性分析BootstrapMethod第四节,系统发育分析软件介绍软件软件说明说明PHYLIP免费的、集成的进化分析工具免费的、集成的进化分析工具http:/evolution.genetics.washington.edu/phylip.htmlMEGA图形化、集成的进化分析工具,不包括图形化、集成的进化分析

39、工具,不包括MLhttp:/ 基于贝叶斯方法的建树工具基于贝叶斯方法的建树工具http:/mrbayes.csit.fsu.edu/MAC5基于贝叶斯方法的建树工具基于贝叶斯方法的建树工具http:/ 多序列比对结果的美化工具(可以导入多序列比对结果的美化工具(可以导入fasta格式的文格式的文件,作图可用于发表)件,作图可用于发表)http:/www.psc.edu/biomed/genedoc/BioEdit序列分析的综合工具序列分析的综合工具http:/www.mbio.ncsu.edu/BioEdit/bioedit.htmlTreeView进化树显示工具进化树显示工具http:/ta

40、xonomy.zoology.gla.ac.uk/rod/treeview.htmlPhylip软件包介绍r由华盛顿大学遗传学系开发,免费的系统发由华盛顿大学遗传学系开发,免费的系统发育分析软件包。育分析软件包。r目前最广泛使用的系统发生分析程序,主要目前最广泛使用的系统发生分析程序,主要包括以下几个程序组:分子序列组,距离矩包括以下几个程序组:分子序列组,距离矩阵组,基因频率组,离散字符组,进化树绘阵组,基因频率组,离散字符组,进化树绘制组。制组。r访问及免费下载地访问及免费下载地址:址:http:/evolution.genetics.washington.edu/phylip.htmlP

41、hylip软件包介绍rPhylip包含了包含了35个独立的程序,这些独立的程序个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。生分析的所有方面。r多种不同平台的版本(包括多种不同平台的版本(包括windows,Macintosh,DOS,Linux,Unix和和OpenVMX)。)。rPhylip软件包的文档是非常详细的,对于每个独立软件包的文档是非常详细的,对于每个独立的程序,都有一个独立的文档,详细的介绍了该程的程序,都有一个独立的文档,详细的介绍了该程序的使用及其说明。序的使用及其说明。Phylip软件

42、包的应用1,根据你的分析数据,选择适当的程序,根据你的分析数据,选择适当的程序如,你分析的是如,你分析的是DNA数据,就在核酸序列分析类数据,就在核酸序列分析类中选择程序(中选择程序(dnapenny,dnapars,dnamove,dnaml,dnamlk,dnainvar,dnadist,dnacomp)2.选择适当的分析方法选择适当的分析方法如你分析的是如你分析的是DNA数据,可以选择简约法数据,可以选择简约法(DNAPARS),似然法(),似然法(DNAML,DNAMLK),距离法等(),距离法等(DNADIST)。)。3.进行分析进行分析选择好程序后,执行,读入分析数据,选择适当的选

43、择好程序后,执行,读入分析数据,选择适当的参数,进行分析,结果自动保存为参数,进行分析,结果自动保存为outfile,outtree。routfile是一个记录文件,记录了分析的过程是一个记录文件,记录了分析的过程和结果,可以直接用文本编辑器(如写字板)和结果,可以直接用文本编辑器(如写字板)打开。打开。routtree是分析结果的树文件,可以用是分析结果的树文件,可以用phylip提供的绘树程序打开查看,也可以用提供的绘树程序打开查看,也可以用其他的程序来打开,如其他的程序来打开,如treeview等。等。Phylip软件包的应用现有现有8段段protein序列:序列:P1MPRFAANLS

44、MMFTEVPFIERFAAARKAGFDAVEFLFPYNYSTLQIQKQLEP2MPRFEANLSMMFTEVPFAERFADARKAGFDAVEFLFPYCYSDLQIQCQLEP3WPRFEANLSMMFTEVPFAERFADARKIGFDAEEFLFPYCYSDLQIQCQLEP4MPCFAANLSMMFTEVPFIERFAAARKAGFDAVEFLFPYNYSTLQIQKQLEP5MPRFEANLSMEFTAVPFIERFADARKAGFDAVEFLFPYCYSTLQIQKQLEP6MPRFEANLSMMFTEVPFAERFADARKAGFDAEEFLFPYCYSDLQIQCQL

45、EP7MPRFEANLSMEFTEVPFIERFADARKAGFDAVEFLFPYCYSTLQIQKQLEP8WPRFEANLSMMFTEVPFAERFADARKAGFDAEEFLFPYCYSDLQIQCQLE示例:Phylip软件包构建进化树r第一步:使用第一步:使用CLUSTALX多序列比多序列比对,输出格式为对,输出格式为*.PHYr输出的输出的*.PHY文件:文件:8和和50分别表示分别表示8个序列和每个序列有个序列和每个序列有50个碱基个碱基r第二步:双击第二步:双击打开打开SEQBOOT,按路径输入刚才生成按路径输入刚才生成的的*.PHY文件文件;设定适当参数;输出;设定适当参数;

46、输出outfile文件。文件。r重命名重命名Outfile文本文件为文本文件为Outfile1,打开如下:,打开如下:(包括了(包括了100个个replicates)r第三步:第三步:打开打开PROTPARS(最大简约性法)(最大简约性法),输入,输入Outfile1文件后如下显示:文件后如下显示:r设定适当参数;运行输出设定适当参数;运行输出outfile和和treefile文件文件。r重命名重命名Outfile文本文件为文本文件为Outfile2,打开如下:,打开如下:(包括了(包括了100个个replicates的结果)的结果)r第四步:第四步:打开打开CONSENSE程序程序,输入输入outfile2,运,运行输出行输出outfile和和treefile文件文件。分别重命名为。分别重命名为outfile3和和treefile3.trer获得的结果文件中,文本文件获得的结果文件中,文本文件outfile3显示如下:显示如下:outfiler树文件树文件outtree3.tre用用TREEVIEW软件打开显示:软件打开显示:outtree

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号