最大似然法构建分子进化树-phyml

上传人:第*** 文档编号:33368401 上传时间:2018-02-15 格式:DOCX 页数:8 大小:820.06KB
返回 下载 相关 举报
最大似然法构建分子进化树-phyml_第1页
第1页 / 共8页
最大似然法构建分子进化树-phyml_第2页
第2页 / 共8页
最大似然法构建分子进化树-phyml_第3页
第3页 / 共8页
最大似然法构建分子进化树-phyml_第4页
第4页 / 共8页
最大似然法构建分子进化树-phyml_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《最大似然法构建分子进化树-phyml》由会员分享,可在线阅读,更多相关《最大似然法构建分子进化树-phyml(8页珍藏版)》请在金锄头文库上搜索。

1、PhyML 利用氨基酸序列建树步骤(核酸建树也可以作为参考)吴碧波前言:本文阅读对象适合建树新手,生物信息学高手请勿嘲笑,其中有什么错误还恳请指点。为什么要建树及其你要解决什么问题这里不做讨论,只是一个纯粹的建树过程,前期的序列收集过程自己费心,根据自己的需要来做。这里主要是最大似然法来建树,NJ法像 mega 这些软件中都有集成,最新的 mega7 也集成 ML 法,不过模型及各种参数不一定适合你,所以学习多种多种方法也是有用的,PhyML 速度较慢,如果数列数量较多、步长检验次数多,等待时间会很长,有可能达到几十小时,也与电脑配置有关,一般时间都是以小时计数,所以要有心理准备,如果数据量大

2、,推荐用 RaxML 或其他方法建树,它处理速度要比 PhyML 快,不过 RaxML 是命令操作,对不熟悉命令及参数设置的人有一定难度,我也只在 linux 下操作过,没有在 win 环境中使用过。本文是用氨基酸建树过程,如果你是用核酸序列建树,也可以参考这个过程,核酸替代模型请用 jmodeltest 或其他同功软件计算。由于 PhyML 计算过程比较长,做一遍很耗时,推荐你用其他软件用 NJ 法先行试验建树,看看你选择的序列是否有效及符合你的预期结果,调整好序列后再用 PhyML 跑一遍看结果是否符合自己的要求。PhyML 有线上版本,http:/www.atgc-montpellier

3、.fr/phyml/,只需要提交序列比对结果,设置模型参数,留下邮箱等待就会给你返回结果,不过时间不可控,根据试剂情况选择线上还是本地自己建树。水平有限,如有错误遗漏恳请各位指点,文末有微信联系方式,欢迎骚扰-。 环境准备:电脑-Windows 或者 Linux 都可以(没试过 mac,你自己看办吧) 、java环境、ProtTest、PhyMl 及序列比对的软件,线上或本地都可以的。1. 序列准备:在自己熟悉的数据库中(我自己比较熟悉 Ncbi)上做 blast,选取跟要建树蛋白同源的各物种序列,下载到本地,整合到一个 fasta 文件中,注意修改物种名称,字数最好不要太长,序列比对后.ph

4、y 格式文件对文件名长度有限制(这个可能跟软件有关系,只要自己知道是什么物种,不至于混淆就行) ,注意规范性,fasta 文件中最好除了头标,字母及下划线不要有其他不相关的字符,因为如果后面你要用软件分析.phy 文件的时候这些软件对.phy 的格式要求比较变态,有其他多于字符它都会报错的(你如果在dos 下用命令合并文件请注意文件的最后一行的字符,请删除) 。做序列分析,常用的分析软件有 clustalW 系列,mega 也集成了集中蛋白比对工具,线上线下各种软件自由选择,区别不大,保存的格式可以选择多一点,主要是看你后续操作。如 clustalx 比对可以保存的结果格式如图 1 所示。选中

5、你希望的格式保存即可。图 1.clustalx2 输出文件设置注:有的软件运行打开你需要比对的 FASTA 格式文件时候是不能有中文路径的,比如 clustalx 这货就打不开有保存在中文路径下的文件。2. 用 ProtTest 选择建树中所需要的模型Windows 下点击 runXProtTestHPC.bat 运行 prottest 软件(注意这货执行文件不能放到有中文字符路径中,Linux 平台下你知道如何运行的- ) ,打开你你要建树的 phy 格式文件,如果文件没有问题,打开界面如图 2,如果打开文件中有其他非规范性字符就会报错。图 2.ProtTest 打开文件界面点 analys

6、is-compute likelihood scores (图 3)出现图 4 设置界面,替代模型默认全部选择,可以不用管,直接默认及好,rate variation 全选默认不变,categories 默认是 4,这个范围可以设置 4-8,数值应该是越大越好,但会增加计算时间,根据你的情况选择,如果不明白就保持默认 4。Amino-acid frequencies 勾选 Empirical,如果不选这个,计算模型变为 60个,会减少计算时间,推荐勾选,最后一个 Starting topolpgy 选型改为 Maximum Likelihood tree,最后点击 Compute 计算,长时间

7、等待.(看你用的机器配置情况咯,没办法)图 3. ProTest analysis 选项图 4.analysis 设置界面经过长时间等待后计算完成,返回结果,如图 5。第一行 deltaAIC 值为 0 的即使所需要的建树模型。在结果中翻出如下数据,记下标红这两个参数,在后面用 PhyML 建树中会用到这两个模型参数。到这里,模型选择算是完成了。Model. : LG+I+G+FNumber of parameters. : 50 (21 + 29 branch length estimates)gamma shape (6 rate categories). = 0.524proportio

8、n of invariable sites. = 0.13aminoacid frequencies. = observed (see above)-lnL. = 8665.99(seconds)图 5.ProTest 结算结果3. PhyML 建进化树:模型选择好后就是建树了,请把前面做好比对的 filename.phy 文件复制到 PhyML 执行文件同一个文件夹中,点击 phyml.bat 打开 PhyML 软件(Linux 下你知道如何运行的-) ,打开界面见图 6,输入 phy 格式文件名字,eg:filename.phy,注意要带格式后缀。图 6. PhyML 界面输入文件名后出现

9、图 7 的界面,设置各种参数,选 D,改为 AA(氨基酸) type,输入序列格式根据你的文件类型选择,有两种,区别见图 8。图 7. PhyML 参数设置界面图 8. Interleaved sequential 类型区别安“+”号进入下一项模型设置,界面见图 9,按 M 可以选择不同模型,根据前面prottest 做的结果选择你需要的模型,按“V”设置 proportion of invariable sites,按“A”设置 gamma 值。再次提醒,这两个值就是 prottest 计算结果中的我标红的这个。Model. : LG+I+G+FNumber of parameters. :

10、 50 (21 + 29 branch length estimates)gamma shape (6 rate categories). = 0.524proportion of invariable sites. = 0.13aminoacid frequencies. = observed (see above)-lnL. = 8665.99(seconds)注意“C”选项,根据你前面 prottest 中设置的 categories 值来确定,两者最好是一致的。图 9. 模型设置最后设置好后应该是图 10 这个样子。图 10,模型设置完成模型设置好后继续按“+” ,回车进入下一项设置,

11、这里主要设置分析速度相关项,设置好后如图 11。 “S”项选 slow 主要是为了分析的正确性。慢一点会更好,当然也有其他选项,根据自己情况选择。 (原谅我对是否增加随机树这个不是很清楚,我试了一遍好像没什么影响,对这个也不是特别理解) 。图 11. 设置继续 “+”“enter”,进入下一项 bootstrap 检验设置, “B”选项设置验证次数,数值为 100 的倍数,数值越大,建树过程越长,如图 12图 12. Bootstrap 设置设置好这些后检查没有问题就按“Y ”,回车开始计算过程,经过几个或者十几个或者几天的计算,duang 的一声结果就在你的电脑上出现了,意外不意外,惊喜不惊喜树以文本文档形式保存,如图 13。其中的 filename.phy_tree.txt 就是树文件了,可以用 treeview 打开,编辑美化就 OK 了。图 13.建树结果文件用 PhyML 建树过程基本上就是这样,如有什么遗漏错误欢迎指正,有其他问题也欢迎一起探讨,本人微信:464021669,转载请注明原作者。201711 月.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号