一步一步教你如何做系统进化树详细资料汇总

上传人:简****9 文档编号:118690399 上传时间:2019-12-22 格式:PDF 页数:9 大小:237.22KB
返回 下载 相关 举报
一步一步教你如何做系统进化树详细资料汇总_第1页
第1页 / 共9页
一步一步教你如何做系统进化树详细资料汇总_第2页
第2页 / 共9页
一步一步教你如何做系统进化树详细资料汇总_第3页
第3页 / 共9页
一步一步教你如何做系统进化树详细资料汇总_第4页
第4页 / 共9页
一步一步教你如何做系统进化树详细资料汇总_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《一步一步教你如何做系统进化树详细资料汇总》由会员分享,可在线阅读,更多相关《一步一步教你如何做系统进化树详细资料汇总(9页珍藏版)》请在金锄头文库上搜索。

1、一步一步教你如何做系统进化树一步一步教你如何做系统进化树 在此介绍几个进化树分析及其相关软件的使用和应用范围。这几个软件分别是 PHYLIP、 PUZZLE、PAUP、TREEVIEW、CLUSTALX 和 PHYLO- WIN(LINUX) 。 在介绍软件之前,我先简要地叙述一下有关进化树分析的一些方法学问题。 进化树也称种系树,英文名叫“Phyligenetic tree”。对于一个完整的进化树分析需要以下几个 步骤: 要对所分析的多序列目标进行排列(To align sequences) 。做 ALIGNMENT 的软件 很多, 最经常使用的有 CLUSTALX 和 CLUSTALW,

2、前者是在 WINDOW 下的而后者是在 DOS 下的。 要构建一个进化树(To reconstrut phyligenetic tree) 。构建进化树的算法主要分为两 类:独立元素法(discrete character methods)和距离依靠法(distance methods) 。所谓独立元 素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上 可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是 说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的 拓扑形状也就由这些碱基的状态决定了) 。 而距离

3、依靠法是指进化树的拓扑形状由两两序列的 进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法 (Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods) ;距离依靠 法包括除权配对法(UPGMAM)和邻位相连法(Neighbor- joining) 。 对进化树进行评估。 主要采用 Bootstraping 法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是 对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树 就会接近真实的“进化树” 。模拟的进化树需要一种数学方法来

4、对其进行评估。不同的算法有 不同的适用目标。一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序 列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转 换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基) ;用最大可能性法分析序列 则不需以上的诸多条件,但是此种方法计算极其耗时。如果分析的序列较多,有可能要花上 几天的时间才能计算完毕。UPGMAM(Unweighted pair group method with arithmetic mean) 假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟。这种算 法

5、得到的进化树相对来说不是很准确,现在已经很少使用。邻位相连法是一个经常被使用的 算法,它构建的进化树相对准确,而且计算快捷。其缺点是序列上的所有位点都被同等对待, 而且,所分析的序列的进化距离不能太大。另外,需要特别指出的是对于一些特定多序列对 象来说可能没有任何一个现存算法非常适合它。 最好是我们来发展一个更好的算法来解决它。 但无疑这是非常难的。我想如果有人能建立这样一个算法的话,那他(她)完全可以在 生物秀-专心做生物 Proc.Natl.Acad.Sci.USA.上发一篇高质量的文章。 下面介绍几个软件的使用。首先是 PHYLIP。其是多个软件的压缩包,下载后双击则自动 解压。 当你解

6、压后就挥发现 PHYLIP 的功能极其强大, 主要包括五个方面的功能软件: i, DNA 和蛋白质序列数据的分析软件。 ii, 序列数据转变成距离数据后, 对距离数据分析的软件。 iii, 对基因频率和连续的元素分析的软件。iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸 只有 0 和 1 的状态)时,对序列进行分析的软件。v,按照 DOLLO 简约性算法对序列进行分 析的软件。vi,绘制和修改进化树的软件。在此,我主要对前两种功能软件进行说明。 我们现在有几个序列如下: Mo3 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGCACGGTACCAT Mo5

7、ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT Mo6 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT Mo7 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT Mo8 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT Mo9 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT Mo12 ATGTATTTCGTACATTACTG CCA

8、GCCACCATGAATATTGTACGGTACCAT Mo13 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT 要对这 8 个序列进行进化树分析,按照上面的步骤,首先用 CLUSTALX 排列序列,输出格式 为 *.PHY。用记事本打开如下图: 图中的 8 和 50 分别表示 8 个序列和每个序列有 50 个碱基。然后,打开软件 SEQBOOT,如 下图: 生物秀-专心做生物 按路径输入 刚才生成的 *.PHY 文件,并在 Random number seed (must be odd) ?的下面输入一个 4N+1 的 数字后,屏幕显示如

9、下: 图中的 D、J、R、I、O、1、2 代表可选择的选项,键入这些字母,程序的条件就会发生改变。 D 选项无须改变。J 选项有三种条件可以选择,分别是 Bootstrap、Jackknife 和 Permute。文章 上面提到用 Bootstraping法对进化树进行评估, 所谓Bootstraping法就是从整个序列的碱基 (氨 基酸)中任意选取一半,剩下的一半序列随机补齐组成一个新的序列。这样,一个序列就可 以变成了许多序列。一个多序列组也就可以变成许多个多序列组。根据某种算法(最大简约 生物秀-专心做生物 性法、最大可能性法、除权配对法或邻位相连法)每个多序列组都可以生成一个进化树。将

10、 生成的许多进化树进行比较,按照多数规则(majority- rule)我们就会得到一个最“逼真”的 进化树。Jackknife 则是另外一种随机选取序列的方法。它与 Bootstrap 法的区别是不将剩下的 一半序列补齐,只生成一个缩短了一半的新序列。Permute 是另外一种取样方法,其目的与 Bootstrap 和 Jackknife 法不同,这里不再介绍。R 选项让使用者输入 republicate 的数目。所谓 republicate 就是用 Bootstrap 法生成的一个多序列组。根据多序列中所含的序列的数目的不同 可以选取不同的 republicate。当我们设置好条件后,键入

11、 Y 按回车。得到一个文件 outfile Outfile 用记事本打开如下: 这个文件包括了 100 个 republicate。 打开 DNAPARS(最大简约性法)或 DNAML(最大可能性法)软件。将刚才生成的 outfile 文件更名后输入。如下图: 生物秀-专心做生物 选项 O 是让使用者设定一个序列作为 outgroup。一般选择一个亲缘关系与所分析序列组很接 近的序列作为 outgroup(本例子不选 outgroup) ,outgroup 选择的好坏将直接影响到最后的进 化树的好坏。选项 M 是输入刚才设置的 republicate 的数目。设置好条件后,键入 Y 按回车。

12、生成两个文件 outfile 和 treefile。 Outfile 打开如下图: 该文件包括了 227 个进化树。Treefile 可以用 TREEVIEW 软件打开同样包含了这 227 个进化 生物秀-专心做生物 树。 打开 CONSENSE 软件,将刚才生成的 treefile 文件更名后输入。如下图: 键入 Y 按回车。生成两个文件 outfile 和 treefile。Treefile 用 TREEVIEW 打开,如下图: Outfile 打开如下图: 生物秀-专心做生物 我们看出两个树是同样的。但在 outfile 的树上的数字表示该枝条的 Bootstrap 支持率(除以 100

13、.6) 。到现在,8 个序列的进化树分析(最大简约法)已经完成。 如果要用邻位相连法对这 8 个序列进行分析的话,也首先执行 SEQBOOT 软件将这 8 个序 列变成 100 个 republicate。然后,打开 DNADIST 软件,把 SEQBOOT 生成的文件输入,如 下图: 选项 D 有四种距离模式可以选择,分别是 Kimura 2- parameter、Jin/Nei、Maximum- likelihood 和 Jukes- Cantor。选项 T 一般键入一个 15- 30 之间的数字。选项 M 键入 100。运行后生成文件 生物秀-专心做生物 如下图: 这个文件包含了与输入文

14、件相同的 100 个 republicate, 只不过每个 republicate 是以两两序列的 进化距离来表示。文件中的每个 republicate 都省略了第一排的 Mo3 Mo5 Mo6 Mo7 Mo8 Mo9 Mo12 Mo13。以这个输出文件为输入文件,执行 NEIGHBOR 软件。如下图: 选项 M 键入 100。生成两个文件 outfile 和 treefile 用记事本和 TREEVIEW 打开后,发现这两 个文件都含有 100 个进化树。再将 treefile 文件更名后输入 CONSENSE 软件,又得到两个文 件 outfile 和 treefile,这就是最后的结果。

15、以上是对 DNA 序列的分析,如果要对蛋白质序列 进行分析, PROTDIST、 PROTPARS 等软件。 其他软件的用法可以参照 PHYLIP 的 documents。 下面介绍 PUZZLE 软件。它是用最大可能性的方法来构建进化树的一个软件,并且对树 进行 bootstrap 评估。该软件搜寻进化树时用的算法是 quartet puzzling,这个算法相对较快, 生物秀-专心做生物 但如要分析的序列较多时,也相当耗时。另有 LINUX 版,运行起来相对较快。PUZZLE 的输 入格式为 PHYLIP INTERLEAVED。CLUSTAL 可以生成此格式文件。PUZZLE 的界面与 PHYLIP 类似,也是 MS- DOS 下的软件。 PHYLO- WIN 是 LINUX 下的一个软件。界面友好,极易操作。该界面如下图: Puzzle: http/:www.tree- puzzle.de Phylo- win: http/:www.evolution.bmc.uu.se Phylip、Treeview and Clustalx: http/: 生物秀-专心做生物

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号