实习五：系统发育分析-PHYLIPMEGAMrBayes

资源描述

《实习五：系统发育分析-PHYLIPMEGAMrBayes》由会员分享，可在线阅读，更多相关《实习五：系统发育分析-PHYLIPMEGAMrBayes（5页珍藏版）》请在金锄头文库上搜索。

1、实习五：系统发育分析PHYLIP，MEGA, MrBayes 学号姓名专业年级实验时间提交报告时间实验目的：1. 学会使用 PHYLIP，MEGA 和 MrBayes 构建进化树 2. 学会分析建树结果，体会各种方法差异实验内容：系统发育（phylogeny ）也称系统发展，是与个体发育相对而言的，它是指某一个类群的形成和发展过程。系统发育学的目的是研究进化关系，系统发育分析就是要推断或者评估这些进化关系。通过系统发育分析所推断出来的进化关系一般用分枝图表（进化树）来描述，这个进化树就描述了同一谱系的进化关系，包括了分子进化（基因树）、物种进化以及分子进化和物种进化的综合。多序列

2、比对的目标是发现多条序列的共性。本次实验旨在使用 PHYLIP，MEGA 和 MrBayes 构建进化树，并通过分析构树的结果，了解各方法的差异性。作业：1. List the title of the orthologous nucleotide and protein sequences you found from Practice 1. Build phylogenetic trees with PHYLIP, MEGA and MrBayes respectively. Make a simple comparison the trees you have got, and try

3、to explain the difference.核酸序列使用的是来自 Trifolium repens（白车轴草）硬粒小麦（Triticum durum）Camellia sinensis（山茶）Cicer arietinum（鹰嘴豆）及 Glycine max（大豆）dehydrin 的编码脱水素（dehydrin）的 DNA 序列，这些物种将分别以TF，TC，Cam ，Cic 及 Gly 表示；首先对于 PHYLIP 中的关系，通过五种算法的构树结果可以发现其树形的差异不大。尤其是在 FM，NJ，UPGMA 三种算法中，五个物种的亲缘关系显示出较强的一致性，这大概是由于这三种方法都是

4、基于距离法（Distance Method）的基础上；其次若把 FM 法树形的从上到下的五个位置分别标号-（图），可以发现三种树形中只有UPGMA 中的和位置有差别。实际上这种差别来自于 UPGMA 算法的特点：具有最近缘关系的两物种到父节点的距离相等，且等于这两物种距离的一半，其次在这个基础上再添加其他物种，而据枝长的等长不难看出，两物种一旦被确定为“近邻” ，它们的位置颠倒与否都是等价的(即在例子中表现为 Cam 和 Gly 分别在位和位，与其分别在位和位是等价的)。因此，从本质上讲由 PHYLIP 构建的 FM，NJ ，UPGMA 三树无差异。同理，在 MEGA 软件据 UPGMA 与

5、 NJ 构建的树形中（如图），树形也无太大差异，Cic 最远，Tc 与 Tf 近邻，Gly 与Cam 近邻，但比较的差别在于 MEGA 与 PHYLIP 软件 UPGMA 与 NJ 法得到的树形，这是由于其基于的距离数值的不同，也因为 MEGA 与 PHYLIP 对这五条序列采取的比对方法不同，PHYLIP 使用的是 Clustal 法而 MEGA 用的比对结果来自于 MUSCLE。其次，再看 MP、ML（以 Phylip 为例）及 Bayes 法，此次 Baye 法得到的结果与 MP 法较为接近，表现为 Gly 与Cam 近邻，Tf 与 Cic 近邻，Tc 最远，不过 MP 法中涉及到了有

6、效信息位点的选取的问题，我认为若个别序列长度很短的话很可能会影响整体五条序列比对的结果，这大概是 MP 法不大稳定的因素。最后，Bayes 法与 ML 法树形有一定差异的原因大概是由于贝叶斯的方法很依赖于一个合适的进化模型，并建立在“独立性假设”的基础上：即，贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值，所以 GTR 模型是否适用还有待了解，至于 ML 法，在分析序列是也同样使用了一个概率模型来评估各种变异。所以可以预见到，若 Bayes 法与 ML 法使用的概率模型不同，其比对结果自然就会有很大的差异。对于对应的五条蛋白质序列也有相似的特点，但值得注意的是，蛋白质序列没有考虑内含

7、子的存在。倘若以蛋白质 dehydrin 本身为分析对象构树自然应使用蛋白质序列，但若构建物种树的话，使用核酸序列应更为准确。（下图为 Phylip 中蛋白序列的 Bayes 法构树结果）2. Run BLASTP with a protein sequences you are interested in, choose RefSeq as the database, select more than 20 hits of different identity (at least pick one for max identity around 90%, 80% . 40%, pick a

8、 dozen for max identity 30-40%), download the sequences and analyze the evolutionary relationship among the sequences with MEGA (with more than 2 methods) and answers the following questions: Is your tree consistent with the standard taxonomies? Do the trees generated from different methods have the

9、 same topology？If not, describe the differences and indicate why you think the two trees differ. Do the trees show evidence of paralogous evolution？ Which nodes are orthlogous and which are paralogous bifurcations? Do the trees show evidence of horizontal gene transfer?对同源蛋白质家族, 首先利用 Clustal X 进行多重比

10、对 , 将大片段的缺失插入和一些模糊不清的联配位置从联配结果中去除, 然后利用 NeighborJoining 方法构建基因树, 再用引自展法法(BootStraping) 检验基因树的稳健性(1000 次重复) 。若在复杂的系统发育情况下 ,基因树与物种树会出现不一致。按照目前的分子系统发育学, 这种不一致是由分子进化事件, 基因重复(gene duplication) 和基因丢失(gene loss) 引起的。在极大简约法(maximal parsimony) 原理下(即这两种进化事件出现次数达到极小) , 可以追踪出多基因家族历史中的进化事件, 且以此构建与物种进化历史一致的完整基因树(

11、full gene tree) , 即协调树(reconciled tree)。本次使用 MEGA 分别通过最大简约法和极大似然法构建据固氮酶氨基酸序列构树，并于 NCBI 上的标准物种树比较。首先，可以发现构建的进化树与 NCBI 上的物种树有很大的差异。如 Halothece sp. PCC 7418（在标准物种树与 MP中标注*号），在物种树中与 Cyanothece sp. PCC 7822 近邻，然而在 MP 法树形结构中分距很远。此外，我们可以看出，虽然在物种树里面的各节点分别代表 31 个不同的物种，但属名相同的物种往往近邻或成簇，而 MP 法则不然（标准物种树图与 MP

12、图中的 -号）我们再在 MP 法与 ML 法的树形中对比，得到两树的共同特点是找到的近邻序列相似，若不考虑枝长的因素下，树形的拓扑结构大致相同。然而 MP 与 ML 法中最大的差异表现在一些非近邻物种间的亲缘关系的远近上，（如上图中，Ethanoligenens harbinense YUAN-3 与 Clostridium kluyveri DSM 555，两图中分别以+号表示），这显然是考虑树形结构时采用的标准不同导致的，MP 法是树中的进化事件出现次数最小，而 ML 法使用了概率模型来评估变异，分析最大可能。据上所述，物种树与蛋白序列树显现出了较明显的不一致性，推测这是由分子进化事件

13、（即基因重复或丢失）产生的，下面以 MP 法树形为例分析在 31 条序列中由这种树形的不一致性表现出的直系，并系和异同源。（MP 树）在上图中，我们可以从分类单元的描述中发现编码固氮酶的基因共有 nif、vnf 及 anf 三个基因簇。在基因簇内的不同基因往往是由基因重复事件产生的，如 NIFD、K、E、N 的依次进化关系，但同一个基因簇的基因在不同物种中可能会编码不同类型的蛋白，（如固氮酶的 A、B、C、D 四种类型）而且若虽同为一个基因簇，有可能同一属的某一物种编码的蛋白与本属同簇基因编码的蛋白不近邻，但与其他属(甚至纲) 的蛋白近邻，就要考虑基因的水平转移（如与蓝藻或与古细菌近邻）。综合考虑，在树就得到了可能的物种分化事件（sp 标出）、基因重复事件（dp 标出）和水平转移事件（ht 标出），总结图中的划分依据：纲与基因簇同时改变或只有基因簇改变记为 dp,纲改变而基因簇不变视为 ht,纲与基因簇均为变记为 sp（种属改变）。所以可以看到， MP 构树中包含了基因分子进化事件的三个复杂的事件，并能推测出可能发生的固氮酶基因的进化历程。

展开阅读全文