【系统发育】摘PAMl学习笔记-蜗牛

上传人:m**** 文档编号:431490335 上传时间:2023-02-12 格式:DOCX 页数:20 大小:66.49KB
返回 下载 相关 举报
【系统发育】摘PAMl学习笔记-蜗牛_第1页
第1页 / 共20页
【系统发育】摘PAMl学习笔记-蜗牛_第2页
第2页 / 共20页
【系统发育】摘PAMl学习笔记-蜗牛_第3页
第3页 / 共20页
【系统发育】摘PAMl学习笔记-蜗牛_第4页
第4页 / 共20页
【系统发育】摘PAMl学习笔记-蜗牛_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《【系统发育】摘PAMl学习笔记-蜗牛》由会员分享,可在线阅读,更多相关《【系统发育】摘PAMl学习笔记-蜗牛(20页珍藏版)》请在金锄头文库上搜索。

1、PAML与以灵长目动物溶菌幅编码基因适应性进化分析为例解读Branch mBranch Model1.什么是 Branch model?Branch model是 PAML 软件 CODEML 程序中通过 likelihood ratio test (LRT)进行不同支系间(lineages)适应性进化检测的一 种模型。该模型通过限制(constraint)系统发育树中不同分支上的 omega(dN/dS)(直的异同,并对不同的限制进行显著性分析(PAML 软件中的 Chi2 程序) ,进而得到较为可靠地分析结果。在该法提出之前,不少学者通过简约法(parsimony method)或 者似然

2、法( likelihood method )先重建祖先序列( ancestral sequence,然后通过对构建的祖先序列的 omega值估算进而预测不 同支系的适应性进化特征。诸如 Prof. Messier等对于灵长目动物溶 菌酶的分析便是如此。Prof.Yang认为,从统计学的角度而言,这种 将预测的数据当做真实观测数据的分析理念存在一定的随机误差(random errors 和系统误差(systematic errors),本身并不是一种严谨 的统计学方法。Prof.Yang所提出的Branch model巧妙地避开了直接利用 ancestral sequence1行支系间适应性进化

3、检测的流程,而是通过平 均统计每一个节点(each node中可能的ancestral sequence根据 其相对发生似然率 (relative likelihoods of occurance)进行加权分 析。此外,Branch model还考虑到了(take into account)密码子转 移/颠换速率偏差(transition/transversion rate bias和非均匀密码子 (nonuniform condon usage 这些与 omega值计算有着显著关系的影 响因素。2.Branch model 中存在哪些假设模型,在CODEML 程序的 controlfile

4、文本中如何选择?Branch model主要是对系统发育树中的不同支系的omega值的异质性进行界定,主要的 model有:one-ratio model,即系统发育树 中所有支系的omega值是相等的;free-ratio model,该模型指的是系 统发育树中所有支系的omega值是不相等的。这两个假设是不同支 系omega取值的两个极限。止匕外,还可以设定前景枝(foreground clade),假定其与其余支系(又称背景枝background clad的omega值不同。前景枝可以根据需要设置多个。在 control file 中, Model=0 表示 one-ratio mode

5、l, Model=1 表示 free-ratio model. Model=2表示系统发育树中不同omega值得个数, 其中所选择前景枝的个数为(n-1)。值得注意的是,当设置Model=2,3, , n时,需要在tree file中标记所要设置的前景枝,可以标记一个,也可以标记多个。树标记格式如下所示:(1, 2), 3) #1,4, 5);该 tree file 表示 Clade 1, 2 and 3为前景枝, 其对应的omega值为i (用#1表示),其余Clade为背景枝,对应 的omega值为。(用#0指定,但在PAMl软件中,#0为默认值,故 不需要在树中注明)。在result文件

6、中,我们可以得到两个不同的 omega 值。3 .通过Branch Model可以得到什么样的结论?3.1 不同支系间的omega值是否显著不同这主要通过比较 one-ratio Model和free-ratio Model对应的 likelihood values的差异进行说明。3.2 前景枝和背景枝的omega是否显著不同这主要通过比较 one-ratio Model 和 two-ratio Model 的 likelihood values进行说明。3.3 前景枝的omega值是否显著大于1 (greater than one这主要通过比较two-ratio Model中存在与不存在11

7、这一约束 的两种情况下所对应的likelihood values进行说明。4 .如何对不同Model的差异性进行比较?该比较主要在PAML软件Chi2程序中进行,首先在 mlc文件中 查找不同Model所对应的likelihood values并计算不同Model likelihood差值绝对值的两倍,即2zl=|ll2|。打开Chi2程序,界面 如图1所示。Uhl mu&rirvalunti3 1卬n if ic-an cc- le-vc 1H.mi廿,3例IM船财陈5融心如烟ik 策nb1孑用415e.fcaw10.11762.tcmm5HmsD .210ll.tlCE3H.PT717fi

8、58qq 晶 5147.B14711 v344t 1J.27674?.77549.1B77IS.KtBsW,4117L .4183435161S.0SU缴“561.23735.94*110.644612.5i916ifi.811922.45777一L打:2.6J31&门4亏电it.eiTe14.0&71lil.4753H1 +g的taw?74411工孤1615泻附MH .阚娥孤,窑站3b7W49.342114.6V3721.66&g27 + B772LU3.249B邛.才率汽J23 .2MV211第3.M57S.5?*U/l24.7ssa123.sms明用1.543罡E.217B32.W5i?

9、3.565B5.BMEI3f12.1390it .am*SE“WZM%留找中21 JMMlIB4$审附 ,5E2B7124门鸣37rW71由TIERquit 一.,图1 Chi2程序主界面Figi The main of Chi2 program通过上图查询df=10时,2zl值所对应的显著性水平,小于等 于0.05时,被认为是存在显著性差异的,如图1中绿色框所标注。注:该法与 linxiao.name () 网站中所述方法有异(将 df值与 2zl值输入程序中,回车查看显著性水平),但网站中是在Linux平 台下操作,而本法是在 windows平台下操作。另外,在 Chi程序的 window

10、s版本中并未发现任何输入的光标。5 .Prof.Yang对灵长目动物溶菌酶不同支系的适应性进化分析5.1 数据和方法(Data and methods5.1.1 数据(Data)本文所涉及的数据主要分为两部分内容,首先是大数据集(large dataset,这主要包括 Prof.Messier分析的24条灵长目动物溶 菌酶编码基因中有显著不同的19条序列(Distinct sequence,其系 统发育树如图2所示。6.langur Sen&Sve7.langur T ob&Tfr8.Douc langur Pne9.probiscis Nla一 5.colobus Cgu&Can叶猴 10.

11、baboon Pcy11.mangabey Cat12.rhesus Mmu颊囊猴13.Allen Ani14.talapoin Mta15.patas Epa16.vervet Cae1.human2.chimp bonobo gorillaI 3.orangutan PpyH 人科动物4.gibbon Ggo H新大陆猴17.squirrel m18.tamarin Soe19.Marmoset Cja0.02图2 Prof.Yang所分析的灵长目溶菌酶系统发育树Fig2.Phylogeny of the primate lysozyme analyzed by Prof. Yang在图2

12、中,Branch h和Branch c是本文分析是所选取的前景枝(foreground clade)。文中这两个前景枝的选取是根据Prof.Messier于1997年的研究结果。小数据集包括7条序列,其来源是从图2中四个分支中各挑选 出几条具有代表性的序列,重新进行分析,具系统发育树如图3所不。? 3/1.0嫉 7/2.1DoucfengijrCd&blnes4,3/1 JAnq括 n cclpbcs3.6/212皿口Rhesus macacjuea.wcLat gibbonHominoidsa忌临由. Human誉二 Squirrel monkey MarmosetHew World mon

13、keys0Q2图3从图2挑选出来的四个分支代表序列的系统发育分析Fig3 Phylogeny of a subset of seven primate lysozyme selected from those of Fig 1. to represent the four major groups of species.Prof.Yang认为,对于这种大数据集和代表性的小数据集的分析比较能够之 时取样方法对于所得结果的一个敏感度。(原文:Differences between theanalyses of the two data sets will give us an indication

14、 of the sensitively of the results to species sampling)5.1.2 方法(Methods )第一,对小数据集control file文件的解读geqfile 二 lysozymeSmall. txt treefile - lysozyreSniall. trees cot file 二 mlcnoisy = 9verbose = 1runmode = Qssqtype 二 CudjnFreq 二 clock 二 niuJel =fix_kappa - kappa - fi z_aniega = oniea 二fix_alpha = 1alpha - . 0alpha - 0ncatG - 4getSE - 0RateAnsestor = 0nethod - 0+ 0, 13 2j 3,9: haw nuch rubbish 0口 the screen* 1: detailed output, 0: concis

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 试题/考题 > 初中试题/考题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号