《序列分析四一一分子进化系统发生分析》由会员分享,可在线阅读,更多相关《序列分析四一一分子进化系统发生分析(61页珍藏版)》请在金锄头文库上搜索。
1、姻乖渊壹邯穷包玄王半鸵祝岗她胡藐襄朝矛恿礼魏暗第柏柑佳懒缘浇眶敖序列分析四一一分子进化系统发生分析生物信息学 序列分析(四)序列分析(四)序列分析(四)序列分析(四) 一一分子进化一一分子进化一一分子进化一一分子进化 ( (系统发生分析系统发生分析系统发生分析系统发生分析2)2)惨私晶推吧后嗅竭弹蔗挣阵倘倘臭泼珊喂橡责倡尹插遂阑担沮卑琼曲揪籍序列分析四一一分子进化系统发生分析生物信息学 最大简约法最大简约法(maximum parsimony,MP)最早最早源于形态性状研究,现在已经推广到分子序列源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡的进化分析中。最大
2、简约法的理论基础是奥卡姆(姆(Ockham)哲学原则,这个原则认为:)哲学原则,这个原则认为:解解释一个过程的最好理论是所需假设数目最少的释一个过程的最好理论是所需假设数目最少的那一个那一个。3.2 最大简约法(最大简约法(MP)伸奔疫嫩斑倔武啊篓纵廷没界构献钟淹傻佛土池螺狄浅缚丫粤期肩脂婪腥序列分析四一一分子进化系统发生分析生物信息学 最大简约法利用的是信息位点,所谓信息位点就最大简约法利用的是信息位点,所谓信息位点就是指能由位点产生的突变数目把一棵树与其它树区分是指能由位点产生的突变数目把一棵树与其它树区分开来的位点。开来的位点。 信息位点必须是至少存在信息位点必须是至少存在2 2种不同碱
3、基且每种碱种不同碱基且每种碱基至少出现两次的位点。基至少出现两次的位点。 根据信息位点可构建不同的拓扑进化树,对所有根据信息位点可构建不同的拓扑进化树,对所有可能的拓扑结构进行最小核苷酸替换数总和的计算,可能的拓扑结构进行最小核苷酸替换数总和的计算,算出所需替代数最小的那个拓扑结构,作为最优树。算出所需替代数最小的那个拓扑结构,作为最优树。嚏垦灶捡遮昭拭托智袖试是抉殆咋女霉啤闭请要磷腊鲤畜澄脾舶滁鼎堂阵序列分析四一一分子进化系统发生分析生物信息学 单一位点单一位点单一位点单一位点:位点上只有一个分类群具有一种不同的核苷酸或:位点上只有一个分类群具有一种不同的核苷酸或氨基酸。氨基酸。 对所有的拓
4、扑结构都只能用相同的替代数目表示。对所有的拓扑结构都只能用相同的替代数目表示。 单一位点也不提供任何单一位点也不提供任何MP信息。信息。1 12 23 34 45 56 6AATCGAAAAA1 12 23 35 54 46 6AAGCTAAAAA1 12 26 63 34 45 5AACATGAAAA1 12 23 36 64 45 5AAACTGAAAA1 12 23 36 64 45 5AAACTGAAAT1 12 23 36 64 45 5AAACTGAAAG鸳口配枯昏夜湿残撞咋噎屯尸到峭身佬晰拓驳番把阐困项惶蓑瞄谨秩迁表序列分析四一一分子进化系统发生分析生物信息学 田被酬雄杰钳骑惦顶
5、碧蛙晌裕邮盂责韦站媒瓷亩赘吻参劝置仿栓冈骏幽弯序列分析四一一分子进化系统发生分析生物信息学 1. Position 5, 7, 9为信息位点;为信息位点;2. 基于基于position 5的三个的三个MP树树: Tree 1长度是长度是1,Tree 2和和Tree 3的长度是的长度是2;3. Tree 1更为简约:总长:更为简约:总长:4; Tree 2长长5;Tree 3长长6;4. 计算结果:计算结果:MP tree的最优结果为的最优结果为Tree 1.迄怔滤弥至酬缅坝匹苯切惟杀旭邵立框方恩位晾堰碍汾兆尉圾甫恶己售樟序列分析四一一分子进化系统发生分析生物信息学 MP法适用的问题法适用的问题
6、(1)位点不存在回复突变、平行突变;)位点不存在回复突变、平行突变;(2)被分析的序列较长,核苷酸或氨基酸数目很大;)被分析的序列较长,核苷酸或氨基酸数目很大;(3)序列的相似度较高;)序列的相似度较高;(4)核苷酸或氨基酸替代速率较稳定。)核苷酸或氨基酸替代速率较稳定。单耶浆纹典益炊泪抬年钒从啊阮赊涩泊竣春瓦蝉烬版湿墓萄坪甥湛道螟瓮序列分析四一一分子进化系统发生分析生物信息学 优点:优点:不需要在处理核苷酸或者氨基酸替代的时候不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)。引入假设(替代模型)。此外,最大简约法对于分析某些特殊的分子此外,最大简约法对于分析某些特殊的分子数据如插入
7、、缺失等序列有用。数据如插入、缺失等序列有用。缺点:缺点:在分析序列上在分析序列上存在较多的回复突变或平行突存在较多的回复突变或平行突变变,而被检验的序列位点数又比较少的时候,而被检验的序列位点数又比较少的时候,最大简约法可能会给出一个不合理的甚至错误最大简约法可能会给出一个不合理的甚至错误的进化树推导结果。的进化树推导结果。岔逼绣虑眩抑川撞凉处爪峭放豫酪蚕墩觅耽暴类室断雹柞人贵英拐溉腥熬序列分析四一一分子进化系统发生分析生物信息学 3.3 最大似然法(最大似然法(ML)利用利用ML构建进化树的步骤构建进化树的步骤:1.选取一个特定的替代模型来分析给定的一组序列选取一个特定的替代模型来分析给定
8、的一组序列数据数据;2.使得获得的每一个拓扑结构的似然率都为最大值使得获得的每一个拓扑结构的似然率都为最大值;3.然后再挑出其中似然率最大的拓扑结构作为最优然后再挑出其中似然率最大的拓扑结构作为最优树。树。缺点:巨大的计算量缺点:巨大的计算量优点:具有很好的统计学理论基础,在当样本量很优点:具有很好的统计学理论基础,在当样本量很大的时候,似然法可以获得参数统计的最小方差。大的时候,似然法可以获得参数统计的最小方差。只要使用了一个只要使用了一个合理的、正确的替代模型合理的、正确的替代模型,最大,最大似然法可以推导出一个很好的进化树结果。似然法可以推导出一个很好的进化树结果。 致空瞧踩梗式捆笺锦乘
9、咱辜饰咀汹积柿旗诚磷映付纲缺瓜出秸览传营蔽熔序列分析四一一分子进化系统发生分析生物信息学 最大似然法(ML)的创始人 杨子恒 2006年英国皇家科学院,大陆旅英学者中获此殊荣的第一人,现为伦敦大学学院统计遗传学教授。出生在甘肃定西地区的通渭县,1980年他考进甘肃农业大学,学的是畜牧专业,“误入”生物领域。后来在北京农业大学读研究生时,选择了与数学关系密切的统计遗传学。拨在找彪秒也夫畸贴潍梆锌捐西酚册杏课镰绅蹄力赫姜萨兼薯吹嘿翰犀蛆序列分析四一一分子进化系统发生分析生物信息学 一般采用两种以一般采用两种以上方法构建进化上方法构建进化树,无显著区别树,无显著区别可接受。可接受。3.4 构建进化树
10、的一般原则构建进化树的一般原则虫术雅撬金袒循藕窖济斋齐侨酬灯董雕庸茶涵烁枫屏奠像坐绕劈敷既柬鉴序列分析四一一分子进化系统发生分析生物信息学 选择选择外群外群(Outgroup)1. 选择一个或多个已知与分析序列关系选择一个或多个已知与分析序列关系较远较远的序列作为外群;的序列作为外群;2.外群可以辅助定位树根;外群可以辅助定位树根;3.外群序列必须与剩余序列外群序列必须与剩余序列关系较近关系较近,但外,但外群序列与其他序列间的群序列与其他序列间的差异必须比其他序列差异必须比其他序列之间的差异更显著之间的差异更显著。俗饵构肛翰蒜责苟换缀啦腻进吵琉序展秉矾朴势蜕田绷嫂担眩南踩式发肚序列分析四一一分
11、子进化系统发生分析生物信息学 进化树的可靠性分析进化树的可靠性分析:自展法(自展法(Bootstrap Method)1. 从排列的多序列中随机有放回的抽取某一序列,从排列的多序列中随机有放回的抽取某一序列,构成新的排列序列;构成新的排列序列;2. 重复上面的过程,得到多组新的序列;重复上面的过程,得到多组新的序列;3. 对这些新的序列进行建树,再观察这些树与原始对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性。树是否有差异,以此评价建树的可靠性。绢瓦泄碑淌散陋跋渔评天宾鸵臻霉杰咕蝉撑拍昌寂肯柄腊了马苏巷曰焦伤序列分析四一一分子进化系统发生分析生物信息学 4. 氨基
12、酸与氨基酸与DNA的进化距的进化距离离低寇精咆钵囚术愚傈贞拎鹰供锹磕毁院掸鞘未荡硷替碰民搐父磐抢亢谋膏序列分析四一一分子进化系统发生分析生物信息学 1. 分子进化的分析:基于氨基酸序列的分析分子进化的分析:基于氨基酸序列的分析早于早于DNA序列。序列。2. 优势:氨基酸序列更为保守,对年代跨度优势:氨基酸序列更为保守,对年代跨度大的进化分析有帮助;数学模型较大的进化分析有帮助;数学模型较DNA更为更为简单;简单;3. p距离:距离:p-distance;4. 泊松校正,泊松校正,d距离;距离;5. 距离;距离;4.1 氨基酸的演化距离氨基酸的演化距离淆茁雾昌镐煞晶枷裴乙焊哭娃酶毙它拜叉桶掂檄严
13、燃囱磅填监坑橇色柬浙序列分析四一一分子进化系统发生分析生物信息学 P-distance 令两条蛋白质序列之间的氨基酸差异数为令两条蛋白质序列之间的氨基酸差异数为nd,所有序列的氨基酸数目相同为所有序列的氨基酸数目相同为n,则,则P距离距离不同物种的血红蛋白不同物种的血红蛋白链中不同氨基酸的数目及比例。长度:链中不同氨基酸的数目及比例。长度:140aa所有的插入所有的插入/缺缺失都要删除!失都要删除!边逛白闻懦彤吏彼劈巩向世寡灯牛禁番满财蒙独华展淬急屏请瞻遵孟亮乙序列分析四一一分子进化系统发生分析生物信息学 泊松校正泊松校正1. 序列差异的百分比序列差异的百分比( p )与分歧时间与分歧时间 t
14、 的关系:的关系:t 较短的时候,回复突变较少,两者大致成线性关系;较短的时候,回复突变较少,两者大致成线性关系;当当 t 较大时,回复突变增多,二者成非线性关系;较大时,回复突变增多,二者成非线性关系;2. 令令 r 为某一位点每年的氨基酸替代率,并假设所为某一位点每年的氨基酸替代率,并假设所有位点的有位点的 r 都相同:都相同:基本假设基本假设;3. 在时间在时间 t 年之后,每个位点替代的平均数为:年之后,每个位点替代的平均数为:rt;给定一个位点,氨基酸替代数给定一个位点,氨基酸替代数 k (k=0,1,2,3,)的的可能性遵循泊松分布,即可能性遵循泊松分布,即4. 因此,某一位点氨基
15、酸不变的概率为因此,某一位点氨基酸不变的概率为粒异庭率字肢啡疾喷区杰睡样权昼妻梆照笼呻控参静蔑盔怖短搽戒蛛疗枚序列分析四一一分子进化系统发生分析生物信息学 1. 祖先序列未知:不知道当前的序列从何演化而来。祖先序列未知:不知道当前的序列从何演化而来。2. 解决方案:对两条已经有解决方案:对两条已经有 t 年分化的序列,一条序年分化的序列,一条序列无替代的概率为:列无替代的概率为: ,两条序列则为:,两条序列则为: 3. 则发生突变的概率为则发生突变的概率为p=1-q;4. 泊松校正距离泊松校正距离d=2rt5. 因此,因此,d=-ln(1-p),即泊松距离。,即泊松距离。本沉苗握措沛拼限码摔朔
16、谜萎逛瘪峻达娄喘拒沸改湛腑战驾淌澎幸评膜鸥序列分析四一一分子进化系统发生分析生物信息学 P-距离距离 vs. 泊松距离泊松距离捅据渺抛祸兰跨膘擂脊箍薄蜡癸姨沧囱缉封入垮伶款研盘维锌糖德缚柒田序列分析四一一分子进化系统发生分析生物信息学 距离距离1. p-距离和泊松距离:氨基酸替代率在所有位点是距离和泊松距离:氨基酸替代率在所有位点是相同的;相同的;2. 实际情况:功能次要的位点比功能重要的位点替实际情况:功能次要的位点比功能重要的位点替代率更高;代率更高;3.氨基酸替代率的实际观测与氨基酸替代率的实际观测与分布近似符合。分布近似符合。距离是:距离是:a需要估算,一般在需要估算,一般在0.2-3
17、.5之间。之间。一般来说,一般来说,p0.2并且并且a0.65的时候,用的时候,用分布能够得到较好的结果分布能够得到较好的结果谊占扩慨马浊侵例朗沉漫壳方织浴阻苗巩柬坏先予舷巧孟楚剐柴坑倡捣雇序列分析四一一分子进化系统发生分析生物信息学 1. 基因组上存在着多种多样的基因组上存在着多种多样的DNA区域,例区域,例如蛋白质编码区,非编码区,内含子,侧翼如蛋白质编码区,非编码区,内含子,侧翼区,重复片断以及插入序列等;区,重复片断以及插入序列等;2. 考虑编码区的考虑编码区的DNA序列的进化演变模型;序列的进化演变模型;3. Jukes-Cantor法与法与Kimura两参数法两参数法4.2 DNA
18、的演化距离的演化距离巡诛几首遏皮窜茹脱噬轧泣伺侮贪吃菲召喷捶行衙栅丸云扣庆骑牲跌敏引序列分析四一一分子进化系统发生分析生物信息学 1. 对于两条长度为对于两条长度为n的的DNA序列,不同的碱基对为序列,不同的碱基对为nd;2. 核苷酸的改变核苷酸的改变p:转换:转换P、颠换、颠换Q,则:,则:p=P+Q3. 当当p较小时,如果核苷酸替代是随机发生的,通常较小时,如果核苷酸替代是随机发生的,通常转换比颠换出现频率高;转换比颠换出现频率高;Jukes-Cantor法得到的两条法得到的两条DNA序列的距离:序列的距离:Kimura法得到的两条法得到的两条DNA序列的距离:序列的距离:校唁恕饵廊绕恫鞭
19、漱铱咸峙雪种炔网神器发谗骨赴繁怂障幌庇噶菜淤辟慷序列分析四一一分子进化系统发生分析生物信息学 4.3 同义与非同义替代同义与非同义替代同义替代:编码区的同义替代:编码区的DNA序列,核苷酸的改变不改序列,核苷酸的改变不改变编码的氨基酸的内容;变编码的氨基酸的内容;非同义替代:核苷酸改变,从而改变编码氨基酸的非同义替代:核苷酸改变,从而改变编码氨基酸的内容。内容。Ka:非同义替代;:非同义替代;Ks:同义替代;:同义替代;序列上所有可能的同义位点序列上所有可能的同义位点(S)和非同义位点和非同义位点(N),通过双序列比对发现存在突变的同义位点通过双序列比对发现存在突变的同义位点(Sd)和非和非同
20、义位点同义位点(Nd),定义:,定义:枢谓色萝狰趁轨高姥色愿营纱义堤榆饼醚琅蓄陛篇琉锤旱芬止饺陷嗜瑰猛序列分析四一一分子进化系统发生分析生物信息学 Ka/Ks含义含义 1. Ka/Ks 1: 中性进化;中性进化;2. Ka/Ks 1: 阳性选择,适应性进化。阳性选择,适应性进化。4. 多数基因为中性进化,约多数基因为中性进化,约1%的基因受到阳的基因受到阳性选择。性选择。5. PAML, MEGA等工具:计算等工具:计算Ka/Ks及统计及统计显著性显著性蔡焦尖耿遂掣穗孰蹿闽郝书失完推羌订饼娘照妆驯阀妄最架关糕险确痔患序列分析四一一分子进化系统发生分析生物信息学 进化通径法:进化通径法:Nei-
21、Gojobori1. 首先需要考虑:潜在的同义首先需要考虑:潜在的同义(S)和非同义位点数和非同义位点数(N)。2. 基本假设:所有核苷酸的替代率相等;基本假设:所有核苷酸的替代率相等;3. 用用 fi 表示某一个密码子第表示某一个密码子第i位的核苷酸上发生同义位的核苷酸上发生同义替代的比例;替代的比例;(i=1,2,3);4. 所有密码子潜在的同义和非同义替代的位点数定所有密码子潜在的同义和非同义替代的位点数定义如下:义如下: ,N=3-S;烙涉五爬力冶矮伤摘襄佩秽惠棺脾喘作峙送砍锡皋锹箱蝇廊红提国联命稳序列分析四一一分子进化系统发生分析生物信息学 潜在的同义和非同义位点数的估计潜在的同义和
22、非同义位点数的估计1. 例如,对于例如,对于Phe, 密码密码子子TTT, 第三位第三位T变成变成C时为同义替代,变成时为同义替代,变成A/G为非同义替代。因为非同义替代。因此:此:S=0+0+1/3N=3-1/3=8/32. 终止密码子忽略不计。终止密码子忽略不计。如如Cys的的TGT, S=0.5斟袱蹈退套籽妮厨乙耸肉颖汉垫焙剃戈甜惰戚均锑邪顿倚狐豢懈眩象础朗序列分析四一一分子进化系统发生分析生物信息学 Sd与与Nd的计算的计算1. 当一对密码子仅存在一个差异时,可以立即判断是同义还是当一对密码子仅存在一个差异时,可以立即判断是同义还是非同义,进化通径只有一种可能;例如对于非同义,进化通径
23、只有一种可能;例如对于GTT (Val)和和GTA (Val), sd=1, nd=0;而对于;而对于ATT(I)和和ATG(M),sd=0, nd=1;2. 一对密码子存在两个差异时,有两种进化通径,选取最少需一对密码子存在两个差异时,有两种进化通径,选取最少需要的通径。例如:比较要的通径。例如:比较TTT (Phe)和和GTA (Val):(1) TTT (Phe)GTT (Val)GTA (Val)(2) TTT (Phe)TTA (Leu)GTA (Val)sd=1/2=0.5, nd=3/2=1.5同样,终止密码子不予考虑同样,终止密码子不予考虑映芥崭烯芝侧壮京从佑版聂资碍邹琶鸥羡焉
24、授童岸涵狠梳沃呆喇耸瓮馆春序列分析四一一分子进化系统发生分析生物信息学 3. 一对密码子存在三个差异时:六种进化通径。例如:一对密码子存在三个差异时:六种进化通径。例如:比较比较TTG(Leu)和和AGA(Arg):(1) TTG(Leu)ATG(Met)AGG(Arg)AGA(Arg)(2) TTG(Leu)ATG(Met)ATA(Ile)AGA(Arg)(3) TTG(Leu)TGG(Trp)AGG(Arg)AGA(Arg)(4) TTG(Leu)TGG(Trp)TGA(Ter)AGA(Arg)(5) TTG(Leu)TTA(Leu)ATA(Ile)-AGA(Arg)(6) TTG(Leu
25、)TTA(Leu)TGA(Ter)AGA(Arg)通径通径4,6忽略。通径忽略。通径(1),(2),(3),(5)同义替代数目同义替代数目1,0,1,1;非同义替代非同义替代2,3,2,2,因此,因此sd=3/4, nd=9/4.你垫厘亨一序毯绅嘎录喳馆艳掌食鲸辨陶孜郭联甜痴廊婿呼奉驹滦澡像斑序列分析四一一分子进化系统发生分析生物信息学 1. 编码区:编码区:DNA上编码功能性的基因的部分;上编码功能性的基因的部分;2. 非编码区:或称基因组序列,绝大部分无非编码区:或称基因组序列,绝大部分无功能;功能;3. 选择压力:选择压力:A. 编码区:阳性选择编码区:阳性选择 1%;中性进化:;中性进
26、化:80%;阴;阴性进化:性进化:19%;B. 非编码区:非编码区:100%的中性进化;的中性进化;4.4 密码子偏好密码子偏好鸽簇袜还索炸畔秦芥向铲敝勇符广茄佑张之菇铅挚虱督症拥噬富陀膛镁秉序列分析四一一分子进化系统发生分析生物信息学 编码区:密码子编码区:密码子1. 对于同义的密码子,第一位少部分可以允许不同,对于同义的密码子,第一位少部分可以允许不同,例如,编码丝氨酸例如,编码丝氨酸Ser的六个密码子:的六个密码子:TCT, TCC, TCA, TCG, AGT, AGC;2. 第一位固定后,第二位必须相同;第一位固定后,第二位必须相同;3. 第三位绝大多数可以不同第三位绝大多数可以不同
27、 近似随机;近似随机;4. 因此:因此:A. 第一位:阴性进化占大部分,中性进化占小部第一位:阴性进化占大部分,中性进化占小部分;分;B. 第二位:阴性进化;第二位:阴性进化;C. 第三位:阴性进化占小部分,中性进化占大部第三位:阴性进化占小部分,中性进化占大部分;分;角服糯瘸奈孩揍早肤壮忻姨歼缮鲤泻饼追瞻舞库瘫洞唬牲纲柬尔棋梭瞥限序列分析四一一分子进化系统发生分析生物信息学 编码区编码区 & 密码子密码子: 推论推论1. 密码子第三位的碱基出现概率接近基因组密码子第三位的碱基出现概率接近基因组序列的碱基频率;序列的碱基频率;2. 第二位的碱基出现频率与基因组序列的碱第二位的碱基出现频率与基因
28、组序列的碱基频率相差最大。基频率相差最大。漱座娃校捣歇舌吉聚纤啥值肖舜皿赋鸳寞菇稽侗漏哀俭雷涅揽吧遍封重鸥序列分析四一一分子进化系统发生分析生物信息学 11个细菌基因组与密码子三个位置上个细菌基因组与密码子三个位置上的的GC含量的关系含量的关系细菌基因组的细菌基因组的GC含量:含量:25%75%壁纷动咬碱煌悟哥添霄竟腺博刺促爸傻才渝凸淌茸庇时粕之雄议凶魔鼻珍序列分析四一一分子进化系统发生分析生物信息学 密码子使用频率密码子使用频率(codon usage)藻悬脓意笛秧呵坪剐氰仗拥勘惩忍底偿月褪渔闭芜籽互哲偶桓退掩悄峙催序列分析四一一分子进化系统发生分析生物信息学 密码子使用频率的偏倚性密码子使
29、用频率的偏倚性密码子使用频率的偏倚性密码子使用频率的偏倚性:编码同一个氨基酸的多个同义密码子具有不同的使用编码同一个氨基酸的多个同义密码子具有不同的使用频率频率例例例例:E. coli的的RNA聚合酶聚合酶 缬氨酸缬氨酸Val GTT GTC GTA GTG 55 21 34 34 精氨酸精氨酸Arg CGU CGC CGA CGG 89 46 1 0为什么会出现密码子使用频率的偏倚性?为什么会出现密码子使用频率的偏倚性? 与同功能与同功能tRNA的丰度有关?的丰度有关? 突变压力与净化选择双重控制?突变压力与净化选择双重控制? 亢痛么抨娠棠谭桂鹰披震硷继努倚无漏汇些奇崇适帕拓炬螟噎鸵瞩樱饲宅
30、序列分析四一一分子进化系统发生分析生物信息学 密码子偏好的应用及计算密码子偏好的应用及计算1. 基本假设:在高表达的基因中,密码子的选择,基本假设:在高表达的基因中,密码子的选择,更倾向于使用更倾向于使用“优化优化”的同义密码子的同义密码子;2. 推论推论1:给定一个物种的一些高表达的基因,我:给定一个物种的一些高表达的基因,我们可以们可以估算优化的同义密码子的分布估算优化的同义密码子的分布;3. 推论推论2:接着,我们可以对给定的一个未知基因:接着,我们可以对给定的一个未知基因的序列进行密码子分布的分析,的序列进行密码子分布的分析,预测该基因的表达预测该基因的表达量量,4. 推论推论3:对于
31、一个表达量很低的基因,我们是否:对于一个表达量很低的基因,我们是否能够通过将少量的密码子改变成优化密码子,从而能够通过将少量的密码子改变成优化密码子,从而显著显著提高基因的表达量提高基因的表达量?袖延蓄隐骋给傻埔励葬神微交蔷皋讣悯尉汰炬泣埠砾蒂啊诗墓锄枕芬拐仙序列分析四一一分子进化系统发生分析生物信息学 RSCU1. 相对同义密码子使用频率相对同义密码子使用频率(relative synonymous codon usage, RSCU);2. 定义:观测到的某一密码子的使用次数,除以定义:观测到的某一密码子的使用次数,除以“期望期望”的该密码子出现次数。的该密码子出现次数。编码第编码第i个氨
32、基酸个氨基酸的第的第j个密码子的个密码子的观测值观测值编码第编码第i氨基酸的同义氨基酸的同义密码子的数目密码子的数目编码第编码第i个氨基酸个氨基酸的第的第j个密码子的个密码子的RSCU值值荐伶粮谢瓢崔邢乔饵淮矮隙蓄觉震芒粉盅门惰访屏瞪邓戈竞贺脸荡遮喻戒序列分析四一一分子进化系统发生分析生物信息学 密码子:密码子:the relative adaptation编码第编码第i个氨基酸的第个氨基酸的第j个同义密码子的个同义密码子的“相对相对适应性适应性”:即,该同义密码子的观察值,除以编码该氨即,该同义密码子的观察值,除以编码该氨基酸的同义密码子的最大值。基酸的同义密码子的最大值。双卤浓蚤杏败剖撑琐
33、睡玫钨烽炕掠雍憋剩贮援屹铃旗赦从整钩顾掘卒僳蓟序列分析四一一分子进化系统发生分析生物信息学 大肠杆菌大肠杆菌 & 酵母酵母舒蠕桅楞仔惑危迸滇恩洒憋却施庄粮话差各驭炊肘月丝奄伞屡隋涕凑坷惋序列分析四一一分子进化系统发生分析生物信息学 CAI: Codon Adaptation IndexCAI是比较公认的用来衡量表达水平的是比较公认的用来衡量表达水平的简单参数。简单参数。L为序列的长度长琴殖反为心绽苑帕古派硝美瓷忻岁漠润唯据廊姑墙厦羊堡沉贿衡篡崇科序列分析四一一分子进化系统发生分析生物信息学 5. 生物进化理论生物进化理论与分子进化与分子进化瓦搔孟瑞孪沏竣钵页浇拍色斩她壤徘秦谜衷绥臃琉走诈鳖诡毒
34、陈毖倒雄巩序列分析四一一分子进化系统发生分析生物信息学 5.1 进化理论概述进化理论概述“一个半世纪以前,一个半世纪以前,Charles Darwin可能没有意识到他所给予可能没有意识到他所给予科学的是一件从未有过的强大武科学的是一件从未有过的强大武器,即他的进化理论。科学家用器,即他的进化理论。科学家用这把坚利之剑斩断了无知、迷信这把坚利之剑斩断了无知、迷信和傲慢,这些束缚人类对亿万年和傲慢,这些束缚人类对亿万年来的生命的了解的镣铐。来的生命的了解的镣铐。”美国自然博物馆成立美国自然博物馆成立125周年纪念周年纪念专刊前言专刊前言Charles Darwin(1809-1882)职奠叛晨淖阑
35、针捣毁贞翠汗铆奶郎蘸凹宇飘埔亡贾禹婪眶执仕倍则计踪冤序列分析四一一分子进化系统发生分析生物信息学 DarwinianDarwinian进化理论告诉了什么?进化理论告诉了什么?进化理论告诉了什么?进化理论告诉了什么?1、遗传和变异遗传和变异遗传和变异遗传和变异 一切生物都能发生变异,至少有一部分变异能够遗传给后代一切生物都能发生变异,至少有一部分变异能够遗传给后代2、自然选择自然选择自然选择自然选择 繁殖过剩:任何生物产生的生殖细胞或后代数目要远远多于可能存活繁殖过剩:任何生物产生的生殖细胞或后代数目要远远多于可能存活的个体数目;而在所产生的后代中,那些最具有适应环境条件的有利变异的个体数目;而
36、在所产生的后代中,那些最具有适应环境条件的有利变异的个体有较大的生存机会,并繁殖后代,从而使有利变异可以世代积累,的个体有较大的生存机会,并繁殖后代,从而使有利变异可以世代积累,不利变异被淘汰。不利变异被淘汰。 “选择选择”不是超自然的上帝的作用。不是超自然的上帝的作用。3、性状分歧;种的形成、绝灭;系统树性状分歧;种的形成、绝灭;系统树性状分歧;种的形成、绝灭;系统树性状分歧;种的形成、绝灭;系统树 性状分歧原理性状分歧原理在同一个种内,个体之间在结构、习性上越是歧异,在同一个种内,个体之间在结构、习性上越是歧异,则在适应不同环境方面愈是有利,因而将会繁育更多的个体,分布到更广则在适应不同环
37、境方面愈是有利,因而将会繁育更多的个体,分布到更广的范围。由此一个种会逐渐演变为若干变种、亚种乃至新种。的范围。由此一个种会逐渐演变为若干变种、亚种乃至新种。 新种的形成、种间的竞争、种的绝灭、外界环境的作用新种的形成、种间的竞争、种的绝灭、外界环境的作用 系统树系统树由于性状分歧和中间类型的绝灭,新种不断产生、旧种不由于性状分歧和中间类型的绝灭,新种不断产生、旧种不断绝灭,种间差异不断扩大,形成时间、空间上的物种系统树。断绝灭,种间差异不断扩大,形成时间、空间上的物种系统树。僧晦越十比渤泪踞袒惨骆窃哼遭寻农岸甄喷僵割陡筐械嫩蒜泼婶佩婪奎俭序列分析四一一分子进化系统发生分析生物信息学 Darw
38、inian进化理论的三次修正进化理论的三次修正第一次:第一次:“ “新新新新DarwinianDarwinian主义主义主义主义” ” 1900s,Weismann等,消除等,消除Lamarck的的“获得性遗传获得性遗传”学说、学说、Buffon的的“环境直接作用环境直接作用”学说,强调学说,强调“自然选择自然选择”为进化的为进化的主要因素;主要因素;第二次:第二次:“ “现代综合论现代综合论现代综合论现代综合论(Modern synthesis)”(Modern synthesis)” 1930-40s,遗传学、生物系统学、古生物学的重大贡献:对,遗传学、生物系统学、古生物学的重大贡献:对“
39、自然选择自然选择”、“物种变异物种变异”等概念的新认识。等概念的新认识。 适应:繁殖的相对优势适应:繁殖的相对优势 适应度:个体或基因型对后代或后代基因库的相对贡献适应度:个体或基因型对后代或后代基因库的相对贡献 适应和选择:繁殖或基因传递的相对差异适应和选择:繁殖或基因传递的相对差异 狱凡乌迭铸架橇肚雁反蔑能钎胳姜谭募救绍卖勉妥病汲掐苦汐郡抡倾懒锐序列分析四一一分子进化系统发生分析生物信息学 第三次:第三次:NOWNOW 原因:现代分子生物学、古生物学的发展。原因:现代分子生物学、古生物学的发展。 宏观(对生物进化实际过程的了解):古生物学揭示生命宏观(对生物进化实际过程的了解):古生物学揭
40、示生命进化的规律、进化速度、进化趋势、物种的形成和绝灭进化的规律、进化速度、进化趋势、物种的形成和绝灭 微观:现代分子生物学揭示生物大分子的进化规律和携带微观:现代分子生物学揭示生物大分子的进化规律和携带遗传信息的物质基础及其复杂结构遗传信息的物质基础及其复杂结构 新的认识:新的认识:1、生物进化过程并非生物进化过程并非“匀速匀速”、“渐变渐变”的,而是的,而是“快速进快速进化化”与与“进化停滞进化停滞”相间;相间;2、生物进化与分子进化都显示出相当大的随机性,自然选择生物进化与分子进化都显示出相当大的随机性,自然选择并非总是进化的主要因素;并非总是进化的主要因素;3、遗传系统本身具有某种进化
41、功能,进化过程中可能存在内遗传系统本身具有某种进化功能,进化过程中可能存在内因的因的“驱动驱动”和和“导向导向”。 Continuing户醇宙未菇丸躇曝汀孤踏缕永蜘辫颅初件樱诡贡镣寇盅住着春捣蠕垒相锻序列分析四一一分子进化系统发生分析生物信息学 进化理论围绕的三个主题进化理论围绕的三个主题进化理论围绕的三个主题进化理论围绕的三个主题1、进化的动力是什么?、进化的动力是什么?2、进化是否有一定的方向?、进化是否有一定的方向?3、进化的速度是否恒定?是渐近的、进化的速度是否恒定?是渐近的还是跳跃的?还是跳跃的?分子进化理论同样必须回答上分子进化理论同样必须回答上述三个问题。述三个问题。沿顺勺蹄掀狄
42、驱案克搐夕邦桅堪蓉舱胞呻骤仪缓射帝邵坍嚎骗碎邱磷吩巢序列分析四一一分子进化系统发生分析生物信息学 5.2 分子进化的两个特点分子进化的两个特点生物大分子进化速率的相对恒定生物大分子进化速率的相对恒定生物大分子进化速率的相对恒定生物大分子进化速率的相对恒定分子进化速率分子进化速率 生物大分子随时间的改变主要表现为核苷酸、蛋生物大分子随时间的改变主要表现为核苷酸、蛋白质的白质的一级结构一级结构的改变,即分子序列中核苷酸、氨基的改变,即分子序列中核苷酸、氨基酸的替换酸的替换,不同物种同源大分子的分子进化速率大体相同不同物种同源大分子的分子进化速率大体相同,分子进化速率远远比表型进化速率稳定分子进化速
43、率远远比表型进化速率稳定,原因?序列的核苷酸或氨基酸替换是否随机过程?原因?序列的核苷酸或氨基酸替换是否随机过程?局嫩降慧氢托两谁篱峦戒罪后斧技歌肥局矗幌衍悟坎交毒肚弛臆擒咎安蓟序列分析四一一分子进化系统发生分析生物信息学 生物大分子进化的保守性生物大分子进化的保守性生物大分子进化的保守性生物大分子进化的保守性保守性保守性 功能上重要的大分子或大分子的局部在进化速率上明显低功能上重要的大分子或大分子的局部在进化速率上明显低于那些在功能上不重要的大分子或者大分子局部。于那些在功能上不重要的大分子或者大分子局部。 (引起表型发生显著改变的突变发生的频率要低于无明显(引起表型发生显著改变的突变发生的
44、频率要低于无明显表型发生显著改变得突变发生的频率。)表型发生显著改变得突变发生的频率。)氨基酸氨基酸 例:血红蛋白分子的外区的功能要次于内区的功能,外区例:血红蛋白分子的外区的功能要次于内区的功能,外区的进化速率是内区进化速率的的进化速率是内区进化速率的10倍。倍。核苷酸核苷酸 例:例:DNA密码子的同义替代频率高于非同义替代频率;内密码子的同义替代频率高于非同义替代频率;内含子上的核苷酸随机替代频率较高。含子上的核苷酸随机替代频率较高。生物大分子进化并非完全随机,存在某种制约因素或机制生物大分子进化并非完全随机,存在某种制约因素或机制?谬箭斋迸名舍脂茅砒铡挫首清姿暑棉酵壳颐溅浑窄装侍倒炸航哆
45、肩看凑踢序列分析四一一分子进化系统发生分析生物信息学 5.3 分子进化中性论分子进化中性论Neutral theory of molecular evolution(Kimura & Ohta, 1968, 1971) (King & Jukes, 1969)提出分子层次上的提出分子层次上的“non-Darwinian evolution”“在生物分子层次上的进化改变不是由自然选择作用在生物分子层次上的进化改变不是由自然选择作用于有利突变而引起的,而是于有利突变而引起的,而是在连续的突变压之下由选在连续的突变压之下由选择中性或非常接近中性的突变的随机固定造成择中性或非常接近中性的突变的随机固定
46、造成的。中的。中性突变是指对当前适应度无影响的突变。性突变是指对当前适应度无影响的突变。”否认自然选择在分子进化中的作用,认为生物大分子否认自然选择在分子进化中的作用,认为生物大分子的进化主要因素是的进化主要因素是机会机会机会机会和和突变压力突变压力突变压力突变压力。名拘桐拱求屠右乔灿角悠坤煎倡汁斟补盛携庭遍妹骑想洱地附熄瓶贰艾匪序列分析四一一分子进化系统发生分析生物信息学 分子进化中性论的若干依据分子进化中性论的若干依据1. 分子层次上的大多数变异是选择中性的分子层次上的大多数变异是选择中性的 2. 蛋白质和核苷酸分子的进化速率高且相对恒蛋白质和核苷酸分子的进化速率高且相对恒定定 3. 突变
47、压在分子进化中的作用得到研究证实突变压在分子进化中的作用得到研究证实4. 按照群体遗传学的数学模型,自然选择的代按照群体遗传学的数学模型,自然选择的代价太高价太高 政痕幼撒谢揩预峦占铸卓蔫弥挛咒滨扦林前灾慷哮者芬忆层洞沦孟到惮诈序列分析四一一分子进化系统发生分析生物信息学 分子进化中性论的讨论分子进化中性论的讨论1、中性论是解释分子层次的进化现象、中性论是解释分子层次的进化现象 自然选择只作用于表型,并不直接作用于分子。自然选择只作用于表型,并不直接作用于分子。 衡量尺度的区别:分子的显著性改变并不意味着表型的显衡量尺度的区别:分子的显著性改变并不意味着表型的显著性改变。著性改变。 中性论只涉
48、及生物大分子一级结构单元的替换,并不包含中性论只涉及生物大分子一级结构单元的替换,并不包含和解释分子层次的全部改变和解释分子层次的全部改变(如蛋白质三级结构、功能的改变如蛋白质三级结构、功能的改变)2、分子进化的保守性表明选择仍然起作用、分子进化的保守性表明选择仍然起作用 可能之一可能之一负选择的存在:任何发生在重要功能的大分负选择的存在:任何发生在重要功能的大分子或大分子保守区的突变,由于造成适应度的下降而被选择淘子或大分子保守区的突变,由于造成适应度的下降而被选择淘汰。(随机作用)汰。(随机作用) 可能之二可能之二存在某种机制阻止功能重要的大分子或大分存在某种机制阻止功能重要的大分子或大分
49、子保守区的突变产生。(非随机作用)子保守区的突变产生。(非随机作用)刮膨若娱颗乳谱秧盔确衫湍穷敞壁凉烩耸稻渣呀疥氢摈士猿你刘童魂许丸序列分析四一一分子进化系统发生分析生物信息学 3、选择中性突变的复杂调控系统、选择中性突变的复杂调控系统 中性突变的可能原因:复杂的调控机制。基因表中性突变的可能原因:复杂的调控机制。基因表达受到内外因素的制约。达受到内外因素的制约。 决定中性突变的调控系统受到自然选择的影响。决定中性突变的调控系统受到自然选择的影响。 调控网络的容错能力。调控网络的容错能力。 4、选择在分子的适应进化中起作用、选择在分子的适应进化中起作用 在分子层次上可能存在两种进化形式:在分子
50、层次上可能存在两种进化形式: 中性进化(导致分子多样性)中性进化(导致分子多样性) 适应进化(通过选择实现,导致分子适应)适应进化(通过选择实现,导致分子适应)樟民悠施拜懒胞象习零谈沃弘烃碍盯浦迅覆惫薯夫哗雨厩拜浚贬趋签肃掺序列分析四一一分子进化系统发生分析生物信息学 Ortholog (直系同源物直系同源物):两个基因通过:两个基因通过物种形物种形成成的事件而产生,或,源于不同物种的最近的的事件而产生,或,源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。基因,一般具有相同的功能。Paralog (旁系同源物旁系同源
51、物):两个基因在同一物种:两个基因在同一物种中,通过至少一次中,通过至少一次基因复制基因复制的事件而产生。的事件而产生。Xenolog (异同源物异同源物):由某一个:由某一个水平基因转移水平基因转移事件而得到的同源序列。事件而得到的同源序列。Convergent evolution: 通过不同的进化途径获通过不同的进化途径获得相似的功能,或者,功能替代物。得相似的功能,或者,功能替代物。5.4 分子亲缘关系分子亲缘关系缕紊匆速当蝉蝉话喻融匆稍寞驶蛆泣徒眶教曙颓拇之揉缮烽菜矽系渣遗俺序列分析四一一分子进化系统发生分析生物信息学 paralogsorthologs颧堕呐焉宏鱼叭颇毗莎挽约潘椽裴卓
52、烤弱醉豆氰暮匹月视硫婉蚂厄攻烘又序列分析四一一分子进化系统发生分析生物信息学 paralogsorthologsSonnhammer EL, Koonin EV Orthology,paralogy and proposed classification for paralog subtypes TRENDS Genetics 18(12) 2002性笺朽苦信泣晦涛盆隆公怯异铜涩醉峪拢偷劈堕裁嘉男垫难惑尖珠癣愿扁序列分析四一一分子进化系统发生分析生物信息学 5.5 分子钟(分子钟(Molecular Clock)分子钟分子钟 根据分子系统学研究与古生物学资料相结合,建立生物进根据分子系统学研究
53、与古生物学资料相结合,建立生物进化事件发生的时间表。化事件发生的时间表。 假定分子进化速率假定分子进化速率r恒定,则分子进化改变量(替代数目或恒定,则分子进化改变量(替代数目或替代率)与进化时间成正比。以两条序列为例:替代率)与进化时间成正比。以两条序列为例:d = 2 r t其中,其中,t是进化时间,是进化时间,d是这两条序列每个位点的替代数目。是这两条序列每个位点的替代数目。裤陈封涂竿淹捕鼓环尊韧掐辱阐居馋吐仲刊妓撞柬别射磐袜函厨氮蜕汝粥序列分析四一一分子进化系统发生分析生物信息学 分子钟成立的先决条件:分子钟成立的先决条件:分子进化速率恒定分子进化速率恒定。分子钟成立的证据:分子钟成立的
54、证据:1、至少某些生物大分子(如珠蛋白)的进化速、至少某些生物大分子(如珠蛋白)的进化速率在相当长的地质时间内的相对稳定、均匀;率在相当长的地质时间内的相对稳定、均匀;2、许多不同物种的多种同源大分子在相当长时、许多不同物种的多种同源大分子在相当长时间内的平均进化速率近似恒定。间内的平均进化速率近似恒定。砾外很赚沼忧惰骤绰留心勺氦录吏训观卡代迈觅五亨文谍己涧谣急蓝垛踏序列分析四一一分子进化系统发生分析生物信息学 建立分子钟的大致步骤建立分子钟的大致步骤1、选择所要比较的生物大分子种类、选择所要比较的生物大分子种类 根据研究目标和已掌握的资料,选择进化速率相对恒定、根据研究目标和已掌握的资料,选
55、择进化速率相对恒定、速率大小合适、分布范围能涵盖各待比较物种的生物大分子。速率大小合适、分布范围能涵盖各待比较物种的生物大分子。2、选择所要比较的物种,确定各比较组合及其所代表的进化事、选择所要比较的物种,确定各比较组合及其所代表的进化事件件3、获得生物大分子一级结构的资料、获得生物大分子一级结构的资料4、获得有关的代表性进化事件发生的地质时间数据、获得有关的代表性进化事件发生的地质时间数据5、通过比较大分子一级结构,选择合适的数学模型,计算得到、通过比较大分子一级结构,选择合适的数学模型,计算得到进化产生的分子差异进化产生的分子差异d,通过回归分析等统计方法得到大分子的,通过回归分析等统计方
56、法得到大分子的进化速率进化速率r(t)6、由此可以推断未知进化事件的发生时间、由此可以推断未知进化事件的发生时间提吩爵拾杂来弱钾哗度钦野土哮哦完毅白么胺疆卷蔬燎绎炸沤炉孝希翠舌序列分析四一一分子进化系统发生分析生物信息学 Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Phylograms show branch order and br
57、anch lengths进化树,有分支和支长进化树,有分支和支长信息信息进化分支图,进化树进化分支图,进化树Cladograms show branching order - branch lengths are meaningless进化分支图,只用分支进化分支图,只用分支信息,无支长信息。信息,无支长信息。汹仅渔厂橱成乏猫阅斥惠怪候挝傈第尼唉窖墨腕棕袱骤匿存声堪捐省鬃诗序列分析四一一分子进化系统发生分析生物信息学 对进化时间的估计对进化时间的估计1. 遗传距离遗传距离d的计算:的计算:A. 氨基酸序列:氨基酸序列:p-距离,距离,d-距离,距离,-距离;距离;B. DNA序列:序列: Ju
58、kes-Cantor距离,距离,Kimura距离;距离;2. 物种分歧点:使用考古数据确定共有祖先;物种分歧点:使用考古数据确定共有祖先;确定分化时间确定分化时间T;3. 计算分子的分化计算分子的分化/进化的速率:进化的速率:r=d/2T;4. 对新的序列,计算分化时间:对新的序列,计算分化时间: Tnew=dnew/2r楚袭爆老覆诲棉母命纠氧啡尚锤路膘今磺条约硒购披抄监厦越沙新挠隘秉序列分析四一一分子进化系统发生分析生物信息学 关于分子钟的讨论和争议关于分子钟的讨论和争议1、对长期进化而言,不存在以恒定速率替换的、对长期进化而言,不存在以恒定速率替换的生物大分子一级结构;(基因功能的改变、基
59、生物大分子一级结构;(基因功能的改变、基因数目的增加)因数目的增加)2、不存在通用的分子钟;、不存在通用的分子钟;3、争议:、争议: 分子钟的准确性分子钟的准确性 中性理论(分子钟成立的基础)中性理论(分子钟成立的基础)贤孕彩团邀智邵镜浴肘移肿伙酥已淡隔宴此台咒余座溺朗滁甥古睦傅伪爬序列分析四一一分子进化系统发生分析生物信息学 虽然很多时候仍然存在争议,但是虽然很多时候仍然存在争议,但是分子进化确实能阐述一些生物系统分子进化确实能阐述一些生物系统发生的内在规律。发生的内在规律。争议例子:分子序列证据与化石证争议例子:分子序列证据与化石证据在人类起源时间上的差异。据在人类起源时间上的差异。扬疯腺刺霍彤募燃鉴度蜡酶伤龟刮茧吩旬戌朱杰绥躬哟网宇蔼脏靳蠢究鬼序列分析四一一分子进化系统发生分析生物信息学