生物信息学讲义第六章

上传人:ni****g 文档编号:577870004 上传时间:2024-08-22 格式:PPT 页数:115 大小:3.54MB
返回 下载 相关 举报
生物信息学讲义第六章_第1页
第1页 / 共115页
生物信息学讲义第六章_第2页
第2页 / 共115页
生物信息学讲义第六章_第3页
第3页 / 共115页
生物信息学讲义第六章_第4页
第4页 / 共115页
生物信息学讲义第六章_第5页
第5页 / 共115页
点击查看更多>>
资源描述

《生物信息学讲义第六章》由会员分享,可在线阅读,更多相关《生物信息学讲义第六章(115页珍藏版)》请在金锄头文库上搜索。

1、第六讲第六讲第六讲第六讲基因组信息学研究基因组信息学研究基因组信息学研究基因组信息学研究的若干问题的若干问题的若干问题的若干问题6.1基因及基因组基因及基因组基因的定义基因的定义基因的定义基因的定义1、基因是一段与多肽链或功能、基因是一段与多肽链或功能RNA产生有关的产生有关的DNA片段,包括编码区前的引导序列、编码区后的片段,包括编码区前的引导序列、编码区后的尾部序列、编码区内的插入序列和编码区序列。尾部序列、编码区内的插入序列和编码区序列。2、基因是编码一条多肽链或功能、基因是编码一条多肽链或功能RNA(如如rRNA、tRNA)所必需的全部核苷酸序列,是所必需的全部核苷酸序列,是DNA分子

2、链上分子链上特定区域。特定区域。3、基因是遗传信息的一种独立单位。、基因是遗传信息的一种独立单位。基因的种类基因的种类基因的种类基因的种类结构基因结构基因结构基因结构基因(structural gene)(structural gene)、调控基因调控基因调控基因调控基因(regulatory gene) (regulatory gene) 二者都可以转录成二者都可以转录成mRNA,并可被翻译成多肽链。并可被翻译成多肽链。 调控基因的作用是调控其它基因的活性,转录成的调控基因的作用是调控其它基因的活性,转录成的mRNA翻译成阻遏翻译成阻遏蛋白质或激活蛋白质。蛋白质或激活蛋白质。rRNArRNA

3、基因和基因和基因和基因和tRNAtRNA基因基因基因基因 二者只转录产生相应的二者只转录产生相应的RNA而不翻译成多肽链。而不翻译成多肽链。启动子启动子启动子启动子( (promotorpromotor) )和和和和操纵基因操纵基因操纵基因操纵基因(operator) (operator) 启动子是转录时启动子是转录时RNA聚合酶与聚合酶与DNA结合的部位;结合的部位; 操纵基因是调控基因产物操纵基因是调控基因产物(如阻遏蛋白质或激活蛋白质如阻遏蛋白质或激活蛋白质)与与DNA结合的结合的部位;部位; 严格地讲,二者只是不转录的严格地讲,二者只是不转录的DNA片段,不能称为基因。片段,不能称为基

4、因。什么是基因组什么是基因组什么是基因组什么是基因组(genome)?(genome)? 基因组(基因组(基因组(基因组(genomegenome)是指一个细胞或病毒包含的全部遗传信息的总和。是指一个细胞或病毒包含的全部遗传信息的总和。 绝大部分基因组,包括所有的细胞生命形式的基因组,是由绝大部分基因组,包括所有的细胞生命形式的基因组,是由DNA组成;组成;一些病毒具有一些病毒具有RNA基因组基因组; 真核生物真核生物真核生物真核生物:指一个物种的单倍体染色体所含有的一整套基因;:指一个物种的单倍体染色体所含有的一整套基因; 原核生物原核生物原核生物原核生物:一般只有一个环状:一般只有一个环状

5、DNA分子,其上所有的基因为一个基因组;分子,其上所有的基因为一个基因组; 真核生物细胞中的细胞器真核生物细胞中的细胞器(如叶绿体、线粒体等如叶绿体、线粒体等)中的中的DNA也为环状,构也为环状,构成叶绿体基因组、线粒体基因组。成叶绿体基因组、线粒体基因组。 基因组的大小用碱基对基因组的大小用碱基对(base pair,bp)的数量来表示:的数量来表示:103为为kb,106为为Mb。基因组大小与物种的关系基因组大小与物种的关系基因组大小与物种的关系基因组大小与物种的关系 基因组的大小大致上与物种基因组的大小大致上与物种进化的复杂性相关;进化的复杂性相关; 大多数真核生物的基因组都大多数真核生

6、物的基因组都比原核生物的基因组大,比原核比原核生物的基因组大,比原核生物的基因组复杂;生物的基因组复杂; 随着动物或植物进化程度的随着动物或植物进化程度的上升,每个单倍体的上升,每个单倍体的DNA含量含量一般趋于增加,但是存在例外(一般趋于增加,但是存在例外( C值佯谬);值佯谬); 思考:为什么会出现思考:为什么会出现“C值佯值佯谬谬”?基因组基因组基因组基因组基因组大小基因组大小基因组大小基因组大小(kb)(kb)型式型式型式型式病毒病毒MS4单链单链RNASV405环状双链环状双链DNA X1745环状单链环状单链DNASARS-CoV30单链单链RNA单纯疱疹病毒单纯疱疹病毒152线性

7、双链线性双链DNAT2、T4、T6165天花天花267细菌细菌支原体支原体(M. hominis)760大肠杆菌大肠杆菌(E. coli)4,600环状双链环状双链DNA真核生物真核生物单倍体染色体数目单倍体染色体数目酵母酵母(S. cerevisiae)13,00016线虫线虫(C. elegans)100,0006拟南芥拟南芥(A. thaliana)100,0005果蝇果蝇(D. melanognater)165,0004人人(H. sapiens)3,000,00023玉米玉米(Z. mays)4,500,00010蝾螈蝾螈(A. spp.)76,000,00014不同生物基不同生物基

8、不同生物基不同生物基因组大小的因组大小的因组大小的因组大小的比较比较比较比较基因数目与物种的关系基因数目与物种的关系基因数目与物种的关系基因数目与物种的关系 基因数目的多少大致上与物种进化的复基因数目的多少大致上与物种进化的复杂性相关;杂性相关; 在高等动植物中,巨大的基因组并不意在高等动植物中,巨大的基因组并不意味着有巨量的基因数目。味着有巨量的基因数目。 人类究竟有多少个基因?人类究竟有多少个基因? 理论上:根据基因组的大小,可具有理论上:根据基因组的大小,可具有106个基因个基因 “生物体的复杂性并不是简单地与基因生物体的复杂性并不是简单地与基因数量相关联的。数量相关联的。”(G. Ru

9、bin) 5万万,6万万 ,7万万 ,8万万 ,14万!万!? 4万万,3万万,? 打赌!打赌!基因数目猜奖基因数目猜奖基因数目猜奖基因数目猜奖( (Gene Sweepstake)Gene Sweepstake)生物学家们为人类基因的数目打赌生物学家们为人类基因的数目打赌生物学家们为人类基因的数目打赌生物学家们为人类基因的数目打赌 生物学家们对基因组里到底有多少基因的猜测一直有极大的不同。生物学家们对基因组里到底有多少基因的猜测一直有极大的不同。2000年,在纽约冷年,在纽约冷泉港召开的一个会议上,他们设立了一美元一个(次)的基因数目赌注。胜者将于泉港召开的一个会议上,他们设立了一美元一个(

10、次)的基因数目赌注。胜者将于2003年年揭晓,他除了可获得全部赌金外,还可得到一本由揭晓,他除了可获得全部赌金外,还可得到一本由J. Watson亲笔签名的皮革封面亲笔签名的皮革封面双螺旋双螺旋一书。一书。 如果基因组是生命的天书,那么基因就是写成这本书的词汇。生物学家们一直假设,如果基因组是生命的天书,那么基因就是写成这本书的词汇。生物学家们一直假设,微生物的故事较短,而人类的故事则是一部巨作,人类拥有微生物的故事较短,而人类的故事则是一部巨作,人类拥有8万到万到10万个基因。但是万个基因。但是UC Berkly的果蝇基因组计划的主任的果蝇基因组计划的主任G. Rubin指出,果蝇的基因比我

11、们所认为的最简单的线虫指出,果蝇的基因比我们所认为的最简单的线虫少了少了5,000个。他警告说:个。他警告说:“生物体的复杂性并不是简单地与基因数量相关联的生物体的复杂性并不是简单地与基因数量相关联的。” 德国分子生物技术研究所的德国分子生物技术研究所的A. Rosenthal说,我们得出的结论是整个基因组有不多于说,我们得出的结论是整个基因组有不多于4万个基因。法国的分子遗传学家万个基因。法国的分子遗传学家H. R. Crollius通过比较现有的人类基因序列与淡水河豚基通过比较现有的人类基因序列与淡水河豚基因序列,提出了更低的人类基因数估计:在因序列,提出了更低的人类基因数估计:在27,7

12、00与与34,300之间。华盛顿大学的基因学家之间。华盛顿大学的基因学家P. Green提出人类基因数大约为提出人类基因数大约为35,000。 美国国家人类基因组研究所主任美国国家人类基因组研究所主任F. Collins表示他同表示他同意意Green的估计,将他的估计,将他1美元的赌金下在美元的赌金下在48,011个基因上。但个基因上。但Rockville的基因组研究所的基因组研究所(TIGR)的的J. Quackenbush根据根据TIGR的人类基因指数的估计,将他的的人类基因指数的估计,将他的1美元赌在美元赌在118,259个基个基因上。加州因上。加州Incyte Genomics公司的公

13、司的S. LaBrie赌的基因数是赌的基因数是153,478个,该公司在个,该公司在1999年年9月月曾宣布人类基因至少有曾宣布人类基因至少有14万个。万个。 但是支持人类基因数目是一个较小数的科学家们也不灰心,他们争论说生物体的复杂但是支持人类基因数目是一个较小数的科学家们也不灰心,他们争论说生物体的复杂性来自于基因如何被管理或表达的,而不是基因数目本身。性来自于基因如何被管理或表达的,而不是基因数目本身。Rosenthal解释说:解释说:“我们不我们不需要那么多的基因成为高等动物,需要那么多的基因成为高等动物,”他赌的是他赌的是38,000个。你赌多少呢?个。你赌多少呢?基因轮盘赌基因轮盘

14、赌基因轮盘赌基因轮盘赌( (Gene Sweepstake)Gene Sweepstake)http:/www.ensembl.org/Genesweep/ The Gene Sweepstake will run between 2000 and 2003. The rules are:It costs $1 to make a bet in 2000, $5 in 2001 and $20 in 2002.Bets are for one number. Closest number wins, and in case of ties, the pot is split.A gene is

15、 a set of connected transcripts. A transcript is a set of exons via transcription followed (optionally) by pre-mRNA splicing. Two transcripts are connected if they share at least part of one exon in the genomic coordinates. At least one transcript must be expressed outside of the nucleus and one tra

16、nscript must encode a protein .Assessment of the method used to determine the gene will occur by voting at Cold Spring Harbor Genome Meeting 2002. Researchers will be invited to submit their methods to the community at this time.Assessment of the gene number will occur on the 2003 CSHL Genome meetin

17、g. People betting should write their name, email and number in the Gene Sweepstake book, held at Cold Spring Harbor.One bet per person, per year. Year defined as a calendar year. No pencil bets (ie, you cant change your number).Bets165Mean61,710Lowest27,462Highest153,478Last Last GenesweepGenesweep

18、Votes Vote distribution Votes Vote distribution Who swept the Gene Sweepstake?Who swept the Gene Sweepstake? The winner was announced at last weeks Homo Sapiens genetics meeting at Cold Spring Harbor Laboratory, New York. The gene champ, Lee Rowen, who directs a sequencing project at the Institute f

19、or Systems Biology in Seattle, Washington - beat 460 other hopefuls to take home part of the cash pot. Rowens wager at 25,94725,947 is closest to the current reckoning in a genetic database called Ensembl, of 24,84724,847. Like all good gamblers, her number was a stab; one runner-up picked 27,46227,

20、462 because the 27 April, 1962 was his birthday. Recognizing genes - regions of DNA that code for proteins - has proved tougher than expected. One reason is that predictor programs, which trawl through DNA for landmark sequences characteristic of a gene, are notoriously unreliable. Humangenenumberwa

21、gerwonGeneticists draw sweepstake despite uncertainty over final tally 3 June 2003 人类基因数目之谜人类基因数目之谜人类基因数目之谜人类基因数目之谜 目前已经发现和定位了目前已经发现和定位了26,000多个功能基因,其中尚有多个功能基因,其中尚有42%的基因尚不知的基因尚不知道功能。道功能。 原先曾经预测人类约有原先曾经预测人类约有14万个基因,万个基因,Celera公司现将人类基因总数定在公司现将人类基因总数定在26,383到到39,114个之间,只是线虫或果蝇基因数量的两倍,人有而鼠没有的个之间,只是线虫或果

22、蝇基因数量的两倍,人有而鼠没有的基因只有基因只有300个。根据个。根据Ensembl数据库得到的计算结果,目前的最新估计数数据库得到的计算结果,目前的最新估计数目是目是24,847。 基因组的大小和基因的数量在生命进化上可能不具有特别重大的意义;基因组的大小和基因的数量在生命进化上可能不具有特别重大的意义; 人类的基因较其他生物体更人类的基因较其他生物体更“有效有效” 。 人类的复杂性更主要的体现在蛋白质的复杂网络中,即蛋白质就是构成人类的复杂性更主要的体现在蛋白质的复杂网络中,即蛋白质就是构成生命的基本构件。生命的基本构件。Celera公司首席科学家公司首席科学家Venter认为:认为:“大

23、部分的生物学行大部分的生物学行为发生在蛋白质水平,而不是基因水平。为发生在蛋白质水平,而不是基因水平。”6.2高等真核生物高等真核生物基因结构与基因预测简介基因结构与基因预测简介人类基因组的物理结构人类基因组的物理结构人类基因组的物理结构人类基因组的物理结构 核基因组核基因组核基因组核基因组(nuclear genome)(nuclear genome): 由大约由大约30亿亿bp组成,分为组成,分为24条线性条线性DNA分子分子(55250Mb),分别包含在分别包含在24条不同的染色体中条不同的染色体中(22条常染色体和条常染色体和2条性条性染色体染色体X、Y) 线粒体基因组线粒体基因组线粒

24、体基因组线粒体基因组(mitochondrion genome)(mitochondrion genome):长为长为16,569bp的环状的环状DNA分子,分子,位于产生能量的细胞器位于产生能量的细胞器线粒体中线粒体中6.2.1 真核生物的基因结构真核生物的基因结构基因家族、假基因基因家族、假基因基因家族、假基因基因家族、假基因 多数真核生物基因表现为多拷贝多数真核生物基因表现为多拷贝(某些基因多次重复某些基因多次重复),称为基因家族,称为基因家族(gene family);); 真核生物的基因多拷贝为大量产生真核生物的基因多拷贝为大量产生RNA、蛋白质所需要;或者可以在不蛋白质所需要;或者

25、可以在不同组织、不同发育阶段被表达;同组织、不同发育阶段被表达; 基因家族产生的推测:进化过程中的基因加倍;基因家族产生的推测:进化过程中的基因加倍; 由于突变导致失去功能的基因拷贝叫假基因(由于突变导致失去功能的基因拷贝叫假基因(pseudogene)。)。重复重复重复重复DNADNA序列序列序列序列高度重复高度重复DNA序列是多数真核生物基因组的主要成分序列是多数真核生物基因组的主要成分真核生物的基因结构真核生物的基因结构真核生物的基因结构真核生物的基因结构内含子内含子内含子内含子(intron)(intron)和外显子和外显子和外显子和外显子(exon)(exon) 真核生物的基因一般为

26、断裂基因真核生物的基因一般为断裂基因(interrupted gene),由内含子和外显由内含子和外显子组成,编码区被内含子分隔成若干段;子组成,编码区被内含子分隔成若干段; 内含子外显子结构的意义:提供编码区进行重组的机会,产生新基因,内含子外显子结构的意义:提供编码区进行重组的机会,产生新基因,有利于真核生物的进化。有利于真核生物的进化。Intergenic regionGeneExonIntron真核生物基因结构和转录过程真核生物基因结构和转录过程真核生物基因结构和转录过程真核生物基因结构和转录过程6.2.2 真核基因预测研究概况真核基因预测研究概况基因预测的主要内容基因预测的主要内容启

27、动子的识别启动子的识别翻译起始位点的识别翻译起始位点的识别剪接位点的识别剪接位点的识别多腺苷化信号的识别多腺苷化信号的识别蛋白编码区的识别蛋白编码区的识别内含子的识别内含子的识别1、基因预测效果的评估、基因预测效果的评估2、基因预测方法简介、基因预测方法简介6.3原核基因组研究及原核基因组研究及基因预测方法基因预测方法原核生物基因组的研究意义原核生物基因组的研究意义原核生物基因组的研究意义原核生物基因组的研究意义1、揭示生命揭示生命揭示生命揭示生命活动的基本规活动的基本规活动的基本规活动的基本规律律律律导致现导致现代分子遗传学代分子遗传学的许多重大发的许多重大发现现染色体、染色体、DNA双螺旋

28、、遗传双螺旋、遗传密码、密码、DNA复复制、中心法则制、中心法则原核生物基因组的研究意义原核生物基因组的研究意义原核生物基因组的研究意义原核生物基因组的研究意义2、揭示生命起源与进化的奥秘揭示生命起源与进化的奥秘揭示生命起源与进化的奥秘揭示生命起源与进化的奥秘3、进行分子遗传学的良好材料进行分子遗传学的良好材料进行分子遗传学的良好材料进行分子遗传学的良好材料4、在农业、工业和生物制药工程上的应用十分广泛在农业、工业和生物制药工程上的应用十分广泛在农业、工业和生物制药工程上的应用十分广泛在农业、工业和生物制药工程上的应用十分广泛作为微生物基因工程的反应器,直接运用于干扰素、人胰岛素、作为微生物基

29、因工程的反应器,直接运用于干扰素、人胰岛素、生长激素、乙型肝炎疫苗等现代基因工程产品的生产。生长激素、乙型肝炎疫苗等现代基因工程产品的生产。 原核生物基因组结构的特点原核生物基因组结构的特点原核生物基因组结构的特点原核生物基因组结构的特点1、原核生物基因组一般比真核生物基因组小、原核生物基因组一般比真核生物基因组小得多得多 E. coli的的基因组基因组(4.6Mb)约为酵母基因组约为酵母基因组(12.1Mb)的的2/52、绝大部分原核生物基因组由一个单一的环、绝大部分原核生物基因组由一个单一的环状状DNA分子组成分子组成3、原核生物的基因通常比真核生物的少、原核生物的基因通常比真核生物的少E

30、. coli:4000多个基因,人:多个基因,人:30000个个4、原核生物的基因绝大多数是连续基因,不、原核生物的基因绝大多数是连续基因,不含间隔的内含子;基因组结构紧密,重复序列含间隔的内含子;基因组结构紧密,重复序列远少于真核生物的基因组。远少于真核生物的基因组。例子:例子:例子:例子:E. coliE. coli K-12 K-12 双链环状双链环状DNA分子,全基因组长为分子,全基因组长为4,600kb; 目前已经定位的基因有目前已经定位的基因有4,289个;个; 非编码区占的比例约为非编码区占的比例约为11.4%。长开放阅读框(长开放阅读框(长开放阅读框(长开放阅读框(ORFORF

31、,open reading frameopen reading frame)若终止密码子出现在非编码核酸序列中,大约每若终止密码子出现在非编码核酸序列中,大约每21个密码子出个密码子出现一次(现一次(3/64)绝大部分原核生物蛋白质的长度大于绝大部分原核生物蛋白质的长度大于60个氨基酸;个氨基酸;(E. coli:蛋白质编码区域平均长度为:蛋白质编码区域平均长度为316.8个密码子,不到个密码子,不到1.8%的基的基因的长度小于因的长度小于60个密码子)个密码子)长长ORF表明该区域可能对应于一个原核生物基因的编码序列表明该区域可能对应于一个原核生物基因的编码序列从统计学角度来看,如果所有的密

32、码子在随机的核酸序列中以相同的从统计学角度来看,如果所有的密码子在随机的核酸序列中以相同的频率出现,则不含终止密码子且长度为频率出现,则不含终止密码子且长度为N个密码子的序列出现的概率为个密码子的序列出现的概率为(61/64)N。长度为。长度为N的的ORF的的95%显著性置信度等价于显著性置信度等价于5%“随机随机”命中的命中的可能性,即可能性,即(61/64)N=0.05,这里,这里N等于等于60,表示典型长度的,表示典型长度的ORF中密码子中密码子的数目。的数目。高基因密度高基因密度高基因密度高基因密度原核生物基因组的许多信息都是为了维持细胞的基本功能,如原核生物基因组的许多信息都是为了维

33、持细胞的基本功能,如构造和复制构造和复制DNA,产生新蛋白质,以及获得和存储能量。,产生新蛋白质,以及获得和存储能量。完全测序的细菌和古细菌的基因组数据表明,其中完全测序的细菌和古细菌的基因组数据表明,其中85到到88的核酸序列与基因的编码直接相关。的核酸序列与基因的编码直接相关。例如,在例如,在E.coli中总共有中总共有4,289个基因,平均编码长度个基因,平均编码长度约约为为950bp,而基因之,而基因之间的平均间隔长度只有间的平均间隔长度只有120bp。连续的基因结构连续的基因结构连续的基因结构连续的基因结构与真核基因结构相比较,原核基因的结构相对简单。原核基因与真核基因结构相比较,原

34、核基因的结构相对简单。原核基因为连续基因,其编码区是一个完整的为连续基因,其编码区是一个完整的DNA 片段。但原核基因片段。但原核基因的转录起始、翻译起始的调控机制比较复杂。的转录起始、翻译起始的调控机制比较复杂。 完整的基因结构从基因的完整的基因结构从基因的5-端启动子区域开始,到端启动子区域开始,到3-端终止区结束。端终止区结束。 基因的转录开始位置由转录起始位点确定,转录过程直至遇到转录终基因的转录开始位置由转录起始位点确定,转录过程直至遇到转录终止位点结束,转录的内容包括止位点结束,转录的内容包括5UTR、开放阅读框以及、开放阅读框以及3UTR。 基因翻译的准确起止位置由起始密码子和终

35、止密码子决定,翻译的对基因翻译的准确起止位置由起始密码子和终止密码子决定,翻译的对象即为介于这两者之间的开放阅读框。象即为介于这两者之间的开放阅读框。原核生物基因组的操纵子与基因群结构原核生物基因组的操纵子与基因群结构原核生物的基因结构原核生物的基因结构STOPSTOPATGATGATGATGCCC TCGAAGC CCC TCGAAGC ATGATGTranscriptionInitiation MotifTranslationInitiation MotifTexts from coding/noncoding regions in DNA sequence原核生物基因组研究的主要方法原核

36、生物基因组研究的主要方法原核生物基因组研究的主要方法原核生物基因组研究的主要方法1、原核基因组的测序、原核基因组的测序 获得所研究生物的全基因组获得所研究生物的全基因组DNA序列序列 测序方法:链终止法。测序方法:链终止法。 一次测序反映只能测几百个碱基对。一次测序反映只能测几百个碱基对。 序列的拼接方法。序列的拼接方法。2、原核基因组的序列解读、原核基因组的序列解读 通过结合计算机分析、试验验证等手段,初步定位基因及通过结合计算机分析、试验验证等手段,初步定位基因及其调控区并阐明基因的功能。其调控区并阐明基因的功能。 发展原核基因组的基因及其功能识别算法是基因组的计算发展原核基因组的基因及其

37、功能识别算法是基因组的计算机分析的重要目标。机分析的重要目标。当前著名的原核基因预测软件当前著名的原核基因预测软件当前著名的原核基因预测软件当前著名的原核基因预测软件1、GeneMark系列软件(包括最新版本系列软件(包括最新版本GeneMarkS) Borodovsky等,等,19932001Besemer, J., Lomsadze, A. and Borodovsky, M. (2001) GeneMarkS: a self-training method for prediction of gene starts in microbial genomes. Implications f

38、or finding sequence motifs in regulatory regions. Nucleic Acids Res., 29: 2607-2618. 2、Glimmer 2.02 (Salzberg等,等,1999)Delcher, A. L., Harmon, D., Kasif, S., White, O., and Salzberg, S. L. (1999) Improved microbial gene identification with GLIMMER. Nucleic Acids Res., 27, 4636-4641原核基因预测算法的研究现状原核基因预测

39、算法的研究现状3、ZCURVE 1.0 张春霆等张春霆等, 1991-20034、MED系列系列 佘振苏、朱怀球等佘振苏、朱怀球等, 2004-2007其它:如其它:如 EasyGene (Larsen and Krogh, 2003) ORPHUS (Frishman et al., 1998)基本方法基本方法基本方法基本方法1、Markov模型方法模型方法: 用非均匀用非均匀Markov模型刻画模型刻画DNA序列序列give an estimate of the probability for a local segment (such as a k-tuples) to belong t

40、o the class of protein coding sequences 如:如:GeneMark、Glimmer 2、其它方法,如其它方法,如Z-curve方法、方法、MED方法方法如:如:ZCURVE 1.0、MED 2.03、结合结合HMM方法与蛋白质相似比较的方法方法与蛋白质相似比较的方法如:如:EasyGene (Larsen and Krogh, 2003) 原核基因预测软件被广泛应用于原核基因组研究,提供了许多原核基因预测软件被广泛应用于原核基因组研究,提供了许多物种的基因组物种的基因组GenBank注释注释基因位点的计算预测。基因位点的计算预测。当前原核基因预测存在的主要

41、问题当前原核基因预测存在的主要问题当前原核基因预测存在的主要问题当前原核基因预测存在的主要问题1、GenBank数据库提供的原核基因注释信息(基因位点、功数据库提供的原核基因注释信息(基因位点、功能等)只有部分经过实验确认,其它部分只有计算预测或未实能等)只有部分经过实验确认,其它部分只有计算预测或未实验证实的注释信息。验证实的注释信息。2、GenBank数据库的注释信息存在系统性的错误,处于不断数据库的注释信息存在系统性的错误,处于不断的修正之中。的修正之中。Pseudo short genesGene starts功能信息的错误功能信息的错误注释众说纷纭(如注释众说纷纭(如H. inf,

42、148 amendments by different authors )3、基因翻译起始位点的精确预测、基因翻译起始位点的精确预测原核基因转录和翻译起始机制的认识原核基因转录和翻译起始机制的认识多样性、复杂性多样性、复杂性4、短基因的预测、短基因的预测短于短于100AA统计模型对短基因刻画的困难统计模型对短基因刻画的困难短基因的生物学意义?(功能、进化历程)短基因的生物学意义?(功能、进化历程)5、高、高GC、高、高AT含量基因组的基因预测含量基因组的基因预测背景背景DNA噪声噪声基因组组分与生物进化的联系基因组组分与生物进化的联系6、原核基因结构的数学模型、原核基因结构的数学模型缺乏综合的

43、理解缺乏综合的理解缺乏良好的模型缺乏良好的模型评评 论论1、与真核生物基因预测的研究相比,原核生物基因预测的研、与真核生物基因预测的研究相比,原核生物基因预测的研究走在更前面究走在更前面2、原核生物基因预测的方法和结果为人类基因组计划和模式、原核生物基因预测的方法和结果为人类基因组计划和模式生物基因组计划做出了很大的贡献,但也带来一定的后果生物基因组计划做出了很大的贡献,但也带来一定的后果3、原核基因的复杂结构还没有真正被了解、原核基因的复杂结构还没有真正被了解4、原核基因的预测还有很多没有解决的问题、原核基因的预测还有很多没有解决的问题6.4原核基因结构的统计模型原核基因结构的统计模型及基因

44、预测新方法及基因预测新方法(2004-2007)基因预测研究的总体思路ModelPredictUnderstand对基因复杂结构信息进行统计分对基因复杂结构信息进行统计分析,并建立合理的数学物理模型析,并建立合理的数学物理模型进行刻画进行刻画( (包括对模型的检验包括对模型的检验) )。根据模型,对新测序的基因组序根据模型,对新测序的基因组序列,有效预测其基因结构。为基列,有效预测其基因结构。为基因组实验研究提供理论指导。因组实验研究提供理论指导。综合实验和理论结果,探索模型综合实验和理论结果,探索模型揭示的生物学意义,深刻理解生揭示的生物学意义,深刻理解生物复杂系统。物复杂系统。两段取自两段

45、取自E.coli (Escherichia coli K-12 MG1655)的的DNA序序列列ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA190255 gene=“thrL” (Amino acid biosynthesis : Threonine)ATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAA3098 non-coding ORF6.4.1 原核基因结构的原核基因结构的EDP模型模型Coding sequence

46、 (Gene “thrL”) ATGAAACGCATTAGCACCACCATTACCACCACCATC M K R I S T T I T T T I ACCATTACCACAGGTAACGGTGCGGGCTGA T I T T G N G A G ZNon-coding sequence ATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATA M S L C G L K K E C L I GCAGCTTCTGAACTGGTTACCTGCCGTGAGTAA A A S E L V T C R E Z DNA序列序列假想翻译序列假想翻译序列遗传密码表遗传密码表i : Inde

47、x of 20 amino acidpi : Frequency of the ith amino acidShannon entropy:EDP: a set of multivariate parametersDNA序列的序列的EDP表现出编码表现出编码/非编码的聚类性。非编码的聚类性。500条基因和条基因和500条非编码条非编码ORF的的EDP距离(取自距离(取自E. coli)ClusteringClusteringClusteringClusteringD_c D_c D_ncD_ncD_ncD_nc D_c D_c当前的原核基因预测算法对基因起始位点的预测精度当前的原核基因预测算法

48、对基因起始位点的预测精度要远远低于基因终止位点的预测精度要远远低于基因终止位点的预测精度Detect a gene as an open reading frame (ORF) just with an open start; 例子例子: 对对E. coli 的的195条实验确认基因的预测水平:条实验确认基因的预测水平:预测软件预测软件终止位点预测精度终止位点预测精度起始、终止位点同时预起始、终止位点同时预测的精度测的精度ORPHEUS (1998)92.8%75.9%GLIMMER 2.02 (1999)100%74.9%MED 1.0 (2004)100%68.2%6.4.2 原核基因结构

49、的原核基因结构的TIS模型模型精确预测基因的重要性:精确预测基因的重要性: 有助于研究基因表达的产物(蛋白质、功能有助于研究基因表达的产物(蛋白质、功能RNA) 有助于认识基因转录和翻译的机制有助于认识基因转录和翻译的机制提高基因翻译起始位点的预测精度是精确预测基因的提高基因翻译起始位点的预测精度是精确预测基因的关键关键原核基因起始位点预测的困难原核基因起始位点预测的困难缺乏用于学习的数据集缺乏用于学习的数据集 具有实验确认起始位点的基因数据远远不够具有实验确认起始位点的基因数据远远不够与基因翻译起始相关的序列特征并不强与基因翻译起始相关的序列特征并不强 翻译起始机制的多样性、复杂性翻译起始机

50、制的多样性、复杂性 序列信号的模糊性序列信号的模糊性基因起始位点(基因起始位点(TIS)预测方法)预测方法 RBSfinder (Salzberg et al., 2001) : inputs an entire genomic sequence and first-pass annotation to train a probabilistic model that scores candidate RBS surrounding previously annotated start codons. GS-finder (Zhang et al., 2004) : Introduced si

51、x recognition variables to describe the consensus signals (e.g., the SD sequences) in the vicinity of gene starts, the coding potential of DNA sequences near the start codon, the start codon itself and the distance from the leftmost start codon to the candidate start codon, respectively. The former

52、four variables were derived based on the Z-curve method, while the latter two variables were given as empirical constants or formulas. MED-Start和和MED-StartPlus(Zhu et al., 2004; Hu et al., 2007) Protein Synthesis in BacteriaProtein Synthesis in BacteriaFigure: Ribosome-binding sites on mRNA can be r

53、ecovered from initiation complexes. They include the upstream Shine-Dalgarno sequence and the initiation codon.(From Gene VIII)构造刻画原核基因构造刻画原核基因TIS的的4元统计模型元统计模型: P1: the correlation between translation terminate site and TIS of genes P2: the sequence content around the start codon P3: the sequence co

54、ntent of the consensus signal related to RBS P4: the correlation between TIS and the upstream consensus signal ATGATGATGATGP P1 1P P2 2P P3 3P P4 4STPSTPCCC TCGAAGC CCC TCGAAGC ATGATGAACAGGAGGATT AACAGGAGGATT AGGATT AGGATT 自学习迭代系统自学习迭代系统MED-Start RBS score for start codon and the most-likely start c

55、odon ATGATGATGATGP P1 1P P2 2P P3 3P P4 4STPSTPCCC TCGAAGC CCC TCGAAGC ATGATGAACAGGAGGATT AACAGGAGGATT AGGATT AGGATT Spacer distribution of the final hit motif with the highest for various prokaryotes.AGGAG for E. coliGGAGG for B. subtillisGAGGT for T. maritimaAAGGA for H. influenzaeAGGTG for M. jan

56、naschiiMED-Start对翻译调控信号特征的刻画对翻译调控信号特征的刻画MED探测到的枯草芽胞杆菌基因组中调控翻译的多个信号探测到的枯草芽胞杆菌基因组中调控翻译的多个信号“GGAGG”、“AAAGG”、“AGGAG”以及它们的位置特异性。以及它们的位置特异性。 RBSfinder (Salsberg et al., 2001) Post-processor for GLIMMER GS-Finder (Zhang Chun-ting et al., 2003) Post-processor for ZCURVE MED-Start (She & Zhu et al., 2004) Po

57、st-processor for MED 1.0张春霆张春霆我国著名生物信息学家,天津大学中国科学院院士、第三世界科学院院士。Steven SalzbergSenior Director of Bioinformatics, The Institute for Genomic Research, Johns Hopkins University, 6.4.3 原核基因的自动预测系统原核基因的自动预测系统1. EDP模型模型刻画刻画ORF序列整体编码性与相似性序列整体编码性与相似性 发展了对高发展了对高GC含量基因组的含量基因组的EDP模型模型2. TIS模型模型刻画基因上游区域的复杂序列特征刻

58、画基因上游区域的复杂序列特征 是基于是基于RBS模型的发展模型的发展 定义基因翻译起始的三种机制定义基因翻译起始的三种机制 刻画基因翻译起始信号的复杂性刻画基因翻译起始信号的复杂性 考虑结构基因群的特征考虑结构基因群的特征 考虑高考虑高GC含量物种基因组的序列特征含量物种基因组的序列特征3. 综合运用综合运用EDP模型、模型、TIS模型,发展了无监督自学模型,发展了无监督自学习的基因预测系统习的基因预测系统MED 2.0Naneq古细菌古细菌真核生物真核生物细菌细菌MED模型参数揭示基因组转录、翻译调控机制随生物模型参数揭示基因组转录、翻译调控机制随生物进化复杂程度的演化进化复杂程度的演化翻译

59、调控信号翻译调控信号翻译调控信号翻译调控信号翻译调控信号翻译调控信号转录调控信号转录调控信号转录调控信号转录调控信号MED方法的特点1.简单简单 自由参数(102个)少于传统的HMM方法,对学习集的依赖性小 HMM:104个自由参数(如:GeneMark系统)2.自学习自学习 迭代自学习,大大少于其它方法的经验参数、预设参数 有利于新测序物种的基因组分析和注释3.有效有效 预测精度达到并部分超过GeneMark、Glimmer等4.生物学意义生物学意义 模型参数具有非常明确的生物学意义,有利于基因组复杂结构信息的深刻理解 “事事实实上上,人人类类基基因因组组计计划划的的巨巨大大成成功功已已经经

60、表表明明,那那些些经经常常用用偏偏微微分分方方程程处处理理连连续续介介质质力力学学问问题题的的传传统统应应用用数数学学家家对对这这一一计计划划所所用用到到的的数数学学方方法法并并不不熟熟悉悉。或或许许我我们们应应该该停停下下来来思思考考一一下下,当当我我们们将将研研究究领领域域扩扩展展到到生生命命科科学学中中去去的的时候,我们期望得到什么样的结果。时候,我们期望得到什么样的结果。”林家翘林家翘应用数学的拓展应用数学的拓展用一篇关于蛋白质分子的结构和用一篇关于蛋白质分子的结构和功能的动理论发展的论文来说明功能的动理论发展的论文来说明(2003年第年第2期期“力学进展力学进展”)感悟和体会感悟和体会

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号