基因结构与基因预测课件

上传人:公**** 文档编号:567717007 上传时间:2024-07-22 格式:PPT 页数:104 大小:1.74MB
返回 下载 相关 举报
基因结构与基因预测课件_第1页
第1页 / 共104页
基因结构与基因预测课件_第2页
第2页 / 共104页
基因结构与基因预测课件_第3页
第3页 / 共104页
基因结构与基因预测课件_第4页
第4页 / 共104页
基因结构与基因预测课件_第5页
第5页 / 共104页
点击查看更多>>
资源描述

《基因结构与基因预测课件》由会员分享,可在线阅读,更多相关《基因结构与基因预测课件(104页珍藏版)》请在金锄头文库上搜索。

1、第六讲第六讲第六讲第六讲基因结构与基因预测基因结构与基因预测基因结构与基因预测基因结构与基因预测基因结构与基因预测课件6.1高等真核生物高等真核生物基因结构与基因预测简介基因结构与基因预测简介基因结构与基因预测课件1 1 基因基因基因基因(gene)(gene)的概念的概念的概念的概念基基因因的的概概念念随随着着科科学学的的发发展展而而不不断断发发展展,迄迄今今为为止止,仍仍有有各各种种说法。说法。Today when we speak of a gene for some malady, a regulatory gene, a structural gene, or a gene freq

2、uency, it is entirely possible that we are deploying different gene concepts even though we are using the same term. M. R. Dietrich,2000从从分分子子生生物物学学的的角角度度而而言言,一一般般认认为为基基因因是是负负载载特特定定生生物物遗遗传传信信息息的的DNA分分子子片片段段,基基因因在在一一定定条条件件下下能能够够表表达达这这种种遗遗传传信信息,产生特定的生命功能。息,产生特定的生命功能。6.1.1 真核生物的基因结构真核生物的基因结构基因结构与基因预测课件

3、2 2 基因的分类基因的分类基因的分类基因的分类按功能分为:按功能分为:(1)、结结构构基基因因(可可被被转转录录形形成成mRNA,并并进进而而翻翻译译成成多多肽肽链,构成各种结构蛋白质、催化各种生化反应的酶和激素等)链,构成各种结构蛋白质、催化各种生化反应的酶和激素等)(2)、调控基因(可调节控制结构基因表达的基因)、调控基因(可调节控制结构基因表达的基因)(3)、只转录而不翻译的基因(如)、只转录而不翻译的基因(如rRNA基因、基因、tRNA基因)基因)基因结构与基因预测课件3 3 人类基因的结构人类基因的结构人类基因的结构人类基因的结构ORF(Open Reading Frame):在在

4、DNA链链上上,由由蛋蛋白白质质合合成成的起始密码开始,到终止密码子为止的一个连续编码序列。的起始密码开始,到终止密码子为止的一个连续编码序列。人类结构基因的结构包括人类结构基因的结构包括4个区域:个区域:(1)、外显子;)、外显子;(2)、内含子;)、内含子;(3)、前前导导区区(位位于于编编码码区区上上游游,相相当当于于mRNA5端端非非编编码码区(非翻译区);区(非翻译区);(4)、调调节节区区(包包括括启启动动子子和和增增强强子子等等基基因因编编码码区区的的两两侧侧,也称为侧翼序列);也称为侧翼序列);基因结构与基因预测课件人类结构基因的结构示意图人类结构基因的结构示意图人类结构基因的

5、结构示意图人类结构基因的结构示意图基因结构与基因预测课件人类结构基因的结构示意图人类结构基因的结构示意图人类结构基因的结构示意图人类结构基因的结构示意图基因结构与基因预测课件Contig 3 of Ch21 (Total length: 3,450,497 Bp)Gene:“TRPC7” (Total length: 62,668 Bp)Coding: 3,345 bp (1,115 AA) 25 Exons: 48354 bpIntergenic regionGeneExonIntron基因结构与基因预测课件(1)、人人类类细细胞胞核核基基因因组组中中编编码码序序列列不不到到2,约约含含3万

6、万左左右右不同的基因,且有近不同的基因,且有近1/3为多拷贝;为多拷贝;(2)、结结构构基基因因大大多多含含有有插插入入序序列列。即即大大部部分分基基因因为为断断裂裂基基因(因(interrupted gene););(3)、外外显显子子(exon)一一般般不不长长于于800bp,内内含含子子(intron)则则在在30bp数十数十kb不等;不等;(4)、mRNA剪剪接接位位点点(Splice sites)的的识识别别信信号号:每每个个外外显显子子和和内内含含子子接接头头区区都都有有一一段段高高度度保保守守序序列列(consensus sequence),即即内内含含子子5端端大大多多数数是是

7、GT(称称为为donor site)开开始始,3端端大大多多数数是是AG(称称为为acceptor site)结束,)结束,称为称为GTAG法则;法则;人类基因组结构的特点人类基因组结构的特点基因结构与基因预测课件(5)、尽尽管管拥拥有有相相同同的的一一套套基基因因组组,不不同同的的分分化化细细胞胞中中所所表表达的基因也不同,每个细胞只表达一部分基因达的基因也不同,每个细胞只表达一部分基因(例如:人脑细胞的基因表达百分比最高,为(例如:人脑细胞的基因表达百分比最高,为22););(6)、转转录录在在细细胞胞核核内内进进行行,翻翻译译在在细细胞胞质质核核糖糖体体中中进进行行,二者在时间空间上是分

8、开的。二者在时间空间上是分开的。基因结构与基因预测课件4 4 假基因假基因假基因假基因假假基基因因:与与功功能能性性基基因因密密切切相相关关的的DNA系系列列,但但由由于于缺缺失失、插插入入和和无无义义突突变变失失去去阅阅读读框框架架而而不不能能编编码码蛋蛋白白质质产产物物。有有些些人人类类假基因可以转录但不能翻译成蛋白质。假基因可以转录但不能翻译成蛋白质。假基因的两种类型:假基因的两种类型:(1)、由由于于一一种种基基因因的的加加倍倍而而不不能能表表达达,但但保保留留原原来来亲亲本本基基因的外显子及内含子;因的外显子及内含子;(2)、仅仅含含有有亲亲本本基基因因的的外外显显子子,源源于于mR

9、NA并并通通过过逆逆转转录录而重新整合进基因组的。而重新整合进基因组的。基因结构与基因预测课件5 5 重复序列重复序列重复序列重复序列超过超过90为重复序列,不编码为重复序列,不编码mRNA前体或其它前体或其它RNA。 (个体间的重复序列有巨大差异(个体间的重复序列有巨大差异 DNA指纹)指纹)重重复复序序列列分分为为3类类:高高度度重重复复序序列列、中中等等重重复复序序列列、低低重重复复序序列。列。目前的一些认识:目前的一些认识:(1)、)、GC含量低,含量低,AT含量高。(含量高。(AT的氢键弱);的氢键弱);(2)、3端端和和5端端有有直直接接重重复复序序列列的的存存在在。有有利利于于形

10、形成成环环状状结结构。构。基因结构与基因预测课件6 6 与转录有关的调控信号与转录有关的调控信号与转录有关的调控信号与转录有关的调控信号(1)、启动子(启动子(promoter)(2)、增强子(增强子(enhancer)(3)、负性调节元件负性调节元件(4)、LCR(Locus control regions)(基因座调控区)(基因座调控区)(5)、转录因子转录因子(6)、与转录终止有关的序列:与转录终止有关的序列:(7)、mRNA的剪接的剪接基因结构与基因预测课件7 7 内含子外显子结构的统计研究内含子外显子结构的统计研究内含子外显子结构的统计研究内含子外显子结构的统计研究10种真核生物的外

11、显子和内含子数目及长度的统计结果比较种真核生物的外显子和内含子数目及长度的统计结果比较(Deutsch & Long,1999)(外显子的长度单位是氨基酸,内含子的长度单位是核苷酸)(外显子的长度单位是氨基酸,内含子的长度单位是核苷酸)平平均均每每个个基基因因包包含含外外显显子子4.1个个, 内内含含子子3.1个个;基基因因中中每每1kb长长的的编编码码蛋蛋白白质质区区域域(也也称称为为CDS,Coding Sequence)平平均均包包含含3.7个内含子个内含子.基因结构与基因预测课件10种真核生物的外显子和内含子长度的统计分布种真核生物的外显子和内含子长度的统计分布(Deutsch & L

12、ong,1999)(外显子长度的单位为氨基酸,内含子长度的单位为核苷酸;图中横坐标表(外显子长度的单位为氨基酸,内含子长度的单位为核苷酸;图中横坐标表示长度,纵坐标表示频率。)示长度,纵坐标表示频率。)外外显显子子长长度度概概率率分分布布曲曲线线的的山山峰峰处处于于3040个个氨氨基基酸酸长长度度的的地地方方,且且山山峰峰比比较较紧紧凑凑,而而内内含含子子的的长长度度则则大大多多数数为为40125个个核核苷苷酸酸,山山峰峰相对平缓。相对平缓。基因结构与基因预测课件人(人(Homo sapiens)的基因组:)的基因组:平平均均每每个个基基因因包包含含内内含含子子4.0个个(最最多多的的是是11

13、6个个),外外显显子子5.0个个,每每1kb的的CDS平平均均含含有有5.3个个内内含含子子,是是这这10种种真真核核生生物物中中内内含含子子数数目目最最多多、长长度度最最大大的的。内内含含子子的的平平均均长长度度为为3413.1bp,其其中中大大多多数数为为75150bp,已已知知最最长长的的内内含含子子要要大大于于100kb。每每1kb的的CDS所所包包含含的的内内含含子子长长度度为为6825bp。同同样样地地,人人类类基基因组外显子长度的概率分布要比内含子的概率分布要紧凑得多。因组外显子长度的概率分布要比内含子的概率分布要紧凑得多。基因结构与基因预测课件人类基因组的外显子和内含子数目及长

14、度的统计结果比较人类基因组的外显子和内含子数目及长度的统计结果比较(Deutsch & Long,1999)(外显子的长度单位是氨基酸,内含子的长度单位是核苷酸)(外显子的长度单位是氨基酸,内含子的长度单位是核苷酸)基因结构与基因预测课件人类基因组外显子和内含子长度的统计分布图人类基因组外显子和内含子长度的统计分布图(Deutsch & Long,1999)(外显子长度的单位为氨基酸,内含子长度的单位为核苷酸;图中横坐标表(外显子长度的单位为氨基酸,内含子长度的单位为核苷酸;图中横坐标表示长度,纵坐标表示频率。)示长度,纵坐标表示频率。)同同样样地地,人人类类基基因因组组外外显显子子长长度度的

15、的概概率率分分布布要要比比内内含含子子的的概率分布要紧凑得多。概率分布要紧凑得多。基因结构与基因预测课件基基因因预预测测:早早期期指指预预测测DNA序序列列中中编编码码蛋蛋白白质质的的部部分分,即即外外显显子子部部分分;现现在在指指整整个个基基因因结结构构的的预预测测,综综合合各各种种外外显显子子预预测测的算法及对基因结构信号的认识,预测出可能的完整基因。的算法及对基因结构信号的认识,预测出可能的完整基因。基因预测(基因预测(Gene Prediction)基因识别(基因识别(Gene Identification)基因寻找(基因寻找(Gene Finding)基因注释(基因注释(Gene A

16、nnotation)Computational Gene Identification、 Computational Gene Prediction(基基因因注注释释:描描述述基基因因组组,并并通通过过计计算算分分析析,辅辅以以生生物物数数据据库库和和生生物物学学知知识,将原始的基因组序列数据转换成有用的生物学信息。)识,将原始的基因组序列数据转换成有用的生物学信息。)6.1.2 真核基因预测研究概况真核基因预测研究概况基因结构与基因预测课件基因预测的主要目的基因预测的主要目的抓住如下特征:抓住如下特征:(1)、编码蛋白质基因的区域信息;)、编码蛋白质基因的区域信息;(2)、编编码码蛋蛋白白质

17、质基基因因的的结结构构信信息息(包包括括非非翻翻译译区区和和调调控元,以及所有与转录有关的外显子、内含子);控元,以及所有与转录有关的外显子、内含子);(3)、每每一一转转录录所所对对应应的的所所有有可可能能翻翻译译成成蛋蛋白白质质产产物物的的翻译;翻译;(4)、重复序列的区域及其特征;)、重复序列的区域及其特征;(5)、编码非编码)、编码非编码RNA的基因的区域。的基因的区域。基因结构与基因预测课件基因预测的主要内容基因预测的主要内容启动子的识别启动子的识别翻译起始位点的识别翻译起始位点的识别剪接位点的识别剪接位点的识别多腺苷化信号的识别多腺苷化信号的识别蛋白编码区的识别蛋白编码区的识别内含

18、子的识别内含子的识别基因结构与基因预测课件Burset和和Guigo(1996)分三个层次来评估:编码核苷酸、外显子结构、蛋白质产物分三个层次来评估:编码核苷酸、外显子结构、蛋白质产物。(1)从编码核苷酸的水平)从编码核苷酸的水平指指对对于于每每个个单单个个的的核核苷苷酸酸,将将预预测测的的状状态态与与其其真真正正的的状状态态相相比比较,进而考察预测的效果。较,进而考察预测的效果。1、基因预测效果的评估、基因预测效果的评估基因结构与基因预测课件TP(true positive):实实际际编编码码区区的的核核酸酸中中被被成成功功预预测测的的核核酸酸数目;数目;TN(true negative):

19、实实际际非非编编码码区区的的核核酸酸中中被被成成功功预预测测的的核核酸数目;酸数目;FN(false negative):实实际际编编码码区区的的核核酸酸中中被被误误测测为为非非编编码码的的核酸数目;核酸数目;FP(false positive):实实际际非非编编码码区区的的核核酸酸中中被被误误测测为为编编码码的的核酸数目。核酸数目。TPTNFNFPREALITYcodingnoncodingcodingnoncodingPREDICTIONTP+FNFP+TNTP+FPFN+TN基因结构与基因预测课件基于基于TP、TN、FP、FN,主要引进四个参数:,主要引进四个参数:Sn、Sp、CC、AC

20、。敏感性(敏感性(sensitivity,Sn):):特异性(特异性(specificity,Sp):):Sn:实际编码区核酸序列中被成功预测的比例;:实际编码区核酸序列中被成功预测的比例;Sp:预测为编码核酸序列中被成功预测的比例。:预测为编码核酸序列中被成功预测的比例。条件概率:条件概率:x:某某个个核核酸酸的的状状态态(即即编编码码或或非非编编码码),F(x):该该核核酸酸被被预预测测的的状状态态,c:编码状态,:编码状态,n:非编码状态:非编码状态基因结构与基因预测课件相相关关系系数数CC(Correlation Coefficient):更更全全面面地地衡衡量量基基因因预测的效果预测

21、的效果CC:取取值值范范围围-1,1,不不仅仅包包含含P(F(x)=c|x=c)和和P(x=c|F(x)=c)的的信信息息,而而且且也也包包含含了了P(F(x)=n|x=n)和和P(x=n|F(x)=n)的的信信息息。缺缺陷陷:不不允允许许分分母母中中TP+FN、TN+FP、TP+FP和和TN+FN中任何一项为零。中任何一项为零。 近近似似相相关关AC(Approximation Correlation):来来作作为为评评估估基基因预测的效果因预测的效果AC:对对P(F(x)=c|x=c)、P(x=c|F(x)=c)、 P(F(x)=n|x=n)和和P(x=n|F(x)=n)四四种种条件概率的

22、等权平均,取值范围条件概率的等权平均,取值范围-1,1 。|AC|=|CC|基因结构与基因预测课件(2)从外显子结构的水平)从外显子结构的水平沿沿着着DNA序序列列链链,对对预预测测出出的的外外显显子子结结构构与与实实际际的的外外显显子子结结构进行比较。构进行比较。(比比较较的的标标准准尚尚未未统统一一,但但目目前前用用得得较较多多的的比比较较标标准准是是:只只有有当当预预测测的的外外显显子子结结构构与与实实际际的的外外显显子子结结构构完完全全吻吻合合(包包括括剪剪接接位位点点的的信信息息),才才认认为为预预测是成功的。测是成功的。)外外显显子子预预测测的的评评估估同同样样可可以以引引进进敏敏

23、感感性性(Sn)和和特特异异性性(Sp)两个参数:两个参数:Sn:DNA链上实际的外显子中被成功预测到的比例;链上实际的外显子中被成功预测到的比例;Sp:DNA链上被预测为外显子中被成功预测到的比例。链上被预测为外显子中被成功预测到的比例。基因结构与基因预测课件引入引入ME(Missing Exons)和和WE(Wrong Exons)ME:实实际际的的外外显显子子中中完完全全没没有有预预测测到到(即即二二者者没没有有重重叠叠的的部部分)的比例;分)的比例;WE:所预测的外显子中完全没有预测到的比例。:所预测的外显子中完全没有预测到的比例。基因结构与基因预测课件(3)从蛋白质产物的水平)从蛋白

24、质产物的水平将将预预测测的的基基因因所所编编码码的的蛋蛋白白质质产产物物与与实实际际的的基基因因编编码码的的蛋蛋白白质质产物作比较。产物作比较。预预测测结结果果的的评评估估目目前前尚尚无无公公认认的的统统一一标标准准。有有的的标标准准是是考考察察被被准准确确预预测测到到的的氨氨基基酸酸序序列列的的比比例例,以以及及被被错错误误预预测测的的氨氨基基酸酸比比例。例。基因结构与基因预测课件基于内容检测的方法基于内容检测的方法(search by content或或content sensors)基于信号检测的方法基于信号检测的方法(search by signal或或signal sensors)

25、基于相似性比较的方法基于相似性比较的方法(search by similarity comparison)2、基因预测方法简介、基因预测方法简介基因结构与基因预测课件基于内容检测的方法基于内容检测的方法原原理理:DNA序序列列中中的的编编码码蛋蛋白白质质区区域域的的字字符符的的上上下下文文特特征征与与非编码的区域是有区别的。非编码的区域是有区别的。由由于于蛋蛋白白质质产产物物对对氨氨基基酸酸和和同同义义密密码码子子的的选选择择的的偏偏倚倚性性,因因此此也也决决定定了了编编码码区区序序列列的的核核苷苷酸酸组组成成的的特特性性,如如周周期期性性(periodicities)、短短程程相相关关性性(

26、short-range correlations)、寡核苷酸(寡核苷酸(oligonucleatide)使用的偏倚性等。)使用的偏倚性等。基因结构与基因预测课件基于内容检测的方法基于内容检测的方法信信号号检检测测的的方方法法就就是是根根据据人人们们目目前前对对基基因因组组结结构构的的一一些些相相关关的的位点信号的认识来识别基因。位点信号的认识来识别基因。这这些些信信号号包包括括剪剪接接信信号号、起起始始密密码码子子信信号号、终终止止密密码码子子信信号号、启动子信号启动子信号、转录终止信号转录终止信号、分支点分支点(branch point)等。)等。 基因结构与基因预测课件对对于于真真核核生生

27、物物的的基基因因识识别别,目目前前应应用用比比较较广广泛泛的的软软件件一一般般都都是是结合上述两种方法来设计结合上述两种方法来设计 。除除上上述述两两类类方方法法外外,还还有有的的方方法法结结合合了了序序列列相相似似性性数数据据库库搜搜寻寻(sequence similarity searches)技技术术,即即对对已已知知序序列列数数据据库库的的相似性比较。相似性比较。 基因结构与基因预测课件常用算法常用算法常用算法常用算法(1)长长ORF方法方法 在在低低等等生生物物(细细菌菌)基基因因组组中中,蛋蛋白白质质编编码码的的基基因因是是从从起起始始密密码码ATG开开始始,到到终终止止密密码码平

28、平均均有有1000bp,而而长长于于300bp的的ORF平平均均每每36kb才才出出现现一一次次。因因此此,只只要要找找出出序序列列中中最最长长的的ORF(300bp)就就能能相相当当准准确确地地预预测测出出基基因因。只只对对基基因因结结构构比较简单的生物基因组有效;(比较简单的生物基因组有效;(Claverie,1997)(2)词汇统计算法词汇统计算法 对对核核苷苷酸酸序序列列(Nucleotide Words)中中词词汇汇选选用用频频率率的的统统计计研研究究。由由于于序序列列中中的的编编码码部部分分与与非非编编码码部部分分在在核核苷苷酸酸、密密码码子子的的选选用用、周周期期特特性性等等存存

29、在在差差异异性性,因因此此可可以以用用来来区区别别编编码码 区区 和和 非非 编编 码码 区区 ; ( Claverie & Bougueleret, 1986;Bechmann, 1986基因结构与基因预测课件(3)同源比较算法同源比较算法将将未未知知序序列列通通过过对对已已知知EST (Expressed Sequence Tag,表表达达序序列列标标签签)数数据据库库的的相相似似性性比比较较,也也可可以以比比较较有有效效地地找找到到基基因因。许许多多有有名名的的基基因因预预测测软软件件(如如GRAIL )都都已已结结合合了了同同源比较算法;(源比较算法;(Claverie,1993;Gr

30、een,1993)基因结构与基因预测课件(4)HMM(Hidden Markov Model)算法)算法 将将核核苷苷酸酸序序列列看看成成一一个个随随机机序序列列,DNA序序列列的的编编码码部部分分与与非非编编码码部部分分在在核核苷苷酸酸的的选选用用频频率率上上对对应应着着不不同同的的Markov模模型型。由由于于这这些些Markov模模型型的的统统计计规规律律是是未未知知的的,而而HMM能能够够自自动动寻寻找找出出它它们们隐隐藏藏的的统统计计规规律律。对对于于高高等等生生物物这这样样复复杂杂的的DNA序列,序列,HMM必须学习不同的基因结构的信号。必须学习不同的基因结构的信号。典型的基于典型

31、的基于HMM的基因预测系统的基因预测系统VEIL (John Hopkins University)HMMgene (Technical University of Denmark)GeneMark.hmm (Georgia Institute of Tech)Genie (UC Santa Cruz & UC Berkeley)GENSCAN (Stanford)基因结构与基因预测课件GenScan的的HMM模型模型基因结构与基因预测课件GENSCAN对某个基因的预测结果示意图:对某个基因的预测结果示意图:基因结构与基因预测课件常见的常见的HMM模型模型基因结构与基因预测课件(5)动态规划算

32、法(动态规划算法(Dynamic Programming) 将将预预测测出出的的各各个个可可能能的的外外显显子子和和内内含含子子进进行行拼拼接接,组组成成完完整整的的基基因因。并并对对各各种种可可能能的的拼拼接接进进行行计计分分,从从而而得得出出最最可可能能的的基因结构;(基因结构;(Gelfang & Roytberg,1993)(6)法则系统(法则系统(Rule-based System)算法)算法(Guigo,1992)(7)语言学方法(语言学方法(Linguistic)(Dong & Searls,1994););(8)人工神经网络方法(人工神经网络方法(ANN)(9)LDA方方法法(

33、Linear Discriminate Analysis)(Fickett & Tung,1992););(10)决策树(决策树(Decision Tree)算法)算法(Salzberg,1995););(11)Fourier分析分析(Tiwari,1997)。)。 基因结构与基因预测课件常用真核基因预测软件常用真核基因预测软件(1)、)、FGENEH作者:作者:Solovyev等,等,1995所用算法:所用算法:LDA(Linear Discriminant Analysis)方法)方法(2)、)、GeneID作者:作者:Guigo等,等,1992所用算法:法则系统(所用算法:法则系统(Ru

34、le-based System)算法)算法(3)、)、GeneParser作者:作者:Snyder和和Stormo,1993所用算法:动态规划算法(所用算法:动态规划算法(Dynamic Programming)(4)、)、Genie作者:作者:Henderson等,等,1997所所用用算算法法:广广义义隐隐Markov模模型型(Generalized Hidden Markov Model)方方法、动态规划算法法、动态规划算法(5)、)、GenLang作者:作者:Dong和和Searls,1994所用算法:语言学方法(所用算法:语言学方法(Linguistic)基因结构与基因预测课件(6)、

35、)、GENESCAN作者:作者:Burge和和Karlin,1997所用算法:隐所用算法:隐Markov模型(模型(Hidden Markov Model)方法、动态规划算法)方法、动态规划算法(7)、)、HEXON作者:作者:Solovyev等,等,1994所用算法:所用算法:LDA(Linear Discriminant Analysis)方法、动态规划算法)方法、动态规划算法(8)、)、VEIL作者:作者:Krogh等,等,1994所用算法:隐所用算法:隐Markov模型(模型(Hidden Markov Model)方法、动态规划算法)方法、动态规划算法 基因结构与基因预测课件目前常用

36、软件的基因预测结果评估(目前常用软件的基因预测结果评估(Claverie,1997) 基因结构与基因预测课件目前常用软件的基因预测结果评估(目前常用软件的基因预测结果评估(Rogic等,等,2001)基因结构与基因预测课件目目前前的的各各种种算算法法还还存存在在许许多多缺缺陷陷需需进进一一步步改改进进,主主要要表表现现在在以下两点:以下两点:(1)、这这些些算算法法对对基基因因中中的的非非编编码码区区(即即内内含含子子)和和基基因因间间的的序序列列不不加加任任何何区区别别,所所以以预预测测出出的的基基因因是是不不完完全全的的,而而对对5和和3非翻译区(非翻译区(UTR)的预测基本上还是空白;)

37、的预测基本上还是空白;(2)、这这些些算算法法的的学学习习依依赖赖性性较较强强。如如同同源源比比较较算算法法是是完完全全依依赖赖于于已已知知的的基基因因序序列列,而而HMM之之类类的的算算法法都都需需要要对对已已知知的的基因结构信号进行学习或训练。基因结构信号进行学习或训练。 基因结构与基因预测课件6.2原核基因预测方法简介原核基因预测方法简介基因结构与基因预测课件原核生物基因组结构的特点原核生物基因组结构的特点原核生物基因组结构的特点原核生物基因组结构的特点1、原核生物基因组一般比真核生物基因组小、原核生物基因组一般比真核生物基因组小得多得多 E. coli的基因组的基因组(4.6Mb)约为

38、酵母基因组约为酵母基因组(12.1Mb)的的2/52、绝大部分原核生物基因组由一个单一的环、绝大部分原核生物基因组由一个单一的环状状DNA分子组成分子组成3、原核生物的基因通常比真核生物的少、原核生物的基因通常比真核生物的少E. coli:4000多个基因,人:多个基因,人:30000个个4、原核生物的基因绝大多数是连续基因,不、原核生物的基因绝大多数是连续基因,不含间隔的内含子;基因组结构紧密,重复序列含间隔的内含子;基因组结构紧密,重复序列远少于真核生物的基因组。远少于真核生物的基因组。基因结构与基因预测课件原核生物基因组的操纵子与基因群结构原核生物基因组的操纵子与基因群结构基因结构与基因

39、预测课件原核生物的基因结构原核生物的基因结构STOPSTOPATGATGATGATGCCC TCGAAGC CCC TCGAAGC ATGATGTranscriptionInitiation MotifCoding ORFTranslationInitiation MotifUpstream region基因结构与基因预测课件Texts from coding/noncoding regions in DNA sequenceGTGAGGGATCGTGGGCATATTTCACAAACTTACTTTTAAAACCATACAACGAAGAAGCGGCCATAATGAACGACTCTTTACAGAA

40、TACGGATCTCATTTCACACTTCTCACATCCATTTTAGTTGGAAACACATGAAAGTGAGACCATCAGTTAAACCAATCTGCGAAAAATGTAAAGTTATTTCGCAGAAAAGGAAAAGTAATGGTGATCTGTGAAAATCCAAAGCATAAACAAAAACAAGGATAAGGTTATATAA ATGAAAAGATTTCTGATTGGCGCAGGCGTCGCAGCGGTGATTTTATCAGGTTTGGTTTATTGCGGACCATCAAACCCACTCACAGGAAATGAAAGTCGCTGAGAAAATGATTGGATAAGAGATTATT

41、G ATGAAAATCAGCCGGATTCTATTGGCAGCAGTGATTTTAAGTAGTGTATTTTTCAATAACTTATTTGCAAAGTGATCATAATACTGAAATTAAAGTTGCTGCAGATCGGGTAGGGGCATAGGTGAGTTTGTATGAAATTGAAGTCTAAACTATTACTCTCTTGTCTGGCTCTAAGCACTGTGGTTCGTGGCAACAACTATTGCAAATGCACCTACACACCAAATTGAAGTTGCACAACGAGGAATGATTTAAAGCCCTCTCGATGGAAAAGATCCCTTGCTTCGCGGAGGAATTGATT

42、ATAGGCCTCTCTATCCTGGGGCCGCAAATATTCAAAGTCGAAATGAATGTCACGGAAGCCATATCTTCTGGCATTCTCGACTAGCACGGGACATATGATGGCTTGCAGGTCTTTTAAAGAGACAGCGGCGGTTTGTGACAAGTCAATCAGAAATCCTTCACCCGAGCGCTGCCGGCTGTTCATTTTCCGAAATGCTTCTATGTCTTTTTCATTCTGACGCCTGAAATATGGTCCGCGTGAAGATGTGTATCAAATACGTGAGTAATCGTTGCACCCTTCCCCTTCGCAAAATCTATAAAG

43、AAATTCACCATACGTGTCGCATCAATAATTGCTGCTTCACCATTTGAAAAGCCAAAAATGATCGACACAGCTATGAAATCGGAGAAGAAATCATGCTTCCGAGTGAAACACGCATGGGCAGAAGGGCCAGCTTTTTTGATTTTTTTAAACTGCGCCCTTTCAAAATGGGGATTTTGATATATGTAAT ATGTATGAATTCTTGATTGATGATCGTATCATCAGTTATTTCAATTGCCTCAACGTCAAACTCTTGTTGCAGCGCTTTGACAAACCTTTTTACATTTCCTGTTTTACTCTCA

44、TATGTAATTAACAATGTCCCTATGAAAATACTGCCCTCTGTCCCGATCACCTCCGCCCGGATGTCATGTCCGTATGGAGAGGTTCTGCTTGCCTCGACGTCCCCCGCTGCGCCCGAGTCAAATTCAATATACGTCAGCTGAStart codonStop codonATGGTGTTGTAATAGTGAProtein coding genesNoncoding sequences基因结构与基因预测课件原核生物基因组的研究意义原核生物基因组的研究意义原核生物基因组的研究意义原核生物基因组的研究意义1、揭示生命揭示生命揭示生命揭示生命活动的基

45、本规活动的基本规活动的基本规活动的基本规律律律律导致现导致现代分子遗传学代分子遗传学的许多重大发的许多重大发现现染色体、染色体、DNA双螺旋、遗传双螺旋、遗传密码、密码、DNA复复制、中心法则制、中心法则基因结构与基因预测课件原核生物基因组的研究意义原核生物基因组的研究意义原核生物基因组的研究意义原核生物基因组的研究意义2、揭示生命起源与进化的奥秘揭示生命起源与进化的奥秘揭示生命起源与进化的奥秘揭示生命起源与进化的奥秘基因结构与基因预测课件2、进行分子遗传学的良好材料进行分子遗传学的良好材料进行分子遗传学的良好材料进行分子遗传学的良好材料3、在农业、工业和生物制药工程上的应用十分广泛在农业、工

46、业和生物制药工程上的应用十分广泛在农业、工业和生物制药工程上的应用十分广泛在农业、工业和生物制药工程上的应用十分广泛作为微生物基因工程的反应器,直接运用于干扰素、人胰岛素、作为微生物基因工程的反应器,直接运用于干扰素、人胰岛素、生长激素、乙型肝炎疫苗等现代基因工程产品的生产。生长激素、乙型肝炎疫苗等现代基因工程产品的生产。 基因结构与基因预测课件原核生物基因组研究的主要方法原核生物基因组研究的主要方法原核生物基因组研究的主要方法原核生物基因组研究的主要方法1、原核基因组的测序、原核基因组的测序 获得所研究生物的全基因组获得所研究生物的全基因组DNA序列序列 测序方法:链终止法。测序方法:链终止

47、法。 一次测序反映只能测几百个碱基对。一次测序反映只能测几百个碱基对。 序列的拼接方法。序列的拼接方法。2、原核基因组的序列解读、原核基因组的序列解读 通过结合计算机分析、试验验证等手段,初步定位基因及通过结合计算机分析、试验验证等手段,初步定位基因及其调控区并阐明基因的功能。其调控区并阐明基因的功能。 发展原核基因组的基因识别算法是基因组的计算机分析的发展原核基因组的基因识别算法是基因组的计算机分析的重要目标。重要目标。基因结构与基因预测课件当前著名的原核基因预测软件当前著名的原核基因预测软件当前著名的原核基因预测软件当前著名的原核基因预测软件1、GeneMark系列软件(包括最新版本系列软

48、件(包括最新版本GeneMarkS) Borodovsky等,等,19932001Besemer, J., Lomsadze, A. and Borodovsky, M. (2001) GeneMarkS: a self-training method for prediction of gene starts in microbial genomes. Implications for finding sequence motifs in regulatory regions. Nucleic Acids Res., 29: 2607-2618. 2、Glimmer 2.02 (Salzbe

49、rg等,等,1999)Delcher, A. L., Harmon, D., Kasif, S., White, O., and Salzberg, S. L. (1999) Improved microbial gene identification with GLIMMER. Nucleic Acids Res., 27, 4636-4641原核基因预测算法的研究现状原核基因预测算法的研究现状基因结构与基因预测课件3、ZCURVE 1.0 张春霆等张春霆等, 1991-2003基因结构与基因预测课件其它:如其它:如 EasyGene (Larsen and Krogh, 2003) ORP

50、HUS (Frishman et al., 1998)基因结构与基因预测课件基本方法基本方法基本方法基本方法1、Markov模型方法模型方法: 用非均匀用非均匀Markov模型刻画模型刻画DNA序列序列give an estimate of the probability for a local segment (such as a k-tuples) to belong to the class of protein coding sequences 如:如:GeneMark、Glimmer 2.02 2、其它方法,如、其它方法,如Z-curve方法方法如:如:ZCURVE 1.03、结合、

51、结合HMM方法与蛋白质相似比较的方法方法与蛋白质相似比较的方法如:如:EasyGene (Larsen and Krogh, 2003) 原核基因预测软件被广泛应用于原核基因组研究,提供了许多原核基因预测软件被广泛应用于原核基因组研究,提供了许多物种的基因组物种的基因组GenBank注释注释基因位点的计算预测。基因位点的计算预测。基因结构与基因预测课件当前原核基因预测存在的主要问题当前原核基因预测存在的主要问题当前原核基因预测存在的主要问题当前原核基因预测存在的主要问题1、GenBank数据库提供的原核基因注释信息(基因位点、功数据库提供的原核基因注释信息(基因位点、功能等)只有部分经过实验确

52、认,其它部分只有计算预测或未实能等)只有部分经过实验确认,其它部分只有计算预测或未实验证实的注释信息。验证实的注释信息。2、GenBank数据库的注释信息存在系统性的错误,处于不断数据库的注释信息存在系统性的错误,处于不断的修正之中。的修正之中。Pseudo short genesGene starts功能信息的错误功能信息的错误注释众说纷纭(如注释众说纷纭(如H. inf, 148 amendments by different authors )基因结构与基因预测课件3、基因翻译起始位点的精确预测、基因翻译起始位点的精确预测原核基因转录和翻译起始机制的认识原核基因转录和翻译起始机制的认识多

53、样性、复杂性多样性、复杂性4、短基因的预测、短基因的预测短于短于100AA统计模型对短基因刻画的困难统计模型对短基因刻画的困难短基因的生物学意义?(功能、进化历程)短基因的生物学意义?(功能、进化历程)5、原核基因结构的数学模型、原核基因结构的数学模型缺乏综合的理解缺乏综合的理解缺乏良好的模型缺乏良好的模型基因结构与基因预测课件评评 论论1、与真核生物基因预测的研究相比,原核生物基因预测的研、与真核生物基因预测的研究相比,原核生物基因预测的研究走在更前面究走在更前面2、原核生物基因预测的方法和结果为人类基因组计划和模式、原核生物基因预测的方法和结果为人类基因组计划和模式生物基因组计划做出了很大

54、的贡献,但也带来一定的后果生物基因组计划做出了很大的贡献,但也带来一定的后果3、原核基因的复杂结构还没有真正被了解、原核基因的复杂结构还没有真正被了解4、原核基因的预测还有很多没有解决的问题、原核基因的预测还有很多没有解决的问题基因结构与基因预测课件6.3原核基因结构的统计模型原核基因结构的统计模型及基因预测新方法及基因预测新方法(2004-2006)基因结构与基因预测课件基因预测研究的总体思路ModelPredictUnderstand对基因复杂结构信息进行统计分对基因复杂结构信息进行统计分析,并建立合理的数学物理模型析,并建立合理的数学物理模型进行刻画进行刻画( (包括对模型的检验包括对模

55、型的检验) )。根据模型,对新测序的基因组序根据模型,对新测序的基因组序列,有效预测其基因结构。为基列,有效预测其基因结构。为基因组实验研究提供理论指导。因组实验研究提供理论指导。综合实验和理论结果,探索模型综合实验和理论结果,探索模型揭示的生物学意义,深刻理解生揭示的生物学意义,深刻理解生物复杂系统。物复杂系统。基因结构与基因预测课件基因结构与基因预测课件两段取自两段取自E.coli (Escherichia coli K-12 MG1655)的的DNA序列序列ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA

56、190255 gene=“thrL” (Amino acid biosynthesis : Threonine)ATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAA3098 non-coding ORF6.3.1 原核基因结构的原核基因结构的EDP模型模型基因结构与基因预测课件取自取自E. coli的两段的两段ORF的假想氨基酸序列:的假想氨基酸序列:Coding sequence (Gene “thrL”) ATGAAACGCATTAGCACCACCATTACCACCACCATC M K R I S T T

57、 I T T T I ACCATTACCACAGGTAACGGTGCGGGCTGA T I T T G N G A G ZNon-coding sequence ATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATA M S L C G L K K E C L I GCAGCTTCTGAACTGGTTACCTGCCGTGAGTAA A A S E L V T C R E Z DNA序列序列假想翻译序列假想翻译序列遗传密码表遗传密码表基因结构与基因预测课件基于一段基于一段DNA序列的假想氨基酸序列,引入它的熵密度分布序列的假想氨基酸序列,引入它的熵密度分布(Entropy De

58、nsity Profile, EDP) Si :i : Index of 20 amino acidpi : Frequency of the ith amino acidShannon entropy:对于任一有限长的对于任一有限长的DNA序列,都可得到它的序列,都可得到它的EDP Si ,对,对应于应于20维相空间上唯一的一点。维相空间上唯一的一点。EDP: a set of multivariate parameters基因结构与基因预测课件DNA序列的序列的EDP表现出编码表现出编码/非编码的聚类性。非编码的聚类性。基因结构与基因预测课件在在EDP的相空间上定义欧氏距离来刻画两类的相空

59、间上定义欧氏距离来刻画两类DNA序列(编序列(编码、非编码)的编码性:码、非编码)的编码性:也可定义相对熵距离:也可定义相对熵距离:基因结构与基因预测课件500条基因和条基因和500条非编码条非编码ORF的的EDP距离(取自距离(取自E. coli)基因结构与基因预测课件基于基于基于基于EDPEDP思想的基因识别算法思想的基因识别算法思想的基因识别算法思想的基因识别算法 原核生物编码原核生物编码ORF与非编码与非编码ORF的平均的平均EDP在相空间在相空间上的普适性上的普适性 构造具有普适性的编码、非编码构造具有普适性的编码、非编码EDP中中心;心; 基于普适的编码与非编码基于普适的编码与非编

60、码EDP中心,得到该基因组的中心,得到该基因组的编码与非编码编码与非编码ORF中心;中心; 设计迭代算法,求得该基因组的编码、非编码设计迭代算法,求得该基因组的编码、非编码“根根”序列(序列(root ORFs);); 根据根据root ORFs,识别所有,识别所有ORF的编码性。的编码性。基因结构与基因预测课件EDP gene finding algorithmClusteringClusteringClusteringClusteringD_c D_ncD_c D_ncD_nc D_cD_nc D_c基因结构与基因预测课件EDPEDP模型的评论模型的评论模型的评论模型的评论 描述描述ORF

61、序列的整体特性,是序列编码性与相似性的序列的整体特性,是序列编码性与相似性的统一统一 难以实现对序列局部功能信号的刻画难以实现对序列局部功能信号的刻画 作为基因预测算法,有局限性:作为基因预测算法,有局限性: 基因起始位点的预测精度较差基因起始位点的预测精度较差 短基因的预测精度较差短基因的预测精度较差基因结构与基因预测课件当前的原核基因预测算法对基因起始位点的预测精度当前的原核基因预测算法对基因起始位点的预测精度要远远低于基因终止位点的预测精度要远远低于基因终止位点的预测精度Detect a gene as an open reading frame (ORF) just with an o

62、pen start; 例子例子: 对对E. coli 的的195条实验确认基因的预测水平:条实验确认基因的预测水平:预测软件预测软件终止位点预测精度终止位点预测精度起始、终止位点同时预起始、终止位点同时预测的精度测的精度ORPHEUS (1998)92.8%75.9%GLIMMER 2.02 (1999)100%74.9%MED 1.0 (2004)100%68.2%6.3.2 原核基因结构的原核基因结构的RBS模型模型基因结构与基因预测课件精确预测基因的重要性:精确预测基因的重要性: 有助于研究基因表达的产物(蛋白质、功能有助于研究基因表达的产物(蛋白质、功能RNA) 有助于认识基因转录和翻

63、译的机制有助于认识基因转录和翻译的机制提高基因翻译起始位点的预测精度是精确预测基因的提高基因翻译起始位点的预测精度是精确预测基因的关键关键基因结构与基因预测课件原核基因起始位点预测的困难原核基因起始位点预测的困难缺乏用于学习的数据集缺乏用于学习的数据集 具有实验确认起始位点的基因数据远远不够具有实验确认起始位点的基因数据远远不够与基因翻译起始相关的序列特征并不强与基因翻译起始相关的序列特征并不强 翻译起始机制的多样性、复杂性翻译起始机制的多样性、复杂性 序列信号的模糊性序列信号的模糊性基因结构与基因预测课件基因起始位点(基因起始位点(TIS)预测方法)预测方法 RBSfinder (Salzb

64、erg et al., 2001) : inputs an entire genomic sequence and first-pass annotation to train a probabilistic model that scores candidate RBS surrounding previously annotated start codons. 基因结构与基因预测课件 GS-finder (Zhang et al., 2004) : Introduced six recognition variables to describe the consensus signals

65、(e.g., the SD sequences) in the vicinity of gene starts, the coding potential of DNA sequences near the start codon, the start codon itself and the distance from the leftmost start codon to the candidate start codon, respectively. The former four variables were derived based on the Z-curve method, w

66、hile the latter two variables were given as empirical constants or formulas. 基因结构与基因预测课件MED-Start: Accuracy Improvement for Identifying TIS in Microbial Genomes(Zhu et al., 2004) 基因结构与基因预测课件Protein Synthesis in BacteriaProtein Synthesis in BacteriaFigure: Ribosome-binding sites on mRNA can be recove

67、red from initiation complexes. They include the upstream Shine-Dalgarno sequence and the initiation codon.(From Gene VIII)基因结构与基因预测课件构造刻画原核基因构造刻画原核基因TIS的的4元统计模型元统计模型: P1: the correlation between translation terminate site and TIS of genes P2: the sequence content around the start codon P3: the seque

68、nce content of the consensus signal related to RBS P4: the correlation between TIS and the upstream consensus signal ATGATGATGATGP P1 1P P2 2P P3 3P P4 4STPSTPCCC TCGAAGC CCC TCGAAGC ATGATGAACAGGAGGATT AACAGGAGGATT AGGATT AGGATT 基因结构与基因预测课件自学习迭代系统自学习迭代系统MED-Start基因结构与基因预测课件MED-Start算法的实现算法的实现(1). Fi

69、nding candidate motifs in upstream regions of predicted coding ORFs Motif (l, d): Motif: a sub-sequence that is well preserved over several sequences, and the occurrences of the motif in those sequences are called instances. The motifs in DNA or protein sequences may indicate functional connections,

70、 such as the transcription factor binding sites in non-coding regions of genes, as well as RBS in prokaryotes. We use the term, (l, d) motif, to refer to the situation where a consensus string of length l, without wildcards, and the instances must differ in at most d positions from the consensus.基因结

71、构与基因预测课件 Assume that the SD signal should be found in the upstream region of the leftmost start codons The SD signal tends to be a preserved feature in the upstream regions of bacterial gene starts Most of the start codons of the longest ORF are real gene starts. Reliable data set EcoGene dataset Li

72、nk dataset Bsub1248Number of genes 8541951248Number of genes with 5-most start codons 537 (62.9%)133 (68.2%)786 (63.0%)Table: Numbers of genes whose starts are leftmost start codon for a set of reliable data 基因结构与基因预测课件We first search for (l, d) string within L bps upstream of the start codon of the

73、 longest ORF in the original annotation (the default values are l=5, d=0, L=20) In order to remove many false positive cases, the initial search is restricted to ORFs longer than 300bp. For instance, a (5, 0) string is a word of 5 alphabets with zero variation that appears in many sequences within 2

74、0 bp upstream of the start codons. We select several strings with the highest frequency of occurrence as the candidate motifs. In the next iteration step, the search for candidate motifs will be conducted within L bps upstream regions of the adjusted start sites that may not be the start codon of th

75、e longest ORFs. The training sequences, i.e. L bps long upstream regions of start sites of all the training ORFs are updated constantly until the iteration reaches convergence. 基因结构与基因预测课件(2). Determining hit motifs and their alignment weight matrix For each candidate motif, search for its (l, 1) in

76、stances. They are regarded as candidates for SD signal-like substring. Calculate the distribution of the location of the occurred instance to the start codon, which will be referred to as the spacer distribution.基因结构与基因预测课件 Choose the one having highest , to be so-called hit motif . Use deviation of

77、 spacer distribution to characterize each candidate motif. 基因结构与基因预测课件If there exists more than one candidate motif having nearly the same to the highest one, the algorithm will select all of them, but at most three motifs, as the hit motifs. After hit motifs are determined, compute the positional w

78、eight matrix of each hit motif, by a multiple alignment of all its (l, 1) instances occurred within training sequences. By the assumption that the hit motifs should be similar to a substring of SD sequence, the algorithm calculates the alignment weight matrix of 3+l+2 bp size of window around the hi

79、t motif. 基因结构与基因预测课件 To detect the context feature of start codon fragments around starts. Calculate the positional probability within the alignment windows around start codon with length of (4+3+15) bp. We may represent the weight matrix by wSD(k)(bi, i) for bi A, C, G, T, where (k) means the kth i

80、terative step and i means position within these alignment windows and (4+3+15) i 1. Despite the difficulty of unknown true start codons, we can reach an approximation through this weight matrix, because nucleotides occur more randomly around the false start codons.(3). Weight matrix for start codon

81、context基因结构与基因预测课件(4). Weights for potential start codons behind the leftmost start codon Not all the start codons have equal possibility to be selected as true gene start, different weights should be assigned to different start codons when they are investigated whether to be true translation initia

82、tion sites Note m is the index of start codons, define wm(k) as the weight of the mth start codon being true gene start site, k is the iterative step. Describes the likelihood for a start codon of order m counting from the left most one to be a true start site. For k=1, i.e. in the first iterative s

83、tep, as the initial condition, we set an equal weight 1.0 to each wm(k) , i.e. w1(1) = w2(1) =1.0. 基因结构与基因预测课件(5). RBS score for start codon and the most-likely start codon ATGATGATGATGP P1 1P P2 2P P3 3P P4 4STPSTPCCC TCGAAGC CCC TCGAAGC ATGATGAACAGGAGGATT AACAGGAGGATT AGGATT AGGATT 基因结构与基因预测课件 Eac

84、h of the above four measurements translates to a probability measure, then the combined score reads: Iteration: at each step with a set of given candidate TIS (e.g. beginning with the leftmost start codon), check the scores i (liL) for all l-mers occurred within the L bp upstream regions for each st

85、art codon, and select the maximum of i as the RBS score for this start codon, i. e., 基因结构与基因预测课件 Compare the RBS score Sm(k) of different start codon and choose one with the highest score as the most likely candidate for the TIS. The kth iteration completes when all candidate start sites are tested

86、and updated. We then repeat the calculation of candidate motifs and hit motifs and all other probability measures with reference to the newly updated candidate TIS. The iteration begins at the next step. The iterations were repeated until the parameters were at least 99% identical to that of the pre

87、vious iteration. 基因结构与基因预测课件Genome16S rRNAHit motifsNo. 1No. 2No. 3E. coliTAAGGAGGTGAAGGAGCAGGA GGAGAB. subtillisTAGAAAGGAGGGGAGGAAAGGAGGAGT. maritimaGAAAGGAGGTGGAGGTH. influenzaeTAAGGAGGTGAAAGGAM. jannaschiiGGAGGTGATCCAGGTGGGTGA The results suggest that the algorithm is rather effective to search t

88、he motifs associated with the SD sequences almost each of the hit motifs is in good agreement with some substring of the reverse complement of the 3 end of 16S rRNA. (6). Convergence of self-trained model and the final parametersTable: Final hit motifs founded by MED-Start as potential 16S rRNA bind

89、ing sites of various prokaryotes. 基因结构与基因预测课件Spacer distribution of the final hit motif with the highest for various prokaryotes.AGGAG for E. coliGGAGG for B. subtillisGAGGT for T. maritimaAAGGA for H. influenzaeAGGTG for M. jannaschii基因结构与基因预测课件MED-Start对翻译调控信号特征的刻画对翻译调控信号特征的刻画MED探测到的枯草芽胞杆菌基因组中调控翻译

90、的多个信号探测到的枯草芽胞杆菌基因组中调控翻译的多个信号“GGAGG”、“AAAGG”、“AGGAG”以及它们的位置特异性。以及它们的位置特异性。 基因结构与基因预测课件 RBSfinder (Salsberg et al., 2001) Post-processor for GLIMMER GS-Finder (Zhang Chun-ting et al., 2003) Post-processor for ZCURVE MED-Start (She & Zhu et al., 2004) Post-processor for MED v1.0张春霆张春霆我国著名生物信息学家,天津大学中国科

91、学院院士、第三世界科学院院士。Steven SalzbergSenior Director of Bioinformatics, The Institute for Genomic Research, Johns Hopkins University, MED-StartMED-Start的预测水平的预测水平的预测水平的预测水平基因结构与基因预测课件MED-StartMED-Start的预测水平的预测水平的预测水平的预测水平基因结构与基因预测课件MED-StartMED-Start的预测水平的预测水平的预测水平的预测水平基因结构与基因预测课件MED-StartMED-Start的预测水平的预测

92、水平的预测水平的预测水平基因结构与基因预测课件6.3.3 原核基因的自动预测系统原核基因的自动预测系统1. EDP模型模型刻画刻画ORF序列整体编码性与相似性序列整体编码性与相似性 发展了对高发展了对高GC含量基因组的含量基因组的EDP模型模型2. TIS模型模型刻画基因上游区域的复杂序列特征刻画基因上游区域的复杂序列特征 是基于是基于RBS模型的发展模型的发展 定义基因翻译起始的三种机制定义基因翻译起始的三种机制 刻画基因翻译起始信号的复杂性刻画基因翻译起始信号的复杂性 考虑结构基因群的特征考虑结构基因群的特征 考虑高考虑高GC含量物种基因组的序列特征含量物种基因组的序列特征3. 综合运用综

93、合运用EDP模型、模型、TIS模型,发展了无监督自学模型,发展了无监督自学习的基因预测系统习的基因预测系统MED 2.0基因结构与基因预测课件MED2.0 流程图流程图基因结构与基因预测课件Naneq古细菌古细菌真核生物真核生物细菌细菌MED模型参数揭示基因组转录、翻译调控机制随生物模型参数揭示基因组转录、翻译调控机制随生物进化复杂程度的演化进化复杂程度的演化翻译调控信号翻译调控信号翻译调控信号翻译调控信号翻译调控信号翻译调控信号转录调控信号转录调控信号转录调控信号转录调控信号基因结构与基因预测课件MED方法的特点1.简单简单 自由参数(102个)少于传统的HMM方法,对学习集的依赖性小 HM

94、M:104个自由参数(如:GeneMark系统)2.自学习自学习 迭代自学习,大大少于其它方法的经验参数、预设参数 有利于新测序物种的基因组分析和注释3.有效有效 预测精度达到并部分超过GeneMark、Glimmer等4.生物学意义生物学意义 模型参数具有非常明确的生物学意义,有利于基因组复杂结构信息的深刻理解基因结构与基因预测课件 “事事实实上上,人人类类基基因因组组计计划划的的巨巨大大成成功功已已经经表表明明,那那些些经经常常用用偏偏微微分分方方程程处处理理连连续续介介质质力力学学问问题题的的传传统统应应用用数数学学家家对对这这一一计计划划所所用用到到的的数数学学方方法法并并不不熟熟悉悉。或或许许我我们们应应该该停停下下来来思思考考一一下下,当当我我们们将将研研究究领领域域扩扩展展到到生生命命科科学学中中去去的的时时候候,我们期望得到什么样的结果。我们期望得到什么样的结果。”林家翘林家翘应用数学的拓展应用数学的拓展用一篇关于蛋白质分子的结构和用一篇关于蛋白质分子的结构和功能的动理论发展的论文来说明功能的动理论发展的论文来说明(2003年第年第2期期“力学进展力学进展”)感悟和体会感悟和体会基因结构与基因预测课件

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号