第四章基因预测补充

资源描述

《第四章基因预测补充》由会员分享，可在线阅读，更多相关《第四章基因预测补充（30页珍藏版）》请在金锄头文库上搜索。

1、基因预测,1,1.基因预测意义2.基因预测原理,3.基因预测常用软件4.存在的主要问题,2,1. 基因预测意义,3,据GOLD（Genomes OnLine Database）网站统计，截止到2009年3月1日，已经完成测序的基因组有958种，正在进行测序的多达3655种。,大量生物基因组计划的完成提供了极其丰富的生物序列资源，如何进行序列注释是测序后所面临的首要问题。从目前的研究来看，基因组序列由3 种成分构成：基因序列、重复序列、基因间区序列。基因序列在高等生物基因组中所占的比例可能并不大，但却是控制生物性状遗传的主要因素，正确鉴定它们对分子遗传学研究至关重要。,4,5,2. 基因预测

2、原理,原核基因结构真核基因结构马尔可夫模型与隐马尔可夫模型基因预测算法的分类原核生物中的基因预测真核生物中的基因预测,6,2.1 原核基因结构原核生物基因组小，基因密度高，很少存在重复序列，一个基因是由编码一个蛋白质或RNA的开封阅读框构成，中间没有间断。细菌的起始密码子为: ATG, GTG, TTG 核糖体结合位点(Shine-Delgaron sequence) 终止密码子较容易确定转录终止子密码子偏好性,翻译起始位点,翻译终止位点,编码区,转录终止子TTTTT7,转录起始位点AGGAGGT核糖体结合位点,2.2 真核基因结构, 基因组较大，基因密度低，富含重复序列和转座元件；最

3、重要的是基因被插入的非编码序列（内含子）切分成小段（外显子）。, 初生的转录产物需要经过三个步骤转变成成熟的可翻译为蛋白,的mRNA。, 真核基因预测的主要问题是识别外显子、内含子和间接位点。真核基因中存在一些保守序列特征有助于进行计算预测，如： GT-AG规则，密码子偏好性，六聚体频率，kozak序列，CpG岛，,poly-A,8,2.3 马尔可夫模型与隐马尔可夫模型, 马尔可夫模型是描述一条DNA序列中核苷酸分布的,模型。, 用马尔可夫模型进行基因预测利用以下事实：编码区,寡核苷酸分布概率与非编码区不同。,9, 统计分析表明密码子对具有相关性。一组六聚体核苷酸在编码区出现的概率要比随机分

4、布概率高，因此，用计算六聚体碱基概率的五阶马尔可夫模型来检测编码区中核苷酸的相关性准确度更高，也较为常用。在基因内容和长度分布上，非典型的基因和典型基因是不同的，预测典型基因的模型可能会漏掉对非典型基因的预测。为了使一个算法适用于整个基因组中的全部基因，就需要更多的马尔可夫模型。结合代表典型与非典型核苷酸分布的不同的马尔可夫模型，建立了隐马尔可夫模型预测算法。,（Gene,2.4 基因预测程序分类基于从头算的方法（Ab initio-based）：以给定的序列本身来进行预测，主要依赖于以下两个特征：基因信号（Gene signals）：包括起始终止密码子，内含子剪接信号，转录因子结合位点，

5、核糖体结合位点以及Poly-A等。基因内容（G content）：对编码区的统计学上的描述。可以由概率模型：马尔可夫模型或隐马尔可夫模型检测到这一特性，用以区别编码与非编码区。基于同源性的方法（Homology-based）以检索序列与已知基因的序列最大的匹配为基础。基于一致性的算法（Consensus based）以上两种策,10,略相结合。,2.5 原核生物中的基因预测, 由于原核生物基因组密度较高且没有插入基因，其预测较真核生物简单。目前，基于HMMs的原核生物基因预测算法已经达到相当高的准确度。, 主要对真核生物中的基因预测做详细介绍。,11,2.6 真核生物中的基因预测, 统分为

6、三大类：,以从头算的方法为基础以同源性的方法为基础以一致性为基础, 大部分程序是物种专一的，这是由于用于获得统计参数的训练数据必须由单一生物体取得。,12,2.6.1 基于从头算（Ab initio-based）, 此程序的目标是从非编码序列中辨别外显子，,的程序,随后使外显子以正确的次序排列。, 主要困难之处在于正确识别外显子。要预测外显子，算法依赖于两个方面特征，基因信号和基因内容。,其中，六聚体频率对识别可能的编码区来说是最,具有鉴别力的。, 以下分别介绍用判别分析和隐马尔可夫模型进,行预测的原理。,13,2.6.1.1 用判别分析进行预测, 一些基因预测程序依赖于判别分析，线性判别分析

7、（ LDA ）或二次判别分析（ QDA ），来提高准确性。, LDA或QDA用编码信号对应的所有可能的3端剪接位点作二维图，并用斜线或曲线来划分编码与非编码信号，这是以已知基因结构的培训数据集的知识为基础的。, E.g: FGENES, MZEF.,14,2.6.1.2 用隐马尔可夫模型进行基因预测, GENESCAN是以网络为基础的基于五阶马尔可,夫模型进行基因预测的程序。, 它结合六聚体频率以及编码信号（起始密码子，TATA box，帽子位点，poly-A等）进行预测。假定的外显子能够成为真外显子的概率得分为P，,只有当P大于0.5时，才被认为是可靠的。, 此程序训练用于脊椎动物、拟南芥

8、（双子叶植物）和玉米（单子叶植物）。也可以用来预测人类基因。,15,2.6.2 基于同源性（Homology-based）,的程序, 以同源性为基础的程序是以相关物种外显子的结构及序列,的高度保守性为基础的。, 当一条检索序列中编码蛋白质的序列翻译后并与数据库中最为相近的蛋白质序列比对后，如有几乎完全配对的区域，即可显示出检测序列的外显子界限。, 这种方法假定数据库中的序列都是正确的。它按照以下事实进行合理假设：用于比较的同源序列均来自于同一物种的cDNA或表达序列标签。由于有实验证据的支持，这对于在未知基因组的DNA中寻找基因来说是一种十分有效的方法。,16, 这种方法的缺点是，数据库中必须

9、存在同源序列。在数据库中没有匹配的情况下新物种中的新基因则不能被预测。 E.g: GenomeScan, EST2Genome, SGP-1, TwinScan.,2.6.3 基于一致性（Consensus-based）,的程序, 由于不同的预测程序的灵敏度和特异性的差异，以综合手段为基础的方法将多个程序的结果综合起来进行分析是十分有必要的。, 该方法将与大多数程序相一致的预测结果保留下来，其余,的结果被删除掉。, 这种方法可以提高特异性，但会遗漏一些有用的新预测（因为新预测可能不被大多数程序认可而被忽略掉了）。, E.g: GeneComber, DIGIT.,17,3. 基因预测常用软件,

10、适用于原核生物,GeneMark, Glimmer, FGENESB,适用于真核生物,GENSCAN, FGENESH, TwinScan,18,19,20,21,22,23,24,25,26,27,常用基因预测软件网址基于同源性的预测软件,GenemarkGlimmerFGENESGENSCANHMMgene,http:/opal.biology.gatech.edu/GeneMark/http:/cbcb.umd.edu/software/glimmer/http:/ 存在的主要问题, 假阳性（False Positive, FP）：多预测了假的编码,区，即在非编码区预测出编码区。, 假阴

11、性False Negative, FN）：漏掉了真实的编码区，,即将编码区预测为非编码区。,（Over, 过界预测（O Prediction, OP）：由于基因边界,很难准确定位，预测经常会超出实际边界。, 片段化（Fragmentation）：内含子过大的基因，,在预测时容易断裂成两个或多个基因。, 融合化（Fusion）：距离过近的两个或多个基因，,29,在预测时容易被融合成一个很大的基因。,小结,基因的计算预测是基因组序列分析的各个过程中最为重要的一步。由于原核生物基因组密度较高且没有插入基因，其预测较真核生物简单。目前，基于HMMs的原核生物基因预测算法已经达到相当高的准确度，但是对于真核生物预测还存在着许多问题。对于ab-initio算法，在进行真核生物基因组预测时HMM算法能很好的区分外显子-内含子的界限，其主要的限制是对于统计模型训练的依赖性，训练使此方法变得物种专一。同源性为基础的算法结合HMM可以获得进一步的准确性，这种算法受限于数据库中同源序列的可用性。结合统计和同源信息的综合算法通过准确地检测更多的基因和外显子来得到更好的结果。随着计算技术的进步和对于剪接机制的进一步认识，在不久的将来可信度高的真核基因组预测可以成为现实。,30,

展开阅读全文