基因组序列诠释functiongenomics

上传人:san****glu 文档编号:54721456 上传时间:2018-09-18 格式:PPT 页数:148 大小:3.38MB
返回 下载 相关 举报
基因组序列诠释functiongenomics_第1页
第1页 / 共148页
基因组序列诠释functiongenomics_第2页
第2页 / 共148页
基因组序列诠释functiongenomics_第3页
第3页 / 共148页
基因组序列诠释functiongenomics_第4页
第4页 / 共148页
基因组序列诠释functiongenomics_第5页
第5页 / 共148页
点击查看更多>>
资源描述

《基因组序列诠释functiongenomics》由会员分享,可在线阅读,更多相关《基因组序列诠释functiongenomics(148页珍藏版)》请在金锄头文库上搜索。

1、1. 搜寻基因 根据顺序推测基因 依据实验确定基因 2. 基因功能分析 计算机基因功能预测 实验确证基因功能 其它的基因功能研究方法 3. 从基因组到细胞 转录物组 蛋白质组,第5章 基因组序列诠释,挑战基因组顺序的诠释,完成基因组测序仅仅是基因组计划的第一步,更大的挑战在于弄清: 1.基因组顺序中所包涵的全部遗传信息是什么; 2.基因组作为一个整体如何行使其功能。 这两项任务都必需依赖于对基因组顺序的正确注解或诠释(annotation)。,一、搜寻基因,一旦获取基因组的DNA顺序后,不管它是来自某一区段还是整个一条染色体,第一个任务就是从中查找基因,这是解读整个基因组的基础。 查找基因有2

2、种常见的方法: 其一,根据已知的顺序人工判读或计算机分析寻找与基因有关的序列; 其二,实验研究,看其能否表达基因产物及其对表型的影响。,1、根据顺序分析搜寻基因,如果一段DNA顺序中含有编码基因,那么这段顺序的碱基序列就不会是随机排列的,一定存在某些可以辨别的特征。目前还没有一个能适用于所有情况的“基因序列”的标准,只能根据已知的某些规律来推测哪些顺序可能是基因。 开放读框 同源查询 EST筛选全长cDNA,1)开放读框,所有编码蛋白质的基因都含有开放读框(ORF),它们由一系列指令氨基酸的密码子组成。 开放读框有一个起点,又称起始密码,一般为ATG,还有一个终点,又称终止密码,分别为TAA,

3、TAG和TGA,三者含义相同。,从DNA顺序中搜寻基因总是从第一个ATG开始,然后向下游寻找终止密码。 在开始这项工作之前,我们并不知道DNA双链中哪一条单链是编码链,或称正(+)链,也不知道准确的翻译起始点在何处。因此,每条链都有3种可能的读框,二条链共计6种读框。,ORF扫描的关键是终止密码在6种读框中出现的频率。 如果DNA的碱基排列是随机的,并且GC含量为50%,则3个终止密码子TAA、TAG和TGA出现的平均机率为每43=64 bp一次。 假如GC比大于50%,因终止子中AT比例高,则每隔100-200 bp才会出现一个终止密码。 大多数基因的ORF均多于50个密码子,因此最可能的选

4、择应该是ORF不少于100个密码子的读框。,采用NCBI的ORF预测软件 ( ORF finder: http:/www.ncbi.nlm.nih.gov/gorf/orfig.cgi )判断ORF的可能范围。,细菌基因组中缺少内含子,非编码序列仅占11%,对读框的排查干扰较少。 假定基因之间不存在重叠顺序,也无基因内基因,那么ORF阅读出现差错的最大可能性只会发生在非编码区。 细菌基因组的ORF阅读相对比较简单,错误的机率较少。,细菌ORF查找,E. Coli乳糖操纵元的4522bp,标记了大于50个密码子的ORF。该序列中含有2个真正的基因(lacZ和lacY),深颜色表示。,高等真核生物

5、DNA的ORF阅读比较复杂,其原因在于: 1. 基因间存在大量非编码序列(人类基因组中占70%); 2. 绝大多数基因含有非编码的内含子。高等真核生物多数外显子的长度少于100个密码子,有些不到50个密码子甚至更少,因此当读码进入内含子时很快遇上终止密码,难以根据上述的ORF长度来判断哪种读框是正确的。,真核生物ORF查找,含有内含子的基因核苷酸顺序,有2种密码子阅读方法。第一行氨基酸顺序代表正确读法,编码顺序由内含子分隔成二段。第二行氨基酸顺序为不正确读法,读框进入内含子后遇上终止密码终止。,内含子干扰ORF扫描,真核基因编码区,C C A C C AUG G,只有 5 10的情况下,Koz

6、ak规则,即ATG侧翼序列的碱基分布所满足的统计规律 +4位的偏好碱基为G ,3位的偏好碱基为A至关准确翻译; ATG的5端约15bp范围的侧翼序列内不含碱基T; 在-3,-6和-9位置,G是偏好碱基; 除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。,A.起始密码子ATG,起始AUG有如下特点:,B.密码子偏爱,生物具有通用的64种密码子,其中3种为终止密码子,其余61种密码子编码20种氨基酸,除甲硫氨酸(Met)和色氨酸(Typ)各有一个密码子外,其它氨基酸都拥有多个密码子。 编码同一氨基酸的不同密码子称为同义密码,其差别仅在密码子的第3位碱基不同。 不同种属之间使用同义密码的频率有

7、很大差异,如人类基因中,丙氨酸(Ala)密码子多为GCA,GCC或GCT,而GCG很少使用。苏氨酸(Thr)常用的密码子为ACA,ACC或ACT,很少用ACG。,Murray等(1989)比较了来自高等植物207个基因的编码顺序,其中单子叶植物基因53个,双子叶植物基因154个,分属6个单子叶和35个双子叶种群。 单子叶与双子叶主群密码子中第三个摇摆碱基的成员比例明显不同。 单子叶18种氨基酸中有16种氨基酸的密码子摇摆碱基为G+C,而双子叶中仅有7种氨基酸的密码子摇摆碱基为G+C,或者说双子叶密码子摇摆碱基大多为A+T。这一现象称为密码子偏爱,其产生的原因不明。 特定种属有特征性的密码子偏爱

8、,这些序列在编码区常常出现,非编码区只保持平均的碱基分布水平。根据已有生物密码子偏爱的资料在编写相应的计算机程序时可加入这些限制,E. Coli和哺乳动物高表达基因中12种四碱基终止信号出现的频率和终止活性.,同义密码子相对使用度用RSCU(relative synonymous) RSCU=实际使用次数/按平均使用计算机所得次数,在同义密码子中,既有所偏爱,也有所偏废。在不同的物种中,偏废或罕用的密码子,也各不相同,信号肽分析软件(SignalP http:/www.cbs.dtu.dk/services/signalP ) 把预测过程中证实含完整mRNA 5端的序列翻译为蛋白序列; 然后用

9、SignalP软件对前50个氨基酸序列(从第一个ATG对应的甲硫氨酸Met开始)进行评估,如果SignalP分析给出正面结果,则测试序列有可能为信号肽。,C.信号肽分析,3端的确认主要根据Poly(A)尾序列,若测试DNA片段不含Poly(A)序列,则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。,D.3端的确认,外显子和内含子的边界有一些明显的特征, 如:内含子的5端或称供体位常见的顺序为 5AGGTTAAGT-3; 3端又称受体位, 多为5PyPyPyPyPyPyCAG-3(“Py”嘧啶核苷酸,T或C);,E.外显子内含子边界,F.上游控制顺序 (upstream c

10、ontrol sequence ),几乎所有的基因(或操纵子)上游都有调控序列,它们可与DNA结合蛋白作用控制基因表达。 调控顺序有明显特点,在查找基因时可作为参考,特别是原核生物。 真核生物基因上游的控制顺序变化较大,以此作为标志判别基因时应当谨慎。,还有一种针对个别生物的策略,主要依据这些生物基因组特有的组成。例如脊椎动物基因组许多基因的上游都有CpG岛(Bird,1986),CpG岛的长度约1kb,其CG比例显著高于基因组平均水平。 约56%的人类基因与上游的CpG岛相连,在基因组顺序扫描时,如发现CpG岛有可能在其下游找到基因。 通过同源性比较来预测mRNA的5端,最常用的与转录起始位

11、点相关的数据库是真核启动子数据库(The TRADAT Project, Eukaryotic Promoter Database, EPD. http:/www.epd.unil.ch/ ),2) 同源查询,利用已存入数据库中的基因顺序与待查的基因组序列进行比较,从中查找可与之匹配的碱基顺序及其比例,用于界定基因的方法称为同源查询,它可弥补ORF扫描的不足。 同源查询的依据是: 现有生物的不同种属之间具有功能或结构相似的直系基因成员,它们在起源上一脉相承,其间存在保守的顺序组成。 同一物种中因基因重复产生的基因家族也有保守的序列特征。,当某一DNA顺序含有这类基因时,通过与已报道的其它基因序

12、列对比,可发现其中的相似性。这些相似性有以下表现: 存在某些完全相同的序列; ORF读框的排列类似,如等长的外显子; ORF指令的氨基酸顺序相同; 模拟的多肽高级结构相似。,以上这些结果均可作为基因界定的指标,它们可单独使用,亦可综合考察。 同源查询还可提供基因功能的参考,目前这一技术已成为界定基因的主要工具之一。 当某一顺序从数据库中无法找到同源序列,又无法排除其不是基因的可能性时,必需依靠实验来进一步确认。 在基因分类时这些缺少同源顺序的ORF被称为孤独基因(orphan gene)之列。,2、实验分析确认基因,任何基因都可转录为RNA拷贝,这是实验确证基因的依据。 真核生物中许多编码蛋白

13、质的基因其转录的初级产物都有内含子,加工后成为mRNA。根据mRNA的顺序可以找到外显子的位置以及整个基因的组成。 由于mRNA的5-端及3-端各有一段非翻译区,基因的转录起点与终点有时并不准确,但不妨碍整个基因的界定,1)分子杂交可确定DNA片段 是否含表达顺序,在进行分子杂交实验时,从样品中纯化的RNA经琼脂糖凝胶电泳分离,然后转移到杂交膜上,这一过程称为Northern印迹(Northern blotting)。 将待测DNA样品标记后与RNA杂交,如果RNA中含有DNA的转录产物,会给出明显的信号。,Northern分析注意事项,a.当某一基因的转录产物进行可变剪接时,由于连接的外显子

14、不同,会产生好几条长度不一的杂交带。此外,如果该基因是某一多基因家族的成员,也会出现多个信号。这二种现象要设计其它实验进一步区分。 b.基因的表达具有组织专一性及发育阶段的差别,选择的RNA样品有时不一定含有该基因的产物。因此要尽可能多地收集各种发育时期及不同组织器官的RNA,以免人为原因而遗漏。,c.不同基因的表达产物丰度差异很大,对低拷贝的表达产物要适当提高RNA的上样量。 有些基因表达产物丰度极低,或表达时期短暂不易提取,此时要考虑其它检测方法。 譬如可根据已知的DNA顺序设计引物从mRNA群体中扩增基因产物,再以DNA为探针与之杂交,这一方法称为拟Northern分析 也可采用动物园杂

15、交方法,Northern分析注意事项,动物园杂交(Zoo-blotting),对那些Northern杂交不易检测到的基因还可考虑采用另一种途径验证。 动物园杂交一些亲缘关系相近的物种,其基因的编码区相似性较高,而非编码区的同源性很低。如果某一物种的DNA顺序与来自另一亲缘种的DNA片段杂交产生阳性信号,该区段可能含有一个或多个基因。 动物园杂交:是一种确定人细胞DNA片段是否在亲缘物种中存在同源顺序的分析方法。,动物园杂交,从人体、黑猩猩、牛和兔子的组织细胞中分别制备DNA样品,经限制酶处理并电泳后转移到杂交膜上。以人DNA为探针与之杂交,在每种动物DNA泳道中可见到阳性杂交信号,说明该人体D

16、NA片段中可能含有表达的基因。因为兔子和牛与人的亲缘关系相对较远,通常只在重要的编码顺序中存在同源顺序。牛和兔子的杂交片段与人和黑猩猩不同,说明该表达顺序已发生变异,但不影响同源性的可靠性。,2)获取基因全长cDNA序列,A.构建cDNA文库,用目的基因DNA片段筛选文库。,cDNA文库构建(CLONTECH),cDNA文库构建,SSH,SSH,B.根据已知片段设计引物,RACE 技术得到基因的全长cDNA序列。,5RACE (CLONTECH),3RACE (CLONTECH),3)DNA顺序中基因位置的确定,Northern分析和动物园杂交可判断某一DNA区段是否含有基因,但不能给出基因在

17、DNA顺序中的确切位置。 cDNA的测序可以解决这一问题。cDNA是mRNA 的反转录拷贝,与基因的编码区对应,并含有非翻译的5引导顺序以及3 结尾顺序。 将cDNA 与基因组的DNA比较,即可确定基因所在的区域并找到外显子-内含子的边界。,二、基因功能分析,1、计算机预测基因功能,计算机预测基因功能的依据仍然是同源性比较。 同源基因都拥有一个共同的祖先基因,它们之间有许多相似的顺序。同源基因可分为2类: 直系基因 (orthologous gene) 这是指不同物种之间的同源基因,它们来自物种分隔之前的同一祖先。 平行基因(paralogous gene) 同一种生物内部的同源基因,它们常常是多基因家族的不同成员, 其共同的祖先基因可能存在于物种形成之后,也可能出现于物种形成之前。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 医学/心理学 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号