基因组序列诠释20111024

上传人:san****glu 文档编号:49338175 上传时间:2018-07-27 格式:PPT 页数:67 大小:920KB
返回 下载 相关 举报
基因组序列诠释20111024_第1页
第1页 / 共67页
基因组序列诠释20111024_第2页
第2页 / 共67页
基因组序列诠释20111024_第3页
第3页 / 共67页
基因组序列诠释20111024_第4页
第4页 / 共67页
基因组序列诠释20111024_第5页
第5页 / 共67页
点击查看更多>>
资源描述

《基因组序列诠释20111024》由会员分享,可在线阅读,更多相关《基因组序列诠释20111024(67页珍藏版)》请在金锄头文库上搜索。

1、基因组学 辽宁师范大学生命科学学院辽宁师范大学生命科学学院 张剑锋张剑锋第5章 基因组序列诠释完成基因组测序仅仅是基因组计划的第一步,更大 的挑战在于弄清:基因组顺序中所包含的全部遗传信息是什么?基因组作为一个整体如何行使其功能?这两项任务都必须依赖于对基因组顺序的正确注解 或诠释(annotation),首先是从已知顺序中搜寻基因 。 5.1 搜寻基因 n一旦获取基因组的DNA顺序后,不管它是来自某一 区段还是一整条染色体,第一个任务就是从中查找 基因,这是解读整个基因组的基础。查找基因有两 种常见的方法:n根据已知的顺序人工判读或计算机分析寻找与基 因有关的序列;n进行实验研究,看其能否表

2、达基因产物及其对表 型的影响。 5.1.1 根据顺序分析搜寻基因n如果一段DNA顺序中含有编码基因,那么这 段顺序的碱基序列就不会是随机排列的,一 定存在某些可以辨别的特征。目前还没有一 个能适用于所有情况的“基因序列”的标准, 只能根据已知的某些规律来推测哪些顺序可 能是基因。 开放读框 n基因都含有开放读读框(open reading frames,ORFs),它们们 由一系列指令氨基酸的密码码子(codons)组组成。开放读读框有一 个起点,又称起译译密码码(initiation codon):ATG;还还有一个 终终点,又称终终止密码码(termination codon):TAA、T

3、AG和 TGA。从DNA顺顺序中搜寻寻基因总总是从第一个ATG开始,然 后向下游寻寻找终终止密码码。在开始这项这项 工作之前,我们们并不 知道DNA双链链中哪一条单链单链 是编码链编码链 ,或称正(+)链链,也 不知道准确的转译转译 起始点在何处处。由于每条链链都有三种可 能的读读框,两条链链共计计6种读读框,计计算机可以很快给给出结结 果。nORF扫扫描的关键键是终终止密码码在6种读读框中出现现的频频率。如 果DNA的碱基排列是随机的,并且GC含量为为50%,则则三个 终终止密码码子:TAA、TAG和TGA出现现的平均机率为为每43= 64bp一次。假如GC比大于50%,因终终止密码码中AT

4、比例高 ,则则每隔100-200bp才会出现现一个终终止密码码。随机碱基排列 的ORF长长度预计预计 不超过过50个密码码子,即150bp,以ATG起 始计计算长长度更短。大多数基因的ORF均多于50个密码码子, 因此最可能的选择应该选择应该 是ORF不少于100个密码码子的读读框 。 n细菌基因组中缺少内含子,非编码序列仅占11%, 对读框的排查干扰较少。假定基因之间不存在重叠 顺序,也无基因内基因(gene-within-gene),那么 ORF阅读出现差错的最大可能性只会发生在非编码 区。细菌基因组的ORF阅读相对比较简单,错误的 机率较少。n高等真核生物DNA的ORF阅读比较复杂,其原

5、因在 于:基因间存在大量非编码序列(人类基因组中占70%) ;绝大多数基因含有非编码的内含子。高等真核生 物多数外显子的长度少于100个密码子,有些不到50 个密码子甚至更少,因此当读码进入内含子时很快 遇上终止密码,难以根据上述的ORF长度来判断哪 种读框是正确的。 n内含子的出现给计算机判读基因带来不少问题,在编写ORF扫描 程序时要作许多修改,必须加入一些相应的规则:n密码子偏爱 生物具有通用的64种密码子,其中三种为终止密 码子,其余61种密码子编码20种氨基酸,除甲硫氨酸(Met)和色 氨酸(Trp)各有1个密码子外,其他氨基酸都拥有多个密码子。编 码同一氨基酸的不同密码子称为同义密

6、码(synonym),其差别仅 在密码子的第三位碱基不同。不同种属之间使用同义密码的频率 有很大差异,如人类基因中,丙氨酸(Ale)密码子多为GCA, GCC或GCT,而GCG很少使用。苏氨酸(Thr)常用的密码子为 ACA,ACC或ACT,很少用ACG。高等植物207个基因的编码顺 序,其中单子叶植物基因53个,双子叶植物基因154个,分属6个 单子叶和35个双子叶种群。单子叶与双子叶主群密码子(majority codon)中第三个摇摆碱基的成员比例明显不同。单子叶18种氨基 酸中有16种氨基酸的密码子摇摆碱基为G+C,而双子叶中仅有7 种氨基酸的密码子摇摆碱基为G+C,或者说双子叶密码子

7、摇摆碱 基大多为A+T。这一现象称为密码子偏爱(codon bias),其产生的 原因不明。特定种属有特征性的密码子偏爱,这些序列在编码区 常常出现,非编码区只保持平均的碱基分布水平。根据已有生物 密码子偏爱的资科在编写相应的计算机程序时可加入这些限制。n外显子-内含子边界(exon-intron boundaries) 外显子与内含子 的边界区有一些明显的特征,如内含子的5端或称供体位(donor site)常见的顺序为5-AGGTAAGT-3,3端又称受体位(acceptor site)多为5-PyPyPyPyPyPyCAG -3(“Py”为嘧啶核苷酸,T或C) 。这是判断编码顺序的依据之

8、一。由于外显子-内含子边界顺序 常有例外,编写通用的判读程序时有不少困难,上述规律仅适用 一定范围。n上游控制顺序(upstream control sequence) 几乎所有的基因(或 操纵子)上游都有调控序列,它们可与DNA结合蛋白作用控制基 因表达。调控顺序有明显特点,在查找基因时可作为参考,特别 是原核生物。真核生物基因上游的控制顺序变化较大,以此作为 标志判别基因时应当谨慎。n上述这三种ORF扫描的方法适合所有高等真核生物基因组,可综 合运用。还有一种针对个别生物的策略,主要依据这些生物基因 组特有的组成。例如脊椎动物基因组许多基因的上游都有CpG岛 (islands)。CpG岛的

9、长度约1kb,其CG比例显著高于基因组平均 水平。约56%的人类基因与上游的CpG岛相连,在基因组顺序扫 描时,如发现CpG岛有可能在其下游找到基因。 同源查询 n利用已存入数据库中的基因顺序与待查的基因组序列进行比较 ,从中查找可与之匹配的碱基顺序及其比例用于界定基因的方 法称为同源查询(homology search),它可弥补ORF扫描的不足 。同源查询的依据是,现有生物的不同种属之间具有功能或结 构相似的直系基因成员,它们在起源上一脉相承,其间存在保 守的顺序组成。同一物种中因基因重复产生的基因家族也有保 守的序列特征。当某一DNA顺序含有这类基因时,通过与已报 道的其他基因序列对比,

10、可发现其中的相似性。这些相似性有 以下表现:n 存在某些完全相同的序列;n ORF读框的排列类似,如等长的外显子;n ORF指令的氨基酸顺序相同;n 模拟的多肽高级结构相似。n以上这些结果均可作为基因界定的指标,它们可单独使用,亦 可综合考察。同源查询还可提供基因功能的参考,目前这一技 术已成为界定基因的主要工具之一。当某一顺序从数据库中无 法找到同源序列,又无法排除其不是基因的可能性时,必须依 靠实验来进一步确认。在基因分类时这些缺少同源顺序的ORF 被称为孤独基因(orphan gene)。 5.1.2 实验分析确认基因 n任何基因都可转录为RNA拷贝,这是实验确证基因 的依据。真核生物中

11、许多编码蛋白质的基因其转录 的初级产物都有内含子,加工后成为mRNA。根据 mRNA的顺序可以找到外显子的位置以及整个基因 的组成。由于mRNA的5端及3端各有一段非翻译区 ,基因的转录起点与终点有时并不准确,但不妨碍 整个基因的界定。 分子杂交可确定DNA片段是否含表达顺序 n进行分子杂交实验时,样品中纯化的RNA经电泳分离, 然后转移到杂交膜上,这一过程称为northern印迹 (northern blotting)。将待测DNA样品标记后与RNA杂 交,如果RNA中含有DNA的转录产物,会给出明显的 信号。northern印迹分析要注意以下三方面:n 当某一基因的转录产物进行可变剪接时,

12、由于连接 的外显子不同,会产生好几条长度不一的杂交带。此外 ,如果该基因是某一多基因家族的成员,也会出现多个 信号。这两种现象要设计其他实验进一步区分。n 基因的表达具有组织专一性及发育阶段的差别,选 择的RNA样品有时不一定含有该基因的产物。因此要尽 可能多地收集各种发育时期及不同组织器官RNA,以免 因人为原因而遗漏。n 不同基因的表达产物丰度差异很大,对低拷贝的 表达产物要适当提高RNA的上样量。有些基因表达 产物丰度极低,或表达时期短暂不易提取,此时要考 虑其他检测方法。例如可根据已知的DNA顺序设计 引物从mRNA群体中扩增基因产物,再以DNA为探 针与之杂交,这一方法称为拟nort

13、hern分析。n对northern杂交不易检测到的基因可考虑采用另一种 途径验证。一些亲缘关系相近的物种,其基因的编码 区相似性较高,而非编码区的同源性很低。如果某一 物种的DNA顺序与来自另一亲缘种的DNA片段杂交 产生阳性信号,该区段可能含有一个或多个基因。这 种方法又称为动物园杂交(zoo-blotting)。 DNA顺序中基因位置的确定 nnorthern分析和动物园杂交可判断某一DNA区段 是否含有基因,但不能给出基因在DNA顺序中的 确切位置。cDNA的测序可以解决这一问题。将 cDNA与基因组的DNA比较,即可确定基因所在 的区域并找到外显子-内含子的边界。两种因素 会干扰用cD

14、NA筛选基因的工作:n 当目标cDNA克隆在cDNA文库中所占比例很低时,需要 化费大量时间从很大的cDNA群体中筛选阳性克隆。有两种 可提高工作效率的方法,其一,将cDNA文库先分成若干亚 群,对这些经“稀释”过的亚群进行初筛。由于各亚群中稀有 cDNA的比例有差别,可挑选杂交信号强的亚群进一步筛选 。其二,cDNA均一化(cDNA normalization),是缩小低拷 贝cDNA与高拷贝cDNA在cDNA文库中比例差异的方法,通 过抑制高拷贝cDNA数量,增加低拷贝cDNA达到均一化的 目的。cDNA均一化的基本原理是DNA复性动力学。DNA复 性的速率取决于以下因素,即碱基组成、DN

15、A克分子浓度 和反应温度。在合适的条件下,可使大多数高拷贝cDNA复 性成为双链,但仍然有少量高拷贝单链cDNA保持游离状态 ,而大部分低拷贝与中拷贝单链cDNA均呈游离状态。将反 应液通过羟基磷灰石层析柱,双链cDNA被羟基磷灰石吸附 ,收集过柱的单链cDNA用于构建cDNA文库。经均一化后 ,高拷贝cDNA的比例可降低一个数量级,而低拷贝cDNA 可提高一个数量级。n 与mRNA反转录有关。mRNA分子的5-端或其他 区域有时会产生二级结构,当反转录酶以RNA为模 板合成单链DNA时,如遇上RNA二级结构便会终止 反应,从而产生残缺的cDNA。高温下合成cDNA的 反转录酶可降低mRNA二

16、级结构的干扰,获得全长 的cDNA。另一种确保合成5完整cDNA的方法是, 根据反转录单链cDNA 3-末端有一个额外的C碱基, 可设计一种 5-端含几个连续G的引物,将其加入反 应液中。反转录酶合成的单链cDNA 3-末端可与该 引物互补,使cDNA 3-末端延伸。收集合成的全长 单链cDNA,再用设计的引物扩增单链cDNA用于全 长cDNA文库的构建。采用RACE方法可获得丢失的cDNA末端 n由于一些未知的原因,cDNA文库中有些插入子会丢 失其5-或3-端顺序,可采用cDNA末端快速扩增技术 (rapid amplification of cDNA end,RACE)方法寻找 这些丢失的末端顺序。根据残缺cDNA内部顺序先合 成一对引物,将mRNA环化后使其与引物复性,再经 PCR扩增。扩增产物再用第二对巢式引物PCR放大, 可获得mRNA 5-和3-端顺序。 5.2 基因功能预测 n确认DNA顺序中的基因序列后,下一个问题是探知其 功能,这是基因组研究中的一个难度很大的领域。一 些已

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 医学/心理学 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号