基因组测序与序列组装

上传人:m**** 文档编号:568722153 上传时间:2024-07-26 格式:PPT 页数:39 大小:1.90MB
返回 下载 相关 举报
基因组测序与序列组装_第1页
第1页 / 共39页
基因组测序与序列组装_第2页
第2页 / 共39页
基因组测序与序列组装_第3页
第3页 / 共39页
基因组测序与序列组装_第4页
第4页 / 共39页
基因组测序与序列组装_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《基因组测序与序列组装》由会员分享,可在线阅读,更多相关《基因组测序与序列组装(39页珍藏版)》请在金锄头文库上搜索。

1、第二讲 基因组测序与序列组装主要内容主要内容:什么是基因组什么是基因组什么是基因什么是基因DNA测序的方法测序的方法DNA序列的组装序列的组装人类基因组计划人类基因组计划水稻基因组计划水稻基因组计划后基因组学后基因组学1. 什么是基因组 基因组就是一个物种中基因组就是一个物种中所有基因的整体组成。所有基因的整体组成。 基因组有两层意义:基因组有两层意义:遗遗传物质传物质和和遗传信息遗传信息。 要揭开生命的奥秘,要揭开生命的奥秘,就需要从就需要从整体水平整体水平研究研究基因的存在、基因的结基因的存在、基因的结构与功能、基因之间的构与功能、基因之间的相互关系。相互关系。 Zea mays 8,00

2、0Homo sapiens 3,000Oryza sativa 400Drosophila melanogaster 165Arabidopsis thaliana 100Saccharomyces cerevisiae 12E.coli 4.6Genome Size (Mb)什么是什么是C 值?值?通常是指一种生物通常是指一种生物通常是指一种生物通常是指一种生物单倍体基因组单倍体基因组单倍体基因组单倍体基因组DNADNA的的的的总量总量总量总量. . 在真核生物中,在真核生物中,在真核生物中,在真核生物中,C C值一般随着生物的进化而增值一般随着生物的进化而增值一般随着生物的进化而增值一般随

3、着生物的进化而增加,高等生物加,高等生物加,高等生物加,高等生物C C值一般大于低等生物。值一般大于低等生物。值一般大于低等生物。值一般大于低等生物。 C值悖理:值悖理: 生物的复杂性与基因组的大小并不完全成比生物的复杂性与基因组的大小并不完全成比例增加例增加细菌细菌细菌细菌真菌真菌真菌真菌等等等等动物动物动物动物阴影部分为一个门内阴影部分为一个门内C-值的范围值的范围重复顺序高度重复顺序:高度重复顺序: 长度:几个长度:几个几千个几千个bp 拷贝数:几百个拷贝数:几百个上百万个上百万个 首尾相连,串联排列首尾相连,串联排列 集中分布于染色体的特定区段(如端粒,着丝粒等)集中分布于染色体的特定

4、区段(如端粒,着丝粒等) 也称卫星也称卫星DNA中度重复顺序:中度重复顺序: 一般分散于整个基因组中;一般分散于整个基因组中; 长度和拷贝数差别很大长度和拷贝数差别很大单一顺序:单一顺序: 基因主要位于单一顺序基因主要位于单一顺序 动物中单一顺序约占动物中单一顺序约占50 植物中单一顺序约占植物中单一顺序约占20 是遗传信息的物理和功能单位,包含是遗传信息的物理和功能单位,包含产生产生一条多肽链或功能一条多肽链或功能RNA所必需的全部核苷酸所必需的全部核苷酸序列。序列。 基因分类:基因分类: 编码编码RNA的基因,如的基因,如rRNA基因,基因,snRNA基因等;基因等; 编码蛋白质的基因编码

5、蛋白质的基因2. 什么是基因?什么是基因?基因的不连续性基因的不连续性Intron 和和Exon: 大多数真核生物蛋大多数真核生物蛋白质基因的编码顺白质基因的编码顺序序(Exon)都被或长都被或长或短的非编码顺序或短的非编码顺序(Intron)隔开隔开基因家族基因家族 一群具有一群具有一致的一致的或或相似相似顺序顺序的基因的基因, ,有的还担负有的还担负类似的生物学功能类似的生物学功能, , 可以相互补偿可以相互补偿, , 比如比如:E2f :E2f transcription factor transcription factor Mouse symbolMouse symbolHuman

6、OrthologHuman OrthologE2f1E2f1E2F1 E2F1 E2f2E2f2E2F2E2F2E2f3E2f3E2F3E2F3E2f4E2f4E2F4E2F4E2f5E2f5E2F5E2F5E2f6E2f6E2F6E2F6假基因假基因(Pseudogene) 来源于功能基因来源于功能基因 但已失去活性的但已失去活性的DNA序列序列产生假基因的原因有产生假基因的原因有:1.由重复产生的假基因由重复产生的假基因;2.加工的假基因加工的假基因, 由由RNA反转录为反转录为cDNA 后再整合后再整合到基因组中到基因组中;3.残缺的基因残缺的基因(Truncated gene) 重叠基

7、因重叠基因:同一段同一段DNA 能携带两种不同蛋白的信息能携带两种不同蛋白的信息.重迭基因有以下几种情况:重迭基因有以下几种情况:*一个基因完全在另一个基因内部一个基因完全在另一个基因内部*部分重叠部分重叠* 两个基因共用少数碱基对两个基因共用少数碱基对 *一个基因完全在另一个一个基因完全在另一个基因内部基因内部如:如:B和和A, E和和D 其读码结构互不相同其读码结构互不相同 -ATG-/-AATGCC -/-ATAACG-/-TAA-A*BATGCCN-NNATAA*部分重叠部分重叠 如:如:K和和C *两个基因共用少数两个基因共用少数碱基对碱基对 如:如:D和和J-TAATG-D 终止密

8、码子终止密码子J 起始密码子起始密码子3. DNA测序的方法测序的方法链终止法测序链终止法测序化学降解法测序化学降解法测序自动化测序自动化测序非常规非常规DNA测序测序3.1 链终止法测序链终止法测序(the chain termination method) 基本原理基本原理: 通过合成与单链通过合成与单链DNA互补的多核苷酸链,互补的多核苷酸链,由于合成的互补链可在不同位置随机终止反由于合成的互补链可在不同位置随机终止反应,产生只差一个核苷酸的应,产生只差一个核苷酸的DNA分子,从而分子,从而来读取待测来读取待测DNA分子的顺序。分子的顺序。技术路线与要求制备单链模板制备单链模板 将将单链

9、模板与一小段引物退火模板与一小段引物退火 加入加入DNA多聚多聚酶 4种脱氧核苷酸种脱氧核苷酸分分别加入少量加入少量4种双脱氧核苷酸种双脱氧核苷酸 将将4种反种反应产物分物分别在在4条泳道条泳道电泳泳 根据根据4个碱基在个碱基在4条泳道的条泳道的终止位置止位置读出基因序列出基因序列 A 克隆于质粒中克隆于质粒中DNA用碱或热变性用碱或热变性B M13B M13克隆单链克隆单链DNADNAC C 噬粒克隆噬粒克隆DNADNAD PCRD PCR产生单链产生单链DNADNAA 高酶活性高酶活性B 无无533 外切酶活性外切酶活性C C 无无3 3 55 外切酶活性外切酶活性ddATP/ddCTP/

10、ddGTP/ddTTP 的的3碳原子连接碳原子连接的是氢原子的是氢原子,不是羟基不是羟基3.2 化学降解法测序化学降解法测序基本原理基本原理: 在选定的核苷酸碱基中引入化学基在选定的核苷酸碱基中引入化学基团,再用化合物处理,使团,再用化合物处理,使DNA分子在被分子在被修饰的位置降解。修饰的位置降解。技术路线 将双链将双链DNA样品变为单链样品变为单链 每个每个单链的同一方向末端都用放射性同位素的同一方向末端都用放射性同位素标记,以便,以便显示示DNA条条带 分分别用不同方法用不同方法处理,理,获得只差一个核苷酸的得只差一个核苷酸的降解降解DNA群体群体 电泳,泳,读取取DNA的核苷酸的核苷酸

11、顺序序Maxam-Gilbert 法所用的化学技术碱基碱基碱基碱基特异修饰方法特异修饰方法特异修饰方法特异修饰方法G GPh8.0,Ph8.0,用硫酸二甲酯对用硫酸二甲酯对用硫酸二甲酯对用硫酸二甲酯对 N7N7进行甲基化进行甲基化进行甲基化进行甲基化, ,使使使使 C8-C9C8-C9键对碱基裂解有特殊敏感性键对碱基裂解有特殊敏感性键对碱基裂解有特殊敏感性键对碱基裂解有特殊敏感性A+GA+GpH2.0 pH2.0 哌啶甲酸可使嘌呤环的哌啶甲酸可使嘌呤环的哌啶甲酸可使嘌呤环的哌啶甲酸可使嘌呤环的NN原子化原子化原子化原子化, ,从从从从而导致脱嘌呤而导致脱嘌呤而导致脱嘌呤而导致脱嘌呤, ,并因此

12、消弱腺嘌呤和鸟嘌呤并因此消弱腺嘌呤和鸟嘌呤并因此消弱腺嘌呤和鸟嘌呤并因此消弱腺嘌呤和鸟嘌呤的糖苷键的糖苷键的糖苷键的糖苷键C+TC+T肼可打开嘧啶环肼可打开嘧啶环肼可打开嘧啶环肼可打开嘧啶环, ,后者重新环化成五元环后后者重新环化成五元环后后者重新环化成五元环后后者重新环化成五元环后易除去易除去易除去易除去C C1.5mol/L NaCl1.5mol/L NaCl存在时存在时存在时存在时, ,可用肼除去胞嘧啶可用肼除去胞嘧啶可用肼除去胞嘧啶可用肼除去胞嘧啶化学法测序实例哌啶3.3 自动化测序基本原理基本原理 与链终止法测序原理相同与链终止法测序原理相同,只是用不同的只是用不同的荧光荧光色彩色彩

13、标记标记ddNTP,如如ddATP标记红色荧光标记红色荧光,ddCTP标记蓝色荧光标记蓝色荧光, ddGTP标记黄色荧光标记黄色荧光, ddTTP标记绿色荧光标记绿色荧光.由于每种由于每种ddNTP带有各带有各自特定的荧光颜色自特定的荧光颜色,而简化为由而简化为由1个泳道同时个泳道同时判读判读4种碱基种碱基.3.4 非常规测序非常规测序 毛细管电泳毛细管电泳 用毛细管电泳取代聚丙烯凝胶平板电泳,节省用毛细管电泳取代聚丙烯凝胶平板电泳,节省时间,加快测序进程,其他程序同链终止法或化时间,加快测序进程,其他程序同链终止法或化学测序法。学测序法。 DNADNA芯片测序芯片测序 基本原理基本原理 将各

14、种排列顺序的寡核苷酸点播在芯片上将各种排列顺序的寡核苷酸点播在芯片上, 每个点播每个点播的寡核苷酸在排列的方阵中都有指定的位置的寡核苷酸在排列的方阵中都有指定的位置.待检测的待检测的DNA分子与芯片温浴分子与芯片温浴,凡是能杂交的寡核苷酸都会在确凡是能杂交的寡核苷酸都会在确定位置发出信号定位置发出信号,然后根据获取的信息将寡核苷酸的顺然后根据获取的信息将寡核苷酸的顺序进行对比组装序进行对比组装,拼接成完全的拼接成完全的DNA顺序顺序.利用基因芯片进行杂交测序的原理4 序列的组装4.1 随机测序与序列组装随机测序与序列组装 随机测序也称随机测序也称”鸟枪法鸟枪法”。 序列组装原理:直接从已测序的

15、小片段中寻找彼此序列组装原理:直接从已测序的小片段中寻找彼此重叠的测序克隆,然后依次向两侧邻接的序列延伸。重叠的测序克隆,然后依次向两侧邻接的序列延伸。 优点优点:不需预先了解任何基因组的情况不需预先了解任何基因组的情况.ABCABCABCABC小片段测序小片段测序计算机拼装计算机拼装ABC小片段测序小片段测序计算机拼装计算机拼装鸟枪法鸟枪法(Shotgun)测序的问题测序的问题 CAATGCATTAGCAGCCAATGCGAP错装错装实例:流感嗜血杆菌基因组的测序及序列组装超声波打断纯化的基因组超声波打断纯化的基因组DNA 琼脂糖脂糖电泳收集泳收集1.6 2.0Kb的区段、的区段、纯化化构建

16、到构建到质粒粒载体中体中 随机挑随机挑选19687个克隆个克隆,进行行28643次次测序序,得到可得到可读顺序序为11 631 485 bp 组装成装成140个覆盖全基因个覆盖全基因组范范围的独立的的独立的顺序重叠群序重叠群, 各重叠群各重叠群间仍有仍有间隙隙 顺序序间隙隙 物理物理间隙隙 载体或宿主菌载体或宿主菌载体或宿主菌载体或宿主菌 选用不当而被丢失选用不当而被丢失选用不当而被丢失选用不当而被丢失的顺序的顺序的顺序的顺序测序时遗漏的测序测序时遗漏的测序测序时遗漏的测序测序时遗漏的测序解决办法解决办法: 通过相邻已知通过相邻已知顺序作为探针筛选已有顺序作为探针筛选已有的基因组文库的基因组文

17、库解决办法解决办法: 利用其它宿主菌利用其它宿主菌与载体重新构建文库与载体重新构建文库4.2 限制测序 限制测序:是指将一段染色体区段的限制测序:是指将一段染色体区段的DNA 序序列进行组装列进行组装. 一些已绘制了遗传图与物理图的微生物基因一些已绘制了遗传图与物理图的微生物基因组测序中也采用这一方法组测序中也采用这一方法. 如高等植物如高等植物拟南芥基因组的测序拟南芥基因组的测序完全依据克完全依据克隆重叠群,先进行各个隆重叠群,先进行各个BAC克隆的随机测序,克隆的随机测序,再进行序列组装;再进行序列组装; 水稻基因组测序水稻基因组测序计划采取的策略与此相同计划采取的策略与此相同.4.3 指

18、导测序与序列组装 建立在基因组图谱基础上的建立在基因组图谱基础上的”鸟枪法鸟枪法”,即所谓即所谓”指指导鸟枪法导鸟枪法”或或”指导测序指导测序”。 在人类基因组进入测序组装阶段就采用此方法,其基在人类基因组进入测序组装阶段就采用此方法,其基本步骤如下本步骤如下: A 构建平均为构建平均为2Kb的人类基因组质粒文库的人类基因组质粒文库,进行双向测序进行双向测序; B 构建平均构建平均10Kb的人类基因组质粒文库的人类基因组质粒文库,进行双向测序进行双向测序,读取读取2个端部顺序个端部顺序; C 参考人类基因组图参考人类基因组图,特别是大量的特别是大量的STS位标作为基点位标作为基点,进进行序列组

19、装,排成重叠克隆群行序列组装,排成重叠克隆群. 先将染色体打成比较大的片段先将染色体打成比较大的片段(几十几十-几百几百Kb), 利用分利用分子标记将这些大片段排成重叠的克隆群子标记将这些大片段排成重叠的克隆群(Contig), 分别测序分别测序后拼装后拼装. 这种策略叫这种策略叫基于克隆群基于克隆群(contig-based)的策略的策略.ABCABC大片段大片段contig小片段测序拼装小片段测序拼装两种策略的比较鸟枪法策略鸟枪法策略 指导测序策略指导测序策略不需背景信息不需背景信息 构建克隆群构建克隆群 (遗传、物理图谱遗传、物理图谱)时间短时间短 需要几年的时间需要几年的时间 需要大型

20、计算机需要大型计算机得到的是草图得到的是草图(Draft) 得到精细图谱得到精细图谱4.5 其他测序路线重要区域优先测序重要区域优先测序 人们对感兴趣的基因或与疾病相关的基因人们对感兴趣的基因或与疾病相关的基因优先测序优先测序.如如:人类主要组织相容性复合区位于第人类主要组织相容性复合区位于第6号染色号染色体体,与人类免疫系统有关,因而优先测序与人类免疫系统有关,因而优先测序.EST (Expressed sequence tag) 测序测序 EST是一种重要的基因组图分子标记是一种重要的基因组图分子标记,以以EST为探为探针很容易从针很容易从 cDNA文库中筛选全基因文库中筛选全基因,又可从又可从BAC克克隆中找到其基因组的基因序列隆中找到其基因组的基因序列. 优点优点: A mRNA 可直接反转录成可直接反转录成cDNA,而且而且cDNA文库也文库也比较容易构建比较容易构建; B 对对cDNA文库大量测序文库大量测序,即可获得大量即可获得大量EST的序列的序列; C EST为基因的编码区为基因的编码区,不包括内含子和基因间区域不包括内含子和基因间区域,一次测序的结果足以鉴定所代表的基因一次测序的结果足以鉴定所代表的基因;本章内容结束,谢谢本章内容结束,谢谢本章内容结束,谢谢本章内容结束,谢谢! !

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号