基因组学第4章

上传人:re****.1 文档编号:568430749 上传时间:2024-07-24 格式:PPT 页数:40 大小:3.94MB
返回 下载 相关 举报
基因组学第4章_第1页
第1页 / 共40页
基因组学第4章_第2页
第2页 / 共40页
基因组学第4章_第3页
第3页 / 共40页
基因组学第4章_第4页
第4页 / 共40页
基因组学第4章_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《基因组学第4章》由会员分享,可在线阅读,更多相关《基因组学第4章(40页珍藏版)》请在金锄头文库上搜索。

1、第4章 基因组测序与组装基因组测序的终极目标是获取目标基因组测序的终极目标是获取目标生物基因组的完整生物基因组的完整DNA序列。序列。4.1 DNA测序4.1.1 人工DNA测序DNA测序技术发明于测序技术发明于20世纪世纪70年代中期,有两种不同的测年代中期,有两种不同的测序程序:序程序:- 链终止法链终止法(chain termination method): 通过合成与单链通过合成与单链DNA互补的多核苷酸链来读起带测互补的多核苷酸链来读起带测DNA分子的序列,分子的序列,合成的互补单链可在不同位置随机终止反应。合成的互补单链可在不同位置随机终止反应。- 化学降解法化学降解法(chemi

2、cal degradation method): 双链双链DNA分子经化学试剂处理,可在特定的核苷酸位点产生切分子经化学试剂处理,可在特定的核苷酸位点产生切口,用同位素标记带测碱基,确定序列组成。口,用同位素标记带测碱基,确定序列组成。链终止法的原理链终止法的原理引物与单链模板引物与单链模板DNA结合结合在链终止反应中加入大量的在链终止反应中加入大量的dNTP和少量的和少量的ddNTP。由于由于DNA聚合酶不能区分聚合酶不能区分dNTP和和ddNTP,因此,因此,ddNTP可掺入到新生的可掺入到新生的DNA单链中,合成的单链中,合成的新链在此终止。新链在此终止。引物的序列决定了引物的序列决定了

3、引物的序列决定了引物的序列决定了DNADNA测序的起点测序的起点测序的起点测序的起点n链终止法测序需要引物起始,因为链终止法测序需要引物起始,因为DNA聚合酶聚合酶在单链在单链DNA分子上,不能启动分子上,不能启动DNA合成。合成。n测序时引物的选择测序时引物的选择- 通用引物,即克隆位点附近载体上的一段序列。通用引物,即克隆位点附近载体上的一段序列。- 内部引物,如果待测序列长度大于内部引物,如果待测序列长度大于750bp,要进,要进行几次测序,须根据前面已知的序列合成新的行几次测序,须根据前面已知的序列合成新的引物延伸测序。引物延伸测序。- 直接测序时,要选择直接测序时,要选择PCR的正向

4、或反向引物。的正向或反向引物。4.1.2 自动化测序自动化测序n荧光染料标记物荧光染料标记物 (fluorescent dye)n毛细管电泳(毛细管电泳(capillary electrophoresis)n计算机碱基序列的采集与处理。计算机碱基序列的采集与处理。荧光染料标记物荧光染料标记物荧光染料标记物荧光染料标记物毛细管电泳毛细管电泳(capillary electrophoresis)毛细管毛细管4.2 基因组测序基因组测序4.2.1 基因组测序的策略基因组测序的策略1)作图测序作图测序 (map-based sequencing): 按照按照DNA克克隆绘制的物理图分别在单个隆绘制的物

5、理图分别在单个DNA克隆内部进行克隆内部进行测序与组装,然后将彼此相连的大分子克隆按测序与组装,然后将彼此相连的大分子克隆按次序搭建支架,最后以分子标记为向导将搭建次序搭建支架,最后以分子标记为向导将搭建好的支架锚定在基因组整合图上。好的支架锚定在基因组整合图上。2)鸟枪法测序鸟枪法测序(shotgun sequencing):将整个基因:将整个基因组组DNA打断成小片段后将其克隆到载体中,然打断成小片段后将其克隆到载体中,然后随机挑取克隆进行测序,以获得的序列构建后随机挑取克隆进行测序,以获得的序列构建重叠群。进一步搭建序列支架,最后以分子标重叠群。进一步搭建序列支架,最后以分子标记为向导将

6、序列支架锚定到基因组整合图上。记为向导将序列支架锚定到基因组整合图上。4.2.2 基因组测序的覆盖面基因组测序的覆盖面n基因组测序覆盖面基因组测序覆盖面(coverage): 随机测序随机测序获得的序列总长与单倍体基因组序列总长获得的序列总长与单倍体基因组序列总长之比,覆盖面越大,遗漏的序列越少。之比,覆盖面越大,遗漏的序列越少。n覆盖面和丢失率之间测算的公式:覆盖面和丢失率之间测算的公式: P0=e-m m为覆盖面;为覆盖面;e为自然对数底数;为自然对数底数;P为丢失为丢失的概率的概率若若m=1 P0=e-1=0.37=37%若若m=5 P0=e-5=0.0067=0.67%若若m=10 P

7、0=e-10=4.510-5=0.000045=0.0045%要使测序的覆盖率达到要使测序的覆盖率达到99.99%,就必须使覆盖,就必须使覆盖面达到面达到8次以上。次以上。4.2.3 序列间隙与物理间隙序列间隙与物理间隙间隙:即使将基因组测序的覆盖率确定为间隙:即使将基因组测序的覆盖率确定为99.99%,对大型基因组而言仍有相当数量,对大型基因组而言仍有相当数量的的DNA序列会在随机测序中丢失。这些被序列会在随机测序中丢失。这些被丢失的丢失的DNA序列分散在各个染色体区段,序列分散在各个染色体区段,形成一个个间隙。形成一个个间隙。序列间隙序列间隙:测序时遗漏的序列,这些序列仍然保留在尚未挑选:

8、测序时遗漏的序列,这些序列仍然保留在尚未挑选的克隆中。的克隆中。物理间隙物理间隙:构建基因组文库时被丢失的:构建基因组文库时被丢失的DNA序列,它们从已有序列,它们从已有的克隆群体中永久地消失。的克隆群体中永久地消失。物理间隙产生的原因物理间隙产生的原因:- 由于特殊的碱基组成,如染色体着丝粒区的高度重复序列缺由于特殊的碱基组成,如染色体着丝粒区的高度重复序列缺少合适的酶切位点,难以获得大分子少合适的酶切位点,难以获得大分子DNA克隆克隆- 克隆载体中,高度重复序列很不稳定,在扩增中容易丢失。克隆载体中,高度重复序列很不稳定,在扩增中容易丢失。- 某些基因的表达产物对宿主菌具有毒性,可将宿主菌

9、杀死。某些基因的表达产物对宿主菌具有毒性,可将宿主菌杀死。间隙的类型间隙的类型序列间隙缝合序列间隙缝合4.2.4 插入片段的两端测序插入片段的两端测序n每个克隆都是从每个克隆都是从两端测序两端测序,因为同一个载体,因为同一个载体只有两个引物;每个克隆内部的序列只有两个引物;每个克隆内部的序列不能进不能进行连续测序行连续测序,因为缺少对应的引物。,因为缺少对应的引物。n由于所有克隆的插入片段都是随机产生的,由于所有克隆的插入片段都是随机产生的,因此某一个克隆内部的序列有可能在另一克因此某一个克隆内部的序列有可能在另一克隆的末端出现。就整体而言,克隆群体所有隆的末端出现。就整体而言,克隆群体所有的

10、的两端序列可以连续覆盖整个基因组两端序列可以连续覆盖整个基因组。4.3 序列组装序列组装基因组序列组装有关的概念基因组序列组装有关的概念1) 1) BACBAC末端顺序末端顺序(BAC-end sequence) (BAC-end sequence) 一个一个BACBAC克隆插入片段克隆插入片段两端的已测序的顺序两端的已测序的顺序, ,不包括内部序列不包括内部序列. . 可用于确定可用于确定BACBAC的的排列方向以及重叠群排列方向以及重叠群( (contigcontig) )在支架在支架(scaffold)(scaffold)中的排列中的排列方向方向. .2)2) 重叠群重叠群( (cont

11、igcontig) ) 一群相互重叠的克隆或一群相互重叠的克隆或DNADNA序列序列, ,可以是可以是草图序列或精确序列草图序列或精确序列(finished), (finished), 包括连续的包括连续的( (内部无间内部无间隙隙) )或不连续的或不连续的( (内部含间隙内部含间隙)DNA)DNA序列序列. .3)3) 支架支架(scaffold) (scaffold) 一组已锚定在染色体上的重叠群一组已锚定在染色体上的重叠群, , 内部内部含间隙或不含间隙含间隙或不含间隙. . 4) 4) 草图序列草图序列(draft sequence) (draft sequence) 人类基因组测序计

12、划定义人类基因组测序计划定义为为经经PhredPhred Q20 Q20软件认可覆盖测序克隆片段软件认可覆盖测序克隆片段3-43-4倍倍的的DNADNA序列序列. . 含间隙或无间隙含间隙或无间隙, , 排列方向和位置未定排列方向和位置未定. .5) 5) 完成序列完成序列(finished sequence) (finished sequence) 顺序差错率顺序差错率( (错误碱基数错误碱基数) )低于低于0.01%0.01%的的DNADNA序列序列, , 排列方向确定排列方向确定, ,内部不含间隙内部不含间隙, , 一一般测序覆盖率在般测序覆盖率在8-108-10个单倍体基因组个单倍体基

13、因组. .引自引自NCBI, NCBI, Revised November 6, 2003Revised November 6, 2003 草图序列草图序列草图序列可分为草图序列可分为3 3个等级个等级: : Phase 0Phase 0: : 测序测序覆盖面一次覆盖面一次的的DNADNA序列序列; ; Phase 1Phase 1: : 测序测序覆盖面覆盖面3-43-4次次的的BACBAC克隆克隆, , BAC BAC及内部片段的及内部片段的位置和排位置和排 列方向未定列方向未定. . Phase 2Phase 2: : 测序测序覆盖面覆盖面3-43-4次次的的BACBAC克隆克隆, , B

14、AC BAC及内部片段的及内部片段的位置和排位置和排 列方向已定列方向已定. .完成序列完成序列1) 完成顺序系指已测序的完成顺序系指已测序的, 每每10000 个碱个碱基中出现一个差错基中出现一个差错, 且内部不存在间隙且内部不存在间隙 的的DNA顺序顺序.2) 完成顺序也称为完成顺序也称为Phase 3期顺序期顺序.4.3.1 作图法测序与序列组装作图法测序与序列组装 4.3.2 鸟枪法测序与序列组装n老鼠基因组是采取全基因组鸟枪法完成老鼠基因组是采取全基因组鸟枪法完成的范例。的范例。n老鼠基因组测序共构建了老鼠基因组测序共构建了6个插入片段个插入片段大小不同的基因组文库,分别为大小不同的

15、基因组文库,分别为2kb、4kb、6kb、10kb、40kb和和150-200kb。采用多个基因组文库是因为采用多个基因组文库是因为:- 解决载体遭遇的不兼容问题。解决载体遭遇的不兼容问题。- 采用多种质粒文库也增加了克隆片段的总长,采用多种质粒文库也增加了克隆片段的总长,扩大了覆盖面。扩大了覆盖面。- 可以校正序列组装时由重复序列产生的差错。可以校正序列组装时由重复序列产生的差错。- BAC文库的构建可以使小片段文库的构建可以使小片段DNA文库组建的文库组建的重叠群在大分子克隆中有效而准确地归并与重叠群在大分子克隆中有效而准确地归并与整合。避免了在全基因组范围内直接进行重整合。避免了在全基因

16、组范围内直接进行重叠群排序所产生的错误。叠群排序所产生的错误。利用利用长度长度不同不同插入插入子克子克隆两隆两端测端测序搭序搭建支建支架架鸟枪法测序的优势与局限优势:优势:- 速度快,无需提供相关的遗传图和物理图。速度快,无需提供相关的遗传图和物理图。- 覆盖面较大,有些在作图法中遗落的基因可在覆盖面较大,有些在作图法中遗落的基因可在鸟枪法中发现。鸟枪法中发现。局限:局限:- 基因组太大,序列复杂,序列组装的起始阶段基因组太大,序列复杂,序列组装的起始阶段工作量非常大。工作量非常大。- 存在大量难以填补的间隙。存在大量难以填补的间隙。4.3.3 几种不同生物基因组的测序1) 1) 大肠杆菌基因

17、组测序大肠杆菌基因组测序-图位法图位法2) 2) 流感嗜血杆菌基因组测序流感嗜血杆菌基因组测序-鸟枪法鸟枪法3) 3) 果蝇基因组测序果蝇基因组测序-鸟枪法鸟枪法4) 4) 人类基因组测序人类基因组测序-图位法和鸟枪法图位法和鸟枪法5) 5) 拟南芥基因组测序拟南芥基因组测序图位法图位法6) 6) 水稻基因组测序水稻基因组测序-图位法和鸟枪法图位法和鸟枪法人类基因组鸟枪法测序的疑问-PNAS 99:4143-4144,2002-PNAS 99:4143-4144,2002-PNAS 99:4143-4144,2002-PNAS 99:4143-4144,2002人类基因组鸟枪法测序是一个神化人

18、类基因组鸟枪法测序是一个神化? ?1) 1) 丢失了丢失了20%20%的基因组顺序的基因组顺序, , 含有含有116 000116 000个间隙个间隙, ,平均长平均长2.3 2.3 kb.kb.2) 2) 利用了大量公开发表的人类基因组顺序作为组装的支点利用了大量公开发表的人类基因组顺序作为组装的支点, ,这这是一些极其关键的顺序是一些极其关键的顺序. .3) 3) 耗费耗费: : 作图法的费用为作图法的费用为, 10%, 10%用于用于BACBAC作图与亚克隆作图与亚克隆, 50-, 50-60%60%用于亚克隆测序用于亚克隆测序, ,覆盖率为覆盖率为5-65-6个当量个当量, 30-40

19、%, 30-40%用于完成用于完成精确顺序测序精确顺序测序. . 鸟枪法费用为鸟枪法费用为, , 利用了发表的利用了发表的BACBAC物理图物理图, ,节省了节省了10%10%的费用的费用. . 由于避免顺序丢失由于避免顺序丢失, , 随机克隆的覆盖面随机克隆的覆盖面达到达到1515个基因组当量个基因组当量. . 此外利用了公共数据库此外利用了公共数据库中中BACBAC的两端的两端顺序顺序, ,减少了这部分的测序减少了这部分的测序量量. . 总的费用实际远超过作图法总的费用实际远超过作图法测序测序. .4) 4) 鸟枪法并未在真正意义上加速人类基因组计划的进程鸟枪法并未在真正意义上加速人类基因

20、组计划的进程, , 人人类基因组测序计划组织在过去类基因组测序计划组织在过去7-87-8年中积累的物理图数据被年中积累的物理图数据被鸟枪法大量利用是其成功的主要因素之一鸟枪法大量利用是其成功的主要因素之一. .人类基因组草图人类基因组草图-2000年版本年版本1) 人类基因组草图在富含基因的常染色体上约有人类基因组草图在富含基因的常染色体上约有10%的遗漏的遗漏,整体而言约有整体而言约有30%遗漏遗漏(包括基(包括基因匮乏的异染色质区因匮乏的异染色质区),忽略或错序的总数约,忽略或错序的总数约为数十万。为数十万。 2) 人类基因组人类基因组草图有草图有341个遗漏个遗漏,涉及,涉及3800万个

21、万个碱基对碱基对.3) “鸟枪法鸟枪法”无法测到人类基因组中无法测到人类基因组中重复出现的重复出现的DNA片段片段,这些片段占到基因组的,这些片段占到基因组的3至至5,对于理解遗传性疾病具有重要意义。对于理解遗传性疾病具有重要意义。人類基因組測序精图2004年版本lMay 27, 2004人類基因組測序項目完成近半人類基因組測序項目完成近半隨著第隨著第9號和第號和第10號人類染色體準確測序和分析結果的發表,號人類染色體準確測序和分析結果的發表,人類基因組測序項目已完成近半。迄今已發表的人類染色體人類基因組測序項目已完成近半。迄今已發表的人類染色體有第有第6、7、9、10、13、14、19、20

22、、21、22號染色體和號染色體和Y染染色體,剩下色體,剩下12個已編號的染色體和個已編號的染色體和X染色體有待完成染色體有待完成. “人人類基因組項目類基因組項目”所收集的序列數據是按照所收集的序列數據是按照“百慕大標準百慕大標準”獲獲取的,將目標準確性定為取的,將目標準確性定為99.99%,即每,即每10000個個DNA鹼基中鹼基中不到不到1個錯誤。來自個錯誤。來自“斯坦福人類基因組中心斯坦福人類基因組中心”的一個研究的一個研究小組對人類基因組序列數據做了一個質量評估,他們得出結小組對人類基因組序列數據做了一個質量評估,他們得出結論認為,在整個基因組中,論認為,在整個基因組中,“百慕大標準百

23、慕大標準”被超過了被超過了10倍,倍,使得每使得每10000個個DNA鹼基中不到鹼基中不到1個錯誤。個錯誤。人类基因组精确顺序已经完成人类基因组精确顺序已经完成人类基因组测序的伦理学问题1 1)专利问题专利问题 提供缺陷型基因的人员在研究成果获得商提供缺陷型基因的人员在研究成果获得商 业利益时是否有权要求给予报酬或拥有部份专利;业利益时是否有权要求给予报酬或拥有部份专利;2 2)人类基因组顺序的)人类基因组顺序的公开利用公开利用问题问题 如何确定基因的好如何确定基因的好 坏,一旦某人所谓坏,一旦某人所谓 “ “次等次等”的基因被人获知,是否的基因被人获知,是否会会 受到歧视与不公正待遇;受到歧

24、视与不公正待遇;3 3)保险保险公司是否有权获知投保人的基因资料,是否有权公司是否有权获知投保人的基因资料,是否有权 要求投保人进行某些敏感基因的测试;要求投保人进行某些敏感基因的测试;4 4)投保人的基因资料是否具有)投保人的基因资料是否具有隐私权隐私权,可否拒绝保险公,可否拒绝保险公 司,招聘单位,所在部门上级主管提出的获知基因资司,招聘单位,所在部门上级主管提出的获知基因资 料的要求料的要求;人类基因组测序的伦理学问题5 5)某些公司可能提出一些看似正当的理由,如工作环)某些公司可能提出一些看似正当的理由,如工作环 境不利于一些基因组顺序中存在某些境不利于一些基因组顺序中存在某些“缺陷缺

25、陷”的人员的人员 而拒绝他们的工作申请,尽管这些人员确有专长。而拒绝他们的工作申请,尽管这些人员确有专长。6 6)已经确定婚姻关系的配偶双方或即将踏入婚姻之旅)已经确定婚姻关系的配偶双方或即将踏入婚姻之旅 的恋人是否有权获知对方基因组中自己感兴趣的基的恋人是否有权获知对方基因组中自己感兴趣的基 因组成;因组成;7 7)什么是坏基因什么是坏基因: :社会如何对待那些被认为具有社会如何对待那些被认为具有“暴力暴力” 倾向基因型的成员;倾向基因型的成员;8 8)“敏感敏感”顺序的法律保护顺序的法律保护: :雇员是否可以因为基因组雇员是否可以因为基因组 “ “敏感敏感”顺序而有权拒绝雇主或上级部门的工

26、作调动顺序而有权拒绝雇主或上级部门的工作调动 与安排。与安排。随着基因组计划的深入,诸如此类的问题已经提上议事随着基因组计划的深入,诸如此类的问题已经提上议事日程,如何处理这些问题是对人类智慧的考验。日程,如何处理这些问题是对人类智慧的考验。思考题1) 1) 链终止法测序的原理是什么链终止法测序的原理是什么? ?2) 2) 鸟枪法测序与作图法测序的差别鸟枪法测序与作图法测序的差别? ? 3) 3) 为何原核生物基因组更适合鸟枪法测序为何原核生物基因组更适合鸟枪法测序? ?4) 4) 图解说明图解说明BACBAC克隆测序与顺序组装的过程克隆测序与顺序组装的过程. .5) 5) 为何为何BACBAC克隆测序和全基因组鸟枪法测序克隆测序和全基因组鸟枪法测序 都会留间隙都会留间隙? ?6) 6) 什么是物理间隙什么是物理间隙? ? 什么是顺序间隙什么是顺序间隙? ? 如何如何 填补这两类间隙填补这两类间隙? ?7) 7) 大型基因组鸟枪法测序的缺点是什么大型基因组鸟枪法测序的缺点是什么? ? 8) 8) 基因组鸟枪法测序要构建大小不同的插入基因组鸟枪法测序要构建大小不同的插入 片段隆文库片段隆文库, ,原因何在原因何在? ?9)9)为何着丝粒区和近端粒区为何着丝粒区和近端粒区DNADNA的测序非常的测序非常 困难困难? ?

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号