基因组测序的原理与方法课件

上传人:hs****ma 文档编号:567699259 上传时间:2024-07-22 格式:PPT 页数:125 大小:4.44MB
返回 下载 相关 举报
基因组测序的原理与方法课件_第1页
第1页 / 共125页
基因组测序的原理与方法课件_第2页
第2页 / 共125页
基因组测序的原理与方法课件_第3页
第3页 / 共125页
基因组测序的原理与方法课件_第4页
第4页 / 共125页
基因组测序的原理与方法课件_第5页
第5页 / 共125页
点击查看更多>>
资源描述

《基因组测序的原理与方法课件》由会员分享,可在线阅读,更多相关《基因组测序的原理与方法课件(125页珍藏版)》请在金锄头文库上搜索。

1、大规模基因组测序的大规模基因组测序的原理与方法原理与方法 基因组测序的原理与方法课件元素周期表的发现奠定了二十世纪物理、化学研究和发展的基础元素周期表“基因组序列图”将奠定二十一世纪生命科学研究和生物产业发展的基础! “基因组”-生命科学的“元素周期表”人体解剖图奠定了现代医学发展的基础基因组测序的原理与方法课件生命的奥秘蕴藏于“四字天书”之中GCTTCTTCCTCATTTTCTCTTGCCGCCACCATGCCGCCACCA TCATTTTCTCTTGCCGCCACCATGCTTCTTCCTCATTTTCTCT CCACCATGCCGCCACCACGCCACCATGCTTCTTCCTCATC

2、TC GCTTTCTTGCCGCCACCATGCCGCCACCGCTTCTTCCtTCTCT基因组测序的原理与方法课件基因组学的基础理论研究基因组学的基础理论研究基因组学是要揭示下述四种整合体系的相互关系基因组学是要揭示下述四种整合体系的相互关系:基因组作为信息载体基因组作为信息载体 (碱基对、重复序列的整(碱基对、重复序列的整体守恒与局部不平衡的关系)体守恒与局部不平衡的关系)基因组作为遗传物质的整合体基因组作为遗传物质的整合体 (基因作为功能和基因作为功能和结构单位与遗传学机制的关系结构单位与遗传学机制的关系) 基因组作为生物化学分子的整合体基因组作为生物化学分子的整合体 (基因产物作基因

3、产物作为功能分子与分子、细胞机制的关系)为功能分子与分子、细胞机制的关系)物种进化的整合体物种进化的整合体 (物种在地理与大气环境中的物种在地理与大气环境中的自然选择)自然选择)基因组测序的原理与方法课件 基因组学是一个基因组学是一个大学科大学科“ “界门纲目科属种界门纲目科属种界门纲目科属种界门纲目科属种” ”,地球上现存物种近亿,所有生生灭,地球上现存物种近亿,所有生生灭,地球上现存物种近亿,所有生生灭,地球上现存物种近亿,所有生生灭灭的生物,无一例外,都有个基因组。灭的生物,无一例外,都有个基因组。灭的生物,无一例外,都有个基因组。灭的生物,无一例外,都有个基因组。基因组作为信息载体,它

4、所储存的信息是最基本的生物基因组作为信息载体,它所储存的信息是最基本的生物基因组作为信息载体,它所储存的信息是最基本的生物基因组作为信息载体,它所储存的信息是最基本的生物学信息之一;既是生命本质研究的出发点之一,又是生学信息之一;既是生命本质研究的出发点之一,又是生学信息之一;既是生命本质研究的出发点之一,又是生学信息之一;既是生命本质研究的出发点之一,又是生物信息的归宿。物信息的归宿。物信息的归宿。物信息的归宿。基因组学研究包括对基因产物(转录子组和蛋白质组)基因组学研究包括对基因产物(转录子组和蛋白质组)基因组学研究包括对基因产物(转录子组和蛋白质组)基因组学研究包括对基因产物(转录子组和

5、蛋白质组)的系统生物学研究。的系统生物学研究。的系统生物学研究。的系统生物学研究。基因多态性的规模化研究就是基因组多态性的研究。基因多态性的规模化研究就是基因组多态性的研究。基因多态性的规模化研究就是基因组多态性的研究。基因多态性的规模化研究就是基因组多态性的研究。基因组学的研究必然要上升到细胞机制、分子机制和系基因组学的研究必然要上升到细胞机制、分子机制和系基因组学的研究必然要上升到细胞机制、分子机制和系基因组学的研究必然要上升到细胞机制、分子机制和系统生物学的水平。统生物学的水平。统生物学的水平。统生物学的水平。基因组的起源与进化和物种的起源与进化一样是一个新基因组的起源与进化和物种的起源

6、与进化一样是一个新基因组的起源与进化和物种的起源与进化一样是一个新基因组的起源与进化和物种的起源与进化一样是一个新的科学领域。的科学领域。的科学领域。的科学领域。基因组信息正在以天文数字计算,规模化地积累,它的基因组信息正在以天文数字计算,规模化地积累,它的基因组信息正在以天文数字计算,规模化地积累,它的基因组信息正在以天文数字计算,规模化地积累,它的深入研究必将形成一个崭新的学科。深入研究必将形成一个崭新的学科。深入研究必将形成一个崭新的学科。深入研究必将形成一个崭新的学科。基因组测序的原理与方法课件 基因组学是一门基因组学是一门大科学大科学基因组的信息是用来发现和解释具有普遍意义的生命基因

7、组的信息是用来发现和解释具有普遍意义的生命基因组的信息是用来发现和解释具有普遍意义的生命基因组的信息是用来发现和解释具有普遍意义的生命现象和它们的变化、内在规律、和相互关系。现象和它们的变化、内在规律、和相互关系。现象和它们的变化、内在规律、和相互关系。现象和它们的变化、内在规律、和相互关系。基因组的信息含量高。基因组学的研究又在于基因组基因组的信息含量高。基因组学的研究又在于基因组基因组的信息含量高。基因组学的研究又在于基因组基因组的信息含量高。基因组学的研究又在于基因组间的比较。间的比较。间的比较。间的比较。基因组学的复杂性必然导致多学科的引进和介入(各基因组学的复杂性必然导致多学科的引进

8、和介入(各基因组学的复杂性必然导致多学科的引进和介入(各基因组学的复杂性必然导致多学科的引进和介入(各生物学科、医学、药学、计算机科学、化学、数学、生物学科、医学、药学、计算机科学、化学、数学、生物学科、医学、药学、计算机科学、化学、数学、生物学科、医学、药学、计算机科学、化学、数学、物理学、电子工程学、考古学等)。物理学、电子工程学、考古学等)。物理学、电子工程学、考古学等)。物理学、电子工程学、考古学等)。基因组学研究的手段和技术已经走在生命科学研究的基因组学研究的手段和技术已经走在生命科学研究的基因组学研究的手段和技术已经走在生命科学研究的基因组学研究的手段和技术已经走在生命科学研究的最

9、前沿。最前沿。最前沿。最前沿。基因组信息来自于高效率和规模化所产生的实验数据。基因组信息来自于高效率和规模化所产生的实验数据。基因组信息来自于高效率和规模化所产生的实验数据。基因组信息来自于高效率和规模化所产生的实验数据。人类基因组计划证明了基因组研究的迫切性和可行性。人类基因组计划证明了基因组研究的迫切性和可行性。人类基因组计划证明了基因组研究的迫切性和可行性。人类基因组计划证明了基因组研究的迫切性和可行性。基因组测序的原理与方法课件基因组与生命之谜基因组与生命之谜基因组的产生与进化。基因组的产生与进化。基因组的产生与进化。基因组的产生与进化。基因组基因组基因组基因组DNADNA组分的变化、

10、组分的变化、组分的变化、组分的变化、GCGC百分比、嘌呤:嘧啶守恒。百分比、嘌呤:嘧啶守恒。百分比、嘌呤:嘧啶守恒。百分比、嘌呤:嘧啶守恒。遗传密码的发生、发展和进化。遗传密码的发生、发展和进化。遗传密码的发生、发展和进化。遗传密码的发生、发展和进化。内含子(尤其是大于内含子(尤其是大于内含子(尤其是大于内含子(尤其是大于100100,000 000 核苷酸的大内含子)剪核苷酸的大内含子)剪核苷酸的大内含子)剪核苷酸的大内含子)剪出后的运输和降解。出后的运输和降解。出后的运输和降解。出后的运输和降解。最小内含子的生物学意义。最小内含子的生物学意义。最小内含子的生物学意义。最小内含子的生物学意义

11、。动物基因组与植物基因组在基因分布上的共性和个性。动物基因组与植物基因组在基因分布上的共性和个性。动物基因组与植物基因组在基因分布上的共性和个性。动物基因组与植物基因组在基因分布上的共性和个性。物种衍变过程中基因组水平的变化。物种衍变过程中基因组水平的变化。物种衍变过程中基因组水平的变化。物种衍变过程中基因组水平的变化。基因组大小变化与遗传、分子、细胞机制的关系。基因组大小变化与遗传、分子、细胞机制的关系。基因组大小变化与遗传、分子、细胞机制的关系。基因组大小变化与遗传、分子、细胞机制的关系。“ “JUNK DNAJUNK DNA” ”的发生、分类、进化与功能。的发生、分类、进化与功能。的发生

12、、分类、进化与功能。的发生、分类、进化与功能。基因组测序的原理与方法课件测序设备的垄断和高速度换代199020052020Year2015201020001995Mb1000Mb4000ABI373ABI377ABI3130ABI3730ABI3730xlGA-I GA-IILess Than 5 yrsHiSeq1000/2000Mb4500ABI3700ABI3700xlSOLiDSOLiD2SOLiD35500xl SOLiDABI3130xlGA-IIx5500 SOLiD8基因组测序的原理与方法课件测序设备发展现状第一代(稳定需求)第一代(稳定需求)ABi3130xL3730xL35

13、00xL第三代(即将面市)第三代(即将面市)Helicos BiosciencesHelicos Genetic Analysis System Pacific BiosciencesRSSystem 第二代(高速发展)第二代(高速发展)RocheGenome Sequencer FLX System GS Junior System IlluminaGenome Analyzer IIxMiSeqHiSeq 1000HiSeq 2000Life Technologies (ABi)5500 SOLiD System5500xL SOLiD SystemIon Torrent PGMDanah

14、erMotionPolonator G.007Complete Genomics无锡艾吉因生物信息技术有限公司无锡艾吉因生物信息技术有限公司AG-100深圳华因康基因科技有限公司深圳华因康基因科技有限公司Pstar-1中科院北京基因组所中科院北京基因组所/ /半导体所半导体所BIGIS-1BIGIS-49基因组测序的原理与方法课件大规模基因组测序的几个支撑技术大规模基因组测序的几个支撑技术v Sanger双脱氧末端终止双脱氧末端终止法法v PCR 技术技术v DNA 自动测序仪的发展自动测序仪的发展v 生物信息学分析软硬件设施生物信息学分析软硬件设施基因组测序的原理与方法课件“ “双脱氧末端终

15、止双脱氧末端终止双脱氧末端终止双脱氧末端终止” ”的含的含的含的含义义义义基因组测序的原理与方法课件 PCRPCRPCRPCR(聚合酶链式反应)原理(聚合酶链式反应)原理(聚合酶链式反应)原理(聚合酶链式反应)原理反应所需物质:反应所需物质:DNA模板、引物、模板、引物、DNA聚合聚合 酶、酶、dNTP、缓冲液、缓冲液每个循环包括:每个循环包括:变性(变性(90)、退火()、退火(54 )、延伸()、延伸(72 )基因组测序的原理与方法课件Sanger 双脱氧末端终止法测序原理双脱氧末端终止法测序原理基因组测序的原理与方法课件大 规 模基因组 测 序 的 两 种 策 略逐步克隆法逐步克隆法(C

16、lone by Clone)全基因组霰弹法全基因组霰弹法 (Whole Genome Shot-gun)基因组测序的原理与方法课件ATGCCGTAGGCCTAGC TAGGCCTAGCTCGGA ATGCCGTAGGCCTAGCTCGGA基因组基因组DNABAC文库文库根据物理图谱根据物理图谱正确定位的正确定位的BAC 或或contig用于霰弹法测用于霰弹法测序的候选克隆序的候选克隆用于霰弹法测序用于霰弹法测序的亚克隆的亚克隆测序并组装测序并组装完整的基因完整的基因组序列组序列逐步克隆法(逐步克隆法(Clone by Clone) 全基因组霰弹法全基因组霰弹法 (Whole Genome Sh

17、ot-gun)基因组基因组DNA 霰弹法克隆霰弹法克隆测序并进行测序并进行全基因组序全基因组序列组装列组装完整的基因完整的基因组序列组序列基因组测序的原理与方法课件 两种大规模基因组测序策略的比较两种大规模基因组测序策略的比较 项项项项 目目目目 策策策策 略略略略全基因组霰弹法全基因组霰弹法全基因组霰弹法全基因组霰弹法逐步克隆法逐步克隆法逐步克隆法逐步克隆法 遗传背景遗传背景遗传背景遗传背景不需要不需要不需要不需要需要(需构建精确的需要(需构建精确的需要(需构建精确的需要(需构建精确的物理图谱)物理图谱)物理图谱)物理图谱)速度速度速度速度快快快快慢慢慢慢费用费用费用费用低低低低高高高高计算

18、机性能计算机性能计算机性能计算机性能高(以全基因组为单高(以全基因组为单高(以全基因组为单高(以全基因组为单位进行拼接)位进行拼接)位进行拼接)位进行拼接)低(以低(以低(以低(以BACBAC为单位进为单位进为单位进为单位进行拼接)行拼接)行拼接)行拼接)适用范围适用范围适用范围适用范围工作框架图工作框架图工作框架图工作框架图精细图精细图精细图精细图代表测序物种代表测序物种代表测序物种代表测序物种果蝇、水稻果蝇、水稻果蝇、水稻果蝇、水稻人、线虫人、线虫人、线虫人、线虫基因组测序的原理与方法课件BACbyBACWholeGenomeShotgunthe sequencing of the hum

19、an genome is likely to be the only large sequencing project carried to completion by the methods described in this issue.Maynard V. Olson , Themaps: Clone by clone byclone,Nature409,816-818(2001)基因组测序的原理与方法课件“WorkingDraft”(90%; 4X)FinishedGenome(99.99%; 8X)Gap1Gap2Chromosome工作草稿(框架图)与完成图基因组测序的原理与方法课

20、件BACbyBAC 基因组测序的原理与方法课件ThesequenceofthehumangenomeC.Venteretal.Science16Feb.291:13041351,2001基因组测序的原理与方法课件人类基因组计划研究的主要成果和进展表现在这人类基因组计划研究的主要成果和进展表现在这“四张图四张图”上上 遗传图谱遗传图谱 又称为连锁图谱(又称为连锁图谱(linkage maplinkage map),指),指基因或基因或DNADNA标志在染色体上的相对位置标志在染色体上的相对位置与遗传距离与遗传距离物理图谱物理图谱 以定位的以定位的DNADNA标记序列如标记序列如STSSTS作为路

21、标,作为路标,以以DNADNA实际长度即实际长度即bp、kb、Mb为图距的为图距的基因组图谱。基因组图谱。转录图谱转录图谱 利用利用EST(expressedsequencetags 表达表达序列标签)作为标记所构建的分子遗传序列标签)作为标记所构建的分子遗传图谱图谱序列图谱序列图谱 通过基因组测序得到的,以通过基因组测序得到的,以A A、T T、G G、C C为标记单位的基因组为标记单位的基因组DNADNA序列序列 基因组测序的原理与方法课件逐步克隆法逐步克隆法(Clone by Clone)物理图谱的构建物理图谱的构建大片段克隆的筛选大片段克隆的筛选霰弹法测序与霰弹法测序与“工作框架图工作

22、框架图”的构建的构建序列的全组装与序列的全组装与“完成图完成图”构建构建基因组测序的原理与方法课件物理图谱的制作物理图谱的制作基因组测序的原理与方法课件物理图谱的制作物理图谱的制作序列标签位点(序列标签位点(STS)作图)作图物理图谱物理图谱是以特异的是以特异的DNADNA序列为标志所展示的染色体图。序列为标志所展示的染色体图。标志之间的距离或图距以物理距离如碱基对(标志之间的距离或图距以物理距离如碱基对(base pairbase pair;bpbp,Kb , Mb)Kb , Mb)表示。最精细的物理图是核苷酸顺序图,最粗略的表示。最精细的物理图是核苷酸顺序图,最粗略的物理图是染色体组型图。

23、物理图是染色体组型图。 STSSTS图谱图谱是最基本和最为有用的染色体物理图谱之一,是最基本和最为有用的染色体物理图谱之一,STSSTS(Sequence Tagged Site)Sequence Tagged Site)本身是随机地从人类基因组上选本身是随机地从人类基因组上选择出来的长度在择出来的长度在200200300bp300bp左右的特异性短序列(每个左右的特异性短序列(每个STSSTS在在基因组中是唯一的,基因组中是唯一的,STSSTS图谱就是以图谱就是以STSSTS为路标(平均每为路标(平均每100Kb100Kb一个),将一个),将DNADNA克隆片段有序地定位到基因组上。克隆片段

24、有序地定位到基因组上。 STS的来源的来源随机基因组序列随机基因组序列表达基因序列,如表达基因序列,如EST遗传标记序列,如微卫星标记遗传标记序列,如微卫星标记有关有关STSSTS的信息可在基因组数据库的信息可在基因组数据库GDBGDB中找到中找到 .gdb.org基因组测序的原理与方法课件物物物物 理理理理 图图图图 谱谱谱谱 构构构构 建建建建 的的的的 步步步步 骤骤骤骤q确定各确定各STS序列及其在序列及其在基因组中的位置基因组中的位置q大插入片段基因组文大插入片段基因组文库的构建(库的构建(BAC文库文库)q 以特定以特定STS为标记为标记筛筛 选选并定位克隆并定位克隆q含有含有ST

25、S的克隆在基因的克隆在基因组中排序组中排序基因组数据库(GDB)中至少含有24568个STS路标信息基因组测序的原理与方法课件关关 于于 文文 库库作为载体的基本要求能在宿主细胞中进行独立的复制能在宿主细胞中进行独立的复制 具有多克隆位点,可插入外源具有多克隆位点,可插入外源 DNADNA片段片段 有合适的筛选标记,如抗药性有合适的筛选标记,如抗药性 大小合适,易于分离纯化大小合适,易于分离纯化 拷贝数多拷贝数多 文库的概念文库的概念 含有某种生物体全部基因的随机片段的重组含有某种生物体全部基因的随机片段的重组DNADNA克隆群体克隆群体 载体:载体:能携带外源能携带外源DNADNA进入宿主细

26、胞进入宿主细胞的工具,常用的载体有质粒载体、噬的工具,常用的载体有质粒载体、噬菌体载体、细菌人工染色体等菌体载体、细菌人工染色体等宿主:宿主:能容纳外源能容纳外源DNADNA片段的生物体,片段的生物体,常用的有大肠杆菌、酵母等常用的有大肠杆菌、酵母等基因组测序的原理与方法课件BACBAC文库的构建文库的构建文库的构建文库的构建NotI、SacI脉冲场凝胶电泳得200Kb左右的大片段DNA纯化后与载体连接电转化,将连接产物导入大肠杆菌感受态细胞插有外源DNA片段的BAC载体在含有氯霉素的固体培养基中培养每一个菌落为带有相同外源DNA片段的单克隆基因组测序的原理与方法课件BAC克隆的筛选克隆的筛选

27、“STS-PCR反反应池应池”方案方案筛筛选种子克隆选种子克隆特定的特定的STS标标记记相互间具有重叠片段的BAC克隆根据STS信息组装成contig,并定位于基因组上Contig每一个菌落为带有相同外源DNA片段的单克隆基因组测序的原理与方法课件基因组测序的原理与方法课件Regionalmapping基因组测序的原理与方法课件Regionalmapping基因组测序的原理与方法课件Minimaltilingpathselectedforsequencing.Regionalmapping基因组测序的原理与方法课件Beijing Map基因组测序的原理与方法课件基因组测序的原理与方法课件共共4

28、8个个每每组组 8 个个每每8个个96孔板组成孔板组成1个个superpool,384个个96孔板组成孔板组成48个个superpools48 superpools基因组测序的原理与方法课件Column poolsColumn pools Row poolsRow pools 1 2 3 4 5 6 7 8 9 10 11 12第八板第八板第二板第二板Plate Plate poolspools第一板第一板 plate pools,row pools,column pools的构成的构成基因组测序的原理与方法课件“STS-PCR反应池反应池”方案(方案(Pooling Pooling Prot

29、ocolProtocol) 1 2 3 4 5 6 7 8 9 10 11 12超级池(超级池(8个个96孔板,孔板,共共768个克隆)个克隆)板池(板池(96个克隆)个克隆)行池(12个克隆)列池(列池(8个克隆)个克隆)大大减少筛选的工作量,降低成本,所得筛选结果准确可靠大大减少筛选的工作量,降低成本,所得筛选结果准确可靠 28 VS 768基因组测序的原理与方法课件sheet of superpools, plate pools, row pools, column pools基因组测序的原理与方法课件 一一 BAC Screening前前48个样品为引物个样品为引物OGG1.51对对s

30、uperpool(sp)的筛选结果的筛选结果后后48个样品为引物个样品为引物OGG1.52对对superpool(sp)的筛选结果的筛选结果基因组测序的原理与方法课件引物引物OGG1.52对应对应sp#27,34,45的的plate,row,column pools的筛选结果的筛选结果基因组测序的原理与方法课件BAC clone 确定确定 (+为阳性克隆为阳性克隆)基因组测序的原理与方法课件引物引物OGG1.52的的Colony-PCR基因组测序的原理与方法课件延延 伸伸 克克 隆隆 的的 筛筛 选选 STSSTS的密度尚未达到绘制高精度物理图谱的要求,且在基因组中的分的密度尚未达到绘制高精度

31、物理图谱的要求,且在基因组中的分布不均匀,造成很多区域没有阳性克隆覆盖布不均匀,造成很多区域没有阳性克隆覆盖, ,形成空洞。因此需用指纹图形成空洞。因此需用指纹图谱(谱(FPCFPC法)或末端序列(法)或末端序列(Walking by End Sequence)Walking by End Sequence)步移等手段对种子步移等手段对种子克隆进行延伸,形成连续克隆群。利用延伸方法筛选得到的克隆称为延克隆进行延伸,形成连续克隆群。利用延伸方法筛选得到的克隆称为延伸克隆。伸克隆。Contig1Contig2重叠序列重叠序列重叠序列重叠序列延伸引物延伸引物筛选到的延伸克隆筛选到的延伸克隆基因组测序

32、的原理与方法课件20kb300bpMolecularweightmarkerevery5thlane-BACclones在96深孔板中培养-HindIII完全酶切-1%琼脂糖凝胶电泳 指指 纹纹 图图 谱谱 法法 (WalkingbyFingerprintingdatabase) 挑取靠近空洞的种子克隆,酶切构建其指纹图谱,在FPC数据库中进行比对,搜索含有此克隆的重叠克隆群信息,从中确定覆盖空洞区域的克隆,达到延伸目的。基因组测序的原理与方法课件HindIII完全酶切HindIII完全酶切FPC数据库数据库中比对中比对CloneACloneBCloneCCAB基因组测序的原理与方法课件con

33、tig搭建中克隆的错位搭建中克隆的错位 基因组测序的原理与方法课件末端序列步行法末端序列步行法 (WalkingbyEndSequence)挑取靠近空洞的种子克隆进行末端测序,然后在基因组数据库中进行比对,确定专一性的序列片段作为新的STS路标。最后设计新路标的PCR引物,按照STSPCR“反应池”方案筛选新的克隆,达到延伸的目的。克隆克隆350A18350A18序列输入序列输入 end sequence databaseend sequence database的查询结果的查询结果基因组测序的原理与方法课件四、四、Clone Identification 1、STS-PCR 2、BAC en

34、d sequencing 3、Fingerprinting 4、FISH基因组测序的原理与方法课件CK2CK1CK2CK113f06267l16481o07250a15204c23340j13对对1515个克隆进行个克隆进行HindIIIHindIII酶切后电泳结果酶切后电泳结果基因组测序的原理与方法课件基因组测序的原理与方法课件“工作框架图工作框架图”绘制绘制根据序列与STS database进行blastn比较结果,将克隆定位末端序的比较,判定延伸在contig外的一端序列。并可及时进行walking,筛选新的克隆基因组测序的原理与方法课件霰弹法测序组装与Finishing基因组测序的原理

35、与方法课件工作流程图工作流程图基因组测序的原理与方法课件Shotgun Sequencing I :RANDOM PHASEBacClone:BacClone:100-200kb100-200kbShearedDNA:ShearedDNA:1.0-2.0kb1.0-2.0kbSequencingSequencingTemplates:Templates:RandomRandomReadsReads基因组测序的原理与方法课件Shotgun Sequencing II:ASSEMBLYConsensusConsensusSequenceSequenceGapGap LowBaseLowBaseQu

36、alityQualitySingleSingleStrandedStrandedRegionRegionMis-AssemblyMis-Assembly( (InvertedInverted) )基因组测序的原理与方法课件ConsensusConsensusSequenceSequenceGapGap LowBaseLowBaseQualityQualitySingleSingleStrandedStrandedRegionRegionMis-AssemblyMis-Assembly( (InvertedInverted) )Shotgun Sequencing III: FINISHING基

37、因组测序的原理与方法课件ConsensusConsensusSequenceSequenceGapGap SingleSingleStrandedStrandedRegionRegionMis-AssemblyMis-Assembly( (InvertedInverted) )Shotgun Sequencing III: FINISHING基因组测序的原理与方法课件ConsensusConsensusSequenceSequenceGapGap Mis-AssemblyMis-Assembly( (InvertedInverted) )Shotgun Sequencing III: FINI

38、SHING基因组测序的原理与方法课件ConsensusConsensusMis-AssemblyMis-Assembly( (InvertedInverted) )Shotgun Sequencing III: FINISHING基因组测序的原理与方法课件Shotgun Sequencing III: FINISHINGHighAccuracySequence:HighAccuracySequence:1error/10,000basesSp6Sp6Sp61kb.Insert size.Thesizeoftheclone-insertfromwhichaclone-endpairistaken

39、.Contig. The result of joining an overlapping collection ofsequencereads.Scaffold. The result of connecting non-overlapping contigs byusingpair-endreads.N50 size.Asappliedtocontigsorscaffolds,thatsizeabovewhich50%oftheassembledsequencecanbefound.基因组测序的原理与方法课件Genome assembly strategyContig assemblySc

40、afffoldingInternal gap closing基因组测序的原理与方法课件Recent whole genome sequencing projectsTable. Basic information of Rrecently sequenced genomes.OrganismGenome sizestrategyCoverageContigScafffolds#N50MaxTotal#N50MaxTotalHuman3.0GbSolexa45x2.76M1.5Kb18.8Kb2.18GbNRNRNRNRApple742.3 MbSangr+4544.4x+12.5x122,14

41、616,171NR603.9Mb1,629102KbNR598.3Castor320MbSanger4.59x54,00021.1kb190kb324Mb25,828496.5kb4.7Mb350.6MbGrapevine500MbSangr+4547x+4.2x58,61118.2Kb238kb531Mb2,0931.33Mb7.8Mb421MbPanda2.4GbSolexa74x200,60436,728434,6352.25Gb81,4961.22Mb6.05Mb2.30GbStraberry220Mb454+solexa+solid24.5x+6.4x+6.4x16,48728,07

42、2215,349202Mb3,2631.44Mb4.1Mb214MbCacoo430Mb454+sanger+solexa16.7x+44x25,91219.8kb190Kb291.44,792473.8Kb3415Kb326.9MbTomato900Mb454+sanger+solexa+solid31x+3.6x+82x+140x110,87255.7kbNR763Mb3,7614.45MbNR782MbPotato840Mb454+solexa+solid11x+106x+0.2x111,18731KbNR683Mb66,301387KbNR727Mb基因组测序的原理与方法课件基因组测序

43、的原理与方法课件 Flowchart of the WGS de novo assemblyGenomic DNADNA fragmentation, construct fragmented librariesGenerate sequencing reads using 454 technologySequencing error correctionOutput contigsFill in intra-scaffold gaps and get the final scaffoldsGenomic DNADNA fragmentation, construct paired-end l

44、ibraries with variant insert sizesGenerate sequencing reads using Illumina GA technologySequencing pre-processOutput contigs and mini scaffoldsSolexa part454 partHybrid assembly and scffolding基因组测序的原理与方法课件 454 reads processRaw readsKmer evaluationQ20, remove adaptor,trim Sequencing pre-processNewble

45、r assemblyAssembled readsUnassembled readsUnigene coverageKmer evaluationSolexa mappingNr/Nt blastContig statusAssemblyHybrid scaffolding基因组测序的原理与方法课件 Solexa reads processRaw readsKmer evaluationSequencing pre-processSoap assemblyAssembled readsUnassembled readsUnigene coverageKmer evaluationSolexa

46、mappingNr/Nt blastContig statusAssemblyMapping to 454 contigHybrid scaffoldingCov /Comp基因组测序的原理与方法课件long readsassemblycontigsshort readsA +C B scaffoldingA +B C scaffoldsFix gapHybrid assembly基因组测序的原理与方法课件ESTUnigeneScafAScafCScafBScafDNewScafABCDEST based Assembly in short reads of NGS: Constructe B

47、IGer Scaffording 基因组测序的原理与方法课件Raw sequencing reads pre-processing I Significance and purposeuSequencing library quality controluSequencing bias analysisI.Inherited prosperities on certain second generation sequencerII.Genome sequencing black hole effectIII.Transcriptome sampling and quantification b

48、iasuReady for mapping uReady for de novo assembly 基因组测序的原理与方法课件Raw sequencing reads pre-processing IISequencing reads numbersDuplicates detection, regional distribution analysis and trimmingAdapter detection and trimmingReads quality analysis and low quality reads filter Averagequalitydensitydistrib

49、utionAveragequalitypositionaldistributionregionaldistributionF-RcorrelationGCcontent-qualitycorrelationInsert length distribution Pipeline基因组测序的原理与方法课件raw data pre-process基因组测序的原理与方法课件Image analysis and basecallingGOATpipeline(OLB1.6),CASAVA基因组测序的原理与方法课件Quality ControlGERALDSummary.htmLaneLaneYield(

50、kbases)Clusters(raw)Clusters(PF)1stCycleInt(PF)%intensityafter20cycles(PF)%PFClusters%Align(PF)AlignmentScore(PF)%ErrorRate(PF)152630597464+/-487887676+/-921975+/-2186.17+/-5.2589.76+/-5.9599.06+/-0.25102.41+/-1.621.30+/-0.22基因组测序的原理与方法课件Fastq and QualitySolexareadsoftheFastqformats_1_1_sequence.txt

51、HWI-EAS724_0001:8:32:374:374#0/1GAGCTGTATATGAATAATAGTTCGTTTTTCATTATCCAAGATGGATCGGTATAAAGTCTGCTAAAATAAAGGTACAACG+HWI-EAS724_0001:8:32:374:374#0/1fcfcfggdfggggfggggcggggggggfgggggcgggfWgggggggggfgcggdgcgcggggfacbbbbgcgggggds_1_2_sequence.txtHWI-EAS724_0001:8:32:374:374#0/2TACCGTTAATAGCAGTAATATCATAATAG

52、TAATAGCATCATAACGGTAGTCCCATAAAAGTGTGTCAGTAGTAGTAGTA+HWI-EAS724_0001:8:32:374:374#0/2ggggfgggggd_adcggggeggfggeggegfgeececdegggggfegcfegggegggfgacacedbd_cYbIllumina1.3formatencodesaPhredqualityscorefrom0to40usingASCII64to104errorprobability(p):#forsolexa:p=0.01,Q=19;p=0,05,Q=12.8,p=0.10,Q=9.5;#forphre

53、d:p=0.01,Q=20;p=0,05,Q=13,p=0.10,Q=10;基因组测序的原理与方法课件Data assessment I Read quality distribution基因组测序的原理与方法课件Low Quality High Quality Trim:3endtrimifQN30)60Assessment: DistanceDistrubitionbetweentwoLowquality(Q20 ?基因组测序的原理与方法课件 Lane data usage in different solexa library- Fiter duplication reads基因组测序的

54、原理与方法课件Average Reads per StartPoint基因组测序的原理与方法课件Read CorrectionCorrect Illumina GA short reads Kmer = 17Genome Size Prediction: M = N * ( L-K+1)/L N = Total Length (bp) /Genome sizeL= Average Rads Length (bp)M基因组测序的原理与方法课件Genome size estimation using KmerBeforeestimatingthegenomesize,wesetahypothesi

55、s:thek-merwepickedoutfromthegenomecanergodicthewholegenomesequence.AccordingtotheLanderwatermanalgorithm,thealgorithmshouldberepresentedas:G=Knum/KdepthHere,Gisthegenomesize,Knumisthetotalnumberofk-merandKdepthistheexpecteddepthofthek-mer.Ifweobtaintheexpecteddepthofk-mer,wecancalculatethegenomesize

56、.Becausethedistributionofk-merfrequencyyieldstoPoissondistribution,wecanconsiderthepeakofthek-merdistributioncurveastheexpecteddepthofk-merandcalculatethegenomesize.Note:Atotalof15,437,084,746Kmers,thepeakvalueontherightfigureis8,sothegenomesizeisestimatedas:15,437,084,746/8=1.93G基因组测序的原理与方法课件High Q

57、uality Read Rate after preprocessAssembly: Raw data VS preprocessed Data ?基因组测序的原理与方法课件QuestionsGenome size estimation methods (K-mer & Cov)Assembly optimization (parameters)Assembly evaluation (454_Solexa EST)Unmappable solexa reads reuse (filter-assemble)Scaffolding comparison (ABI & BIG & Bambus

58、& blat)solexa to solid feasible?Assembly assessment (BAC, 3730, necessary ?)基因组测序的原理与方法课件Sequencing Strategy for solexaI.SamplepreperII.FragmentorPairedEndorMatePairIII.Sequencingdifferentlibraries:Datacoverage(500bp).10X,20X.Largergenomesize,Largerlibrariesneeded.10K?IV.LengthofsolexaReads?100bp?F+

59、R=OneReads?V.OtherData:3730,454,solid.EST.基因组测序的原理与方法课件OVERVIEW OF TESTED ASSEMBLERS基因组测序的原理与方法课件Depth VS Coverage基因组测序的原理与方法课件ESTbasedScaffolding基因组测序的原理与方法课件基因组混合拼接验证及结构变异检测流程基因组混合拼接验证及结构变异检测流程 基因组测序的原理与方法课件 重复序列注释流程重复序列注释流程基因组测序的原理与方法课件Repeat analysis Lib5Total length:167,786,201 bp Bases masked:

60、1,267,118 bp 0.75%SINEs:298 28,108 ALUs0 0 MIRs211 21,533 LINEs:1,891 347,604 LINE11,246 292,428 LINE2236 26,166 L3/CR1289 20,348 LTR elements:185 42,779 ERVL39 8,334 ERVL-MaLRs55 10,011 ERVL_classI50 12,852 ERVL_classII7 1,292 DNA elements:141 16,729 hAT-Charlie76 8,642 TcMar-Charlie25 3,424 Unclas

61、sified:1 139 Total interspersed repeats:435,359 Small RNA:709 101,246 Satellites:2 280 Simple repeats:9,466 560,018 Low complexity:3,674 170,215 基因组测序的原理与方法课件 基因结构及功能注释技术路线基因结构及功能注释技术路线基因组测序的原理与方法课件Gene predictionDe novo predictionGenScan 16,609-3,775 uniprot hitAugustus 19378-10,245 hitHomology-bas

62、ed predictionalignment-gene scaffold-genewiseReference gene set基因组测序的原理与方法课件tRNA scan基因组测序的原理与方法课件CpG island基因组测序的原理与方法课件miRNA predictionUsing miRNA database fasta as query and blast with our masked scaffolds基因组测序的原理与方法课件Gene function annotationGene Ontology (local uniprot database)KEGG (online)基因组测

63、序的原理与方法课件GO annotationGenScan uniprot annotation Gene Ontology基因组测序的原理与方法课件KEGG pathway overview血吸虫基因组测序的原理与方法课件 基因家族进化分析及比较生物学分析技术路线基因家族进化分析及比较生物学分析技术路线基因组测序的原理与方法课件 以应用为主导的基因组学将阔步走向未来以应用为主导的基因组学将阔步走向未来走向人类的健康与生活走向人类的健康与生活走向人类赖以生存的物质基走向人类赖以生存的物质基础础走向人类赖以生存的环境走向人类赖以生存的环境走上人类社会和经济发展的走上人类社会和经济发展的大舞台大舞

64、台基因组测序的原理与方法课件基因组学研究成果将走近人类的健康与生活基因组学研究成果将走近人类的健康与生活疾病相关基因的发现、功能的鉴定和分子机制疾病相关基因的发现、功能的鉴定和分子机制疾病相关基因的发现、功能的鉴定和分子机制疾病相关基因的发现、功能的鉴定和分子机制的探讨的探讨的探讨的探讨突破常见病(复杂疾病)基因水平的研究突破常见病(复杂疾病)基因水平的研究突破常见病(复杂疾病)基因水平的研究突破常见病(复杂疾病)基因水平的研究以基因为基础的疾病诊断、预测和预防以基因为基础的疾病诊断、预测和预防以基因为基础的疾病诊断、预测和预防以基因为基础的疾病诊断、预测和预防基因治疗与细胞治疗治疗的结合基因

65、治疗与细胞治疗治疗的结合基因治疗与细胞治疗治疗的结合基因治疗与细胞治疗治疗的结合以基因多态性为基础的以基因多态性为基础的以基因多态性为基础的以基因多态性为基础的“ “个体化个体化个体化个体化” ”药物药物药物药物以基因多态性为基础的以基因多态性为基础的以基因多态性为基础的以基因多态性为基础的“ “个体健康计划个体健康计划个体健康计划个体健康计划” ”传统药物、生物药物和传统药物、生物药物和传统药物、生物药物和传统药物、生物药物和“ “有机药物有机药物有机药物有机药物” ”的自然回的自然回的自然回的自然回归归归归基因组测序的原理与方法课件走向人类赖以生存的物质基础走向人类赖以生存的物质基础抗病、

66、抗虫和抗极端环境抗病、抗虫和抗极端环境GMGM农作物农作物高生殖率、高生长率、高营养率的高生殖率、高生长率、高营养率的GMGM家畜、家禽和水产品新品种家畜、家禽和水产品新品种维生素和营养物质富集的水果和蔬维生素和营养物质富集的水果和蔬菜菜生物杀虫剂、除草剂和抗病药物生物杀虫剂、除草剂和抗病药物微生态环境下生产的有机食品微生态环境下生产的有机食品基因组测序的原理与方法课件 走向人类赖以生存的环境走向人类赖以生存的环境基因组信息记录了物种亿万年来在环境基因组信息记录了物种亿万年来在环境变迁中起源和进化的历史。变迁中起源和进化的历史。生物多样性资源的研究、保护与开发:生物多样性资源的研究、保护与开发:地球上估计有地球上估计有1 1亿个物种亿个物种生态环境的研究、保护与开发:生态环境的研究、保护与开发:巨大的海洋(占地球总面积巨大的海洋(占地球总面积巨大的海洋(占地球总面积巨大的海洋(占地球总面积71717171)广袤的森林(占地球总面积广袤的森林(占地球总面积广袤的森林(占地球总面积广袤的森林(占地球总面积40404040)诸多的湖泊与河流诸多的湖泊与河流诸多的湖泊与河流诸多的湖泊与河流基因组测序的原理与方法课件谢谢!基因组测序的原理与方法课件

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号