基因组测序的原理与方法

上传人:枫** 文档编号:585869912 上传时间:2024-09-03 格式:PPT 页数:125 大小:5.35MB
返回 下载 相关 举报
基因组测序的原理与方法_第1页
第1页 / 共125页
基因组测序的原理与方法_第2页
第2页 / 共125页
基因组测序的原理与方法_第3页
第3页 / 共125页
基因组测序的原理与方法_第4页
第4页 / 共125页
基因组测序的原理与方法_第5页
第5页 / 共125页
点击查看更多>>
资源描述

《基因组测序的原理与方法》由会员分享,可在线阅读,更多相关《基因组测序的原理与方法(125页珍藏版)》请在金锄头文库上搜索。

1、大规模基因组测序的大规模基因组测序的原理与方法原理与方法胡松年 元素周期表的发现奠定了二十世纪物理、化学研究和发展的基础元素周期表“基因组序列图”将奠定二十一世纪生命科学研究和生物产业发展的基础! “基因组”-生命科学的“元素周期表”人体解剖图奠定了现代医学发展的基础生命的奥秘蕴藏于 “四字天书”之中GCTTCTTCCTCATTTTCTCTTGCCGCCACCATGCCGCCACCA TCATTTTCTCTTGCCGCCACCATGCTTCTTCCTCATTTTCTCT CCACCATGCCGCCACCACGCCACCATGCTTCTTCCTCATCTC GCTTTCTTGCCGCCACCAT

2、GCCGCCACCGCTTCTTCCtTCTCT基因组学的基础理论研究基因组学的基础理论研究基因组学是要揭示下述四种整合体系的相互关系基因组学是要揭示下述四种整合体系的相互关系:基因组作为信息载体基因组作为信息载体 (碱基对、重复序列的整(碱基对、重复序列的整体守恒与局部不平衡的关系)体守恒与局部不平衡的关系)基因组作为遗传物质的整合体基因组作为遗传物质的整合体 (基因作为功能和基因作为功能和结构单位与遗传学机制的关系结构单位与遗传学机制的关系) 基因组作为生物化学分子的整合体基因组作为生物化学分子的整合体 (基因产物作基因产物作为功能分子与分子、细胞机制的关系)为功能分子与分子、细胞机制的关

3、系)物种进化的整合体物种进化的整合体 (物种在地理与大气环境中的物种在地理与大气环境中的自然选择)自然选择) 基因组学是一个基因组学是一个大学科大学科“ “界门纲目科属种界门纲目科属种界门纲目科属种界门纲目科属种” ”,地球上现存物种近亿,所有生生灭,地球上现存物种近亿,所有生生灭,地球上现存物种近亿,所有生生灭,地球上现存物种近亿,所有生生灭灭的生物,无一例外,都有个基因组。灭的生物,无一例外,都有个基因组。灭的生物,无一例外,都有个基因组。灭的生物,无一例外,都有个基因组。基因组作为信息载体,它所储存的信息是最基本的生物基因组作为信息载体,它所储存的信息是最基本的生物基因组作为信息载体,它

4、所储存的信息是最基本的生物基因组作为信息载体,它所储存的信息是最基本的生物学信息之一;既是生命本质研究的出发点之一,又是生学信息之一;既是生命本质研究的出发点之一,又是生学信息之一;既是生命本质研究的出发点之一,又是生学信息之一;既是生命本质研究的出发点之一,又是生物信息的归宿。物信息的归宿。物信息的归宿。物信息的归宿。基因组学研究包括对基因产物(转录子组和蛋白质组)基因组学研究包括对基因产物(转录子组和蛋白质组)基因组学研究包括对基因产物(转录子组和蛋白质组)基因组学研究包括对基因产物(转录子组和蛋白质组)的系统生物学研究。的系统生物学研究。的系统生物学研究。的系统生物学研究。基因多态性的规

5、模化研究就是基因组多态性的研究。基因多态性的规模化研究就是基因组多态性的研究。基因多态性的规模化研究就是基因组多态性的研究。基因多态性的规模化研究就是基因组多态性的研究。基因组学的研究必然要上升到细胞机制、分子机制和系基因组学的研究必然要上升到细胞机制、分子机制和系基因组学的研究必然要上升到细胞机制、分子机制和系基因组学的研究必然要上升到细胞机制、分子机制和系统生物学的水平。统生物学的水平。统生物学的水平。统生物学的水平。基因组的起源与进化和物种的起源与进化一样是一个新基因组的起源与进化和物种的起源与进化一样是一个新基因组的起源与进化和物种的起源与进化一样是一个新基因组的起源与进化和物种的起源

6、与进化一样是一个新的科学领域。的科学领域。的科学领域。的科学领域。基因组信息正在以天文数字计算,规模化地积累,它的基因组信息正在以天文数字计算,规模化地积累,它的基因组信息正在以天文数字计算,规模化地积累,它的基因组信息正在以天文数字计算,规模化地积累,它的深入研究必将形成一个崭新的学科。深入研究必将形成一个崭新的学科。深入研究必将形成一个崭新的学科。深入研究必将形成一个崭新的学科。 基因组学是一门基因组学是一门大科学大科学基因组的信息是用来发现和解释具有普遍意义的生命基因组的信息是用来发现和解释具有普遍意义的生命基因组的信息是用来发现和解释具有普遍意义的生命基因组的信息是用来发现和解释具有普

7、遍意义的生命现象和它们的变化、内在规律、和相互关系。现象和它们的变化、内在规律、和相互关系。现象和它们的变化、内在规律、和相互关系。现象和它们的变化、内在规律、和相互关系。基因组的信息含量高。基因组学的研究又在于基因组基因组的信息含量高。基因组学的研究又在于基因组基因组的信息含量高。基因组学的研究又在于基因组基因组的信息含量高。基因组学的研究又在于基因组间的比较。间的比较。间的比较。间的比较。基因组学的复杂性必然导致多学科的引进和介入(各基因组学的复杂性必然导致多学科的引进和介入(各基因组学的复杂性必然导致多学科的引进和介入(各基因组学的复杂性必然导致多学科的引进和介入(各生物学科、医学、药学

8、、计算机科学、化学、数学、生物学科、医学、药学、计算机科学、化学、数学、生物学科、医学、药学、计算机科学、化学、数学、生物学科、医学、药学、计算机科学、化学、数学、物理学、电子工程学、考古学等)。物理学、电子工程学、考古学等)。物理学、电子工程学、考古学等)。物理学、电子工程学、考古学等)。基因组学研究的手段和技术已经走在生命科学研究的基因组学研究的手段和技术已经走在生命科学研究的基因组学研究的手段和技术已经走在生命科学研究的基因组学研究的手段和技术已经走在生命科学研究的最前沿。最前沿。最前沿。最前沿。基因组信息来自于高效率和规模化所产生的实验数据。基因组信息来自于高效率和规模化所产生的实验数

9、据。基因组信息来自于高效率和规模化所产生的实验数据。基因组信息来自于高效率和规模化所产生的实验数据。人类基因组计划证明了基因组研究的迫切性和可行性。人类基因组计划证明了基因组研究的迫切性和可行性。人类基因组计划证明了基因组研究的迫切性和可行性。人类基因组计划证明了基因组研究的迫切性和可行性。基因组与生命之谜基因组与生命之谜基因组的产生与进化。基因组的产生与进化。基因组的产生与进化。基因组的产生与进化。基因组基因组基因组基因组DNADNA组分的变化、组分的变化、组分的变化、组分的变化、GCGC百分比、嘌呤:嘧啶守恒。百分比、嘌呤:嘧啶守恒。百分比、嘌呤:嘧啶守恒。百分比、嘌呤:嘧啶守恒。遗传密码

10、的发生、发展和进化。遗传密码的发生、发展和进化。遗传密码的发生、发展和进化。遗传密码的发生、发展和进化。内含子(尤其是大于内含子(尤其是大于内含子(尤其是大于内含子(尤其是大于100100,000 000 核苷酸的大内含子)剪核苷酸的大内含子)剪核苷酸的大内含子)剪核苷酸的大内含子)剪出后的运输和降解。出后的运输和降解。出后的运输和降解。出后的运输和降解。最小内含子的生物学意义。最小内含子的生物学意义。最小内含子的生物学意义。最小内含子的生物学意义。动物基因组与植物基因组在基因分布上的共性和个性。动物基因组与植物基因组在基因分布上的共性和个性。动物基因组与植物基因组在基因分布上的共性和个性。动

11、物基因组与植物基因组在基因分布上的共性和个性。物种衍变过程中基因组水平的变化。物种衍变过程中基因组水平的变化。物种衍变过程中基因组水平的变化。物种衍变过程中基因组水平的变化。基因组大小变化与遗传、分子、细胞机制的关系。基因组大小变化与遗传、分子、细胞机制的关系。基因组大小变化与遗传、分子、细胞机制的关系。基因组大小变化与遗传、分子、细胞机制的关系。“ “JUNK DNAJUNK DNA” ”的发生、分类、进化与功能。的发生、分类、进化与功能。的发生、分类、进化与功能。的发生、分类、进化与功能。测序设备的垄断和高速度换代8199020052020Year2015201020001995Mb100

12、0Mb4000ABI373ABI377ABI3130ABI3730ABI3730xlGA-I GA-IILess Than 5 yrsHiSeq1000/2000Mb4500ABI3700ABI3700xlSOLiDSOLiD2SOLiD35500xl SOLiDABI3130xlGA-IIx5500 SOLiD测序设备发展现状9第一代(稳定需求)第一代(稳定需求)ABi3130xL3730xL3500xL第三代(即将面市)第三代(即将面市)Helicos BiosciencesHelicos Genetic Analysis System Pacific BiosciencesRSSyste

13、m 第二代(高速发展)第二代(高速发展)RocheGenome Sequencer FLX System GS Junior System IlluminaGenome Analyzer IIxMiSeqHiSeq 1000HiSeq 2000Life Technologies (ABi)5500 SOLiD System5500xL SOLiD SystemIon Torrent PGMDanaherMotionPolonator G.007Complete Genomics无锡艾吉因生物信息技术有限公司无锡艾吉因生物信息技术有限公司AG-100深圳华因康基因科技有限公司深圳华因康基因科技有

14、限公司Pstar-1中科院北京基因组所中科院北京基因组所/ /半导体所半导体所BIGIS-1BIGIS-4大规模基因组测序的几个支撑技术大规模基因组测序的几个支撑技术v Sanger双脱氧末端终止双脱氧末端终止法法v PCR 技术技术v DNA 自动测序仪的发展自动测序仪的发展v 生物信息学分析软硬件设施生物信息学分析软硬件设施“ “双脱氧末端终止双脱氧末端终止双脱氧末端终止双脱氧末端终止” ”的含的含的含的含义义义义 PCRPCRPCRPCR(聚合酶链式反应)原理(聚合酶链式反应)原理(聚合酶链式反应)原理(聚合酶链式反应)原理反应所需物质:反应所需物质:DNA模板、引物、模板、引物、DNA

15、聚合聚合 酶、酶、dNTP、缓冲液、缓冲液每个循环包括:每个循环包括:变性(变性(90)、退火()、退火(54 )、延伸()、延伸(72 )Sanger 双脱氧末端终止法测序原理双脱氧末端终止法测序原理大 规 模基因组 测 序 的 两 种 策 略逐步克隆法逐步克隆法(Clone by Clone)全基因组霰弹法全基因组霰弹法 (Whole Genome Shot-gun)ATGCCGTAGGCCTAGC TAGGCCTAGCTCGGA ATGCCGTAGGCCTAGCTCGGA基因组基因组DNABAC文库文库根据物理图谱根据物理图谱正确定位的正确定位的BAC 或或contig用于霰弹法测用于霰

16、弹法测序的候选克隆序的候选克隆用于霰弹法测序用于霰弹法测序的亚克隆的亚克隆测序并组装测序并组装完整的基因完整的基因组序列组序列逐步克隆法(逐步克隆法(Clone by Clone) 全基因组霰弹法全基因组霰弹法 (Whole Genome Shot-gun)基因组基因组DNA 霰弹法克隆霰弹法克隆测序并进行测序并进行全基因组序全基因组序列组装列组装完整的基因完整的基因组序列组序列 两种大规模基因组测序策略的比较两种大规模基因组测序策略的比较 项项项项 目目目目 策策策策 略略略略全基因组霰弹法全基因组霰弹法全基因组霰弹法全基因组霰弹法逐步克隆法逐步克隆法逐步克隆法逐步克隆法 遗传背景遗传背景遗

17、传背景遗传背景不需要不需要不需要不需要需要(需构建精确的需要(需构建精确的需要(需构建精确的需要(需构建精确的物理图谱)物理图谱)物理图谱)物理图谱)速度速度速度速度快快快快慢慢慢慢费用费用费用费用低低低低高高高高计算机性能计算机性能计算机性能计算机性能高(以全基因组为单高(以全基因组为单高(以全基因组为单高(以全基因组为单位进行拼接)位进行拼接)位进行拼接)位进行拼接)低(以低(以低(以低(以BACBAC为单位进为单位进为单位进为单位进行拼接)行拼接)行拼接)行拼接)适用范围适用范围适用范围适用范围工作框架图工作框架图工作框架图工作框架图精细图精细图精细图精细图代表测序物种代表测序物种代表测

18、序物种代表测序物种果蝇、水稻果蝇、水稻果蝇、水稻果蝇、水稻人、线虫人、线虫人、线虫人、线虫BACbyBACWholeGenomeShotgunthe sequencing of the human genome is likely to be the only large sequencing project carried to completion by the methods described in this issue.Maynard V. Olson , Themaps: Clone by clone byclone,Nature409,816-818(2001)“WorkingD

19、raft”(90%; 4X)FinishedGenome(99.99%; 8X)Gap1Gap2Chromosome工作草稿(框架图)与完成图BAC by BAC ThesequenceofthehumangenomeC.Venteretal.Science16Feb.291:13041351,2001人类基因组计划研究的主要成果和进展表现在这人类基因组计划研究的主要成果和进展表现在这“四张图四张图”上上 遗传图谱遗传图谱 又称为连锁图谱(又称为连锁图谱(linkage maplinkage map),指),指基因或基因或DNADNA标志在染色体上的相对位置标志在染色体上的相对位置与遗传距离与

20、遗传距离物理图谱物理图谱 以定位的以定位的DNADNA标记序列如标记序列如STSSTS作为路标,作为路标,以以DNADNA实际长度即实际长度即bp、kb、Mb为图距的为图距的基因组图谱。基因组图谱。转录图谱转录图谱 利用利用EST(expressedsequencetags 表达表达序列标签)作为标记所构建的分子遗传序列标签)作为标记所构建的分子遗传图谱图谱序列图谱序列图谱 通过基因组测序得到的,以通过基因组测序得到的,以A A、T T、G G、C C为标记单位的基因组为标记单位的基因组DNADNA序列序列 逐步克隆法逐步克隆法(Clone by Clone)物理图谱的构建物理图谱的构建大片段

21、克隆的筛选大片段克隆的筛选霰弹法测序与霰弹法测序与“工作框架图工作框架图”的构建的构建序列的全组装与序列的全组装与“完成图完成图”构建构建物理图谱的制作物理图谱的制作物理图谱的制作物理图谱的制作序列标签位点(序列标签位点(STS)作图)作图物理图谱物理图谱是以特异的是以特异的DNADNA序列为标志所展示的染色体图。序列为标志所展示的染色体图。标志之间的距离或图距以物理距离如碱基对(标志之间的距离或图距以物理距离如碱基对(base pairbase pair;bpbp,Kb , Mb)Kb , Mb)表示。最精细的物理图是核苷酸顺序图,最粗略的表示。最精细的物理图是核苷酸顺序图,最粗略的物理图是

22、染色体组型图。物理图是染色体组型图。 STSSTS图谱图谱是最基本和最为有用的染色体物理图谱之一,是最基本和最为有用的染色体物理图谱之一,STSSTS(Sequence Tagged Site)Sequence Tagged Site)本身是随机地从人类基因组上选本身是随机地从人类基因组上选择出来的长度在择出来的长度在200200300bp300bp左右的特异性短序列(每个左右的特异性短序列(每个STSSTS在在基因组中是唯一的,基因组中是唯一的,STSSTS图谱就是以图谱就是以STSSTS为路标(平均每为路标(平均每100Kb100Kb一个),将一个),将DNADNA克隆片段有序地定位到基因

23、组上。克隆片段有序地定位到基因组上。 STS的来源的来源随机基因组序列随机基因组序列表达基因序列,如表达基因序列,如EST遗传标记序列,如微卫星标记遗传标记序列,如微卫星标记有关有关STSSTS的信息可在基因组数据库的信息可在基因组数据库GDBGDB中找到中找到 http:/gdbwww.gdb.org物物物物 理理理理 图图图图 谱谱谱谱 构构构构 建建建建 的的的的 步步步步 骤骤骤骤q确定各确定各STS序列及其在序列及其在基因组中的位置基因组中的位置q大插入片段基因组文大插入片段基因组文库的构建(库的构建(BAC文库文库)q 以特定以特定STS为标记为标记筛筛 选选并定位克隆并定位克隆q

24、含有含有STS的克隆在基因的克隆在基因组中排序组中排序基因组数据库(GDB)中至少含有24568个STS路标信息关关 于于 文文 库库作为载体的基本要求能在宿主细胞中进行独立的复制能在宿主细胞中进行独立的复制 具有多克隆位点,可插入外源具有多克隆位点,可插入外源 DNADNA片段片段 有合适的筛选标记,如抗药性有合适的筛选标记,如抗药性 大小合适,易于分离纯化大小合适,易于分离纯化 拷贝数多拷贝数多 文库的概念文库的概念 含有某种生物体全部基因的随机片段的重组含有某种生物体全部基因的随机片段的重组DNADNA克隆群体克隆群体 载体:载体:能携带外源能携带外源DNADNA进入宿主细胞进入宿主细胞

25、的工具,常用的载体有质粒载体、噬的工具,常用的载体有质粒载体、噬菌体载体、细菌人工染色体等菌体载体、细菌人工染色体等宿主:宿主:能容纳外源能容纳外源DNADNA片段的生物体,片段的生物体,常用的有大肠杆菌、酵母等常用的有大肠杆菌、酵母等BACBAC文库的构建文库的构建文库的构建文库的构建NotI、SacI脉冲场凝胶电泳得200Kb左右的大片段DNA纯化后与载体连接电转化,将连接产物导入大肠杆菌感受态细胞插有外源DNA片段的BAC载体在含有氯霉素的固体培养基中培养每一个菌落为带有相同外源DNA片段的单克隆BAC克隆的筛选克隆的筛选“STS-PCR反反应池应池”方案方案筛筛选种子克隆选种子克隆特定

26、的特定的STS标标记记相互间具有重叠片段的BAC克隆根据STS信息组装成contig,并定位于基因组上Contig每一个菌落为带有相同外源DNA片段的单克隆Regional mappingRegional mappingMinimaltilingpathselectedforsequencing.Regional mappingBeijing Map共共48个个每每组组 8 个个每每8个个96孔板组成孔板组成1个个superpool,384个个96孔板组成孔板组成48个个superpools48 superpoolsColumn poolsColumn pools Row poolsRow p

27、ools 1 2 3 4 5 6 7 8 9 10 11 12第八板第八板第二板第二板Plate Plate poolspools第一板第一板 plate pools,row pools,column pools的构成的构成“STS-PCR反应池反应池”方案(方案(Pooling Pooling ProtocolProtocol) 1 2 3 4 5 6 7 8 9 10 11 12超级池(超级池(8个个96孔板,孔板,共共768个克隆)个克隆)板池(板池(96个克隆)个克隆)行池(12个克隆)列池(列池(8个克隆)个克隆)大大减少筛选的工作量,降低成本,所得筛选结果准确可靠大大减少筛选的工作

28、量,降低成本,所得筛选结果准确可靠 28 VS 768sheet of superpools, plate pools, row pools, column pools 一一 BAC Screening前前48个样品为引物个样品为引物OGG1.51对对superpool(sp)的筛选结果的筛选结果后后48个样品为引物个样品为引物OGG1.52对对superpool(sp)的筛选结果的筛选结果引物引物OGG1.52对应对应sp#27,34,45的的plate,row,column pools的筛选结果的筛选结果BAC clone 确定确定 (+为阳性克隆为阳性克隆)引物引物OGG1.52的的Co

29、lony-PCR延延 伸伸 克克 隆隆 的的 筛筛 选选 STSSTS的密度尚未达到绘制高精度物理图谱的要求,且在基因组中的分的密度尚未达到绘制高精度物理图谱的要求,且在基因组中的分布不均匀,造成很多区域没有阳性克隆覆盖布不均匀,造成很多区域没有阳性克隆覆盖, ,形成空洞。因此需用指纹图形成空洞。因此需用指纹图谱(谱(FPCFPC法)或末端序列(法)或末端序列(Walking by End Sequence)Walking by End Sequence)步移等手段对种子步移等手段对种子克隆进行延伸,形成连续克隆群。利用延伸方法筛选得到的克隆称为延克隆进行延伸,形成连续克隆群。利用延伸方法筛选

30、得到的克隆称为延伸克隆。伸克隆。Contig1Contig2重叠序列重叠序列重叠序列重叠序列延伸引物延伸引物筛选到的延伸克隆筛选到的延伸克隆20kb300bpMolecularweightmarkerevery5thlane-BACclones在96深孔板中培养-HindIII完全酶切-1%琼脂糖凝胶电泳 指指 纹纹 图图 谱谱 法法 (WalkingbyFingerprintingdatabase) 挑取靠近空洞的种子克隆,酶切构建其指纹图谱,在FPC数据库中进行比对,搜索含有此克隆的重叠克隆群信息,从中确定覆盖空洞区域的克隆,达到延伸目的。HindIII完全酶切HindIII完全酶切FPC

31、数据库数据库中比对中比对CloneACloneBCloneCCABcontig搭建中克隆的错位搭建中克隆的错位 末端序列步行法末端序列步行法 (WalkingbyEndSequence)挑取靠近空洞的种子克隆进行末端测序,然后在基因组数据库中进行比对,确定专一性的序列片段作为新的STS路标。最后设计新路标的PCR引物,按照STSPCR“反应池”方案筛选新的克隆,达到延伸的目的。克隆克隆350A18350A18序列输入序列输入 end sequence databaseend sequence database的查询结果的查询结果四、四、Clone Identification 1、STS-PC

32、R 2、BAC end sequencing 3、Fingerprinting 4、FISHCK2CK1CK2CK113f06267l16481o07250a15204c23340j13对对1515个克隆进行个克隆进行HindIIIHindIII酶切后电泳结果酶切后电泳结果“工作框架图工作框架图”绘制绘制根据序列与STS database进行blastn比较结果,将克隆定位末端序的比较,判定延伸在contig外的一端序列。并可及时进行walking,筛选新的克隆霰弹法测序组装与Finishing工作流程图工作流程图Shotgun Sequencing I :RANDOM PHASEBacClo

33、ne:BacClone:100-200kb100-200kbShearedDNA:ShearedDNA:1.0-2.0kb1.0-2.0kbSequencingSequencingTemplates:Templates:RandomRandomReadsReadsShotgun Sequencing II:ASSEMBLYConsensusConsensusSequenceSequenceGapGap LowBaseLowBaseQualityQualitySingleSingleStrandedStrandedRegionRegionMis-AssemblyMis-Assembly( (In

34、vertedInverted) )ConsensusConsensusSequenceSequenceGapGap LowBaseLowBaseQualityQualitySingleSingleStrandedStrandedRegionRegionMis-AssemblyMis-Assembly( (InvertedInverted) )Shotgun Sequencing III: FINISHINGConsensusConsensusSequenceSequenceGapGap SingleSingleStrandedStrandedRegionRegionMis-AssemblyMi

35、s-Assembly( (InvertedInverted) )Shotgun Sequencing III: FINISHINGConsensusConsensusSequenceSequenceGapGap Mis-AssemblyMis-Assembly( (InvertedInverted) )Shotgun Sequencing III: FINISHINGConsensusConsensusMis-AssemblyMis-Assembly( (InvertedInverted) )Shotgun Sequencing III: FINISHINGShotgun Sequencing

36、 III: FINISHINGHighAccuracySequence:HighAccuracySequence:1error/10,000basesSp6Sp6Sp61kb.Insert size.Thesizeoftheclone-insertfromwhichaclone-endpairistaken.Contig. The result of joining an overlapping collection ofsequencereads.Scaffold. The result of connecting non-overlapping contigs byusingpair-en

37、dreads.N50 size.Asappliedtocontigsorscaffolds,thatsizeabovewhich50%oftheassembledsequencecanbefound.Genome assembly strategyContig assemblyScafffoldingInternal gap closinghttp:/ whole genome sequencing projectsTable. Basic information of Rrecently sequenced genomes.OrganismGenome sizestrategyCoverag

38、eContigScafffolds#N50MaxTotal#N50MaxTotalHuman3.0GbSolexa45x2.76M1.5Kb18.8Kb2.18GbNRNRNRNRApple742.3 MbSangr+4544.4x+12.5x122,14616,171NR603.9Mb1,629102KbNR598.3Castor320MbSanger4.59x54,00021.1kb190kb324Mb25,828496.5kb4.7Mb350.6MbGrapevine500MbSangr+4547x+4.2x58,61118.2Kb238kb531Mb2,0931.33Mb7.8Mb42

39、1MbPanda2.4GbSolexa74x200,60436,728434,6352.25Gb81,4961.22Mb6.05Mb2.30GbStraberry220Mb454+solexa+solid24.5x+6.4x+6.4x16,48728,072215,349202Mb3,2631.44Mb4.1Mb214MbCacoo430Mb454+sanger+solexa16.7x+44x25,91219.8kb190Kb291.44,792473.8Kb3415Kb326.9MbTomato900Mb454+sanger+solexa+solid31x+3.6x+82x+140x110,

40、87255.7kbNR763Mb3,7614.45MbNR782MbPotato840Mb454+solexa+solid11x+106x+0.2x111,18731KbNR683Mb66,301387KbNR727Mb Flowchart of the WGS de novo assemblyGenomic DNADNA fragmentation, construct fragmented librariesGenerate sequencing reads using 454 technologySequencing error correctionOutput contigsFill

41、in intra-scaffold gaps and get the final scaffoldsGenomic DNADNA fragmentation, construct paired-end libraries with variant insert sizesGenerate sequencing reads using Illumina GA technologySequencing pre-processOutput contigs and mini scaffoldsSolexa part454 partHybrid assembly and scffolding 454 r

42、eads processRaw readsKmer evaluationQ20, remove adaptor,trim Sequencing pre-processNewbler assemblyAssembled readsUnassembled readsUnigene coverageKmer evaluationSolexa mappingNr/Nt blastContig statusAssemblyHybrid scaffolding Solexa reads processRaw readsKmer evaluationSequencing pre-processSoap as

43、semblyAssembled readsUnassembled readsUnigene coverageKmer evaluationSolexa mappingNr/Nt blastContig statusAssemblyMapping to 454 contigHybrid scaffoldingCov /Complong readsassemblycontigsshort readsA +C B scaffoldingA +B C scaffoldsFix gapHybrid assemblyESTUnigeneScafAScafCScafBScafDNewScafABCDEST

44、based Assembly in short reads of NGS: Constructe BIGer Scaffording Raw sequencing reads pre-processing I Significance and purposeuSequencing library quality controluSequencing bias analysisI.Inherited prosperities on certain second generation sequencerII.Genome sequencing black hole effectIII.Transc

45、riptome sampling and quantification biasuReady for mapping uReady for de novo assembly Raw sequencing reads pre-processing IISequencing reads numbersDuplicates detection, regional distribution analysis and trimmingAdapter detection and trimmingReads quality analysis and low quality reads filter Aver

46、agequalitydensitydistributionAveragequalitypositionaldistributionregionaldistributionF-RcorrelationGCcontent-qualitycorrelationInsert length distribution Pipelineraw data pre-processImage analysis and basecallingGOATpipeline(OLB1.6),CASAVAQuality ControlGERALDSummary.htmLaneLaneYield(kbases)Clusters

47、(raw)Clusters(PF)1stCycleInt(PF)%intensityafter20cycles(PF)%PFClusters%Align(PF)AlignmentScore(PF)%ErrorRate(PF)152630597464+/-487887676+/-921975+/-2186.17+/-5.2589.76+/-5.9599.06+/-0.25102.41+/-1.621.30+/-0.22Fastq and QualitySolexareadsoftheFastqformats_1_1_sequence.txtHWI-EAS724_0001:8:32:374:374

48、#0/1GAGCTGTATATGAATAATAGTTCGTTTTTCATTATCCAAGATGGATCGGTATAAAGTCTGCTAAAATAAAGGTACAACG+HWI-EAS724_0001:8:32:374:374#0/1fcfcfggdfggggfggggcggggggggfgggggcgggfWgggggggggfgcggdgcgcggggfacbbbbgcgggggds_1_2_sequence.txtHWI-EAS724_0001:8:32:374:374#0/2TACCGTTAATAGCAGTAATATCATAATAGTAATAGCATCATAACGGTAGTCCCATAA

49、AAGTGTGTCAGTAGTAGTAGTA+HWI-EAS724_0001:8:32:374:374#0/2ggggfgggggd_adcggggeggfggeggegfgeececdegggggfegcfegggegggfgacacedbd_cYbIllumina1.3formatencodesaPhredqualityscorefrom0to40usingASCII64to104errorprobability(p):#forsolexa:p=0.01,Q=19;p=0,05,Q=12.8,p=0.10,Q=9.5;#forphred:p=0.01,Q=20;p=0,05,Q=13,p=

50、0.10,Q=10;Data assessment I Read quality distributionLow Quality High Quality Trim:3endtrimifQN30)60Assessment: DistanceDistrubitionbetweentwoLowquality(Q20 ? Lane data usage in different solexa library- Fiter duplication readsAverage Reads per StartPointRead CorrectionCorrect Illumina GA short read

51、s Kmer = 17Genome Size Prediction: M = N * ( L-K+1)/L N = Total Length (bp) /Genome sizeL= Average Rads Length (bp)MGenome size estimation using KmerBeforeestimatingthegenomesize,wesetahypothesis:thek-merwepickedoutfromthegenomecanergodicthewholegenomesequence.AccordingtotheLanderwatermanalgorithm,t

52、healgorithmshouldberepresentedas:G=Knum/KdepthHere,Gisthegenomesize,Knumisthetotalnumberofk-merandKdepthistheexpecteddepthofthek-mer.Ifweobtaintheexpecteddepthofk-mer,wecancalculatethegenomesize.Becausethedistributionofk-merfrequencyyieldstoPoissondistribution,wecanconsiderthepeakofthek-merdistribut

53、ioncurveastheexpecteddepthofk-merandcalculatethegenomesize.Note:Atotalof15,437,084,746Kmers,thepeakvalueontherightfigureis8,sothegenomesizeisestimatedas:15,437,084,746/8=1.93GHigh Quality Read Rate after preprocessAssembly: Raw data VS preprocessed Data ?QuestionsGenome size estimation methods (K-me

54、r & Cov)Assembly optimization (parameters)Assembly evaluation (454_Solexa EST)Unmappable solexa reads reuse (filter-assemble)Scaffolding comparison (ABI & BIG & Bambus & blat)solexa to solid feasible?Assembly assessment (BAC, 3730, necessary ?)Sequencing Strategy for solexaI.SamplepreperII.Fragmento

55、rPairedEndorMatePairIII.Sequencingdifferentlibraries:Datacoverage(500bp).10X,20X.Largergenomesize,Largerlibrariesneeded.10K?IV.LengthofsolexaReads?100bp?F+R=OneReads?V.OtherData:3730,454,solid.EST.OVERVIEW OF TESTED ASSEMBLERSDepth VS CoverageESTbasedScaffolding基因组混合拼接验证及结构变异检测流程基因组混合拼接验证及结构变异检测流程 重

56、复序列注释流程重复序列注释流程Repeat analysis Lib5Total length:167,786,201 bp Bases masked:1,267,118 bp 0.75%SINEs:298 28,108 ALUs0 0 MIRs211 21,533 LINEs:1,891 347,604 LINE11,246 292,428 LINE2236 26,166 L3/CR1289 20,348 LTR elements:185 42,779 ERVL39 8,334 ERVL-MaLRs55 10,011 ERVL_classI50 12,852 ERVL_classII7 1,

57、292 DNA elements:141 16,729 hAT-Charlie76 8,642 TcMar-Charlie25 3,424 Unclassified:1 139 Total interspersed repeats:435,359 Small RNA:709 101,246 Satellites:2 280 Simple repeats:9,466 560,018 Low complexity:3,674 170,215 基因结构及功能注释技术路线基因结构及功能注释技术路线Gene predictionDe novo predictionGenScan 16,609-3,775

58、 uniprot hitAugustus 19378-10,245 hitHomology-based predictionalignment-gene scaffold-genewiseReference gene settRNA scanCpG islandmiRNA predictionUsing miRNA database fasta as query and blast with our masked scaffoldsGene function annotationGene Ontology (local uniprot database)KEGG (online)GO anno

59、tationGenScan uniprot annotation Gene OntologyKEGG pathway overview血吸虫 基因家族进化分析及比较生物学分析技术路线基因家族进化分析及比较生物学分析技术路线 以应用为主导的基因组学将阔步走向未来以应用为主导的基因组学将阔步走向未来走向人类的健康与生活走向人类的健康与生活走向人类赖以生存的物质基走向人类赖以生存的物质基础础走向人类赖以生存的环境走向人类赖以生存的环境走上人类社会和经济发展的走上人类社会和经济发展的大舞台大舞台基因组学研究成果将走近人类的健康与生活基因组学研究成果将走近人类的健康与生活疾病相关基因的发现、功能的鉴定和

60、分子机制疾病相关基因的发现、功能的鉴定和分子机制疾病相关基因的发现、功能的鉴定和分子机制疾病相关基因的发现、功能的鉴定和分子机制的探讨的探讨的探讨的探讨突破常见病(复杂疾病)基因水平的研究突破常见病(复杂疾病)基因水平的研究突破常见病(复杂疾病)基因水平的研究突破常见病(复杂疾病)基因水平的研究以基因为基础的疾病诊断、预测和预防以基因为基础的疾病诊断、预测和预防以基因为基础的疾病诊断、预测和预防以基因为基础的疾病诊断、预测和预防基因治疗与细胞治疗治疗的结合基因治疗与细胞治疗治疗的结合基因治疗与细胞治疗治疗的结合基因治疗与细胞治疗治疗的结合以基因多态性为基础的以基因多态性为基础的以基因多态性为基

61、础的以基因多态性为基础的“ “个体化个体化个体化个体化” ”药物药物药物药物以基因多态性为基础的以基因多态性为基础的以基因多态性为基础的以基因多态性为基础的“ “个体健康计划个体健康计划个体健康计划个体健康计划” ”传统药物、生物药物和传统药物、生物药物和传统药物、生物药物和传统药物、生物药物和“ “有机药物有机药物有机药物有机药物” ”的自然回的自然回的自然回的自然回归归归归走向人类赖以生存的物质基础走向人类赖以生存的物质基础抗病、抗虫和抗极端环境抗病、抗虫和抗极端环境GMGM农作物农作物高生殖率、高生长率、高营养率的高生殖率、高生长率、高营养率的GMGM家畜、家禽和水产品新品种家畜、家禽和

62、水产品新品种维生素和营养物质富集的水果和蔬维生素和营养物质富集的水果和蔬菜菜生物杀虫剂、除草剂和抗病药物生物杀虫剂、除草剂和抗病药物微生态环境下生产的有机食品微生态环境下生产的有机食品 走向人类赖以生存的环境走向人类赖以生存的环境基因组信息记录了物种亿万年来在环境基因组信息记录了物种亿万年来在环境变迁中起源和进化的历史。变迁中起源和进化的历史。生物多样性资源的研究、保护与开发:生物多样性资源的研究、保护与开发:地球上估计有地球上估计有1 1亿个物种亿个物种生态环境的研究、保护与开发:生态环境的研究、保护与开发:巨大的海洋(占地球总面积巨大的海洋(占地球总面积巨大的海洋(占地球总面积巨大的海洋(占地球总面积71717171)广袤的森林(占地球总面积广袤的森林(占地球总面积广袤的森林(占地球总面积广袤的森林(占地球总面积40404040)诸多的湖泊与河流诸多的湖泊与河流诸多的湖泊与河流诸多的湖泊与河流谢谢!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号