《兰州大学生物信息学课件:5-高通量测序技术-张骁》由会员分享,可在线阅读,更多相关《兰州大学生物信息学课件:5-高通量测序技术-张骁(63页珍藏版)》请在金锄头文库上搜索。
1、高通量测序技术,生物信息系列讲座 第五讲,张 骁 2015年10月,内容提要,Sequencing,In genetics and biochemistry, sequencing means to determine the primary structure of an unbranched biopolymer.,( Carlson 2010),Genome and Sequencing,基因组(Genome)包含了一个物种的全部遗传信息,这些信息决定了它们的生物学特征。基因组既可以指一套染色体,也可以指其中的全部核酸。绝大多数基因组都是由脱氧核糖核酸(DNA)组成,但是也有一些病毒基因
2、组是由核糖核酸(RNA)组成。 DNA测序(DNA sequencing,或译DNA定序)是指分析特定DNA片段的碱基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤的(G)排列方式。,(Ridley, 2006),Why Sequencing?,对于每个物种来说,基因组包含了整个物种的遗传信息。测序技术能够真实地反映基因组DNA上的遗传信息,进而全面地揭示基因组的复杂性和多样性。 从根源上寻找导致蛋白功能差别的位点 为物种鉴定、临床诊断和司法鉴定提供基础 疾病预测 研究基因间的相互作用 揭示物种进化的历程 生命之树,Three basic problems of Sequenc
3、ing,如何读到DNA片段的碱基信号? 如何读到DNA片段的连续碱基信号? 如何读到一批DNA片段的连续碱基信号?,通过扩增来增加DNA的数量从而放大信号 有足够多的DNA合成反应中止于同一个碱基,让合成反应的中止依次出现在每个碱基上,在不同模板的反应间建立有效的隔离方式,测序技术的发展历程,(Biomarker 2013),测序技术的发展历程,(Guohui 2013),测序技术原理及过程,Sanger / 454 / SOLID / Illumina / PacBio,第一代测序技术,最早的测序技术源于Robert Holley 研究小组 1965 年对酵母苯丙氨酰-tRNA 的77 个核
4、苷酸全序列的测定,Holley 本人也因此而获得了1968 年的诺贝尔生理医学奖。,20 世纪70 年代后期,第一代快速有效的DNA 测序技术体系终于建立,其中最为著名的是 Sanger 的“双脱氧末端终止法”。,Robert W. Holley,Frederick Sanger,ABI 3730,(Qiu 2006),sanger法测序反应原理,原料:DNA聚合酶 DNA模板 单链寡核苷酸引物 dNTP ddNTP with fluorochromes,sanger法测序反应原理,(Biomarker 2013),sanger法测序优缺点,96孔板或384孔板的一个孔,第二代测序技术,焦磷酸
5、测序法 Pyrosequencing,边合成边测序 Sequencing By Synthesis, SBS,边连接边测序 Sequencing By Ligation, SBL,400bp,2*150bp,2*75bp,400-600Mb/10h,1.5T/run(3.5d),300Gb/run (7d),基于焦磷酸测序法的454测序,T、A、C、G依次循环进入PTP板,如果发生碱基配对,就会释放一个焦磷酸。,这个焦磷酸在ATP硫酸化酶和萤光素酶的作用下将萤光素氧化成氧化萤光素,同时释放出光信号。,基于焦磷酸测序法的454测序,基于边连接边测序(SBL)的SOLID测序,基于边连接边测序(S
6、BL)的SOLID测序,基于边连接边测序(SBL)的SOLID测序,基于边连接边测序(SBL)的SOLID测序,基于边连接边测序(SBL)的SOLID测序,基于边连接边测序(SBL)的SOLID测序,基于Solexa的Illumina Hiseq测序,Solexa是一种基于边合成边测序技术(Sequencing-By-Synthesis,SBS)的新型测序方法。通过利用单分子阵列实现在小型芯片(Flow Cell)上进行PCR反应。,3羟基经过特殊化学基团的保护,在聚合酶延伸反应能起类似于ddNTP 的作用,使每次测序反应只有单个碱基被延伸,且其信号可以通过类似传统Sanger 法中荧光检测方
7、法检测,每次反应完成后,用特异的酶将修饰基团去除,便可以进行下一个碱基的测序,基于Solexa的Illumina Hiseq测序,Parallel sample processing,Automated clustergeneration,Automated sequencing,SIMPLIFIED SAMPLE PREP,cBot CLUSTER GENERATION,HiSeq 2000 /2500 SEQUENCING,基于Solexa的Illumina Hiseq测序,基于Solexa的Illumina Hiseq测序,基于Solexa的Illumina Hiseq测序,基于Sole
8、xa的Illumina Hiseq测序,DNA(0.1-1.0 ug),Single molecule array,Sample preparation,Cluster growth,Sequencing,基于Solexa的Illumina Hiseq测序,基于Solexa的Illumina Hiseq测序,Single-Read Sequencing (SR,单向测序),Paired-End Sequencing (PE,双向测序),只检测基因片段一端的序列信息。,检测基因片段的两端序列信息。,基于Solexa的Illumina Hiseq测序,Cluster Amplification 扩
9、增后的簇,Single-Read,P7 Linearization (fpg) 线性化,OH,Paired-End Read,基于Solexa的Illumina Hiseq测序,Barcode / Index,基于Solexa的Illumina Hiseq测序,1,2,Image acquisition,第三代测序技术简介PacBio 单分子测序技术,第三代测序技术简介PacBio 单分子测序技术,Reads Wang et al. 2010),samtools rmdup WYX02.filter.rehead.bam WYX02.filter.dedup.bam,We applied th
10、e rmdup command of SAMTOOLS to remove the PCR duplications generated in the process of sequencing.,重测序数据的基本处理比对,java -Xmx30g -jar GenomeAnalysisTK.jar -nt 32 -fix_misencoded_quality_scores -fixMisencodedQuals -R Btau_4.2.fa -T RealignerTargetCreator -o WYX02.filter.realn.intervals -I WYX02.filter.dedup.bam,(Qiu et al. 2015; Wang et al. 2010),The Genome Analysis Toolkit (GATK) was used to perform local realignment of reads to enhance the alignments in the vicinity of indel polymorphisms.,Depth Wang et al. 2010),Depth Wang et al. 2010),Thank you!,