生物信息学高通量测序技术及数据分析1015

上传人:壹****1 文档编号:592681436 上传时间:2024-09-22 格式:PPT 页数:41 大小:1.80MB
返回 下载 相关 举报
生物信息学高通量测序技术及数据分析1015_第1页
第1页 / 共41页
生物信息学高通量测序技术及数据分析1015_第2页
第2页 / 共41页
生物信息学高通量测序技术及数据分析1015_第3页
第3页 / 共41页
生物信息学高通量测序技术及数据分析1015_第4页
第4页 / 共41页
生物信息学高通量测序技术及数据分析1015_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《生物信息学高通量测序技术及数据分析1015》由会员分享,可在线阅读,更多相关《生物信息学高通量测序技术及数据分析1015(41页珍藏版)》请在金锄头文库上搜索。

1、生物信息学陈小伟中国科学院生物物理研究所2014.10.15高通量测序技术及数据分析介绍高通量测序技术及数据分析介绍背景介绍第一代测序技术第二代(高通量)测序技术基因芯片与高通量测序的比较高通量测序技术的应用高通量测序数据分析概览高通量测序数据质量评估与过滤基因组测序RNA-seqChIP-seqUCSC Genome Bioinformatics背景介绍背景介绍第一代测序技术Sanger测序法链终止法双脱氧终止法1975年Transcriptionhttp:/ Sanger1918年8月13日2013年11月19日1958年 诺贝尔化学奖1980年 诺贝尔化学奖背景介绍第二代测序技术边合成边

2、测序2005年左右Sequening by synthesis代表性测序技术Illumina/SolexaRoche/454ABI/SOLiDPolonatorHeliScope参考文献Metzker,M.L.(2010).Sequencingtechnologies-thenextgeneration.NatRevGenet 11,31-46.http:/ - 64 = 质量值OR字符的ASCII值 - 33 = 质量值NCBI/Sanger or Illumina 1.8 and later.UsingaPhredscaleencodedusingASCII33to93.Thisisthe

3、standardforfastqformatsexceptfortheearlyIlluminadataformats(thischangedwithversion1.8oftheIlluminaPipeline).Illumina Pipeline 1.2 and earlier.UsingaSolexa/Illuminascale(-5to40)usingASCII59to104.TheWorkbenchautomaticallyconvertsthesequalityscorestothePhredscaleonimportinordertoensureacommonscaleforan

4、alysesacrossdatasetsfromdifferentplatforms(seedetailsontheconversionnexttothesamplebelow).Illumina Pipeline 1.3 and 1.4.UsingaPhredscaleusingASCII64to104.Illumina Pipeline 1.5 to 1.7.UsingaPhredscaleusingASCII64to104.Values0()and1(A)arenotusedanymore.Value2(B)hasspecialmeaningandisusedasatrimclippin

5、g.ThismeansthatwhenselectingIlluminaPipeline1.5andlater,thereadsaretrimmedwhenaBisencounteredintheinputfileiftheTrimreadsoptionischecked.363939393939393939393839393636343429312202019191938383836363636363630323535基因芯片与高通量测序的比较芯片与测序比较基因芯片约20年的历史,技术比较成熟,成本相对较低原理探针,互补配对的原则靶序列用荧光标记通过荧光强度间接反映靶序列的数量应用检测已知基

6、因的表达水平检测SNP位点的基因型检测CNV芯片与测序比较高通量测序约10年的历史,发展快速,成本逐步减少原理边合成边测序碱基用荧光基团标记直接测定碱基序列应用全基因组测序转录组测序 (small RNA seq, RNA-seq),可以检测已知基因的表达水平,可以发现全新的转录本ChIP-seqCLIP-seq, 芯片与测序比较用高通量测序技术和基因芯片技术检测基因表达Malone,J.H.,andOliver,B.(2011).Microarrays,deepsequencingandthetruemeasureofthetranscriptome.BMCBiol9,34.高通量测序技术的

7、应用测序应用高通量测序数据分析概览测序应用QualityAssessmentRawDataFastQC;fastx_quality_statsRemoveadaptor/linkerfastx_trimmerfastx_clipperSplitaccordingtobarcodefastx_barcode_splitter.plfastx_trimmerQualityControlfastq_quality_trimmerfastq_quality_filterFurtherAnalysis高通量测序数据质量评估与过滤FastQCFASTX-Toolkit测序应用全基因组测序第一期:基因组调研

8、图整体测序深度不低于20倍覆盖度。进行初步的数据分析,对基因组大小,GC含量等做出初步评估,确定框架图梯度文库构建具体策略第二期:基因组框架图基因组覆盖度达到90%以上,基因区覆盖度达到95%以上,单碱基的错误率达到1万分之一以内,整体测序覆盖深度不低于60倍覆盖度。同时对框架图进行基本基因注释和功能注释,和简单的比较基因组学分析。第三期:基因组精细图基因组覆盖度达到95%以上,基因区覆盖度达到98%以上,单碱基的错误率达到10万分之一以内,整体基因组覆盖度不低于100倍,ScaffoldN50大小不低于300Kb,对基因组精细图进行详细基因注释,基因功能注释,基因代谢途径注释和比较基因组学分

9、析。测序应用转录组测序Small RNA seq检测small RNA(主要是miRNA)的表达水平发现新的small RNARNA-seqPoly(A)检测蛋白质编码基因的可变剪切体及表达水平Total RNA(except rRNA)检测mRNA及long noncoding RNA的表达水平发现新的long noncoding RNA数据分析工具Bowtie (http:/bowtie- (http:/ccb.jhu.edu/software/tophat/index.shtml)Cufflinks (http:/cufflinks.cbcb.umd.edu/)测序应用RNA-seq数据

10、分析工具BowtieBowtieisanultrafast,memory-efficientshortreadalignergearedtowardquicklyaligninglargesetsofshortDNAsequences(reads)tolargegenomes.TopHatTopHatisafastsplicejunctionmapperforRNA-Seqreads.CufflinksCufflinksassemblestranscripts,estimatestheirabundances,andtestsfordifferentialexpressionandregula

11、tioninRNA-Seqsamples.ColeTrapnell:TopHat(2009),Cufflinks(2010)PhD StevenSalzberg, UniversityofMarylandLiorPachter,UniversityofCalifornia,BerkeleyPostdoc JoinRinnslab,TheBroadInstitute测序应用Overview of TopHat测序应用SplicingJunctionsExon skippingorcassette exonMutually exclusive exonsAlternative donor site

12、Alternative acceptor siteIntron retentionExon skippingorcassette exonMutually exclusive exonsAlternative donor siteAlternative acceptor siteIntron retention测序应用TopHat:DiscoveringsplicejunctionsTopHatv1.0.7earlierseed-and-extendalignmentTopHatv1.0.7andlaterSupposeSisareadoflengthlthatcrossesaspliceju

13、nctionsplitsSintonsegments,n=floor(l/k),(k=25bp)mapsthesegmentss1,snwithBowtietothegenomesegmentssi,si+1thatbothaligntothegenome,butnotadjacentlyasegmentsifailstoalignbecauseitcrossesasplicejunction,butsi-1andsi+1arealigned.测序应用TopHat:DiscoveringsplicejunctionsTopHatv1.0.7andlaterasegmentsifailstoal

14、ignbecauseitcrossesasplicejunction,butsi-1andsi+1arealigned.si-1Si+1si12345678910111213141516171819202122232425simbpk-mbpm=1,24m=12测序应用OverviewofCufflinks测序应用转录本拼接算法中涉及到的概念偏序关系与偏序集合 PartialorderandPartiallyorderedset偏序关系偏序(亦称半序)关系是定义在集合上的一种序结构,是集合上满足一定条件的二元关系。直观的说,偏序指集合中仅有部分部分成员之间可以排序。全序关系在集合A中,存在偏序

15、关系“” ,如果对于任意aA,bA,有a b或b a,即A中的每对元素都满足关系“”,则集合A上的偏序“” 是全序的或线性次序的。直观来说,全序指集合中全体成员之间都可以进行比较,可以排出所有元素的顺序。偏序集合指配备了偏序关系的集合测序应用转录本拼接算法中涉及到的概念偏序关系非严格偏序,自反偏序给定集合S,“”是S上的二元关系,若“”满足:自反性自反性:aS,有aa;反对称性反对称性:a,bS,ab且ba,则a=b;传递性传递性:a,b,cS,ab且bc,则ac; 则称“”是S上的非严格偏序或自反偏序严格偏序,反自反偏序给定集合S,“”是S上的二元关系,若“”满足:反自反性反自反性:aS,有aa;非对称性非对称性:a,bS,abba;传递性传递性:a,b,cS,ab且bc,则ac;则称“Blat测序应用UCSC Genome Bioinformaticshttp:/genome.ucsc.edu/查看特定序列在基因组上的位置测序应用UCSC Genome Bioinformaticshttp:/genome.ucsc.edu/查看特定序列在基因组上的位置Zoom out 3x谢谢大家!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号