第二代测序数据分析原理

上传人:我*** 文档编号:135414605 上传时间:2020-06-15 格式:PPT 页数:70 大小:7.34MB
返回 下载 相关 举报
第二代测序数据分析原理_第1页
第1页 / 共70页
第二代测序数据分析原理_第2页
第2页 / 共70页
第二代测序数据分析原理_第3页
第3页 / 共70页
第二代测序数据分析原理_第4页
第4页 / 共70页
第二代测序数据分析原理_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《第二代测序数据分析原理》由会员分享,可在线阅读,更多相关《第二代测序数据分析原理(70页珍藏版)》请在金锄头文库上搜索。

1、问题出发 正常样本与异常样本 如肿瘤等 药物处理前后样本状态变化 如尼古丁刺激前后 发育不同阶段的样本改变 第二代测序数据分析原理 徐汪节 3 三代DNA测序技术之比较 第一代测序技术 Sanger测序法第二代测序技术 454测序 第三代测序技术 直接测序法 4 第一代测序技术 Sanger测序法 简便 快速 5 逐渐被遗忘的测序技术 Maxam Gilbert的DNA化学降解法 6 Sanger测序的局限 通过几十年的改进 第1代测序仪的读长可以超过1000bp 原始数据的准确率可以高达99 999 测定每千碱基序列的成本是0 5美元 每天的数据通量可以达到60万碱基 但是 不管怎么改进 第

2、1代测序技术在速度和成本方面都已达到了极限 因为对电泳分离技术的依赖 使其难以进一步提升分析的速度和提高并行化程度 并且难以通过微型化降低测序成本 在此种情况下 第二代测序技术 Next generationsequencing 应运而生 概要 主要的测序平台基因组分析原理转录组分析原理分析策略的选择 8 第二代测序技术 454测序IlluminaSOLIDPolonatorCompleteGenomics 9 454 10 SOLID 11 Illumina 12 其他 PolonatorCompleteGenomics 13 14 第二代测序技术的共同点 1将目标DNA剪切为小片段2单个小

3、片段DNA分子结合到固相表面3单分子独立扩增4每次只复制一个碱基 A C T G 并检测信号5高分辨率的成像系统 15 第二代测序技术的局限 与第一代测序仪相比 以合成测序为基础的下一代测序平台速度显著提高 成本明显降低 每台设备每天产出千兆碱基的序列不足为奇 但是 除了罗氏的454平台之外 读长短成了下一代测序平台的致命伤 这主要是由于DNA簇中存在的光学信号移相造成的 而应运而生的单分子测序技术是解决这一问题的一种方法 16 第三代测序技术 单分子测序 HelicosBiosciencesVisiGenPacificBiosciencesMobiousNexusI 17 18 直接测序法

4、在所有上述三代测序技术中 序列都是在荧光或者化学发光物质的协助下 通过读取DNA聚合酶或DNA连接酶将碱基连接到DNA链上过程中释放出的光学信号而间接确定的 除了需要昂贵的光学监测系统 还要记录 存储并分析大量的光学图像 这都使仪器的复杂性和成本增加 依赖生物化学反应读取碱基序列更增加了试剂 耗材的使用 在目前测序成本中比例相当大 直接读取序列信息 不使用化学试剂 对于进一步降低测序成本是非常可取的 为了实现这样的目标 目前就有很多人在研究纳米物理技术 在全球 许多公司和组织 如Agilent DNAElectronics IBM NabSys OxfordNanoporeTechnologi

5、es Sequenom等都在进行纳米孔测序的开发 不同的只是采用的方法或策略 19 20 Secondgenerationsequence Roche454MetagenomicsDenovosequencingRNA seqillumiaSolexaDenovosequencingRe sequencingRNA seq ChromatinImmunoprecipitation ChIP Meth seqABISOLiDRe sequencingChIP seqRNA seq Experiments DNA seq denovo resequencingRNA seq mRNA ncRNA

6、smRNA ChIP seq ChromatinImmunoPrecipitationMethyl seq methylatedDNA epigenome 主要的测序平台基因组分析原理转录组分析原理分析策略的选择 SequencingGlossary Reads Acollectionofclonesthatover samplethetargetgenome Pair endreads Sequencereadsderivedfrombothendsofasequencing libraryclone Mate pairreads Sequencereadsderivedfrombothen

7、dsofamate pairlibraryclonewhichinsertsizeisusually 1kb Insertsize Thesizeoftheclone insertfromwhichaclone endpairistaken Contig Theresultofjoininganoverlappingcollectionofsequencereads Scaffold Theresultofconnectiingnon overlappingcontigesbyusingpir endreads N50size Asappliedtocontigsorscaffolds tha

8、tsizeabovewhich50 odtheassembled 全基因组denove分析工具 分析所需工具 Bowtiesoftware http bowtie 外显子组分析工具 主要的测序平台基因组分析原理转录组分析原理分析策略的选择 常规分析 TranscriptsquantificationSplicingsitesdiscoveryandquantificationGenediscoverySNP INDELdetectionAllelespecificexpression UniGene拼接 目的 将预处理后reads进行拼接 得到拼接结果 原理 应用deBruijngraphpa

9、th算法对reads进行denovo拼接 对上一步的拼接结果 再用HamiltonPath算法拼接 结果 UniGene序列 UniGene统计信息 序列长度分布图 3 数据库注释 目的 对拼接得到的UniGene进行功能注释原理 通过blast 算法将拼接得到的UniGene序列与数据库进行比对结果 比对结果表格 物种分布统计和Evalue分布统计 UniGene表达分析 目的 UniGene定量分析 原理 以UniGene为reference 分别将每个样本的reads进行referencemapping 从而得到每个样本在每个UniGenes中的一个reads覆盖度 然后应用RPKM F

10、PKM标准化公式对富集片段的数量进行归一化 RPKM ReadsPerKilobaseofexonmodelperMillionmappedreads 公式下 UniGene表达分布图 1X 5X分别为FPKM 1 FPKM 5分界点 可以大体观察到低表达 中表达以及高表达的比例关系 UniGene样本间表达相关性散点图 样本间表达差异程度的MA图 可以体现差异表达总体偏差 UniGene表达差异分析 目的 对定量结果进行统计检验分析 找出差异表达UniGene原理 双层过滤筛选差异基因FC值筛选 采用Fold change FC 表达差异倍数进行第一层此的差异基因筛选FDR检验 一般采用卡方

11、检验中的fisher精确检验进行p值检验 采用BenjaminiFDR Falsediscoveryratio 校验方法对p值进行假阳性检验 即 通过FDR显著性参数进行第二层次的差异基因筛选 组间差异基因上调与下调个数统计 可以通过此图观察上调与下调的一个总体趋势 差异基因火山图 可以观察到差异基因总体分布 GO功能分类 目的 利用数据库注释信息将UniGene进行GO功能分类 原理 利用数据库的注释结果 应用blast2GO算法进行GO功能分类 得到所有序列在GeneOntology的三大类 molecularfunction cellularcomponent biologicalpro

12、cess的各个层次所占数目 一般取到14层 结果 MF BP CC三大分类结果文件以及UniGene2GO关系列表 三大类别中第二层次上的柱状分布图和饼图 GO功能的层次分布图 KEGG代谢通路分析 目的 对拼接得到UniGene进行KEGGpathway映射 原理 应用KEGGKAAS在线pathway比对分析工具对拼接得到的UniGene进行KEGG映射分析 结果 标记的Pathway通路图 IPApathwayanalysis COG注释 目的 对拼接得到UniGene进行COG功能分类 原理 利用blast 算法将拼接得到的UniGene与CDD库中的COG KOG库进行比对 进行CO

13、G功能分类预测 将其映射到COG分类中 结果 COG分类分布情况图 SSR重复序列注释 目的 对拼接得到UniGene进行SSR简单重复序列的查找 原理 筛选标准 单核苷酸重复的次数在10次或10次以上 二核苷酸重复的次数在6次或6次以上 三至六核苷酸重复的次数在5次或5次以上 同时 也筛选中间被少数碱基 间隔小于100或等于100 打断的不完全重复的SSR 结果 重复序列的信息文件以及统计文件 LncRNA预测 目的 对拼接得到的UniGene进行LncRNA LongnoncodingRNA 预测 原理 通过以下过程对UniGene进行过滤 最终得到候选LncRNA序列 1 Unigene

14、length 200bp 2 UnigeneORF OpenReadingFrame length 300 3 将满足长度条件的UniGene与多个近源物种进行进化分析 得到序列的保守性和进化特性 4 根据上述的特性和已知数据库中coding noncoding区域的特性建立编码筛选模型 5 将符合noncoding模型的UniGene与Pfam等蛋白域数据库进行同源性比对 进一步去除可能的编码特性 最终得出LncRNA预测结果 RSAM 01 模式动植物基因组数据和注释信息整合 RSAM 07 可变剪接分析 可变剪接体与Exonskippingjunction的识别 RSAM 08 转录起始

15、位点 TSS 分析 TSS类和转录起始位点模式的识别 1 通过tag聚类方法将5 端read进行聚类 识别出不同模式的TSS 例如下图所示 确定cluster的边界 黄色区域 2 每个cluster至少包含100reads 并统计这些cluster的定位和分布数量 3 统计不同TSScluster大小宽度分布 以及转录起始模式的识别 RSAM 09 融合基因的发现 FusiongeneDiscovery RSAM 10 非长编码RNA与多外显子反义转录本的识别 图例蛋白质编码效能分析 a b 进化保守性水平 c 与lincRNA表达量 多外显子反义转录本表达量 d 进行对比分析 RSAM 11 结构变异SNV识别与计算 RNA seq是相对于全基因组测序相对廉价的探测SNV变异体的策略 根据RNA seq数据 我们采用探测算法准确地识别出SNV 主要的测序平台基因组分析原理转录组分析原理分析策略的选择 按照研究需求选择 实验需求分为 医疗 基础科研 问题方向等 样本本身原因 样本量 分析难度 周期等

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号