数据处理流程 - bgi

上传人:mg****85 文档编号:53575160 上传时间:2018-09-03 格式:PPT 页数:33 大小:1.33MB
返回 下载 相关 举报
数据处理流程 - bgi_第1页
第1页 / 共33页
数据处理流程 - bgi_第2页
第2页 / 共33页
数据处理流程 - bgi_第3页
第3页 / 共33页
数据处理流程 - bgi_第4页
第4页 / 共33页
数据处理流程 - bgi_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《数据处理流程 - bgi》由会员分享,可在线阅读,更多相关《数据处理流程 - bgi(33页珍藏版)》请在金锄头文库上搜索。

1、,数据处理流程,计算机集群,测序控制PC,测序仪,1.控制测序过程 决定测序长度、填加试剂、控制温度、控制反应时间、拍照 2.图像分析 对测序仪拍照的图片进行图像分析,得到亮点的光强度和坐标 3.basecalling 由光强度得到碱基序列,4.数据传输 将basecalling结果(二进制文件bcl)传输到计算机集群的存储上,5.数据处理 将bcl文件转化为后续信息分析所使用的文本文件(fastq,qseq) 6.index拆分 7.数据质量分析 8.数据备份9.后续信息分析,图像分析及basecalling基本原理,Cycle1 Cycle2 Cycle3,对A发出的光拍照,对C发出的光拍

2、照,对G发出的光拍照,对T发出的光拍照,图像分析及basecalling基本原理,Cycle1 Cycle2 Cycle3,由4个cluster得到4条序列: ATA. CCT. GCG. GAC.,图像分析,对每个图片独立的处理 图像锐化 对图片进行快速傅里叶变换(FFT),在傅里叶空间乘以滤波函数后反变换 识别cluster/亮点 信噪比(亮度/背景值)大于阈值的亮点区域 计算亮点光强度和位置坐标 在亮点区域,对光强度进行二维插值,求出最大光强度,以及最大光强度对应的位置坐标,将同一个tile的所有图片中的亮点坐标对齐重叠不同图片之间存在偏移/拉伸/压缩(offset) 系统、稳定的: 4

3、种光折射率不同、滤波片不同、光路不同,所以造成成像的偏移/拉伸/压缩,可利用crosstalk,计算出偏移/拉伸/压缩的数值(offset参数) 偶然、随机的: flowcell表面不平、自动调整焦距、机械移动不够精确、随机振动,可利用crosstalk解决,CrosstalkAC光谱间有交叠,GT光谱间有交叠,所以:碱基A的图片中包含C发出的光碱基C的图片中包含A发出的光碱基T的图片中包含G发出的光 不利:不能直接比较光强度大小而得到碱基 有利:利用图片中共同的亮点,将所有图片对齐重叠,解决offset问题,图像分析流程,Template Generation利用AC之间的crosstalk

4、、GT之间的crosstalk,将前 2个cycle的图片,与第一个cycle的A的图片对齐重叠,确定所有cluster的位置坐标(x,y),Registration and Intensity Extraction对于每一个cycle:将4张图片(ACGT)中的所有亮点与cluster坐标(x,y)对应,计算每个cluster的4种光强度,对每个图片独立的处理 图像锐化、识别cluster/亮点、计算亮点光强度和位置坐标,Template Generation利用AC之间的crosstalk、GT之间的crosstalk,将前 2个cycle的图片,与第一个cycle的A的图片对齐重叠,确定

5、所有cluster的位置坐标(x,y),图像分析结果,Basecalling,Crosstalk 校正 4种光强度归一化 (用DNA样品计算参数),Phasing/Prephasing 校正 (用DNA样品计算参数),对于每个cluster: 在每个cycle中,比较4种光强度,光强度最大的就是当前cycle测到的碱基,各cycle测到的碱基连起来组成这个cluster的碱基序列; 计算每个碱基的质量值,4种光强度归一化,A,C,G,T,phasing,Sequencing primer,prephasing,Basecalling结果:qseq文件,每一行表示一条reads(一个cluste

6、r)每行有11列,tab分隔: 机器编号、run序号、Lane号、Tile号、X坐标、Y坐标、 index标志、read1/read2标志、碱基序列、质量序列、 是否通过默认的质量筛选标准Single-end(SE)测序: 1个qseq文件Pair-end(PE)测序: 2个qseq文件分别存放read1和read2的数据; 2个文件的同一行属于同一个cluster每条序列(reads)长度=上机测序循环(cycle)数量;测序cycle数量受测序试剂盒的试剂量限制,对于GA有: 36SE、36+7/8SEindex、45PE、36+7+45PEindex、76PE、74+7+76PEinde

7、x、73+8+76PEindex、101PE、101+7/8+101PEindex 等对于Hiseq: 91PE、91+8+91PEindex、101PE、101+8+101PEindex,Basecalling结果:qseq文件,fastq文件,每4行表示一条reads(一个cluster) 第一行:序列ID,包含index序列及read1或read2标志: 第二行:碱基序列,大写“ACGTN” 第三行:“+”,省略了序列ID 第四行:质量值序列:字符的ASCII码值-64=质量值Single-end(SE)测序:1个fastq文件Pair-end(PE)测序:2个fastq文件分别存放re

8、ad1和read2的数据;Read1的fastq文件 *1.fq中第一条reads: FC61FL8AAXX:1:17:1012:19200#GCCAAT/1 CCACTGTCATGTGAACATCACAGAGACATTTCTTGA + bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_Read2的fastq文件 *2.fq中第一条reads: FC61FL8AAXX:1:17:1012:19200#GCCAAT/2 AAAATTAGCCAGGCAATGGTGGTGCATGCCTTTAATCCCAGCTA + QVVVVYVYWWYPWYYTYYWUYYYVVWW,质量值

9、FC61FL8AAXX:1:17:1012:19200#GCCAAT/1 CCACTGTCATGTGAACATCACAGAGACATTTCTTGA + bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_表示方法 Illumina:字符的ASCII值 - 64 = 质量值(Sanger:字符的ASCII值 - 33 = 质量值)范围 GA Illumina1.3+(09年3月之后): 2,35 B,cGA Illumina1.0 (09年3月之前): -5,40 ;,hHiseq: 2:38 B,f质量值与错误率理论关系: Q =-10 log10(e)质量值计算方法:根据光

10、强信号信噪比、光强度衰减、GC含量等参数,计算质量值,fastq文件,fastq文件,每条序列(reads)长度 read1和read2分别去除了最后一个碱基,即: 36 SE 有效长度为 35 101 PE 有效长度为 100(read1)+100(read2) 101+8+101 PEindex 有效长度为 100(read1)+100(read2) Read1中所有reads长度相同,Read2中所有reads长度相同, 但是Read1和Read2长度可以不相同,取决于上机测序循环(cycle)数量质量筛选(PF): Illumina标准流程输出的fastq文件,去除了qseq文件中没有

11、通过默认质量筛选标准的低质量序列(reads) GA正常PF比例:DNA 8090%,RNA 7085%每个Lane的正常产量范围: GA 2030M PF reads Read1和Read2各有2030M Hiseq 6080M PF reads Read1和Read2各有6080M 碱基总产量= Read1的产量 + Read2的产量= reads数量(Read1的长度 + Read2的长度),fastq文件产量(GA),fastq文件产量(Hiseq vs GA),文库质控问题1:Pair-end关系,800bp及以下文库,与参考序列比较或者:总之,Read1,Read2与参考序列比对结

12、果:一正(F)一反(R),且F的位点坐标小于R的位点坐标,Read1,总之,Read1,Read2于参考序列比对结果:一正(F)一反(R),且F的位点坐标小于R的位点坐标文库插入片段长度,F,2100检测报告 文库长度分布,与参考序列比对得到 insert-size分布,正常insert-size分布,基因组DNA,外显子,PCR-free文库,异常insert-size分布,2K及以上文库,文库质控问题1:Pair-end关系,与参考序列比较或者:总之,Read1,Read2于参考序列比对结果:一正(F)一反(R),且F的位点坐标大于R的位点坐标,正常insert-size分布,2K,56K

13、,PCR-free文库,10K,异常insert-size分布,文库问题2:adapter污染,空载: adapter与adapter直接连接,中间没有插入片段,导致read1测到3adapter,read2测到5adapter的反向互补 reads尾部测到adapter插入片段过短 插入片段长度小于上机测序循环(cycle)数,导致read1尾部测到3adapter,read2尾部测到5adapter的反向互补,adapter空载较多 导致碱基含量波动,客户PCR引物污染 导致碱基含量波动,文库质控问题3:文库随机性,GC含量偏差:实验技术(打断、PCR、测序)本身特点,导致高GC和低GC区

14、域测序覆盖度偏低,甚至某些区域覆盖不到;PCR-free建库技术可减少PCR带来的随机性问题duplicationPCR扩增出很多一模一样的母版分子,测序结果中很多条reads是一样的;基因组自身重复序列含量高导致duplication偏高;数据量越大,duplication比例越高,文库质控问题4:其它物种、样品污染,测序质控问题,raw Cluster密度 正常raw Cluster密度: 2030万/GAtile,200350万/HiSeqtileCluster制备时,控制文库浓度,达到适当的raw Cluster密度密度过低产量低;密度过高质量差样品差异:200小片段能够容忍的密度较高

15、,800bp片段以及RNA样品、特殊样品,应适当降低密度通过默认质量筛选标准比例(PF)用read1前25cycle的信噪比进行筛选;正常PF比例:DNA 80%,RNA 70%;raw Cluster密度越高,PF比例越低;当raw Cluster密度超高时,图像分析识别出的raw Cluster数量小于真实值,此时PF比例会低于正常;,测序质控问题,光强度信号受到环境温度、测序仪温度控制、测序仪聚焦、CS试剂、测序试剂、样品等因素共同影响;测序长度越长,光强度降低越多;碱基含量不均匀的样品,光强度会有波动,但属于正常碱基含量样品本身测序问题导致有偏向性的测序错误质量值Q20:质量值大于等于20的碱基数量/所有碱基数量reads尾部质量低Error-rate与参考序列比较,能够map的reads中: 错误的碱基数量/(正确的+错误的碱基总数);与参考序列质量有关;人、小片段文库:101PE 1%2%环化大片段error-rate高于小片段文库reads尾部error-rate高,正常光强度、碱基含量、质量值、Error-rate,异常光强度、碱基含量、质量值、Error-rate,异常光强度与碱基含量,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号