高通量测序(ngs)数据分析中的质控

资源描述

《高通量测序(ngs)数据分析中的质控》由会员分享，可在线阅读，更多相关《高通量测序(ngs)数据分析中的质控（16页珍藏版）》请在金锄头文库上搜索。

1、高通量测序错误总结一、生信分析部分1）Q20/Q30碱基质量分数与错误率是衡量测序质量的重要指标，质量值越高代表碱基被测错的概率越小。Q30代表碱基的正确判别率是99.9%，错误率为0.1%。同时我们也可以理解为1000个碱基里有1个碱基是错误的。Q20代表该位点碱基的正确判别率是99%，错误率为1%。对于整个数据来说，我们可以认为100个碱基里可能有一个是错误的, 在碱基质量模块报告的坐标图中，背景颜色沿y-轴将坐标图分为3个区：最上面的绿色是碱基质量很好的区，Q值在30以上。中间的橘色是碱基质量在一些分析中可以接受的区，Q值在20-30之间。最下面红色的是碱基质量很差的区。在一些生信

2、分析中，比如以检查差异表达为目的的RNA-seq分析，一般要求碱基质量在Q在Q20以上就可以了。但以检查变异为目的的数据分析中，一般要求碱基质量要在Q30以上。一般来说，测序质量分数的分布有两个特点：1.测序质量分数会随着测序循环的进行而降低。2.有时每条序列前几个碱基的位置测序错误率较高，质量值相对较低。在图中这个例子里，左边的数据碱基质量很好，而右边的数据碱基质量就比较差，需要做剪切（trimming），根据生信分析的目的不同，要将质量低于Q20或者低于Q30的碱基剪切掉。2）序列的平均质量这个是碱基序列平均质量报告图。横坐标为序列平均碱基质量值，纵坐标代表序列数量。通过序列的平均质量报

3、告，我们可以查看是否存在整条序列所有的碱基质量都普遍过低的情况。一般来说，当绝大部分碱基序列的平均质量值的峰值大于30，可以判断序列质量较好。如这里左边的图，我们可以判断样品里没有显著数量的低质量序列。但如果曲线如右边的图所示，在质量较低的坐标位置出现另外一个或者多个峰，说明测序数据中有一部分序列质量较差，需要过滤掉。3）GC含量分布这个是GC含量分布报告图。GC含量分布检查是检测每一条序列的GC含量。将样品序列的GC含量和理论的GC含量分布图进行比较，用来检测样品数据是否有污染等问题。理论上，GC含量大致是正态分布，正态分布曲线的峰值对应基因组的GC含量。如果样品的GC含量分布图不是正态分

4、布，如右图出现两个或者多个峰值，表明测序数据里可能有其他来源的DNA序列污染，或者有接头序列的二聚体污染。这种情况下，需要进一步确认这些污染序列的来源，然后将污染清除。4）序列碱基含量碱基含量模块是统计在序列中的每一个位置，四种不同碱基占总碱基数的比例。它的目的是检测有无AT、GC分离的现象，而这种现象可能是测序或建库的系统误差所带来的，并且会影响后续的生信分析。理论上，在随机的DNA文库中，G和C含量以及A和T含量在每个测序循环上应分别相等，而且整个测序过程稳定不变。所以碱基含量的四条线应该是基本平行的水平线（图A）。而现实中，由于建库PCR扩增时PCR引物的最初几个碱基不能很好地和模板DN

5、A结合，常常会导致测序结果序列开始的大约前10个碱基位置，碱基含量有较大的波动。这种波动存属于技术误差（图B）。如果在整个测序过程中，四条碱基含量线都出现波动，可能是样品库里有过多的接头序列的二聚体（图C，D）。在建库过程中，如果加入的接头序列过量，两个接头序列可能会连在一起，中间没有要测序的插入序列，形成接头序列二聚体。这些二聚体可以利用adapter trimmer 软件去除。5）过量出现的序列过量序列模块是查看数据是否有污染的另一种方法。如果某个序列的数量占全部序列的0.1%以上，FASTQC就定义该序列为over-represented。这些over-represented序列通常标示

6、着污染序列的存在。这种污染如果是建库测序中的接头序列，fastqc可以检测并标示出可能的来源（possible source）。但如果污染是由于其他来源的DNA，比如其他生物的DNA，FASTQC就没法判断污染序列的来源。这就需要生信分析人员利用其他方法找出污染源。比如将大量出现的序列和NCBI的DNA数据库进行blast，看看污染序列是否来自其他物种。6）过量出现的Kmer检查是否有接头序列，还可以查看k-mer含量。如果有些k-mer过量出现，很有可能有序列污染。过量出现的k-mer可能会有三种情况：序列端，序列中间，或者序列端。端过量出现的k-mer是建库PCR扩增时PCR引物无法和DN

7、A模板很好地结合导致的，是技术误差。出现在中间的k-mer比较少见，可能是接头序列拼接到测序序列中间导致的。3-端出现过量k-mer往往标示着接头序列的污染。7）接头序列含量对接头序列污染的查看还有一个更直观的模块，就是接头序列含量。这里的两个例子中，左图没有显著的接头序列污染，右图的接头序列污染就比较显著。8）去除duplication序列重复序列是怎么来的呢？在全基因组或全外显子组测序的建库过程中，需要进行多轮的PCR扩增。由于扩增引物和不同模板结合力的差异，有些地方的序列扩增产物大于1。这些重复序列的存在会造成等位基因频率的定义以及基因型识别不准确。去除重复序列的原理是将所有比对到完全

8、相同位置的序列对减少至一对。一般用picardtools软件里的Markduplcate功能去除重复序列。9）碱基质量分数重新校正对原始比对结果的另一个质量控制是对碱基的质量分数进行校正。为什么要对碱基质量进行校正呢？这是因为由于各种系统误差，测序仪报告的碱基质量不精确，比实际质量分数偏高或者偏低。系统误差和随机误差不同，不像随机误差，它其实是一种error。这可能来自于测序反应中的物理化学原因，也可能是测序仪本身存在的缺陷造成。碱基质量分数校正的原理是：利用机器学习的方法建立误差模型，根据建立的模型对碱基分数进行调整。调整后更精确的碱基质量分数能够提高后续变异识别的准确率，减少假阳性和假阴性

9、的变异识别。碱基质量的校正一般使用GATK的recalibration功能。需要说明的一点是：碱基质量分数校正不能纠正碱基。也就是说，我们无法通过这个方法确定一个低质量的A是否应该为T。但可以告诉变异识别软件，它可以在多大程度上信任这个碱基A是正确的。二、实验分析部分测序错误主要有三大类，分别来自样品制备、文库制备，以及测序和成像。参考文献：The role of replicates for error mitigation in next-generationsequencing1）来源于样品制备的测序错误1. 用户错误；例如，贴错标签。虽然这是个低级错误，但肯定不会没犯过。在芯片分析中，

10、贴错标签和样品搞混可都是真事，有文献可查。2. DNA或RNA的降解；例如，组织自溶，福尔马林固定石蜡包埋（FFPE）组织制备过程中的核酸降解和交联（甲醛固定样品会随机产生C-T转化，导致肺癌T790M假阳性增多）。3. 异源序列的污染；例如，那些支原体和异种移植的宿主。4. DNA起始量低。早在2005年人们就发现，在PCR过程中，DNA起始量低的模板会以序列依赖的方式产生虚假的突变，主要是从G转变为A。2）来源于文库制备的测序错误1. 用户错误；例如，一个样品的DNA残留到下一个，之前反应的污染。2. PCR扩增错误。这个同上面第4点。3. 引物偏向；例如，结合偏向，甲基化偏向，错配导致的

11、偏向，非特异性结合和引物二聚体的形成，发夹结构和干扰环，熔解温度太高或太低引入的偏向。4. 短捕获偏向，在高通量RNA测序的poly(A)富集过程中引入。5. 独家突变；例如，那些由重复区域或独家变异的错配而引入的突变。6. 机器故障；例如，PCR循环温度不正确。7. 嵌合读取。8. 条形码和/或接头错误；例如，接头污染，缺乏条形码多样性和不兼容的条形码。3）来源于测序和成像的测序错误1. 用户错误；例如，流动槽过载引起的簇crosstalk。2. 移相；例如，不完整的延伸以及多个核苷酸而不是单个核苷酸的添加。3. “Dead”荧光基团，受损的核苷酸以及重叠信号。4. 序列背景；例如，富含GC

12、，同源和低复杂度的区域，及均聚物。5. 机器故障；例如，激光器、硬盘、软件和流体系统出故障。6. 链的偏向。三、小知识1. 为什么碱基质量在序列的5-端要差一些？答：这是由NGS的测序特点造成的。NGS使用的是pyrosequencing (sequencing by synthesis)的方法。在这个方法里，用来合成的4个碱基的混合物里A，C，T，G四个碱基分别带有绿色，蓝色，红色和黑色的荧光标记。而且每个碱基上面都有一个blocker cap，使得每轮反应只能有一个碱基被加入到每个分子中。然后把没有加入分子的游离碱基全部洗去后，对每个分子进行荧光检测来确定新加入的碱基是什么。在下一轮开始

13、之前，这个blocker cap要去被掉才可以加入下一个碱基。如果某个序列的blocker cap没有能有效地去除，在下一个反应中就没有新的碱基加入，那这个序列的荧光和其他的序列是不一样的，这样总体的荧光强度就被消弱，碱基识别的可信度就被降低。这种错误发生的概率很低，但随着测序长度的增加，这种错误的总数就越来越多，对荧光的影响就越来越大，测序的错误率就越来越大。2. 什么是接头序列？为什么会有接头序列污染？为什么要清除接头序列？答：在构建高通量测序的DNA文库时，需要在待测的DNA片段两头分别连一段人工合成的DNA序列。这两段人工合成的序列被称为接头序列。接头序列里一般包含三个重要组成部分：区

14、分样品的barcode序列，PCR primer序列和测序引物结合的序列。在一般情况下，待测的插入序列在5-接头序列下游，5-段的接头序列不会出现在测序结果序列里。但当插入测序列过短时，测序反应会超过待测序列而测到3-端的接头序列，从而造成接头序列的污染。当reads中有接头序列，会导致比对错误和非比对的序列书面增加。所以要清楚接头序列。3. 测序深度不均一性是测序建库技术操作的问题，还是每个人的个体化差异导致不均一的现象？答：不均一的原因个体DNA和测序应该都有，看不同的情况。比如我们曾经分析过一个WES, 在一个本应该检测到变异的基因，我们无论如何检测不到。可视化发现该区域内没有reads

15、。而查看这段基因序列，发现是100% 的G。而对测序仪来说，如果G含量超过80%，就很难成功测序。而如果个体某段DNA含有比较多的SNP，捕获探针就无法很好和DNA杂交，而不能有效的捕获。4. 测序是否越深越好?NGS属于“深度测序”，可以1次并行对几十万甚至上百万条DNA分子进行序列测定，从而实现每个位点被覆盖几十次甚至上百次。通过计算测序得到的碱基总量与测序区域大小的比值，可以获得测序的平均深度，是评价测序质量的重要指标之一。测序深度的增加使得目标区域覆盖的读长增多，获得区域的序列信息更为精确。然而，测序深度的增加意味着测序成本的提高。因此，在测序之前需对数据精确度和成本进行综合考虑，根据临床应用需求选择合理的测序深度。测序深度的选择主要基于以下4个方面的考虑：首先，常规的测序项目采用普遍被接受或推荐的测序深度。正常组织全基因组测序建议的测序深度为10X30X。有研究表明，30X的测序深度可以覆盖80%的全基因组信息，基本满足常规的全基因组测序需求。正常组织全外显子测序的测序深度为100X200X。转录组测序虽不以深度来衡量，但对测序读长数有明确的要求，一般为百万数量级。常规的染色质免疫共沉淀测序则需要100X左右。这些测序深度都经过多方验证，基本能满足不同测序目的的数据需求。其次，特殊目的的测序项目可通过检索文献数据库，选

展开阅读全文

高通量测序(ngs)数据分析中的质控

最新文档