文档详情

1RNA-seq质量控制

鲁**
实名认证
店铺
DOC
105KB
约5页
文档ID:437258337
1RNA-seq质量控制_第1页
1/5

RNA-seq 质量控制1 建库流程1.1 Total RNA样品检测1.1.1 琼脂糖凝胶电泳分析RNA降解程度以及是否有污染一句话总结:琼脂检测主要观察28s和18s判断RNA好坏的标准是28s,18s是否清晰,尤其是28S亮度比18s亮度大28s,主要是剪切前的前体RNA,主要包括不均一核RNA〔未剪切成熟的mRNA前体〕和主要是28s,18s,5s的前体转录子前体存在于细胞核〔然后加工剪切成28s,18s,5s和成熟的小片段的mRNA这些成熟的RNA进入到胞浆有功能的mRNA是存在于胞浆中的成熟的mRNA,前体mRNA是没有翻译功能的〔蛋白质翻译机器,核单倍体是位于胞浆中的〕真正成熟的mRNA,主要集中在28s和18s之间的荧光背景〔一般每条基因mRNA量很少,所以,整体一般看不到明显带〕.如果28s只是比18s稍高,或者亮度差不多,即使条带清晰,也已经提示局部降解了大片段开场降解,从28s降解到18s最后降解到5s这样降解过程中,28s减少,18s增多,28s:18s比例就会下降如果最容易降解的28s都没有降解,〔从比例推断〕,则更难降解的mRNA,就推理出肯定是完好的了泳道: 1 2 3 4 5 6 7 8 9这图片就是一个离心柱子提取RNA的不同降解情况的典型例子。

泳道1,5,6,7,8,9 局部降解了,所以28s是首先降解,28s条带变淡,而局部降解首先是降解成较小的18s左右的片段,所以18s条带明显变粗,造成28s:18s的比例竟然小于1了然后在不该看到条带或者应该是很弱的5s位置,出现了较明显的5s大小的降解带3,4是完全降解了,28s,18s已经根本降解光了两条带都看不见了最后降解成的小片段正好和5s大小一致,所以在5s位置看到了大量的一条浓浓的降解小片段,和5s一样大小2就是完全正常提取的RNA,大家可以看到28s:18s比例大约是2:1,5s位置也根本见不到带这就说明完全正常,无降解2) Nanodrop检测RNA的纯度〔OD260/280比值〕一句话总结:260/280 大约在 2.0 而260/230 ration 在 2.0-2.2.OD260代表核酸的吸光度,OD280代表蛋白质的吸光度280、320、230、260nm下的吸光度分别代表了核酸、背景〔溶液浑浊度〕、盐浓度和蛋白等有机物的值A230 测定其它碳源物质,如酚,糖类等;A260 是核酸的吸收峰测 RNA 和 DNA,引物等的浓度用的;A280 是蛋白质的吸收峰一般的,我们只看 OD260/OD280〔Ratio,R〕——1.8~2.0时,我们认为 RNA中蛋白或者时其他有机物的污染是可以容忍的,不过要注意,当用 Tris 作为缓冲液检测吸光度时,R 值可能会大于 2〔一般应该是<2.2的〕。

当 R<1.8时,溶液中蛋白或者其他有机物的污染比拟明显,你可以根据自己的需要决定这份RNA 的命运当 R>2.2时,说明 RNA 已经水解成单核酸了纯RNA 的A260/A280的比值为 2.0OD260/OD230的比值还说明 RNA 的纯度——其值 <2.0 说明裂解液中有亚硫氰胍和β-巰基乙醇残留,其值 >2.4,需用乙酸盐,乙醇沉淀 RNA (3) Qubit对RNA浓度进展准确定量一句话总结:RNA-seq测序需要至少300 ng 总RNA(4) Agilent 2100准确检测RNA的完整性一句话总结:2100 RIN值高好,样品间RIN值相差1-1.5最好Agilent 2100对文库的insert size进展检测,RIN值反响的是样品的降解RIN=RNA integrity number,即 RNA 分子完整数,从 0-10,直接反响了 RNA 质量的好坏,此数值越大说明 RNA 质量越好越完整1.2 建库流程1.2.1 ssRNA-seq 建库〔针对长非编码RNA分析〕RNA检测合格后,通过epicentre Ribo-ZeroTM试剂盒去除rRNA〔可以拿到非polyA的转录本〕随后参加fragmentation buffer将RNA打断成150-200bp短片段150-200bp,以短片段RNA为模板,用六碱基随机引物〔random he*amers〕合成一链cDNA,然后参加缓冲液、dNTPs〔dUTP、dATP、dGTP和dCTP〕和DNA polymerase I合成二链cDNA,随后利用AMPure *P beads纯化双链cDNA。

纯化的双链cDNA再进展末端修复、加A尾并连接测序接头,然后用AMPure *P beads进展片段大小选择之后用USER酶降解含有U的cDNA第二链,最后进展PCR富集得到链特异性cDNA文库图:lncRNA建库1.2.2 小RNA建库样品检测合格后,使用 Small RNA Sample Pre Kit 构建文库,利用 Small RNA 的 3’及 5’端特殊构造〔 5’端有完整的磷酸基团, 3’端有羟基〕,以 total RNA 为起始样品,直接将 Small RNA 两端加上接头,然后反转录合成 cDNA 随后经过 PCR 扩增, PAGE 胶电泳别离目标 DNA 片段,切胶回收得到的即为 cDNA 文库1.2.3 普通转录组建库样品检测合格后,用带有Oligo〔dT〕的磁珠富集真核生物mRNA〔假设为原核生物,则通过试剂盒去除rRNA来富集mRNA〕随后参加fragmentation buffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物〔random he*amers〕合成一链cDNA,然后参加缓冲液、dNTPs和DNA polymerase I合成二链cDNA,随后利用AMPure *P beads纯化双链cDNA。

纯化的双链cDNA再进展末端修复、加A尾并连接测序接头,然后用AMPure *P beads进展片段大小选择,最后进展PCR富集得到最终的cDNA文库构建原理图如下:图RNA-seq建库1.2.4 Chip-seq 建库流程染色体免疫共沉淀〔ChIP〕是一种用于研究蛋白质与 DNA 的体相互作用的经典实验技术采用特异性抗体将目的蛋白进展免疫沉淀,由此可以把目的蛋白所结合的基因组 DNA 片段也富集下来方法1 :Cross-liking Chromatin Immunoprecipitation (*-ChIP) 甲醛处理细胞,使 DNA-protein 的相互结合作用被交联固定,裂解细胞,得到全细胞裂解液超声处理,将基因组 DNA 打断至 100-500 bp抗体免疫沉淀:在细胞裂解液中参加一抗和 beads,并进展孵育采用适宜的实验条件进展洗脱,并解交联通过 qPCR 对 ChIP 结果进展验证准备好的 ChIP 后的 DNA 样品可以用于 ChIP Sequencing 建库方法2:Native Chromatin Immunoprecipitation 通过非变性的方式得到核裂解液。

微球菌核酸酶〔Micrococcal nuclease〕消化染色质,得到单核小体或核小体寡聚体抗体免疫沉淀:在细胞裂解液中前后参加一抗和 beads,并进展孵育DNA 别离通过 qPCR 对 ChIP 结果进展验证 6. 准备好的 ChIP 后的 DNA 样品可以用于 ChIP Sequencing 建库最后DNA 片段末端修复,3’端加 A 碱基,连接测序接头公司 Paired-End DNA Sample Prep kit〕 PCR 扩增及 DNA 产物的片段大小选择一般为 100-300 bp,包括接头序列在合格的文库用于上机测序2 质量控制相关的变量2.1 reads quality issue2.1.1 测序错误率Base QualityBase quality indicates the confidence in the base callq = −10*log 10 (0.01) = 20测序错误率特征(1)测序错误率会随着测序序列(Sequenced Reads)长度的增加而升高,这是由于测序过程中化学试剂的消耗而导致的2)前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的长度。

所以推测前6个碱基测序错误率较高的原因为随机引物和RNA模版的不完全结合图前6碱基错误率高,125bp测序错误率高2.1.2 CG含量正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异因此好的样本中四条线应该平行且接近当局部位置碱基的比例出现bias时,即四条线在*些位置纷乱交织,往往提示我们有overrepresented sequence的污染当所有位置的GC含量一致的表现出bias时,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差前几个不稳定due to the random he*amer priming during PCR amplification,属于正常的现象红线是实际情况,蓝线是理论分布〔正态分布,均值不一定在50%,而是由平均GC含量推断的〕曲线形状的偏差往往是由于文库的污染或是局部reads构成的子集有偏差〔overrepresented reads〕形状接近正态但偏离理论分布的情况提示我们可能有系统偏差图:重复序列检测2.1.3 重复序列理论上出现重复序列的概率是很低的如果出现重复的序列,很多是人工的artificiallyPCR 扩增。

下列图是横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100% fastqc中用fq数据的前200,000条reads统计其在全部数据中的重复情况重复数目大于等于10的reads被合并统计如果*k个bp的短序列在reads量出现,其频率高于统计期望的话,fastqc将其记为over-represented k-mer出现频率总体上3倍于期望或是在*位置上5倍于期望的k-mer被认为是over-representedK-mer可以用于检测是否有接头存在2.1.4 比对统计:检测对reference的比对情况检测mapping ratio, 看比对上的总数,还可以同污染源的基因组进展比对2.1.5 rRNA/tRNA 的污染组成RNA的污染,如rRNA和tRNA, 最高时可以占整个转录组的60-90%建库时对这类RNA进展降解有2种方法,一种是使用磁珠进展吸附选择有poly-a的转录本第二种是对核糖体RNA进展消化即使这样,仍然会有大量的核糖体rRNA污染存在2.1.6 Saturation Test of Sequencing Depth测序深度不同,对低丰度的基因使用FPKM定量也并不稳定,此外做可变剪切,lncRNA需要更高的深度才能检测。

一般认为100*-150*可以饱和2.1.7 生物学重复 RNA-seq通常要求至少2个生物学重复,注意区别生物学重复和技术重复,生物学重复一般建议皮尔逊相关系数0.92以上可以通过聚类,计算相关系数,PCA样品研究样品之间的关系2.1.8 覆盖整齐度 Coverage Uniformity RNA-seq测序的结果,理论上每个位点被测序到的时机是相等的,但是由于poly-A选择,3’端往往会具有更高的coverage. 此外大多数reads应该位于基因注释区2.1.9 链特异性Strand Specif。

下载提示
相似文档
正为您匹配相似的精品文档