诺禾致源lncrna测序生物信息分析结题报告资料

上传人:w****i 文档编号:107728322 上传时间:2019-10-20 格式:PDF 页数:46 大小:5.53MB
返回 下载 相关 举报
诺禾致源lncrna测序生物信息分析结题报告资料_第1页
第1页 / 共46页
诺禾致源lncrna测序生物信息分析结题报告资料_第2页
第2页 / 共46页
诺禾致源lncrna测序生物信息分析结题报告资料_第3页
第3页 / 共46页
诺禾致源lncrna测序生物信息分析结题报告资料_第4页
第4页 / 共46页
诺禾致源lncrna测序生物信息分析结题报告资料_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《诺禾致源lncrna测序生物信息分析结题报告资料》由会员分享,可在线阅读,更多相关《诺禾致源lncrna测序生物信息分析结题报告资料(46页珍藏版)》请在金锄头文库上搜索。

1、 地址:北京市海淀区学清路 38 号金码大厦 B 座 21 层 网址: 电话:010-8283 7567 Providing advanced genomic solutions. Long noncoding RNA 生物信息分析生物信息分析 结题报告 结题报告 2013 年年 9 月月 RNA 研究部研究部 rl 北京诺禾致源生物信息科技有限公司北京诺禾致源生物信息科技有限公司 lncRNA 生物信息分析结题报告 一、建库测序流程 1.Total RNA样品检测 2.文库构建 3.库检 4.上机测序 二、生物信息分析流程 三、项目结果说明 1.原始序列数据 2. 测序数据质量评估 2.1

2、测序错误率分布检查 2.2 GC含量分布检查 2.3 测序数据过滤 2.4 数据产出情况汇总 3.参考序列比对分析 3.1 Reads与参考基因组比对情况统计 3.2.Reads在参考基因组不同区域的分布情况 3.3.Reads在染色体上的密度分布情况 3.4.Reads比对结果IGV可视化浏览 4.基因表达分析 4.1 已知注释类型基因含量分布 4.2 已知基因表达水平分析 5.RNA-seq整体质量评估 5.1 样品间相关性检查 5.2 样品间聚类及PCA分析 5.3 均一性分布检查 6.转录本拼接 6.1 cufflinks拼接 6.2 scripture拼接 7.候选lncRNA筛选

3、7.1 基本筛选 7.2 编码潜能筛选 7.3 重现性筛选 8.候选lncRNA描述性统计 8.1 长度分布统计 8.2 外显子数目统计 8.3 已知和预测lncRNA统计 9.lncRNA保守性分析 9.1 序列保守性分析 9.2 位点保守性分析 10.lncRNA差异表达分析 10.1 lncRNA表达水平分析 10.2 lncRNA差异表达分析 10.3 差异表达lncRNA筛选 11.lncRNA组织或表型特异性分析 11.1 lncRNA与mRNA表达聚类分析 11.2 组织或表型特异性分析 12.lncRNA靶基因预测 12.1 cis作用靶基因预测 12.2 trans作用靶基因

4、预测 13.特异lncRNA靶基因功能富集分析 13.1 GO富集分析 13.2 KEGG富集分析 14.特异lncRNA与mRNA网络互作分析 四、参考文献 北京诺禾致源生物信息科技有限公司 一、建库测序流程 从RNA样品到最终数据获得,样品检测、建库、测序每一个环节都会对数据质量和数量产生影响,而数据质量又会直接影响后续信息分析的 结果。因此,获得高质量数据是保证生物信息分析正确、全面、可信的前提。为了从源头上保证测序数据的准确性、可靠性,诺禾致源对样品检 测、建库、测序每一个生产步骤都严格把控,从根本上确保了高质量数据的产出。实验流程图如下: 北京诺禾致源生物信息科技有限公司 1 Tot

5、al RNA样品检测 诺禾致源对RNA样品的检测主要包括4种方法: (1) 琼脂糖凝胶电泳分析RNA降解程度以及是否有污染 (2) Nanodrop检测RNA的纯度(OD260/280比值) (3) Qubit对RNA浓度进行精确定量 (4) Agilent 2100精确检测RNA的完整性 2 文库构建 RNA检测合格后,通过epicentre Ribo-ZeroTM试剂盒去除rRNA。随后加入fragmentation buffer将RNA打断成短片段,以短片段RNA为模板, 用六碱基随机引物(random hexamers)合成一链cDNA,然后加入缓冲液、dNTPs(dUTP、dATP、

6、dGTP和dCTP)和DNA polymerase I合成二链 cDNA,随后利用AMPure XP beads纯化双链cDNA。纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后用AMPure XP beads进行片段大 小选择。之后用USER酶降解含有U的cDNA第一链,最后进行PCR富集得到链特异性cDNA文库。文库构建原理图如下: 3 库检 文库构建完成后,先使用Qubit2.0进行初步定量,稀释文库至1ng/ul,随后使用Agilent 2100对文库的insert size进行检测,insert size 符合预期后,使用Q-PCR方法对文库的有效浓度进行准确定量(文库有

7、效浓度 2nM),以保证文库质量。 4 上机测序 库检合格后,把不同文库按照有效浓度及目标下机数据量的需求pooling后进行HiSeq/MiSeq测序。 北京诺禾致源生物信息科技有限公司 二、生物信息分析流程 获得原始测序序列(Sequenced Reads)后,在有相关物种参考序列或参考基因组的情况下,通过如下流程进行生物信息分析: 北京诺禾致源生物信息科技有限公司 三、项目结果说明 1 原始序列数据 高通量测序(如illumina HiSeqTM2000/MiSeq等测序平台)测序得到的原始图像数据文件经碱基识别(Base Calling)分析转化为原始测序序列 (Sequenced R

8、eads),我们称之为Raw Data或Raw Reads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对 应的测序质量信息。 FASTQ格式文件中每个read由四行描述,如下: E A S 1 3 9 : 1 3 6 : F C 7 0 6 V J : 2 : 2 1 0 4 : 1 5 3 4 3 : 1 9 7 3 9 3 1 : Y : 1 8 : A T C A C G G C T C T T T G C C C T T C T C G T C G A A A A T T G T C T C C T C A T T C G A A A C

9、 T T C T C T G T + C F F F D E H H H H F I J J J F H G I I I E H I I J B H H H I J J E G I I J J I G H I G H C C F 其中第一行以“”开头,随后为illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);第二行是碱基序列;第三行 以“+”开头,随后为illumina 测序标识符(选择性部分);第四行是对应序列的测序质量(Cock et al.)。 illumina 测序标识符详细信息如下: EAS139Unique instrument nam

10、e 136Run ID FC706VJFlowcell ID 2Flowcell lane 2104Tile number within the flowcell lane 15343x-coordinate of the cluster within the tile 197393y-coordinate of the cluster within the tile 1Member of a pair, 1 or 2 (paired-end or mate-pair reads only) YY if the read fails filter (read is bad), N otherw

11、ise 180 when none of the control bits are on, otherwise it is an even number ATCACGIndex sequence 第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。如果测序错误率用e表示,illumina HiSeqTM2000/MiSeq的碱 基质量值用Qphred表示,则有下列关系: 公式一: Qphred = -10log10(e) illumina Casava 1.8版本测序错误率与测序质量值简明对应关系如下: 测序错误率测序质量值对应字符 5%13. 1%205 0.1%30

12、? 0.01%40I 北京诺禾致源生物信息科技有限公司 2 测序数据质量评估 2.1 测序错误率分布检查 每个碱基测序错误率是通过测序Phred数值(Phred score, Qphred)通过公式1转化得到,而Phred 数值是在碱基识别(Base Calling)过程中通 过一种预测碱基判别发生错误概率模型计算得到的,对应关系如下表所显示: illumina Casava 1.8版本碱基识别与Phred分值之间的简明对应关系 Phred分值不正确的碱基识别碱基正确识别率Q-sorce 101/1090%Q10 201/10099%Q20 301/100099.9%Q30 401/10000

13、99.99%Q40 测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。对于RNA-seq技术,测序错误率分布具有两个特点:(1) 测序错误率会随着测序序列(Sequenced Reads)长度的增加而升高,这是由于测序过程中化学试剂的消耗而导致的,并且为illumina高通量测序 平台都具有的特征。(2)前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的 长度。所以推测前6个碱基测序错误率较高的原因为随机引物和RNA模版的不完全结合(Jiang et al.)。 图2.1 测序错误率分布图 横坐标为reads

14、的碱基位置,纵坐标为单碱基错误率 北京诺禾致源生物信息科技有限公司 2.2 GC含量分布检查 GC含量分布检查用于检测有无AT、GC 分离现象,而这种现象可能是测序或者建库所带来的,并且会影响后续的定量分析。 在illumina测序平台的转录组测序中,反转录成cDNA时所用的6bp 的随机引物会引起前几个位置的核苷酸组成存在一定的偏好性。而这种偏 好性与测序的物种和实验室环境无关,但会影响转录组测序的均一化程度(Hansen et al.)。除此之外,理论上G和C碱基及A和T碱基含量每个测 序循环上应分别相等,且整个测序过程稳定不变,呈水平线。对于DGE测序来说,由于随机引物扩增偏差等原因,常

15、常会导致在测序得到的每个 read前6-7个碱基有较大的波动,这种波动属于正常情况。 图2.2 GC含量分布图 横坐标为reads的碱基位置,纵坐标为单碱基所占的比例;不同颜色代表不同的碱基类型 北京诺禾致源生物信息科技有限公司 2.3 测序数据过滤 测序得到的原始测序序列,里面含有带接头的、低质量的reads,为了保证信息分析质量,必须对raw reads进行过滤,得到clean reads, 后续分析都基于clean reads。 数据处理的步骤如下: (1) 去除带接头(adapter)的reads; (2) 去除N(N表示无法确定碱基信息)的比例大于10%的reads; (3) 去除低

16、质量reads。 RNA-seq 的接头(Adapter, Oligonucleotide sequences for TruSeqTM RNA and DNA Sample Prep Kits) 信息: RNA 5 Adapter (RA5), part # 15013205: 5-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3 RNA 3 Adapter (RA3), part # 15013207: 5-GATCGGAAGAGCACACGTCTGAACTCCAGTCAC(6位index)ATCTCGTATGCCGTCTTCTGCTTG-3 图2.3 原始数据过滤结果 北京诺禾致源生物信息科技有限公司 2.4 数据产出情况汇总 表2.4 数据产出质量情况一览表 Sample nameRaw readsClean readsclean basesError rate(%)Q20(%)Q30(%)GC content(%) sample1_A_1391762

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号