图文摘要示例水稻dge结题报告示例-生物信息转录组图文

上传人:繁星 文档编号:40637687 上传时间:2018-05-26 格式:DOC 页数:9 大小:34KB
返回 下载 相关 举报
图文摘要示例水稻dge结题报告示例-生物信息转录组图文_第1页
第1页 / 共9页
图文摘要示例水稻dge结题报告示例-生物信息转录组图文_第2页
第2页 / 共9页
图文摘要示例水稻dge结题报告示例-生物信息转录组图文_第3页
第3页 / 共9页
图文摘要示例水稻dge结题报告示例-生物信息转录组图文_第4页
第4页 / 共9页
图文摘要示例水稻dge结题报告示例-生物信息转录组图文_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《图文摘要示例水稻dge结题报告示例-生物信息转录组图文》由会员分享,可在线阅读,更多相关《图文摘要示例水稻dge结题报告示例-生物信息转录组图文(9页珍藏版)》请在金锄头文库上搜索。

1、1图文摘要示例图文摘要示例 水稻水稻 DGEDGE 结结 题报告示例题报告示例- -生物信息转录生物信息转录 组组_ _图文图文导读:就爱阅读网友为您分享以下导读:就爱阅读网友为您分享以下“水稻水稻 DGE 结题报结题报告示例告示例-生物信息转录组生物信息转录组_图文图文”的资讯,希望对您有所帮助,的资讯,希望对您有所帮助,感谢您对感谢您对 的支持的支持!北京诺禾致源生物信息科技有限公司北京诺禾致源生物信息科技有限公司7.1 差异基因差异基因 GO 富集列表富集列表表表 6 差异基因差异基因 GO 富集列表富集列表GO_accessionGO:00058292GO:0005773GO:000

2、9628DescriptioncytosolvacuoleTerm_typeOver_represented_pValueCorrected_pValueDEG_itemDEG_list2.78836314861538e-92691076.66198328673446e-57691069.01910598539835e-89691063.87025463590673e-12669105cellular_component2.87460118413957e-09cellular_component1.37360480138855e-072.78941422228815e-071.82332576

3、117804e-06response to abiotic biological_processstimulusGO:0006950response to stressbiological_process结果表格详细内容如下:结果表格详细内容如下:(1) GO_accession:Gene Ontology 数据库中唯一的标号信数据库中唯一的标号信息息(2) Descriptio:Gene Ontology 功能的描述信息功能的描述信息(3) Term type:该:该 GO 的类别的类别(C:细胞组分;:细胞组分;P:生物学过:生物学过3程;程;M:分子功能:分子功能)(4) Over_re

4、presented pValue:富集分析统计学显著水平,:富集分析统计学显著水平,一般情况下,一般情况下,P-value 0.05 该功能为富集项该功能为富集项(5) Corrected pValue:矫正后的:矫正后的 P-Value(6) DEG item:差异基因中与该:差异基因中与该 Term 相关的基因数相关的基因数(7) DEG list:所有基因中与该:所有基因中与该 Term 相关的基因数相关的基因数4 个水稻个水稻 DGE 生物信息分析结题报告生物信息分析结题报告l生物信息分析流程生物信息分析流程 项目结果说明项目结果说明?l4原始序列数据原始序列数据测序数据质量评估测序数

5、据质量评估 参考序列比对分析参考序列比对分析 基因表达水平分基因表达水平分析析 RNA-seq 整体质量评估整体质量评估 基因差异表达分析基因差异表达分析 差异基差异基因因 GO 富集分析富集分析 差异基因差异基因 KEGG 富集分析富集分析l参考文献参考文献北京诺禾致源生物信息科技有限公司北京诺禾致源生物信息科技有限公司2 测序数据质量评估测序数据质量评估2.1 测序错误率分布检查测序错误率分布检查每个碱基测序错误率是通过测序每个碱基测序错误率是通过测序 Phred 数值数值(Phred score, Qphred)通过公式通过公式 1 转化得到,而转化得到,而 Phred 数值是在碱基识数

6、值是在碱基识别别(Base Calling)过程通过一种预测碱基判别发生错误概率过程通过一种预测碱基判别发生错误概率5模型计算得到的,对应关系如下表所显示:模型计算得到的,对应关系如下表所显示:Illumina Casava 1.8 版本碱基识别与版本碱基识别与 Phred 分值之间的简明分值之间的简明对应关系对应关系Phred 分值分值10203040不正确的碱基识别不正确的碱基识别1/101/1001/10001/10000碱基正确识别率碱基正确识别率90%99%99.9%99.99%Q-sorceQ10Q20Q30Q40测序错误率与碱基质量有关,受测序仪本身、测序试剂、测序错误率与碱基质

7、量有关,受测序仪本身、测序试剂、6样品等多个因素共同影响。对于样品等多个因素共同影响。对于 RNA-seq 技术,测序错误技术,测序错误率分布具有两个特点:率分布具有两个特点:(1)测序错误率会随着测序序列测序错误率会随着测序序列(Sequenced Reads)的长度的的长度的增加而升高,这是由于测序过程中化学试剂的消耗而导致增加而升高,这是由于测序过程中化学试剂的消耗而导致的,并且为的,并且为 Illumina 高通量测序平台都具有的特征高通量测序平台都具有的特征(Erlich and Mitra, 2008; Jiang et al.)。(2)前前 6 个碱基的位置也会发生较高的测序错误

8、率,而这个个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在长度也正好等于在 RNA-seq 建库过程中反转录所需要的随建库过程中反转录所需要的随机引物的长度。所以推测这部分较高的测序错误率原因为机引物的长度。所以推测这部分较高的测序错误率原因为随机引物和随机引物和 RNA 模版的不完全结合模版的不完全结合(Jiang et al.)。测序错。测序错误率分布检查用于检测在测序长度范围内,有无异常的碱误率分布检查用于检测在测序长度范围内,有无异常的碱基位置存在高错误率,比如中间位置的碱基的测序错误率基位置存在高错误率,比如中间位置的碱基的测序错误率显著的高于其他位置。一般情况下,每个碱

9、基位置的测序显著的高于其他位置。一般情况下,每个碱基位置的测序错误率应该低于错误率应该低于 0.5%。图图 1 测序错误率分布图测序错误率分布图横坐标为横坐标为 reads 的碱基位置,纵坐标为单碱基错误率的碱基位置,纵坐标为单碱基错误率北京诺禾致源生物信息科技有限公司北京诺禾致源生物信息科技有限公司72.4 测序数据质量情况汇总测序数据质量情况汇总表表 1 数据产出质量情况一览表数据产出质量情况一览表Samplenameabp1-1abp1-2WT1WT2Raw reads13139081111290131081504911501966Clean reads13004449109645541

10、071668511345629Bases1.31G1.11G1.08G1.15GError0.030.040.030.03Q2097.4797.0097.5697.06Q3092.1691.1692.2091.25GC content47.1948.5345.2648.248Dup55.7154.5252.1750.85数据质量情况详细内容如下:数据质量情况详细内容如下:(1) Raw reads:统计原始序列数据,以四行为一个单位,统:统计原始序列数据,以四行为一个单位,统计每个文件的测序序列的个数。计每个文件的测序序列的个数。(2) Clean reads:计算方法同:计算方法同 Raw

11、Reads、Raw bases,只,只是统计的文件为过滤后的测序数据。后续的生物信息分析是统计的文件为过滤后的测序数据。后续的生物信息分析都是基于都是基于 Clean reads。(3) Clean bases:测序序列的个数乘以测序序列的长度,并:测序序列的个数乘以测序序列的长度,并转化为以转化为以 G 为单位。为单位。Clean bases 要大于合同上规定的测序要大于合同上规定的测序数据量。数据量。(4) Error rate:通过公式:通过公式 1 计算得到。计算得到。(5) Q20、Q30:分别计算:分别计算 Phred 数值大于数值大于 20、30 的碱基的碱基占总体碱基的百分比。

12、占总体碱基的百分比。 (6) GC content:计算碱基:计算碱基 G 和和 C的数量总和占总的碱基数量的百分比。的数量总和占总的碱基数量的百分比。(7) Sequence duplication level:重复的:重复的 reads 数占总数占总 reads9数的比例,重复的数的比例,重复的 reads 的定义为两个的定义为两个 reads 在序列水平上在序列水平上完全相同。相对于基因组测序,完全相同。相对于基因组测序,RNA-seq 的较高的测序序的较高的测序序列重复水平是由于列重复水平是由于 PCR 扩增带来的扩增带来的(Mamanova et al.)。除。除了了 PCR-free 实验实验(例如例如 FRT-seq)产生的产生的 RNA-seq 数据,数据,reads 重复率一般都会在重复率一般都会在 70%左右。而简单的去除这部分测左右。而简单的去除这部分测序重复的序重复的 RNA-seq 数据并不会提高定量的准确性,所以现数据并不会提高定量的准确性,所以现有基因表达水平的分析方法是保留这部分数据的基础上进有基因表达水平的分析方法是保留这部分数据的基础上进行的,而在做行的,而在做 SNP 分析的时候需要除去这部分数据分析的时候需要除去这部分数据(Chepelev et al., 2009)。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 总结/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号