无参考基因的转录组分析

上传人:s9****2 文档编号:458554449 上传时间:2023-09-18 格式:DOC 页数:18 大小:535KB
返回 下载 相关 举报
无参考基因的转录组分析_第1页
第1页 / 共18页
无参考基因的转录组分析_第2页
第2页 / 共18页
无参考基因的转录组分析_第3页
第3页 / 共18页
无参考基因的转录组分析_第4页
第4页 / 共18页
无参考基因的转录组分析_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《无参考基因的转录组分析》由会员分享,可在线阅读,更多相关《无参考基因的转录组分析(18页珍藏版)》请在金锄头文库上搜索。

1、无参考基因的转录组分析一、实验流程提取样品总RNA后,用带有Oligo(dT)的磁珠富集真核生物inRNA(若为原核生物,则用试剂盒去除rRNA后进入卜一步)。加入fragmentationbuffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(randomhexamers)合成第一条cDNA链,然后加入缓冲液、dNTPsRNaseH和DNApolymeraseI合成第二条cDNA链,在经过QiaQuickPCR试剂盒纯化并加EB缓冲液洗脱之后做末端修复、加poly(A)并连接测序接头,然后用琼脂糖凝胶电泳进行片段大小选择,最后进行PCR扩增,建好的测序文库用IlluminaH

2、iSeqT2000进行测序。二、信息分析流程1、产量统计原始序列数据测序得到的原始图像数据经basecalling转化为序列数据,我们称之为rawdata或rawreads,结果以fastq文件格式存储,fastq文件为用户得到的最原始文件,里面存储reads的序列以及reads的测序质量。在fastq格式文件中每个read由四行描述:FC61FL8AAXX:1:17:1012:19200#GCCAAT/lCCACTGTCATGTGAACATCACAGAGACATTTCTTGA+bbbbbbbbbbbbbbbbbbbbbbbbbaaaaaaaaa_每个序列共有4行,第1行和第3行是序列名称(有

3、的fq文件为了节省存储空间会省略第三行“+”后面的序列名称),由测序仪产生;第2行是序列;第4行是序列的测序质量,每个字符对应第2行每个碱基,第四行每个字符对应的ASCII值减去64,即为该碱基的测序质量值,比如c对应的ASCII值为99,那么其对应的碱基质量值是35。从IlluminaGAPipelinevl.3开始(目前为vl.6),碱基质量值范围为2到35。表1为测序错误率与测序质量值简明对应关系。具体地,如果测序错误率用E表示,碱基质量值用弍表示,则有卜列关系:sQ=TOlgE表1测序错误率与测序质量值简明对应关系测序错误率测序质童值对应字符5%13M1%20T0.1%30去除杂质数据

4、某些原始序列带有adaptor序列,或含有少屋低质屋序列。我们首先经过一系列数据处理以去除杂质数据,得到Cleanreadso数据处理的步骤:1. 去除含adaptor的reads2. 去除N的比例大于10%的reads3. 去除低质量reads(质量值QW5的碱基数占整个read的50%以上)4. 获得CleanreadsCleanReads数据原始序列数据经过去除杂质后得到的数据。产显统计和后续信息分析分析都基于CleanReads.测序产量统计表格示例SamplesTotalReadsTotalNucleotides(nt)Q20percentageNpercentageGCpercen

5、tage*Sample_A1,634,670122,600,25089.47%0.00%48.50%*TotalNucleotides=TotalReadslxReadlsize+TotalReads2xRead2size;TotalReadsandTotalNucleotidesareactuallycleanreadsandcleannucleotides;Q20percentageisproportionofnucleotideswithqualityvaluelargerthan20;Npercentageisproportionofunknownnucleotidesincleanr

6、eads;GCpercentageisproportionofguanidineandcytosinenucleotidesamongtotalnucleotides2、组装结果我们使用短reads组装软件SOAPdenovo151做转录组从头组装。SOAPdenovo首先将具有一定长度overlap的reads连成更长的片段,这些通过readsoverlap关系得到的不含N的组装片段我们称之称为Contig。然后,我们将reads比对回Contig,通过paired-endreads能确定来自同一转录本的不同Contig以及这些Contig之间的距离,SOAPdenovo将这些Contig连

7、在一起,中间未知序列用N表示,这样就得到Scaffoldo进一步利用paired-endreads对Scaffold做补洞处理,最后得到含N最少,两端不能再延长的序列,我们称之为Unigeneo如果同一物种做了多个样品测序,则不同样品组装得到的Unigene可通过序列聚类软件做进一步序列拼接和去冗余处理,得到尽可能长的非冗余Unigeneo最后,将Unigene序列与蛋白数据库nr、Swiss-Prot、KEGG和COG做blastx比对(evalueKEGG和COG的优先级确定Unigene的序列方向,跟以上四个库皆比不上的Unigene我们用软件ESTScan预测其编码区并确定序列的方向。

8、对于能确定序列方向的Unigene我们给出其从5到3方向的序列,对于无法确定序列方向的Unigene我们给出组装软件得到的序列。Reads(Sample1)Reads(Sample2)IAssembleContigMapreadsto8ntigs11L-Contiglx1Contig2IAssemblecontigstoscaffoldsNNNNNNIScaffoldGapfillingUnigenefN,NNThesamepipelineasSample1UnigeneZNLongsequeneeclusteringnnUnigene组装出来的序列长度是组装质显的一个评估标准。我们会对组装出

9、来的Contig.Scaffold.Unigene做一个长度分布统计。如下图所示.给出的bar图统计Contig的长度分布。横坐标是组装出来的Contig的长度,纵坐标定对应长度的ConUg的数0LengthdistributionofSampleJ-ContigSequencesize(nt)组装成功的Contig结果在文件夹1Contig,Scaffold相关结果在文件夹2Scaffold,Unigene相关结果在文件夹3.Umgeneo文件的详细总义可见各个文件夹下而对应的readme。注:文件夹下而svg图可能需要安装svg插件才能打开3、Unigene功能注解功能注释信息给出Unig

10、ene的蛋白功能注释、COG功能注释。首先,通过blastx将Unigene序列比对到蛋白数据库nrSwissPrott、KEGG和COG(evalue0.00001),得到跟给定Unigene具有最高序列相似性的蛋白,从而得到该Unigene的蛋白功能注释信息。COG是对基因产物进行直系同源分类的数据库,每个COG蛋白都被假定来自祖先蛋白,COG数据库是基于细菌、浹类、真核生物具有完整基因组的编码蛋白、系统进化关系进行构建的,我们将Unigene和COG数据库进行比对,预测Unigene可能的功能并对其做功能分类统计,从宏观上认识该物种的基因功能分布特征。Unigene的COG功能注释结果样

11、式示例GeneProtein-or*ScoreEValueCOG-IDFunction-CodeFunctionalCategories:Unigene8fBH05791213.00E-27C0G2124,小Secondarymetabolitesbiosynthesis,CytochrorQ、,transportandcatabolism:Unigene8tCjl411e1044.OOE-22C0C2124小,八Secondarymetabolitesbiosynthesis,CytochrorQ,.transportandcatabolism:Unigene8ialrl4501006OOE

12、-21COG2124-Secondarymetabolitesbiosynthesis,CytochrorQ.transportandcatabolism;Unigene8JAGc289097.45.00E-20COG2124cSecondarymetabolitesbiosynthesis,CytochrocQ.亠transportandcatabolism:4、Unigene的GO分类根据nr注释信息我们能得到GO功能注释。GeneOntology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlledvocabulary)来全面描述生物体中基因

13、和基因产物的属性。GO总共有三个ontology,分别描述基因的分子功能(molecularfunction)、所处的细胞位置(cellularcoupon已nt)、参与的生物过程(biologicalprocess)。我们根据nr注释信息,使用Blast2G0软件(Conesa,Gotzetal.2005) 得到Unigene的GO注释信息。Blast2G0己被其它文献引用超过150次,是同行广泛认可的G0注释软件。得到每个Unigene的GO注释后,我们用WEG0软件(Ye,Fangetal.2006) 对所有Unigene做GO功能分类统计,从宏观上认识该物种的基因功能分布特征。基因注释

14、到3条目结果文件示例geneIDGOUnigenel000AllGO:0003677GO:0045449Unigenel001_AllGO:0006072GO:0016773GO:0005975Unigenel002_AllGO:0035023GO:0005622Unigene1OO3_A11GO:0003746GO:0005525GO:0005853GO:00058:Unigene1004_AllGO:0008643GO:00160213条目与All-Unigene对应结果文件示例OntologyClassnumber.of.AlKnigenegenesofJll-Unigenebiolog

15、icalprocessanatomicalstructureformation633Unigene375oOAllJbiologicalprocessbiologicaladhesion191lnigene38588_Allbiologicalprocessbiologicalregulation2466lnigenel6112Jll5、Unigene代谢通路分析KEGG是系统分析基因产物在细胞中的代谢途径以及这些基因产物的功能的数据库,利用KEGG可以进一步研究基因在生物学上的复杂行为。根据KEGG注释信息我们能进一步得到Unigene的Pathway注释。注释到代谢通路结果文件示例PathwayCount(14279)PathwayIDGenesKOs

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号