兰州大学生物信息学课件:7-转录组-张彩华

上传人:wox****ang 文档编号:157234024 上传时间:2020-12-21 格式:PPTX 页数:64 大小:55.63MB
返回 下载 相关 举报
兰州大学生物信息学课件:7-转录组-张彩华_第1页
第1页 / 共64页
兰州大学生物信息学课件:7-转录组-张彩华_第2页
第2页 / 共64页
兰州大学生物信息学课件:7-转录组-张彩华_第3页
第3页 / 共64页
兰州大学生物信息学课件:7-转录组-张彩华_第4页
第4页 / 共64页
兰州大学生物信息学课件:7-转录组-张彩华_第5页
第5页 / 共64页
点击查看更多>>
资源描述

《兰州大学生物信息学课件:7-转录组-张彩华》由会员分享,可在线阅读,更多相关《兰州大学生物信息学课件:7-转录组-张彩华(64页珍藏版)》请在金锄头文库上搜索。

1、转录组分析,张彩华20151031,1 转录组的定义,转录组: 广义转录组 是指某一生理条件下,细胞中所有转录和加工的RNA分子(包括 信使RNA, 核糖体RNA, 转运RNA和非编码RNA)。 狭义转录组 是指可直接参与翻译蛋白质的mRNA总和。,2 转录组的研究内容和意义,转录组的研究主要包括三个内容,发育调控,环境适应,免疫互作,发育调控,发育调控研究的核心内容是形态建成;形态建成是高等动植物外部形态和内部结构的起源、发育和建成的过程。例如:动物胚胎发育过程,植物种子萌发及形态建成等一直是研究的热点。,环境适应,含水量变化;新陈代谢变化(分解大于合成);激素变化(ABA/IAA/GA)光

2、合强度变化等;,光合作用下降;酶活性变化;破坏正常物质代谢(蛋白质分解,脯氨酸积累,破坏核酸代谢);激素变化。,SOD活性下降;光合作用变化;叶绿素含量降低;蛋白质分解;脯氨酸、甜菜碱含量变化,激素变化。,酶的变化,增加或分解(如混合功能氧化酶等),超氧化物歧化酶、蛋白质合成或DNA修复均会受到影响。,蛋白质变性; 膜脂液化; 有毒物质积累等;,低温及冻害,高温,干旱及洪涝,盐碱,环境污染,哺乳动物,植物,微生物,海洋生物,昆虫,免疫互作,自然环境中,动植物常会经历各种病原物(病毒、细菌、真菌、害虫)侵害,严重危害动植物生长、发育及健康。在长期演化过程中,为更好的适应坏境,动植物逐渐形成了多种

3、与病原物对抗的生理途径。,转录组的研究意义,转录组的研究不仅可以解释细胞或组织的基因组的功能元件,揭示分子成分,还可以用来认识生物学进程和疾病发生机制,同时,对基因及其转录表达产物功能研究的功能基因组学,将为疾病控制和新药开发、作物和畜禽品种的改良提供新思路,为人类解决健康问题、食物问题、能源问题和环境问题提供新方法。,3 转录组研究方法,三代转录组测序,基于杂交技术的cDNA芯片和寡聚核苷酸芯片,3 转录组研究方法,3 转录组研究方法,基于Sanger测序法的SAGE、 LongSAGE和MPSS,3 转录组研究方法,基于二代测序技术的转录组测序(RNA-Seq),3 转录组研究方法,RNA

4、-seq的优势,4 转录组测序(RNA-seq)的原理和流程,样品制备(植物RNA提取的方法),4 转录组测序(RNA-seq)的原理和流程,1. 利用RNeasy Plant Mini Kit提取总RNA 2. 利用TRIZOL试剂盒提取RNA 3. CTAB法提取植物总RNA,RNA质检参数OD260/OD280,OD260/OD230 A230: 测定其它碳源物质,如酚,糖类等。 A260:核酸的吸收峰测,测RNA,DNA,引物等的浓度用的。 A280:蛋白质的吸收峰。 RIN值:RIN=RNA integrity number,即 RNA 分子完整数,从 0-10,直接反应了 RNA

5、质量的好坏,此数值越大表明 RNA 质量越好越完整。,4 转录组测序(RNA-seq)的原理和流程,RNA样品检测,RIN=6.0,RIN=10,合格标准: 1. rRNA 比率28s/18s 1.1, RNA完整系数(RIN) 7 2. 28s和18s条带明显(变性琼脂糖凝胶电泳) 3. 比率260nm/280nm 2.0 (分光光度计测量)。,4 转录组测序(RNA-seq)的原理和流程,RNA文库构建,文库库检,4 转录组测序(RNA-seq)的原理和流程,文库构建完成后,分别使用Qubit2.0和Agilent 2100对文库的浓度和插入片段大小( Insert Size)进行检测,使

6、用Q-PCR方法对文库的有效浓度进行准确定量,以保证文库质量,上机测序,5 转录组分析方法,测序数据处理和过滤,测序数据以fq格式保存:,碱基质量值 = (字符的)ASCII值 64/33 范围:2-40 碱基质量值与测序错误率的对应关系: Qphred = -10 log10(e),5 转录组分析方法,测序数据过滤: 1.去除含接头的reads; 2.去除 unknown bases(碱基N) 比例高于5%的reads; 3.去除低质量reads(一个read中质量值 7 的碱基含量高于65%) 数据要求: 1.Q20%80%; 2.有效数据量达到要求; NewMaster:/home/sh

7、are/users/zhangcaihua2013/projects/Pop.Timeseries.Transcriptome/NaCl/02.filter_fastq_gz.pl,5 转录组分析方法,5 转录组分析方法,两种组装思路,Assembly-first (de novo) Trinity SOAPdenovo(-Trans) (Trans-)AByss Velvet Oases Mapping-first (reference-based): Tophat Cufflinks Scripture,5 转录组分析方法,5 转录组分析方法(de novo组装), de novo组装流程

8、,5 转录组分析方法(de novo组装原理),对于一个给定的read: GTCGAGG read长度:7bps 取kmer长度为4bps 如下:,构建De Brui jn 图:,5 转录组分析方法(de novo组装原理),5 转录组分析方法,简化,5 转录组分析方法(de novo组装原理),纠错:Tips removed,5 转录组分析方法(de novo组装原理),纠错:Bubbles removed,5 转录组分析方法(de novo组装原理),解开短的重复序列(If therere reads assigning one outgoing branch for each incom

9、ing branch),5 转录组分析方法(de novo组装原理),构建Scaffold: Map reads to contigs,5 转录组分析方法(de novo组装原理),Contigs are connected by paired reads to form a scaffolding graph,将reads比到 scaffolds ,根据 overlap 在gap处延伸,5 转录组分析方法(de novo组装原理),Trinity,5 转录组分析方法(de novo组装),5 转录组分析方法(de novo组装),1. 构建kmer库(k = 25); 2. 去掉潜在的测序错

10、误k-mer; 3. 选取最高频的k-mer 作为种子进行组装; 4. 将种子序列向两边延伸, 使用过的k-mer 从库中去除掉; 5.若序列不能继续延长,则输出该contig; 6. 重复第3-5步,直到kmer库中的所有kmer被用完。,Inchworm,5 转录组分析方法(de novo组装),1. 利用contig之间的overlap关系,将具有k-1个 overlap关系的contig作为一个cluster; 2. 对每一个cluster,以k 1作为节点,构建一个De Bruijn graph; 3. 通过比对,将reads分配给contig(该reads至少必 须有k-1个碱基与

11、contig有overlap)。,Chrysalis,5 转录组分析方法(de novo组装),1. 对De Bruijn graph图进行简化,将连续的节点合并。 2. 利用reads的支持关系,去掉不可信的边,最后输出转录本序列。,Butterfly, 聚类去冗余步骤,5 转录组分析方法(de novo组装),1.所有scaffolds用mgblast进行相似性比对 2.以scaffold作为节点,以scaffold之间的相似性作为边连接形成 一个图,每一个连通的子图作为一个类(cluster)。 3.对每一个cluster,用CAP3组装软件分别进行组装,得到 consensus序列(构

12、建UniGene)。, 聚类去冗余工具,5 转录组分析方法(de novo组装),TGICL CAP3(或phrap) Cd-hit,NewMaster:/home/users/luowenchun2010/Project/LuSongShaxi/03.cap3/CAP3,1.Contig长度分布、Scaffold长度分布、Unigene长度分布; 2.N50:将序列按照长度递减累加,当累加之和刚好大于 总长度的一半时,最后被累加的那条序列长度, 即为N50; 3.组装准确性(注释,近缘物种之间相似性分析)。, 组装评估,5 转录组分析方法(de novo组装), 预测CDS,5 转录组分析方

13、法(de novo组装),使用transdecoder从trinity的转录本中提取coding region,得到对应 的protein序列 ,利于下一步的功能注释。,OldMaster:/home/share/software/trinity/trinityrnaseq_r20131110/trinityplugins/TransDecoder_r20131110/TransDecoder,按优先级数据库顺序将Unigene序列与以上 蛋白库做blastx比对,如果某个Unigene序列比对上高优先级数据库中的蛋白,则不进入下一轮比对,否则自动跟下一个库做比对,如此循环直到跟所有蛋白库比对

14、完。我们取blast比对结果中rank最高的蛋白确定该Unigene的编码区序列,然后根据标准密码子表将编码区序列翻译成氨基酸序列,从而得到该Unigene编码区的核酸序列和氨基酸序列。,比对不上的Unigene用软件ESTScan预测其编码区。,NR KEGG SWISS-PROT COG GO, 功能注释,5 转录组分析方法(de novo组装),GO(gene ontology) 基因本体,是对基因或者蛋白质进行注解和分类的系统。 三个本体(Ontology): 分子功能(Molecular function),元件的活性。例如:结合活性、 催化活性 生物过程(Biological pr

15、ocess ),某些代谢过程从开始到终止的过 程。例如:嘧啶代谢、 配糖基的运输 细胞组分(Cellular component),基因产物的位置。例如: 细胞核、线粒体基质。, GO数据库,5 转录组分析方法(de novo组装),功能注释,5 转录组分析方法(de novo组装),1.去掉较短的组装序列(如要求:L 200); 2.对数据库进行物种分类(近缘种); 3.blastx比对,得到同源蛋白序列,对unigene进行功能注释。,表达量的计算,RPKM :Reads Per Kilobase per Million reads FPKM :Fragments/Reads Per Ki

16、lobase of exon per Million fragments mapped,Xt :map至该基因的外显子上的片断数 M :所有map至基因组的测序reads的碱基数Lt:该基因外显子碱基全长,Nat Biotechnol. 2010,28(5):511 Bioinformatics 2009, 25(8):1026 Geno Biol. 2010, 11:R106,5 转录组分析方法(de novo组装),= 10 6 Xt / 10 3, 表达量的计算,5 转录组分析方法(de novo组装),Final.assembly.fa.1.bt2 Final.assembly.fa.2.bt2 Final.assembly.fa.3.bt2 Final.assembly.fa.4.bt2 Final.assembly.fa.rev.1.bt2 Final.assembly.fa.rev.2.bt2,NewMaster: /home/share/users/zhangc

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号