真核转录组讲解及数据解读ppt

上传人:小** 文档编号:91550239 上传时间:2019-06-29 格式:PDF 页数:53 大小:2.17MB
返回 下载 相关 举报
真核转录组讲解及数据解读ppt_第1页
第1页 / 共53页
真核转录组讲解及数据解读ppt_第2页
第2页 / 共53页
真核转录组讲解及数据解读ppt_第3页
第3页 / 共53页
真核转录组讲解及数据解读ppt_第4页
第4页 / 共53页
真核转录组讲解及数据解读ppt_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《真核转录组讲解及数据解读ppt》由会员分享,可在线阅读,更多相关《真核转录组讲解及数据解读ppt(53页珍藏版)》请在金锄头文库上搜索。

1、转录组结果解读 北京诺禾致源科技股份有限公司 转录调控研究部 OUTLINE 简介 实验部分 生物信息分析 概述1 转录组是指特定组织或细胞在某个时间或某个状态下转录出来的所 有RNA的总和,主要包括mRNA和非编码RNA。 转录组研究是研究基因功能和结构的基础,对生物体的发育和疾病 的发生具有重要作用。 RNA-seq技术流程主要包含两个部分,建库测序和数据分析。 实验部分(RNA检测、建库、测序))2 琼脂糖凝胶电泳:分析样品RNA 完整性及是否存在杂质污染。 NanoPhotometer spectrophotometer:检测RNA 纯度(OD260/280及 OD260/230比值)

2、。 Agilent 2100 bioanalyzer:精 确检测RNA完整性。 链特异性文库优势: 相同数据量下可获取更多有效 信息;能获得更精准的基因定 量、定位与注释信息 5 1、一般动物样品会有三条带:、一般动物样品会有三条带:28S28S、18S18S、5S5S,如果提取过程经过过柱处理或者,如果提取过程经过过柱处理或者 利用利用CTAB+LiClCTAB+LiCl方法提取,方法提取,5S5S可能较暗或者没有。可能较暗或者没有。 昆虫或者软体动物等样品只有昆虫或者软体动物等样品只有1 1条比较明显的带,例如:牡蛎、果蝇、螨虫、蝗条比较明显的带,例如:牡蛎、果蝇、螨虫、蝗 虫、蚊、蚕等虫

3、、蚊、蚕等 2 2、植物样品有三条带:、植物样品有三条带:25S25S、18S18S、5S5S,有些特殊物种或部位可能本身含条带比,有些特殊物种或部位可能本身含条带比 较多,如果条带清晰,也可初步判定合格较多,如果条带清晰,也可初步判定合格 3 3. .原核生物中主要有原核生物中主要有5S5S、16S16S、23S 23S rRNArRNA 叶叶 片片 小小 鼠鼠 蚊蚊 动物动物植物植物原核原核 RIN 5 RIN 7 RIN 8RIN 9 RIN 4 RIN 6 RIN 10 RIN 2RIN 1 RIN值范围示意图 问与答 文献要求OD260/OD2301.8,OD260/OD230如果小

4、于2.0,则表明样品中被碳水化合物、盐 类或有机溶剂污染;OD260/OD230合格的标准是多少呢? 答:OD260/OD2302.0,且OD260/OD2802.0这说明RNA提取结果是相当好的,一般在1.8- 2.1之间就说明RNA结果十分好, 但是nanodrop的灵敏度没有2100好,因此我们主要根据2100 检测结果来判定RNA是否合格,一般只要RIN值和RNA总量达到我们的判定标准的话,我们就会 判为合格。 生物信息分析(有参转录组)3 有参转录组 生物信息分析(医口转录组)3 医口转录组 生物信息分析3 1、数据质控 1、1测序数据说明 见结果文件:QC 生物信息分析3 1、2测

5、序数据过滤 对原始数据进行过滤: 去除带接头(adapter)的reads; 去除含N(N表示无法确定碱基信息)的reads; 去除低质量reads(Qphred60) 生物信息分析3 4.2 样本间相关性 生物学重复主要有两个用途: 1、实验可以重复; 2、获得更可靠的差异结果(样本选择合理) 相关性系数越高,其表达模式越为接近,样本相关性热 图如下图所示,见结果文件:Quant/correlation.svg。 生物信息分析(有参/医口)3 4.3 主成分分析 对所有样本的基因表达值 (FPKM)进行PCA分析,如图所 示。理想条件下,PCA图中,组间 样本应该分散,组内样本应该聚在 一起

6、,见结果文件: Quant/pca.svg。 问与答 为什么要做生物学重复 1、 发表文章的需要 2、 不同个体、不同的处理、甚至某一瞬间样品的基因表达也是存在差异的, RNA- Seq 数据可能会表现出比预期的更高的假阳性变异性,通常会通过生物学重复来屏蔽 掉生物学内部变异大的不稳定的差异,得到真正的处理间的差异。 3、 在分析方面,增加生物学重复主要是为了减少生物学重复之间的噪音对分析结果 的影响, 简言之,如果组内差异大于组间差异,这种情况下得到的差异基因假阳性会高一些。 生物信息分析(有参/医口)3 5 差异分析 差异分析主要分为三个步骤。 首先对原始的readcount进行标准化(n

7、ormalization), 主要是对测序深度的校正。 然后统计学模型进行假设检验概率(pvalue)的计算 最后进行多重假设检验校正,得到FDR值(错误发现率)。 大部分差异分析软件(DESeq,DESeq2和edgeR) 用原始的read count作为输入文件,这些软件自身对 会read count做一些校正(主要是测序深度),而 FPKM是校正后的表达值,所以用FPKM做差异分析相 当于做了两次校正,是不合理的 见结果文件4.Differential 生物信息分析(有参/医口)3 5.1 差异基因列表 每个比较组合的差异显著性分析如下表所示,见结果文件:Differential/1.d

8、eglist。 如何判断差异基因在两个样品间的差异大小? 答:padj越小,差异越显著。也可通过|log2Foldchange|来判断差异的大小情况,|log2Foldchange|越大,差异倍数越大 生物信息分析(有参/医口)3 5.2 差异基因统计 每个比较组合的差异基因(包括上调和下调)数目统计以及筛选差异的标准如下表所示,见结果文件: Differential/1.deglist/diff_stat.xls。 FDR=padj=corrected pval 生物信息分析3 结果文件:Differential/1.deglist/比较组合/_volcano.png。 问与答 某基因在两个

9、样本中表达量差别很大,却不存在与显著差异的基因列表中,这是为何? 差异基因的筛选是基于统计学意义的,不能直观的通过两个数值的大小判断差异基因的 是否;在有重复的项目中,如果重复较差,组内差异情况会屏蔽掉部分组间的差异。所以会导 致差异基因过少,再次:在计算完pvalue以后,需要对pvalue进行多重假设检验校正,得到 padj,来减少假阳性。使得部分通过pvalue阀值的基因,无法通过padj的阀值。 差异基因筛选条件最大能设的阈值是多少? 答:最大可设阀值没有定论,一般等级比较高的文章卡的阀值都比较的严格。在一些PLOS ONE 等文章里面,可能卡的值比较的松,有的文章会在无重复中,只卡q

10、value,不卡 log2foldchange。有的文章会卡pvalue。 某基因readcount值为0,但是也有foldchange以及pvalue、qvalue值? 在DESeq中,如果某基因的在一个样品中的校正后的readcount为0,而在另一个样品中不 为0,foldchange会为INF或者-INF;如果两个数值均为0,log2foldchange以及pvalue、 qvalue值均为NA;在DEGseq中,如果某基因的在一个样品中的校正后的readcount为0,软件 会默认的把0进行轻微的校正,校正成一个接近于0,但不为0的值,故会产生foldchange以及 pvalue、

11、qvalue值。 问与答 差异基因列表中,readcount一个为0,另一个不为0,能否说明一个表达,一个不表达? 这里的 readcount 值仍为校正后的 readcount,由于软件显示的原因,实际的 readcount 并不一定是 0 ,在无参项目中,一般默认rpkm0.3时,基因表达;在有参项目中, 一般默认rpkm1时,基因表达。 不推荐看readcount的值看判断表达与否。 能否提取部分基因来做差异分析? 答:不能。差异分析是基于整体来做的。差异分析软件的作者推荐用全部readcount进行差异 分析,若使用部分基因做分析,会毁坏掉数据整体的特点,如测序深度、reads分布特征

12、。 每次选定差异基因筛选阈值后,软件都会重新计算pval、padj值,同一阈值下两次计算 pval/padj值可能会有不同,尤其是处于阈值附近的pval/padj值,所以差异基因筛选结果会出 现微弱的不同,对数据整体的影响不大,可正常使用。 为什么两组比较的 readcounts 值不一样,即 AvsB 中 A 的 readcount 值和 AvsC 中的 A 的 readcount 值不一样? 差异基因是根据两两组对比得来的,而不是拿全部数据来进行的差异分析。 所以两组中的标 准化以后的 readcount 数值不同。 具体是因为不同的组合组成的矩阵不同,因而不同组合的背景值不同,所以矫正后

13、的 值 也会有差别 . 问与答 qPCR验证有差异,但是测序结果中没有差异? 答: 选择表达量高的,差异大的基因验证,选取几十个基因做验证,使用和测序一样的核酸验证。表达量越高 的基因越能被准确定量 。 1、测序分析的结果是基于大量的数据分析基础上统计得出的结果,使用的软件为DEseq2等。而Q-PCR是 相对表达定量,计算的公式2-Ct。两者的计算方法不一致; 2、文献报道,测序RNAseq结果和QPCR结果的相关性一般也只能达到0.9左右。 3、如果是没有生物学重复的项目,在RNA-Seq数据分析时,假阳性较高,导致测序数据和Q-PCR结果不 一致。建议Q-PCR验证时多设置几组生物学重复

14、,以Q-PCR结果为准。 4、我们进行差异分析的时候,确定该基因是否为差异基因是按照q0.05,比较严格,如果p0.05则该基 因即可认为差异基因; 5、如果按照p值也不是差异基因的话,可以通过igv浏览,查看测序reads在参考基因组上覆盖情况,检查 是否是因为分析软件无法区别分析所造成的; 6、QPCR验证时,p出来的可能只是该基因的某个转录本,定量的是某个转录本,而二代测序差异分析时 基于基因来定量的。如果老师多次实验验证出来确实是有差异的,建议以QPCR结果为准。 生物信息分析3 5.3 差异基因韦恩图 结果文件:Differential/2.venn 为什么全部差异基因韦恩图中共有部

15、分基因数不等于分 别上调、下调差异基因共有部分韦恩图基因数的总和? 答:因为是用所有的差异基因及上调和下调的差异基因 分别做图,在所有差异基因的共有基因中会存在同一个 基因在一个比较组合中是上调,但在另一个比较组合中 是下调的情况,该基因被计数在所有差异基因韦恩图共 有基因中,但不会被计数在上调、下调基因分别做韦恩 图的共有基因中,因此往往是上调、下调基因分别做的 韦恩图共有基因数加合比总差异基因韦恩图共有基因数 少。 生物信息分析3 5.4 差异基因聚类 颜色反映的不是基因表达值,而是表达数据的行进行 均一化处理后得到的数值,所以热图中的颜色只能横向比 较(同一基因在不同样本中的表达情况),

16、而不能纵向比 较(同一样本不同基因的表达情况) 结果文件中既有组间的聚类,也有样品间的聚类。结 题报告展示的是样品间的聚类,具体如下图所示。见结果 文件: Differential/3.cluster/cluster1/cluster1_heatmap.png 聚类分析将表达模式相同或相近的基因聚集成类,从而 识别未知基因的功能或已知基因的未知功能;这些同类的 基因可能具有相似的功能,或是共同参与同一代谢过程或 细胞通路。 问与答 层次聚类热图中的样品如果去掉一组,再进行聚类,会对别的组造成影响 吗? 答:在进行聚类的时候,统计学上就是要计算两两基因之间的距离、两两 样本间的距离,在多组的情况下,会考虑每个基因在每个组的fpkm,然 后进行聚类,所以当去掉其中一组的时候,肯定会影响到聚类的结果。 聚类热图里,我想要看到聚类的那支上表示的基因怎么看?能看到吗? 答:在结果文件中,结果9.DiffExprAnalysis/9.3 heatCluster.detail文件 可以无限放大,后面会显示基因名称,该文件也支持ct

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号