RNA-seq数据差异表达分析方法的比较

上传人:新** 文档编号:488756033 上传时间:2023-02-19 格式:DOCX 页数:8 大小:17.33KB
返回 下载 相关 举报
RNA-seq数据差异表达分析方法的比较_第1页
第1页 / 共8页
RNA-seq数据差异表达分析方法的比较_第2页
第2页 / 共8页
RNA-seq数据差异表达分析方法的比较_第3页
第3页 / 共8页
RNA-seq数据差异表达分析方法的比较_第4页
第4页 / 共8页
RNA-seq数据差异表达分析方法的比较_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《RNA-seq数据差异表达分析方法的比较》由会员分享,可在线阅读,更多相关《RNA-seq数据差异表达分析方法的比较(8页珍藏版)》请在金锄头文库上搜索。

1、Neq数据差别体现分析措施的比较BMC ioinformac, 14:91 doi:10.1186/471-21054-91A ompaison of methods for difrenial epressionanlysis o RN-seq atCharltte es() MaoDlorenzi()摘要说的背景是: “发现条件间差别体现的基因是理解表型变异的分子基本的一种有机部分。过去几十年中,DNA微阵列被广泛用于定量不同基因的mR丰度,更近期的 NA-seq作为一种强有力的竞争者冒了出来。随着测序成本持续下降,可以想象使用RNse做差别体现分析会迅速增长。为了摸索也许性和解决这种 相

2、对新型的数据提出的挑战,大量软件包特别为NAe数据的差别体现分析开发出来了。”而本文的成果是:“我们广泛比较了RA-e数据的差别体现分析的7种措施。所有措施都可以在R框架下免费获得,并以一种计数矩阵作为输入,计数即每个样品中映射到每个感爱好的基因组特性上的eads数目。我们基于模拟数据和实际RNA-seq数据评价了这些措施。”结论就是:“极小样本量仍是NA-sq实验的普遍状况,对所有评价措施导致了困难;而任何在这样的条件下获得的成果都应当谨慎解释。对于更大的样本量,组合稳定方差变换和limm措施来进行差别体现分析会在诸多不同的条件下体现良好,正如非参数的SAMseq措施同样。” 到还说这种话,

3、这些结论实在有点鸡肋啊 貌似为SAMseq摇旗呐喊来的但是:比较了11种软件包,这还是前所未有的:DESq、edge、PSeq、TSM、baySq、ESeq、NOIS、SMseq、ShrinkSeq这种可直接解决计数数据,另两种分别是vo(+lima)和st(lima),转换数据后用lima做差别体现分析。正如诸多文章已经提到的那些,A-seq比起微阵列有三大长处:1、更大的动态范畴2、更低的背景噪音3、能检测和定量先前未知的转录本及亚型RN-se也有某些难题:1、样本内不均匀性:基因组区域之间核苷酸构成的变异性导致沿基因组的read覆盖深度并不均匀;2、同样体现水平下,长基因比短基因有更多的

4、reads;3、对于条件之间的体现差别,分别对各个基因进行差别体现分析,而忽视了样本内的偏倚(它们被假设对所有样本有类似的影响)4、样本间不均匀性:测序深度或文库大小5、少数高体现基因克制了其她基因的rea计数比例,也许导致低体现基因的差别体现假阳性相应的解决措施是:、对上述4,两点,估计样本特异的归一化因子,用于重新调节观测计数。这些归一化措施是为了使样本间的非差别体现基因的归一化计数是相似的。本研究中 使用的是DESeq包中的TMM措施。归一化因子和TMM两种措施的性能相似,也是仅有的两个在文献的评价中对所有度量都提供了满意成果的措施。2、对于2、4两点,基因长度和文库大小,有的软件采用了

5、RPKM或有关的FPM措施。只有非参数措施才合用于RPKM值。 致命的假设:大部分基因在样本间的体现是相等的。于是差别体现基因提成上调、下调及其之间的或多或少相等的三部分。 差别体现已经提出的模型中,Poo分布和负二项分布最常用,尚有分布也被提出来。oisson分布很适合技术变异的分析;而更高的生物学变异需要合并过离散的分布,如负二项分布。 R-seq数据的差别体现分析仍处在它的婴儿期,需要不断提出新的措施来。目前没有一致承认的体现最佳的措施,只刊登了很少的既有措施的广泛比较。文 献19中,根据辨别真实差别/非差别体现基因的能力比较了四种参数措施。尚有研究评价了测序深度的影响,并与样本量进行了

6、比较,并发现后者的影响相称大。 本文中比较了为不同条件下RNA-seq数据的差别体现分析开发的11种措施。其中9种直接对计数数据进行建模,而另两个先对计数进行变换再应用微阵列数 据的差别体现分析的老式措施。研究限于R框架下实现的可应用于计数矩阵的可用措施。进一步我们聚焦于发现两条件之间的差别体现基因,由于这是最常用的应 用,虽然大多数措施也容许更复杂的实验设计。对NB和Posn分布模拟的数据和分别加了某些例外点的数据共四种数据集,研究了在不同实验条件下措施的下列方面:、排序真实DEGs在noEs之前的能力;2、在给定水平控制型错误和假发现率的能力;3、计算时间。对于真实RNA-seq数据,比较

7、了DEGs集,各自的数目和重叠的数目。还研究了不同措施获得的基因排序的一致性。 六种措施有名义-alu(edR、Eq、NBeq、TSM、voo+ima、vs+lima),我们定义分数值为 pvalue。对于SAMsq,定义平均Wiloxon记录量的绝对值为排序分值,而对于baSeq、EBe、Shrinkeq使用估计的差异体现后验概率,或者等价地,1-FDR,其中BF表达估计的Bysian DR。对于NOSeq,使用记录量q_NISeq。所有这些分数都是双侧的,即不被差别体现的方向影响。给定上述分数的阈值,我们就选择出阈值以上 的为DEGs,其他的为non-DEGs。 SAMseq使用了重抽样方

8、略使文库大小一致,因此隐含假设了所有归一化因子是相等的,在整体上调的模拟研究中体现最佳。上下调基因均有的时候,所有措施 的UC(ra uder te ROC cuv (UC),Receiver Operat Charcteristic)性能类似。SPM和ESeq在所有措施中体现出最强烈的样本量依赖性,另一方面是SAMeq和aySeq。对于最小样 本量(每条件下2样本),最佳成果是Deq、egR、NPSeq、voolia和st+limm。当所有DEG上调时,bySeq成果的变异性很高;而DG向不同的方向调节时这种变异就会减小。将真实DEG排的很靠前的措施是基于变换的vom+lma和vst+lim

9、m措施和SikSeq,但是TS和NISe还会把某些真实的nonDGs排的很靠前。Sseq也体现不错,但是有某些真实DEs和nnE被返回靠前的相似的值。 实在是相称繁琐,直接看结论吧Cocluons文本评价和比较了11种RNA-sq数据的差别体现分析措施。重要成果如下:l 2umry te ainobvtisDSe - Cnservative with default ettngs Become mre consrative whn outirsar introuced.- Geerly low TP. oor FD onrol with smples/conditio, goo FDR con

10、trol for larger sml sizes,alsowioutliers.- iumcomputinal time rurment, inceasslhtlywith sampleszedgeR - lghllibealfor malamplesieswith et settings. Becoms mre beral wheutliers aretroduced.-Gnery hig T.- Poor D cntrol in many ces, wors with oule- ediumcoutatinl tmeruireen, lgely indeendent of samlesi

11、zeNPq- Lirl or all amplesizes Beoe more iral whn outliesare inroucd. ediu TR.- Poor DR onto, worseihoutliers.Often tl nn-DE gens ae amon those wh smalest -vaues.-eiu compuatia ime equirement, increasssligtly ith samplesie.SPM -Overallhighlsamlesze depnet perormace.-iberal r sallsape sizs, lageunafcd

12、 b otles.- er porDR conto fr ml smpl siz, impvs rapidy with incrng saml siz.Larlyunafcte b olies.- When al gnes e oerispesed,mantrlynon-D genes ae mongtons with smlle-values. meied wen he nts r sm gees ar Pson distribute.-edium ompuatinl me require, largely indenntof sample siz.m vst-Goo tpIerr cont

13、rol, coe mreconservtiv whe ulis reintroduce.- Lwpwr fr smll sample sizes. ediumTP fo rgersap zs.-God otrol excet osiulati sty B0000. Larly unaffectebyinrdution o outles Computationaly fas.bySe -Hihly vaablresuts henll D gene a rguled n the same iectionLess varitywhen th DE gees a euated ndiferet iretns-Lo TP. Lael nafectedb outlirs.- oor DR ctlwih2amplsondition,gd fo ger smesiz n he bsenc of outlirs.or R ontroli h sene ofoulis- optationa sl,but allowparallelion.EBSeq - TPR rlativey ndependet osamlesze ad prese

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号