答疑解惑专题（三）

资源描述

《答疑解惑专题（三）》由会员分享，可在线阅读，更多相关《答疑解惑专题（三）（9页珍藏版）》请在金锄头文库上搜索。

1、答疑解惑专题(三)代谢组学数据处理统计分析(Statistical analysis )是代谢组学数据处理过程中的核心环节，通过不同的分析方法和手段可对不同组别样本中检测到的代谢物进行代谢轮廓分析，进而采用相关统计软件( XploreMETSIMCA 等) 或 R 语言进行单维 ( Univariate statistical analysis )或多维(Multivariate statistical analysis ) 统计分析以寻找差异代谢物并对其可视化，以便研究人员更直观的捕捉到关键的差异代谢物信息，并对其展开深度研究。那么，代谢组学数据是否需要预处理？统计模型该如

2、何选择？构建的模型是否可靠？如何寻找差异代谢物？本文将系统介绍代谢组学数据处理流程。据归一化多维统计模型建立之前，首先需要对数据作归一化 (Normalization )处理(有些学者称为标准化Standardization)，一是让数据无量纲化，使不同性质的变量具有可比性；二是将不同数量级的变量数据经过不同的转换(transform )至合适范围，避免大值变量掩盖小值变量的波动。在代谢组学数据处理中，常用的归一化方法有 Ctr(Center scaling), UV (unit variance scaling) 和Par(Pareto scaling)。Ctr 也叫中心化是原UV

3、是数据中心化后除以列变量标准差(Standard deviation)，Par是数据中心化后除以列变标准差的算术平方根。Ctr将原数据转化成离原点更近的新数据，可调节代谢物的高低浓度差异；UV的优势是所有变拥有同等的重要性，但缺点是检测误差可能会被放大；Par相比于UV更接近于原始测数据，但缺点是对变化倍数大的变量更敏感1。UV和Par是常用的归一化方式，基于不同的归一化方式后续的数据分析将选择不同的差异代谢物筛选方法，如UV下常使用V-plot (图1-A), Par下则常用S-plot (图1-B)。无论选择何种归一化,-mu芦 s sp v.pot sss 逛啪 Biomake

4、Discovery 雪壽HiZA s spotas薔 no?no? s p B-HH2L vpot 昔 spotI测fflVariable Importance on Projection (VIP)5O5D-yaf *3X1 H3*-1K r-fthsi+REEkJ2 ms soffsi ra 0 3 SKi ?a.a 1 _Fn 口亦F夏 DRL 苕|正|.f M3f -Rrmm-= 一DFOaE-sbT - 军 ptu薔r尹 Bos IT * R-ilo-G-T:/严rr-lfL_nEr2.=*+ 5*L AJIy-E-iirrllKJrdd十口 .FtwEIPMdnMdanlim+W

5、Q1 三 LufFIn*i!k甫 OH LIAi-a.r”i=.8 遨判w萌BffixporeMET 洋弃。haj0一ffl 2WHHVIP 昔 colr.coeffssfis vporaHHw唾莒sP?Hhi-dhc： *R+a- 5m C；*wn.4 牟Hissca L.ICri.耳+LL CAjsrTk: bnE二rL -e5 3M一 . Alni na.vp:l 一-CSKia. 一 bcyTK vid-lamriKliurhnrUR-=r模型构代谢组学数据分析中，最常用的多维模型包括主成分分析（principal component analysis, PCA ）、偏最小二乘法判别

6、分析（Partial least squares discrim inant an alysis, PLS-DA）和正交偏最小二乘法判别分析（orthogonal PLS-DA, OPLS-DA）。PCA 属于无监督的分类模型，可将多维的数据不断降维形成几个主要成分（ PC）来尽可能描述原始数据的特征。其中 PC1 描述了原始数据矩阵中最显著的特征，PC2描述了除PC1之外最显著的数据特征，依此类推。PCA通常被用于寻找离群点（outlier ）及观察不同组别之间的自然聚类趋势。那么如何判断数据集中的outlier ?可通过Hotellings T2或 PC1的score plot

7、（PC1的数据解释率最高）来判断（S3）,通常红线之外的样本为严重离群点，需要进一步处理。 PCA 的离群点也可以分组来看，以减少组间的干扰，如下图 4 所示。但对于离群点，不建议简单粗暴地删除，因为离群点通常是有趣且值得深究的。研究人员需要仔细地排查离群究竟是因为采样、前处理、检测等环节引入的误差还是客观的生物学差异引起的。图3. Hotellings T2柱状图和PC1的得分图M- Lrg 盂 E1番 ELKJod亠5虫剧SJudW图4.分组PCA得分图用于离群点寻找。来源：麦特绘谱XploreMET 软件。利用 PCA 模型还可以观察样本间的自然聚类趋势。不同组别样本在PC

8、A Score plot上即可分离是多维统计结果可靠性的最有力证据然而，不同组别样本不一定都存在明显的差异，尤其对于临床样本的影响因素较多，如性别、年龄、BMI、地域、饮食、生活环境等。这些因素会给数据集带来很多和分组信息无关的噪音信号。此时，可以利用有监督的分类模型。有监督的意思就是事先告诉模型样本的真实分组信息再进行模型构建。PLS-DA能按照预先定义的分类（Y变量）最大化组间的差异，获得比PCA更好的分离效果（综合了 PLS-DA 和正交信号过滤（orthogonal signal correction, OSC）技术，能够把与预先设定的和分类无关的信息最大程度从原始 compon

9、ent）上，进而寻找该主成分的正交矫正轴方向，从而使得矩阵分离，从而将最相关的因素集中到第一个主成份（Predictive组间样本分离效果更佳，使组内差异弱化，组间差异最大化凸更适用于两组样本间的分离。 PLS-DA 可以用于两组及以上组别的分类比较，而OPLS-DA通常用于两组的对比，找差异物质。rf耶匚215FCA/1。除此之外，基于单维检验的P值和变化倍数(Fold change)所作的火山图(Volcano plot )也是常用的筛选方法。代谢通路分析通过上述方法筛选到差异代谢物后，还需要挖掘和这些代谢物相关的代谢通路。此时，可以采用MetaboA nalyst网站(/)进行代谢通路分析(Metabolic pathway analysis )，代谢通路分析分为富集分析 (Enrichment analysis )和通路分析(pathway analysis )。通路分析中添加了通路拓扑分析(topology an alysis )，会输出通路在整体网络中的重要性(impact )。下图展示了典型的代谢通路分析图。图7.代谢通路分析展示图(NaEihaifla Sati iniichHant warwiaw图7.代谢通路分析展示图（来源：MetaboAnalyst网站）

展开阅读全文

答疑解惑专题（三）

最新文档