多元统计分析-(4)PPT课件

资源描述

《多元统计分析-(4)PPT课件》由会员分享，可在线阅读，更多相关《多元统计分析-(4)PPT课件（90页珍藏版）》请在金锄头文库上搜索。

1、1,R语言与数据分析培训,2,第4讲多元统计分析,3,多元数据,4,多元数据基本方法,聚类（cluster),排序 (ordination),5,6,Doubs鱼类数据集,该数据集包括3个矩阵，第一个矩阵是27种鱼类在每个样方的多度，第二个矩阵包括11个与河流的水文、地形和水体化学属性相关的环境变量，第三个矩阵是样方的地理坐标（笛卡尔坐标系，X和Y）。,法国和瑞士边境的Jura山脉的Doubs河,7,聚类分析,8,层次法（hierarchical）和非层次法（non-hierarchical）,9,距离（distance）（相异性）矩阵。例如欧氏距离、Jaccard相似系数,排序的对象-距离

2、矩阵,10,基于连接的层次聚类,平均聚合聚类,11,12,13,14,15,Ward最小方差聚类,16,17,非层次聚类,非层次聚类（non-hierarchical clustering）是对一组对象进行简单分组的方法，也可以表述为：在p维空间内有n个对象（点），将n个对象分为k组（或称为聚类簇），分组的依据是尽量使组内的对象之间比组间对象之间的相似度更高。此时用户需要自己决定分组的数量k。非层次聚类的算法首先需要有个初始的结构，即首先将所有对象任意分为k组，然后在初始结构的基础上进行不断替换迭代，以达到最优化的分组结果。初始结构的设定可以依据某种理论，但大多数情况下是随机分配。通常是设定不

3、同的初始结构，然后通过大量的迭代以找到最佳的解决方案。,18,19,20,21,物种,环境因子,多元回归树（MRT）,空间,时间,22,MRT,23,24,25,26,27,28,29,30,31,排序（Ordination),非约束排序（Unconstrained Ordination）典范排序（Canonical Ordination）,32,Petr,Ter Braak,33,34,35,36,2个种的排序图,3个种的排序图,4个种的排序图？,40个种排序图？,Why ordination?,37,Why ordination?,38,排序的目标： 1.降低维数，减少坐标轴的数目

4、； 2. 由降低维数引起的信息损失尽量少，即发生最小的畸变，也就是让新的坐标系前几轴排序轴包含大量的生态信息。,39,排序类别非约束排序 Unconstrained Ordination PCA (Principal components analysis) CA (Correspondence analysis) (DCA) PCoA (Principal Coordinate Analysis) NMDS(Nonmetric Multidimensional Scaling) 非度量多维尺度分析约束排序(典范排序) constrained Ordination RDA (Redund

5、ance analysis) CCA (Canonical correspondence analysis) LDA (linear discriminant analysis ) (CCorA), canonical correlation analysis; (CoIA) co-inertia analysis, (MFA)multiple factor analysis （对称）,非对称,特征根方法,40,非约束排序（Unconstrained Ordination）,主成分分析（principal component analysis，PCA）：基于特征向量的主要排序方法。分析对象是

6、原始的定量数据。排序图展示样方之间的欧氏距离。对应分析（correspondence analysis，CA）：分析对象必须是频度或类频度、同量纲的非负数据。排序图展示行（对象）或列（变量）之间的卡方距离。在生态学研究中主要用于分析物种数据。主坐标分析（principal coordinate analysis，PCoA）：分析对象为距离矩阵（大部分为Q模式），而非原始的样方-变量矩阵表格。因此，可以灵活选择关联测度。非度量多维尺度分析（nonmetric multidimensional scaling，NMDS）：与前面三种排序方法不同，NMDS不是基于特征向量提取的排序方法。NMD

7、S尝试在预先设定数量的排序轴去排序对象，目标是保持这些对象排位关系（ordering relationships）不变。,41,PCA,协方差,42,43,44,45,46,47,48,49,CA,50,51,52,53,54,PCoA（Principal Coordinate Analysis）,欧氏距离,卡方距离,任何距离,55,56,NMDS（非度量多维尺度分析）nonmetric multidimensional scaling,如果排序的目的不是在于最大程度保留对象之间实际的距离，只是反映对象之间顺序关系，这个时候非度量多维尺度分析可能是一种解决方案。与PCoA一样，NMDS可以基于

8、任何类型距离矩阵对对象（样方）进行排序。与PCoA不同的是，NMDS不再基于距离矩阵数值，而是根据排位顺序进行计算。这对于距离缺失的数据的确有优势，只要想办法确定对象之间的位置关系，便可以进行NMDS分析。NMDS不再是特征根排序技术，也不再以排序轴承载更多的变差为目的。因此NMDS排序图可以任意旋转、中心化和倒置。NMDS的计算过程如下：（此处描述非常简略，详情请参考Legendre和Legendre，1998，第445页及之后的内容）。p136,57,NMDS,在这里dij 是样方点在排序空间中的距离，而是原始的距离矩阵的相异性系数。f()函数是非度量单调转化函数。用这种方法，以非度量方

9、式定义对应的过程是，也就是排序依赖于相异系数的大小顺序，并不依赖准确的相异性系数值。这种在排序空间对排序对象进行重新排列的目的在于最小化stress. 这个算法必然是一个迭代的过程，它的收敛性依赖初始的结构。当然，做到全局的最小化stress往往是不能达到，因此，多尝试几次初始结构是值得的。很多常用和专业化统计软件包带有计算NMDS的程序。,58,59,60,RDA (Redundance analysis) CCA (Canonical correspondence analysis) LDA (linear discriminant analysis ) (CCorA), canonica

10、l correlation analysis (CoIA) co-inertia analysis, (MFA)multiple factor analysis,非对称,第6章典范排序（canonical ordination）,对称,物种,环境因子,61,典范排序（canonical ordination）,RDA,PCA,Total variation,62,RDA,63,RDA,64,RDA,65,66,67,68,69,计算校正R2,这里,n是对象的数量（样点数量），m是解释变量的数量（或更准确说，是模型的自由度）。只有模型自由度（m）不要比观测值的数量（n）大（保证n-m-10）,公式是有效的。,70,71,72,置换检验的原理,73,74,75,76,77,偏RDA,78,79,解释变量的筛选,这里R2j是变量Xj作为响应变量，与其他变量进行多元回归的决定系数。如果Xj依赖别的变量越强，R2j越大，导致VIF值越大。如果VIFs超过20，表示共线性很严重。实际上，VIFs超过10可能就有会有问题，需要被处理。,Variance inflation factors (VIF),80,81,82,83,变差分解（ variation partitioning ）,84,85,86,87,88,89,90,R其乐无穷,

展开阅读全文

多元统计分析-(4)PPT课件

最新文档