第八章多元统计分析课件

资源描述

《第八章多元统计分析课件》由会员分享，可在线阅读，更多相关《第八章多元统计分析课件（64页珍藏版）》请在金锄头文库上搜索。

1、第八章多元统计分析,多元分析处理的是多指标的问题。由于指标太多，使得分析的复杂性增加。观察指标的增加本来是为了使研究过程趋于完整，但反过来说，为使研究结果清晰明了而一味增加观察指标又让人陷入混乱不清。实际工作，指标间经常具备一定的相关性，故人们希望用较少的指标代替原来较多的指标，但依然能反映原有的全部信息，于是就产生了主成分分析、对应分析、典型相关分析和因子分析等方法。,第一节因子分析,1.1 主要功能调用Data Reduction菜单的Factor过程命令项，可对多指标或多因素资料进行因子分析。因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系，以较少的几个因子反

2、映原资料的大部分信息。,1.2 实例操作,例11-1下表资料为25名健康人的7项生化检验结果，7项生化检验指标依次命名为X1至X7，请对该资料进行因子分析。,1.2.1 数据准备,激活数据管理窗口，定义变量名：分别为X1、X2、X3、X4、X5、X6、X7，按顺序输入相应数值，建立数据库，结果见上表。,1.2.2 统计分析,激活Analyze菜单选Data Reduction的Factor.命令项，弹出Factor Analysis对话框（图8.1）。在对话框左侧的变量列表中选变量X1至X7，点击钮使之进入Variables框。,点击Descriptives.钮，弹出Factor Analys

3、is:Descriptives对话框（图8.2）选出Coefficients等选项并选KMO and Bartletts test of sphericity项，要求对相关系数矩阵进行统计学检验。点击Continue钮返回Factor Analysis对话框。,点击Extraction.钮，弹出Factor Analysis:Extraction对话框（图8.3），系统提供多种因子提取方法。本例选Principal components方法，之后点击Continue钮返回Factor Analysis对话框。,点击Rotation.钮，弹出Factor Analysis:Rotation对话框

4、（图8.4），系统有5种因子旋转方法可选：None：不作因子旋转；Varimax：正交旋转；Equamax：全体旋转，对变量和因子均作旋转；Quartimax：四分旋转，对变量作旋转；Direct Oblimin：斜交旋转。旋转的目的是为了获得简单结构。本例选正交旋转法，之后点击Continue钮返回Factor Analysis对话框。,点击Scores.钮，弹出弹出Factor Analysis:Scores对话框（图8.5），本例选Regression（回归因子得分），之后点击Continue钮返回Factor Analysis对话框，再点击OK钮即完成分析。,1.2.3 结果解释,描述

5、性统计给出各变量的平均值，标准差、样本数等。,此表给出各指标的相关系数及检验值,此表给出各因子得分、贡献率及累积贡献率，并列出三个主要因子的得分、贡献率。,七个不同指标在三个主因子上的特征向量，并以此可以计算各样本的表现。,正交旋转后的特征向量。,1.3 DPS进行因子分析,第二节主成分分析,2.1 主要功能主成分分析从原理上是寻找椭球的所有主轴。因此，原先有几个变量，就有几个主成分。而因子分析是事先确定要找几个成分，这里叫因子（factor）（比如两个），那就找两个。这使得在数学模型上，因子分析和主成分分析有不少区别。根据因子分析模型的特点，它还多一道工序：因子旋转（factor r

6、otation）；这个步骤可以使结果更好。,2.2 主成分分析的主要过程,这两步是主成分与因子分析的主要不同，即选用主成分分析，而且因子不进行旋转。,2.3 主成分的主要结果,相关系数矩阵,累计贡献率,保留的2个主成分,SPSS进行主成分分析与因子分析的不同,在Method选择一个方法（如果是主成分分析，则选Principal Components，因子分析可是其它方法）。 Rotation对话框中选择一个旋转方法（如果是主成分分析就选None，因子分析可选正交或其它方法）。,2.4 DPS进行主成分分析,DPS结果基本与DPS的相同，不同点为SPSS保留了两个主成分，而DPS是根据累积贡献率

7、手动保留，如累积贡献率85%，保留两个，如要求90%，即需保留三个主成分，再根据保留主成分多少确定不同样本的主要因子得分。,第三节对应分析,对应分析，又称分析，对应分析把型与型分析统一起来，把变量和样本同时反应在有相同坐标轴（因子轴）的一张图形上，以便于有关生物学上的解释。从而揭示所研究的样本与变量间的内在联系。,一、SPSS对应分析的实现,实例：以因子分析的例子， 25名健康人的7项生化检验结果，需将数据整理成如下图。,先对每人在各指标上的观测值y进行加权。,AnalyzeData ReductionCorrespondence Analysis,在对话框中分别对人和指标指定范围。,人

8、群分组为：1-25，指标分组为：1-7,二、DPS对应分析的实例,从图中可直观看出5号地区主要污染源为碳4，6、7、8号地区主要污染源为氯和环已烷，1、2、3号地区主要污染源主要为二氧化碳和硫化氢，4号地区主要污染源为环氧氯丙烷,第四节典型相关分析,我们知道如何衡量两个变量之间是否相关的问题；这是一个简单的公式就可以解决的问题(Pearson相关系数、 Kendalls t、 Spearman 秩相关系数)。如果我们有两组变量，如何能够表明它们之间的关系呢？,例子（数据tv.txt),业内人士和观众对于一些电视节目的观点有什么样的关系呢？该数据是不同的人群对30个电视节目所作的平均评分。

9、观众评分来自低学历(led)、高学历(hed)和网络(net)调查三种,它们形成第一组变量；而业内人士分评分来自包括演员和导演在内的艺术家(arti)、发行(com)与业内各部门主管(man)三种，形成第二组变量。人们对这样两组变量之间的关系感到兴趣。,2 典型相关分析,由于一组变量可以有无数种线性组合（线性组合由相应的系数确定），因此必须找到既有意义又可以确定的线性组合。典型相关分析(canonical correlation analysis)就是要找到这两组变量线性组合的系数使得这两个由线性组合生成的变量（和其他线性组合相比）之间的相关系数最大。,典型变量,假定两组变量为X1,X2,

10、Xp和Y1,Y2,Yq，那么，问题就在于要寻找系数a1,a2,ap和b1,b2,bq，和使得新的综合变量（亦称为典型变量(canonical variable)）,之间的相关关系最大。这种相关关系是用典型相关系数（canonical correlation coefficient）来衡量的。,典型相关系数,这里所涉及的主要的数学工具还是矩阵的特征值和特征向量问题。而所得的特征值与V和W的典型相关系数有直接联系。由于特征值问题的特点，实际上找到的是多组典型变量(V1, W1), (V2, W2),，其中V1和W1最相关，而V2和W2次之等等，,典型相关系数,而且V1, V2, V3,之间及而且

11、W1, W2, W3,之间互不相关。这样又出现了选择多少组典型变量(V, W)的问题了。实际上，只要选择特征值累积总贡献占主要部分的那些即可。软件还会输出一些检验结果；于是只要选择显著的那些(V, W)。对实际问题，还要看选取的(V, W)是否有意义，是否能够说明问题才行。至于得到(V, W)的计算，则很简单，下面就tv.txt数据进行分析。数学原理？,计算结果,第一个表为判断这两组变量相关性的若干检验，包括Pillai迹检验，Hotelling-Lawley迹检验，Wilks l检验和Roy的最大根检验；它们都是有两个自由度的F检验。该表给出了每个检验的F值，两个自由度和p值（均为0.0

12、00）。,计算结果,下面一个表给出了特征根(Eigenvalue)，特征根所占的百分比(Pct)和累积百分比(Cum. Pct)和典型相关系数(Canon Cor)及其平方(Sq. Cor)。看来，头两对典型变量(V, W)的累积特征根已经占了总量的99.427%。它们的典型相关系数也都在0.95之上。,计算结果,对于众多的计算机输出挑出一些来介绍。下面表格给出的是第一组变量相应于上面三个特征根的三个典型变量V1、V2和V3的系数，即典型系数(canonical coefficient)。注意，SPSS把第一组变量称为因变量(dependent variables)，而把第二组称为协变量(co

13、variates)；显然，这两组变量是完全对称的。这种命名仅仅是为了叙述方便。这些系数以两种方式给出；一种是没有标准化的原始变量的线性组合的典型系数(raw canonical coefficient)，一种是标准化之后的典型系数(standardized canonical coefficient)。标准化的典型系数直观上对典型变量的构成给人以更加清楚的印象。,可以看出，头一个典型变量V1相应于前面第一个（也是最重要的）特征值，主要代表高学历变量hed；而相应于前面第二个（次要的）特征值的第二个典型变量V2主要代表低学历变量led和部分的网民变量net，但高学历变量在这里起负面作用。,计算

14、结果,类似地，也可以得到被称为协变量(covariate)的标准化的第二组变量的相应于头三个特征值得三个典型变量W1、W2和W2的系数：。,例子结论,从这两个表中可以看出，V1主要和变量hed相关，而V2主要和led及net相关；W1主要和变量arti及man相关，而W2主要和com相关；这和它们的典型系数是一致的。由于V1和W1最相关，这说明V1所代表的高学历观众和W1所主要代表的艺术家(arti)及各部门经理(man)观点相关；而由于V2和W2也相关，这说明V2所代表的低学历(led)及以年轻人为主的网民(net)观众和W2所主要代表的看重经济效益的发行人(com)观点相关，但远远不如

15、V1和W1的相关那么显著（根据特征值的贡献率）。,SPSS的实现,对例tv.sav，首先打开例14.1的SPSS数据tv.sav，通过FileNewSyntax打开一个空白文件（默认文件名为Syntax1.sps），再在其中键入下面命令行： MANOVA led hed net WITH arti com man /DISCRIM ALL ALPHA(1) /PRINT=SIG(EIGEN DIM). 再点击一个向右的三角形图标(运行目前程序，Run current)，就可以得到所需结果了。还可以把Syntax1.sps另以其他名字（比如tv.sps）存入一个文件夹。下次使用时就可以通过FileOpenSyntax来打开这个文件了。,作业：,1、对作业8中的25个病人7项生化指标数据分别作主成分分析、因子分析、对应分析。 2、对作业8中的15个小麦品种分别作主成分分析、因子分析、对应分析。 3、对作业8中的45个小麦品种的形态、品质、产量性状分别作主成分、因子、对应和典型相关分析。,

展开阅读全文