应用统计学因子分析与主成分分析案例解析SPSS操作分析

资源描述

《应用统计学因子分析与主成分分析案例解析SPSS操作分析》由会员分享，可在线阅读，更多相关《应用统计学因子分析与主成分分析案例解析SPSS操作分析（21页珍藏版）》请在金锄头文库上搜索。

1、因子分析与主成分分析摘要：通过搜集相关数据，采用因子分析法和主成份分析法，对我国各个省市自治区经济发展基本情况的八项指标进行分析。具体采用的指标只有：GDP、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值。这是一个综合分析问题，八项指标较多，用主成分分析法进行综合评价。关键词：由于样本数比较多，这里不再给出，可参见 factor1.sav 文件引言：因子分析是寻找潜在的起支配作用的因子模型的方法。因子分析是根据相关性大小把变量分组，使得同组内的变量之间相关性较高，但不同的组的变量相关性较低。每组变量代表一个基本结构，这个基本结构称为公共因子

2、。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。通过因子分析得来的新变量是对每个原始变量进行内部剖析。因子分析不是对原始变量的重新组合，而是对原始变量进行分解，分解为公共因子和特殊因子两部分。具体地说，就是要找出某个问题中可直接测量的具有一定相关性的诸指标，如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律，从而可用各指标的测定来间接确定各因子的状态。基本步骤：在 SPSS 中进行因子分析的步骤如下：选择“分析- 降维- 因子分析 ”，在弹出的对话框里（1）描述-系数、KMO 与 Bartlett 的球形度检验

3、（2）抽取-碎石图、未旋转的因子解（3）旋转-最大方差法、旋转解、载荷图（4）得分-保存为变量、显示因子得分系数矩阵（5）选项-按大小排序点击确定得到如下各图图 3-1相关矩阵GDP居民消费水平固定资产投资职工平均工资货物周转量居民消费价格指数商品价格指数工业总产值GDP 1.000 .267 .951 .187 .617 -.273 -.264 .874居民消费水平 .267 1.000 .426 .716 -.151 -.235 -.593 .363固定资产投资 .951 .426 1.000 .396 .431 -.280 -.359 .792职工平均工资 .187 .716 .396

4、1.000 -.357 -.145 -.543 .099货物周转量 .617 -.151 .431 -.357 1.000 -.253 .022 .659居民消费价格指数 -.273 -.235 -.280 -.145 -.253 1.000 .763 -.125商品价格指数 -.264 -.593 -.359 -.543 .022 .763 1.000 -.192相关工业总产值 .874 .363 .792 .099 .659 -.125 -.192 1.000图3-2KMO 和 Bartlett 的检验取样足够度的 Kaiser-Meyer-Olkin 度量。 .620近似卡方 231.2

5、85df 28Bartlett 的球形度检验Sig. .000图3-3公因子方差初始提取GDP 1.000 .945居民消费水平 1.000 .799固定资产投资 1.000 .902职工平均工资 1.000 .873货物周转量 1.000 .857居民消费价格指数 1.000 .957商品价格指数 1.000 .928工业总产值 1.000 .904提取方法：主成份分析。图 3-4解释的总方差初始特征值提取平方和载入旋转平方和载入成份合计方差的 % 累积 % 合计方差的 % 累积 % 合计方差的 % 累积 %1 3.754 46.924 46.924 3.754 46.924 4

6、6.924 3.207 40.092 40.0922 2.203 27.532 74.456 2.203 27.532 74.456 2.217 27.708 67.8003 1.208 15.096 89.551 1.208 15.096 89.551 1.740 21.752 89.5514 .403 5.042 94.5935 .214 2.673 97.2666 .138 1.722 98.9887 .066 .829 99.8178 .015 .183 100.000提取方法：主成份分析。图3-5图3-6成份矩阵 a成份1 2 3固定资产投资 .911 .163 .213GDP .8

7、84 .385 .120工业总产值 .822 .429 .210商品价格指数 -.621 .596 .433居民消费水平 .606 -.596 .277货物周转量 .486 .737 -.279职工平均工资 .465 -.725 .362居民消费价格指数 -.510 .257 .794提取方法 :主成份。a. 已提取了 3 个成份。图3-7旋转成份矩阵 a成份1 2 3GDP .955 .124 -.131工业总产值 .944 .109 -.014固定资产投资 .872 .351 -.137货物周转量 .751 -.507 -.192职工平均工资 .048 .925 -.121居民消费水平 .

8、219 .841 -.209居民消费价格指数 -.135 -.013 .969商品价格指数 -.104 -.496 .819提取方法 :主成份。旋转法 :具有 Kaiser 标准化的正交旋转法。a. 旋转在 5 次迭代后收敛。图3-8成份转换矩阵成份 1 2 31 .817 .407 -.4082 .548 -.769 .3313 .179 .494 .851提取方法 :主成份。旋转法 :具有 Kaiser 标准化的正交旋转法。图3-9图3-10成份得分系数矩阵成份1 2 3GDP .306 .011 .047居民消费水平 .025 .387 .040固定资产投资 .270 .129 .0

9、75职工平均工资 -.025 .451 .096货物周转量 .248 -.319 -.139居民消费价格指数 .070 .180 .653商品价格指数 .077 -.098 .462工业总产值 .317 .026 .123提取方法 :主成份。旋转法 :具有 Kaiser 标准化的正交旋转法。构成得分。图3-11成份得分协方差矩阵成份 1 2 31 1.000 .000 .0002 .000 1.000 .0003 .000 .000 1.000提取方法 :主成份。旋转法 :具有 Kaiser 标准化的正交旋转法。构成得分。（2）因子模型中各统计量的意义A）因子载荷：因子载荷为第i个

10、变量在第j 个因子上的载荷，实际上就是与的相关系数，表示变量依赖因子的程度，反应了第i 个变量对于第j个因子的重要性。B）变量的变量共同度： k个公因子对第i个变量方差的贡献，也称为公因子方差比，记为，公式为：2= （j=1,2,.,k）2=12表示全部公因子对变量的总方差所做出的贡献，也即是变量的信息能够被k 个公因子所描述的程度。C）公因子的方差贡献率：在因子载荷矩阵A中，各列元素的平方和记为，表示第j个公因子对于X所提供方差的总和，它是衡量公因子相对重要2 性的指标。方差贡献率越大，表明公因子对X的贡献越大。（3）基本分析结果A）KMO和球形Bartle

11、tt检验用于因子分析的适用性检验。KMO 检验变量间的偏相关是否较小，Bartlett 球形检验是判断相关矩阵是否是单位阵，参见图3-2。由Bartlett检验可以看出，应拒绝个变量独立的假设，即变量间具有较强的相关性，但是KMO的统计量为0.620，小于0.7，说明个变量间信息的重叠程度可能不是特别的高，有可能做出的因子分析模型不是很完善，但还是值得尝试的。B）变量共同度Communalities是表示各变量中所含原始信息能被提取的公因子所表示的程度，由图3-3所示的变量共同度可知：几乎所有变量的共同度都在80% 以上，因此提取出的这几个公因子对各变量的解释能力是较强的。C）碎石图用于显示各

12、因子的重要程度，横轴为因子序号，纵轴表示特征根大小，从中可以非常直观的了解到哪些是最主要的因子，参见图3-5。本例中可见前三个因子的散点位于陡坡之上，而后五个因子散点成了平台，且特征根均小于1，因此至多考虑前三个公因子即可。D）图3-4 给出的是各成分的方差贡献率和累计贡献率，以及进行因子旋转后的方差贡献率和累计贡献率，前者将在主成分分析中进行说明。E）图3-6为因子载荷矩阵，在前面已经直接按列的方向将其解释为个成分的系数，实际上严格讲因子载荷矩阵应该是各因子在各变量上的载荷，即是各因子对各变量的影响度。表示如下：ZX1=0.884F1+0.385F2+0.120F3+1ZX2=0.606F1

13、-0.596F2-0.277F3+2.ZX8=0.822F1+0.429F2-0.210F3+8在表达式中各变量已经不是原始变量，而是标准化变量。表示特殊因子，是除了这3个公因子之外影响该变量的其他因素。原来设计了8个指标来表示经济发展水平，但是经过因子分析后，只需要三个因子即可描述影响地区经济发展状况。F）为了使因子载荷矩阵中系数更加显著，可以对初始因子载荷矩阵进行转换，使因子和原始变量间的关系进行重新分配，相关系数向0-1分化，从而更加容易解释。图3-9是进行因子旋转的空间示意图，值得注意的是旋转前后各变量散点的相对位置保持不变，即旋转并不改变因子分析的整体结果，只是影响各因子在各变量上

14、的载荷分布，并影响各因子的贡献率。本例中采用的是方差最大正交旋转法进行因子旋转，输出的结果参见图3-4.，由图可知，只有前三个特征根大于1，因此SPSS只提取了前三个公因子。在旋转后三个公因子的方差累计贡献率均发生了变化，但仍然会保持从大到小的顺序，而且前三个因子的方差贡献率仍为89.55%，和旋转前完全相同，因此选前三个因子已足够描述经济发展的水平。G）进行方差最大旋转后，旋转后的因子载荷矩阵如图 3-7所示，由图可以看出，第一公因子在、、、有较大的载荷，主要从GDP、固定资产投1 3 5 8资、货物周转量和工业总产值反映经济发展状况，可以命名为总量因子。第二公因子在、上有较大载

15、荷，从居民消费水平和职工平均工资方面反映经济2 4发展水平，因此命名为消费因子。第三公因子在和上有较大载荷，表现为6 7居民消费价格指数和水平价格指数方面，因此命名为价格因子。与未旋转前相比较，旋转后各公因子的意义显然更加明确合理。H）因子得分：前面得到了因子结构表达式，可以将各变量表示为公因子的线性形式，但是更多的时候需要将公因子表达为各变量的线性形式。公因子的得分系数函数不能通过矩阵变换的方法由因子载荷阵得到，只能采用估计的方法求得，本例采用的是回归法。因子得分系数矩阵如图3-10所示，据此可以直接写出各公因子的得分表达式：F1=0.306ZX1+0.025ZX2+0.270ZX3-

16、0.025ZX4+0.248ZX5+0.070ZX6+0.077ZX7+0.317ZX8F2=0.011ZX1+0.387ZX2+0.129ZX3+0.451ZX4-0.319ZX5+0.180ZX6-0.098ZX7+0.026ZX8F3=0.047ZX1+0.040ZX2+0.075ZX3+0.096ZX4-0.139ZX5+0.653ZX6+0.462ZX7+0.123ZX8SPSS已经给出三个公因子的得分，保存在fac_1fac_3中，按各因子对应的方差贡献率为权数计算如下综合统计量：F= F1+ F2+ F311+2+321+2+331+2+3=0.730F1+0.141F2+0.129F3在SPSS中用程序计算

展开阅读全文