SPSS学习系列30. 主成份分析

上传人:飞****9 文档编号:132643692 上传时间:2020-05-18 格式:DOC 页数:10 大小:296.03KB
返回 下载 相关 举报
SPSS学习系列30. 主成份分析_第1页
第1页 / 共10页
SPSS学习系列30. 主成份分析_第2页
第2页 / 共10页
SPSS学习系列30. 主成份分析_第3页
第3页 / 共10页
SPSS学习系列30. 主成份分析_第4页
第4页 / 共10页
SPSS学习系列30. 主成份分析_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《SPSS学习系列30. 主成份分析》由会员分享,可在线阅读,更多相关《SPSS学习系列30. 主成份分析(10页珍藏版)》请在金锄头文库上搜索。

1、30. 主成份分析一、基本原理主成份分析,是数学上对数据降维的一种方法,是将多个变量转化为少数综合变量(集中了原始变量的大部分信息)的一种多元统计方法。其主要目的是将变量减少,并使其改变为少数几个相互独立的线性组合形成的新变量(主成份,其方差最大),使得原始资料在这些成份上显示最大的个别差异来。在所有的线性组合中所选取的F1应该是方差最大的,称为第一主成分。如果第一主成分不足以代表原来所有指标的信息,再考虑选取第二个线性组合F2, 称为第二主成分。为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)0. 依此类推可以构造出第三、第四、第p个主

2、成分。主成份分析,可以用来综合变量之间的关系,也可用来减少回归分析或聚类分析中的变量数目。设有n个样品(多元观测值),每个样品观测p项指标(变量):X1,Xp,得到原始数据资料阵:其中,Xi = (x1i,x2i,xni)T,i = 1, , p.用数据矩阵X的p个列向量(即p个指标向量)X1,Xp作线性组合,得到综合指标向量:简写成:Fi = a1iX1 + a2iX2 +apiXp i = 1, , p限制系数ai = (a1i,a2i,api)T为单位向量,即且由下列原则决定:(1)Fi与Fj互不相关,即COV(Fi, Fj)= aiTai=0,其中为X的协方差矩阵;(2)F1是X1,X

3、2,Xp的所有满足上述要求的线性组合中方差最大的,即F2是与F1不相关的X1,Xp所有线性组合中方差最大的,Fp是与F1,Fp-1都不相关的X1,Xp所有线性组合中方差最大的。满足上述要求的综合指标向量F1,F2,Fp就是主成分,这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值i,每一个主成分的组合系数ai = (a1i,a2i,api)T就是特征值i所对应的单位特征向量。方差的贡献率为i越大,说明相应的主成分反映综合信息的能力越强。注:主成分分析是将原始变量组成的坐标系进行平移变换,使

4、得新的坐标原点和数据群点的重心重合。新坐标第一轴与数据变化最大方向对应。F1,F2,Fp可以理解为p维空间中互相垂直的p个坐标轴。基本步骤:(1)计算样品数据协方差矩阵 = (sij)pp,其中(2) 求出的特征值及相应的特征向量12p0, 及相应的正交化单位特征向量:则X的第i个主成分为Fi= aiTX,i=1, , p.(3)选择主成分在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。一般用方差贡献率解释主成分Fi所反映的信息量的大小,m的确定是用累计贡献率达到足够大(一般在85%以上)为原则。(4)计算n个样品在m个主成分得分注:标准化后变量的协方差矩阵 = (sij)pp,与

5、原变量的相关系数矩阵R= (rij) pp相同,故主成分分析可以从原始变量数据的相关系数矩阵,也可以从标准化数据的协方差矩阵出发做分析。二、主成分分析实例例1对我国30个省市经济发展的8个指标做主成份分析。数据文件如下:x1=GDP;x2=居民消费水平;x3=固定资产投资;x4=职工平均工资;x5=货物周转量;x6=居民消费价格;x7=商品价格指数;x8=工业总产值。 1. 【分析】【降维】【因子分析】,打开“因子分析”窗口,将变量“x1-x8”选入【变量】框;2. 点【描述】,打开“描述统计”子窗口,勾选【统计量】下的“单变量描述性”、“原始分析结果”,【相关矩阵】下的“系数”;点【继续】;

6、其它保持默认即可,【抽取】选项,抽取方法默认就是“主成份”,默认只选取特征值大于1的主成分。注意:SPSS进行因子(主成份)分析时,自动对原始变量进行标准化处理,输出结果中的变量通常都是指标准化后的变量。点【确定】,得到描述统计量均值标准差分析 NGDP1921.09271474.8060330居民消费水平1745.9333861.6419330固定资产投资511.5083402.8854830职工平均工资5447.63331317.4433030货物周转量666.1200459.9352630居民消费价格指数117.28672.0253130商品价格指数114.90671.8980830工业

7、总产值862.9980584.5872630描述各变量的基本信息:均值、标准差、样本数。相关矩阵GDP居民消费水平固定资产投资职工平均工资货物周转量居民消费价格指数商品价格指数工业总产值相关GDP1.000.267.951.187.617-.273-.264.874居民消费水平.2671.000.426.716-.151-.235-.593.363固定资产投资.951.4261.000.396.431-.280-.359.792职工平均工资.187.716.3961.000-.357-.145-.543.099货物周转量.617-.151.431-.3571.000-.253.022.659居

8、民消费价格指数-.273-.235-.280-.145-.2531.000.763-.125商品价格指数-.264-.593-.359-.543.022.7631.000-.192工业总产值.874.363.792.099.659-.125-.1921.000相关系数矩阵,可以看出“固定资产投资”、“工业总产值”与“GDP”有较高的相关性;“消费价格指数”与“商品价格指数”有较高的相关性;相关性较强说明确实有变量在信息上重叠,从而可以做主成份或因子分析。公因子方差初始提取GDP1.000.945居民消费水平1.000.799固定资产投资1.000.902职工平均工资1.000.873货物周转量

9、1.000.857居民消费价格指数1.000.957商品价格指数1.000.928工业总产值1.000.904提取方法:主成份分析。公因子方差,表示各变量中所含原始信息能被提取的主成份所表示的程度。基本都在0.80以上,表示提取的主成份各变量有较强的解释能力。解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %13.75446.92446.9243.75446.92446.92422.20327.53274.4562.20327.53274.45631.20815.09689.5511.20815.09689.5514.4035.04294.5935.2142.

10、67397.2666.1381.72298.9887.066.82999.8178.015.183100.000提取方法:主成份分析。 主成份提取法,自动提取特征值大于1的主成分,共3个。【初始特征值】的“合计”列为每一个主成分的特征值,其值越大表示该主成分在解释8个变量的变异时越重要;“方差的%”列为每个提取因素可以解释的变异百分比。“累积%”列为解释的变异的累积百分比。8个变量(初始特征值=1)总特征值为8,第一个特征值=3.754, 3.754/8 = 46.924%,即主成份1能解释总方差的46.924%,前3个主成分共能解释89.551%(85%)的总变异。因此,用前三个主成分就可以

11、很好地概括这组数据。成份矩阵a成份123GDP.884.385.120居民消费水平.606-.596.277固定资产投资.911.163.213职工平均工资.465-.725.362货物周转量.486.737-.279居民消费价格指数-.510.257.794商品价格指数-.621.596.433工业总产值.822.429.210提取方法 :主成份。a. 已提取了 3 个成份。给出主成份系数矩阵,3列分别是3个主成份在各个变量上的载荷,从而可得到各主成份的表达式:F1=0.884 Zx1+0.606 Zx2+0.911 Zx3+0.465 Zx4+0.486 Zx5-0.510 Zx6-0.6

12、21 Zx7+0.822 Zx8F2=0.385 Zx1-0.596 Zx2+0.163 Zx3-0.725 Zx4+0.737Zx5+0.257 Zx6+0.596 Zx7+0.429 Zx8F3=0.120 Zx1+0.277Zx2+0.213 Zx3+0.362 Zx4-0.279Zx5+0.794 Zx6+0.433 Zx7+0.210 Zx8注意:这里的各变量不是原始变量,而是标准化后的变量(从而各主成份的均值为0)。可见,第一主成分中x3、x1、x8的系数最大;因此,可以把第一主成分看成是由固定资产投资(x3)、GDP(x1)、工业总产值(x8)所刻画的反映经济发展水平的综合指标。

13、第二主成分中x5、x7具有较大的正系数,x4、x2则具有较大的负系数;把第二主成分看成是由货物周转量(x5)、职工平均工资(x4)、居民消费水平(x2)、商品零售价格指数(x7)所刻画的与人民生活水平有关的综合指标。第三主成分中x6的系数最大,远远超过其他指标的影响。把第三主成分单独看成是居民消费价格指数(x6)的影响指标。注1:各主成份的涵义并不十分明确,若要主成份更容易解释,需要做旋转,即因子分析;注2:若要计算每个样本的各个主成分的得分,可在【因子分析】窗口,点【得分】,勾选“保存为变量”默认采用“回归”方法计算,点【继续】得到利用变量FAC1_1, FAC2_1, FAC3_1, 可以计算每个样本的综合得分,具体见下篇【第31篇:因子分析】。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号