主成分分析在SPSS中的操作应用

资源描述

《主成分分析在SPSS中的操作应用》由会员分享，可在线阅读，更多相关《主成分分析在SPSS中的操作应用（7页珍藏版）》请在金锄头文库上搜索。

1、主成分分析在SPSS中的操作应用(上)慧聪网2005年11月30日9时46分信息来源：慧聪网行业探讨频道一、引言主成分分析和因子分析在社会经济统计综合评价中是两个常被运用的统计分析方法。现在SPSS、SAS等统计软件运用越来越普遍，但SPSS并未像SAS一样，将主成分分析与因子分析作为两个独立的方法并列处理注：主成分分析与因子分析二者是又有着区分与联系，最主要的不同在于它们的数学模型的构建上，具体区分请见参考文献2，而是依据二者之间的关系有机地将主成分分析嵌入到因子分析之中，这样虽然简化了分析程序，却为主成分分析的计算带来不便。且国内很多SPSS教程并没有具体讲解假如应用SPSS进行主成分分

2、析，如何运用SPSS对主成分分析进行计算呢？为使读者能够正确运用SPSS软件进行主成分分析，本文将通过一个实例来具体介绍如何用SPSS做主成分分析。接下来先简洁介绍主成分分析原理与模型，以便读者对主成分分析有个大致的了解。二、主成分分析原理和模型1（一）主分成分析原理主成分分析是设法将原来众多具有肯定相关性（比如P个指标），重新组合成一组新的相互无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。最经典的做法就是用F1（选取的第一个线性组合，即第一个综合指标）的方差来表达，即Var(F1)越大，表示F1包含的信息越多。因此在全部的线性组合中选取的F1

3、应当是方差最大的，故称F1为第一主成分。假如第一主成分不足以代表原来P个指标的信息，再考虑选取F2即选其次个线性组合，为了有效地反映原来信息，F1已有的信息就不须要再出现再F2中，用数学语言表达就是要求Cov(F1, F2)=0，则称F2为其次主成分，依此类推可以构造出第三、第四，第P个主成分。（二）主成分分析数学模型F2=a12ZX1+a22ZX2+ap2ZXp Fp=a1mZX1+a2mZX2+apmZXp其中a1i, a2i, ,api(i=1,m)为X的协方差阵的特征值多对应的特征向量，ZX1, ZX2, , ZXp是原始变量经过标准化处理的值，因为在实际应用中，往往存在指标的量纲不同

4、，所以在计算之前须先消退量纲的影响，而将原始数据标准化，本文所采纳的数据就存在量纲影响注：本文指的数据标准化是指Z标准化。A=(aij)pm=(a1,a2,am,)，Rai=iai，R为相关系数矩阵，i、ai是相应的特征值和单位特征向量,12p0 。进行主成分分析主要步骤如下：1. 指标数据标准化（SPSS软件自动执行）；2. 指标之间的相关性判定；3. 确定主成分个数m；4. 主成分Fi表达式；5. 主成分Fi命名；主成分与综合主成分(评价)值。三、对沿海10个省市经济综合指标进行主成分分析（一）指标选取原则本文所选取的数据来自中国统计年鉴2003中2002年的统计数据,在沿海10省市经济状

5、况主要指标体系中选取了10个指标：X1GDP X2人均GDPX3农业增加值 X4工业增加值X5第三产业增加值 X6固定资产投资X7基本建设投资 X8国内生产总值占全国比重（%）X9海关出口总额 X10地方财政收入图表 1 沿海10个省市经济数据地区GDP人均GDP农业增加值工业增加值第三产业增加值固定资产投资基本建设投资社会消费品零售总额海关出口总额地方财政收入辽宁5458.21300014883.31376.22258.41315.95292258.4123.7399.7山东105501164313903502.538512288.71070.73181.9211.1610.2河北6076.

6、69047950.21406.72092.61161.6597.11968.345.9302.3天津2022.62206883.9822.8960703.7361.9941.4115.7171.8江苏10636143971122.63536.33967.223201141.33215.8384.7643.7上海 5408.84062786.22196.22755.81970.2779.32035.2320.5709浙江7670165706802356.530652296.61180.62877.5294.2566.9福建4682135106631047.11859964.5397.91663.

7、3173.7272.9广东11770150301023.94224.64793.63022.91275.55013.61843.71202广西2437.25062591.4367995.7542.2352.71025.515.1186.7（二）主成分分析在SPSS中的具体操作步骤运用SPSS统计分析软件Factor过程2对沿海10个省市经济综合指标进行主成分分析。具体操作步骤如下：1. AnalyzeData ReductionFactor Analysis，弹出Factor Analysis对话框2. 把X1X10选入Variables框3. Descriptives: Correlatio

8、n Matrix框组中选中Coefficients，然后点击Continue，返回Factor Analysis对话框4. 点击“OK”图表 2 Factor Analyze对话框与Descriptives子对话框SPSS在调用Factor Analyze过程进行分析时，SPSS会自动对原始数据进行标准化处理，所以在得到计算结果后指的变量都是指经过标准化处理后的变量，但SPSS不会干脆给出标准化后的数据，如须要得到标准化数据，则需调用Descriptives过程进行计算。图表 3 相关系数矩阵图表 4 方差分解主成分提取分析表主成分分析在SPSS中的操作应用(下)慧聪网2005年11月30日9

9、时47分信息来源：慧聪网行业探讨频道图表 5 初始因子载荷矩阵从图表3可知GDP与工业增加值，第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系，与海关出口总额存在着显著关系。可见很多变量之间干脆的相关性比较强，证明他们存在信息上的重叠。主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。注：特征值在某种程度上可以被看成是表示主成分影响力度大小的指标，假如特征值小于1，说明该主成分的说明力度还不如干脆引入一个原变量的平均说明力度大，因此一般可以用特征值大于1作为纳入标准。通过图表4（方差分解主成分提取分析）可知，提取2个主成分，

10、即m=2，从图表5（初始因子载荷矩阵）可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷，说明第一主成分基本反映了这些指标的信息；人均GDP和农业增加值指标在其次主成分上有较高载荷，说明其次主成分基本反映了人均GDP和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息，所以确定用两个新变量来代替原来的十个变量。但这两个新变量的表达还不能从输出窗口中干脆得到，因为“Component Matrix”是指初始因子载荷矩阵，每一个载荷量表示主成分与对应变量的相关系数。用图表5（主成分载荷矩阵

11、）中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数2。将初始因子载荷矩阵中的两列数据输入（可用复制粘贴的方法）到数据编辑窗口（为变量B1、B2），然后利用“TransformCompute Variable”，在Compute Variable对话框中输入“A1=B1/SQR(7.22)” 注：其次主成分SQR后的括号中填1.235，即可得到特征向量A1(见图表6)。同理，可得到特征向量A2。将得到的特征向量与标准化后的数据相乘，然后就可以得出主成分表达式注：因本例只是为了说明如何在SPSS进行主成分分析，故在此不对提取的主成分进行命名，有爱好的读者可自行命名：F

12、1=0.353ZX1+0.042ZX2-0.041ZX3+0.364ZX4+0.367ZX5+0.366ZX6+0.352ZX7+0.364ZX8+0.298ZX9+0.355ZX10F2=0.175ZX1-0.741ZX2+0.609ZX3-0.004ZX4+0.063ZX5-0.061ZX6-0.022ZX7+0.158ZX8-0.046ZX9-0.115ZX10图表 6 Compute Variable对话框前文提到SPSS会自动对数据进行标准化，但不会干脆给出，须要我们自己另外算，我们可以通过AnalyzeDescriptive Statistics Descriptives对话框来实

13、现：弹出Descriptives对话框后，把X1X10选入Variables框，在Save standardized values as variables前的方框打上钩，点击“OK”，经标准化的数据会自动填入数据窗口中，并以Z开头命名。图表 7 Descriptives对话框以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合模型：即可得到主成分综合模型：F=0.327ZX1-0.072ZX2+0.054ZX3+0.310ZX4+0.323ZX5+0.304ZX6+0.297ZX7+0.334ZX8+0.248ZX9+0.286ZX10依据主成分综合模型即可计算

14、综合主成分值，并对其按综合主成分值进行排序，即可对各地区进行综合评价比较，结果见图表8。图表 8 综合主成分值城市第一主成分F1排名其次主成分F2排名综合主成分F排名广东5.2310.1164.481江苏2.2520.2351.962山东1.9630.5021.753浙江1.164-0.1980.964上海0.305-2.3610-0.095辽宁-1.2461.961-0.786河北-1.3570.414-1.107福建-1.978-0.077-1.708天津-3.049-1.019-2.749广西-3.29100.413-2.7510对得出的综合主成分(评价)值，我们可用实际结果、阅历与原始数据做聚类分析进行检

展开阅读全文

主成分分析在SPSS中的操作应用

最新文档