运用spss做因子分析与主成分分析

上传人:san****glu 文档编号:49466225 上传时间:2018-07-28 格式:PPT 页数:31 大小:335KB
返回 下载 相关 举报
运用spss做因子分析与主成分分析_第1页
第1页 / 共31页
运用spss做因子分析与主成分分析_第2页
第2页 / 共31页
运用spss做因子分析与主成分分析_第3页
第3页 / 共31页
运用spss做因子分析与主成分分析_第4页
第4页 / 共31页
运用spss做因子分析与主成分分析_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《运用spss做因子分析与主成分分析》由会员分享,可在线阅读,更多相关《运用spss做因子分析与主成分分析(31页珍藏版)》请在金锄头文库上搜索。

1、第13章 主成分分析与因子分析介绍:1、主成分分析与因子分析的概念2、主成分分析与因子分析的过程主成分分析与因子分析的概念w需要与可能:在各个领域的科学研究中,往往需要对反映事物的多 个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多 变量大样本无疑会为科学研究提供丰富的信息,但也在一定程度上 增加了数据采集的工作量,更重要的是在大多数情况下,许多变量 之间可能存在相关性而增加了问题分析的复杂性,同时对分析带来 不便。如果分别分析每个指标,分析又可能是孤立的,而不是综合 的。盲目减少指标会损失很多信息,容易产生错误的结论。因此需 要找到一个合理的方法,减少分析指标的同时,尽量减少原指标

2、包 含信息的损失,对所收集的资料作全面的分析。由于各变量间存在 一定的相关关系,因此有可能用较少的综合指标分别综合存在于各 变量中的各类信息。主成分分析与因子分析就是这样一种降维的方 法。 w主成分分析与因子分析是将多个实测变量转换为少数几个不相关的 综合指标的多元统计分析方法 w直线综合指标往往是不能直接观测到的,但它更能反映事物的本质 。因此在医学、心理学、经济学等科学领域以及社会化生产中得到 广泛的应用。主成分分析与因子分析的概念(续)w由于实测的变量间存在一定的相关关系, 因此有可能用较少数的综合指标分别综合 存在于各变量中的各类信息,而综合指标 之间彼此不相关,即各指标代表的信息不

3、重叠。综合指标称为因子或主成分(提取 几个因子),一般有两种方法: w特征值1w累计贡献率0.8主成分分析实例P316不旋转w使用默认值进行最简单的主成分分析(默认为主成分分析法:Principal components) w例子P316:对美国洛杉矶12个人口调查区的5个经济学变量的数据进行因 子分析,data13-01a,数据见下一张幻灯片) w菜单:AnalyzeData ReductionFactornVariables :pop,School,employ,Services, housen其他使用默认值(主成分分析法Principal components,选取特征值1 ,不旋转)n

4、比较有用的结果:两个主成分(因子)f1,f2及因子载荷矩阵(Component Matrix),根据该 表可以写出每个原始变量(标准化值)的因子表达式:Pop0.581f1 + 0.806f2School 0.767f1 - 0.545f2employ 0.672f1 + 0.726f2Services 0.932f1 - 0.104f2house 0.791f1 - 0.558f2n每个原始变量都可以是5个因子的线性组合,提取两个因子f1和f2,可以概括原始变量所包 含信息的93.4%。 f1和f2前的系数表示该因子对变量的影响程度,也称为变量在因子上的 载荷。n但每个因子(主成分)的系数(

5、载荷)没有很明显的差别,所以不好命名。因此为了对因子 进行命名,可以进行旋转,使系数向0和1两极分化,这就要使用选择项。洛衫矶对12个人口调查区的数据编号 总人口 中等学校平均 总雇员数 专业服务 中等房价no pop 校龄School employ 项目数Services house15700 12.8 2500 270 25000 21000 10.9 600 10 10000 33400 8.8 1000 10 9000 43800 13.6 1700 140 2500054000 12.8 1600 140 25000 68200 8.3 2600 6012000 71200 11.4

6、 400 1016000 89100 11.5 3300 6014000 99900 12.5 3400 180 18000109600 13.7 3600 390 25000119600 9.6 3300 80 12000129400 11.4 4000 100 13000因子分析实例322旋转Rotationw由于系数没有很明显的差别,所以要进行旋转(Rotation:method一般用Varimax方 差最大旋转),使系数向0和1两极分化, 例子同上 w菜单:AnalyzeData ReductionFactornVariables :pop,School,employ,Services

7、, housenExtraction:使用默认值( method:Principal components,选取特征值 1)nRotation:method选VarimaxnScore:Save as variables 和Display factor score Coefficient matrixn比较有用的结果:两个主成分(因子)f1,f2及旋转后的因子载荷矩阵(Rotated Component Matrix) ,根据该表可以写出每个原始变量(标准化值)的因子表达式:Pop 0.01602 f1 + 0.9946f2School 0 .941f1 - 0.00882f2employ 0

8、.137f1 + 0.98f2Services 0.825f1 +0.447f2house 0.968f1 - 0.00605f2n第一主因子对中等学校平均校龄,专业服务项目,中等房价有绝对值较大的载荷(代 表一般社会福利-福利条件因子); 而第二主因子对总人口和总雇员数有较大的载荷 (代表人口-人口因子). P326n比较有用的结果:因子得分fac1_1, fac2_1。其计算公式:因子得分系数和原始 变量的标准化值的乘积之和(P326)。然后可以利用因子得分进行聚类p327( Analyze-Classify-Hierarchical Cluster)。主成分分析实例P330 不旋转 市场

9、研究中的顾客偏好分析w在市场研究中,常常要求分析顾客的偏好和当前市场的产品与顾客 偏好之间的差别,从而找出新产品开发的方向。顾客偏好分析时常 用到主成分分析方法(因子没有旋转)。 w例子P330:数据来自SAS公司,1980年一个汽车制造商在竞争对 手中选择了17种车型,访问了25个顾客,要求他们根据自己的偏 好对17种车型打分。打分范围09.9, 9.9表示最高程度的偏好 。data13-02a(1725:17个case,25个变量V1-V25) w菜单:AnalyzeData ReductionFactornVariables :V1-V25nExtraction:method:Princ

10、ipal componentsExtract:Number of factors:3 要三个主成分nScore:Save as variablesn比较有用的结果:3个主成分及其因子载荷矩阵(Component Matrix):第一主 成分和第二主成分的载荷图(Loading plots)n比较有用的结果:因子得分fac1_1, fac2_1 , fac3_1。然后可以利用因子得分 进行各种分析:做偏好图: 用fac1_1, fac2_1做散点图(Graphs-Scatter :X- fac1_1 , Y- fac2_1):第一主成分反映了车的产地,第二主成分反映了 车的特性(质量、动力、座位

11、数等)n具体见P332-334补充:主成分分析和因子分析w以下的讲义是吴喜之教授有 关主成分分析和因子分析的讲义 ,我觉得比书上讲得清楚。主成分分析和因 子分析 汇报什么?w假定你是一个公司的财务经理,掌握了公司的 所有数据,比如固定资产、流动资金、每一笔 借贷的数额和期限、各种税费、工资支出、原 料消耗、产值、利润、折旧、职工人数、职工 的分工和教育程度等等。 w如果让你向上面介绍公司状况,你能够把这些 指标和数字都原封不动地摆出去吗? w当然不能。 w你必须要把各个方面作出高度概括,用一两个 指标简单明了地把情况说清楚。 主成分分析w每个人都会遇到有很多变量的数据。 w比如全国或各个地区的

12、带有许多经济和社会变 量的数据;各个学校的研究、教学等各种变量 的数据等等。 w这些数据的共同特点是变量很多,在如此多的 变量之中,有很多是相关的。人们希望能够找 出它们的少数“代表”来对它们进行描述。 w本章就介绍两种把变量维数降低以便于描述、 理解和分析的方法:主成分分析(principal component analysis)和因子分析(factor analysis)。实际上主成分分析可以说是因子 分析的一个特例。在引进主成分分析之前,先 看下面的例子。成绩数据(student.sav)w100个学生的数学、物理、化学、语文、历 史、英语的成绩如下表(部分)。 从本例可能提出的问题w

13、目前的问题是,能不能把这个数据的6 个变量用一两个综合变量来表示呢? w这一两个综合变量包含有多少原来的信 息呢? w能不能利用找到的综合变量来对学生排 序呢?这一类数据所涉及的问题可以推 广到对企业,对学校进行分析、排序、 判别和分类等问题。主成分分析w例中的的数据点是六维的;也就是说,每个观 测值是6维空间中的一个点。我们希望把6维空 间用低维空间表示。 w先假定只有二维,即只有两个变量,它们由横 坐标和纵坐标所代表;因此每个观测值都有相 应于这两个坐标轴的两个坐标值;如果这些数 据形成一个椭圆形状的点阵(这在变量的二维 正态的假定下是可能的) w那么这个椭圆有一个长轴和一个短轴。在短轴

14、方向上,数据变化很少;在极端的情况,短轴 如果退化成一点,那只有在长轴的方向才能够 解释这些点的变化了;这样,由二维到一维的 降维就自然完成了。主成分分析w当坐标轴和椭圆的长短轴平行,那么代表 长轴的变量就描述了数据的主要变化,而 代表短轴的变量就描述了数据的次要变化 。 w但是,坐标轴通常并不和椭圆的长短轴平 行。因此,需要寻找椭圆的长短轴,并进 行变换,使得新变量和椭圆的长短轴平行 。 w如果长轴变量代表了数据包含的大部分信 息,就用该变量代替原先的两个变量(舍 去次要的一维),降维就完成了。 w椭圆(球)的长短轴相差得越大,降维也 越有道理。主成分分析w对于多维变量的情况和二维类似,也

15、有高维的椭球,只不过无法直观地看 见罢了。 w首先把高维椭球的主轴找出来,再用 代表大多数数据信息的最长的几个轴 作为新变量;这样,主成分分析就基 本完成了。 w注意,和二维情况类似,高维椭球的 主轴也是互相垂直的。这些互相正交 的新变量是原先变量的线性组合,叫 做主成分(principal component)。 主成分分析w正如二维椭圆有两个主轴,三维椭球有三 个主轴一样,有几个变量,就有几个主成 分。 w选择越少的主成分,降维就越好。什么是 标准呢?那就是这些被选的主成分所代表 的主轴的长度之和占了主轴长度总和的大 部分。有些文献建议,所选的主轴总长度 占所有主轴长度之和的大约85%即可

16、, 其实,这只是一个大体的说法;具体选几 个,要看实际情况而定。 对于我们的数据,SPSS输出为 这里的Initial Eigenvalues就是这里的六个 主轴长度,又称特征值(数据相关阵的特 征值)。头两个成分特征值累积占了总方 差的81.142%。后面的特征值的贡献越来越 少。 特征值的贡献还可以从SPSS的所谓碎石图看出 怎么解释这两个主成分。前面说过主成分 是原始六个变量的线性组合。是怎么样的 组合呢?SPSS可以输出下面的表。 这里每一列代表一个主成分作为原来变量线性组 合的系数(比例)。比如第一主成分作为数学、 物理、化学、语文、历史、英语这六个原先变量 的线性组合,系数(比例)为-0.806, -0.674, - 0.675, 0.893, 0.825

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 经济/贸易/财会 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号