因子分析与主成分分析

上传人:宝路 文档编号:48312402 上传时间:2018-07-13 格式:PPT 页数:40 大小:753.42KB
返回 下载 相关 举报
因子分析与主成分分析_第1页
第1页 / 共40页
因子分析与主成分分析_第2页
第2页 / 共40页
因子分析与主成分分析_第3页
第3页 / 共40页
因子分析与主成分分析_第4页
第4页 / 共40页
因子分析与主成分分析_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《因子分析与主成分分析》由会员分享,可在线阅读,更多相关《因子分析与主成分分析(40页珍藏版)》请在金锄头文库上搜索。

1、 旅游与管理工程学院第七章 因子分析与主成分分析旅游与管理工程学院一、主成分分析概述 每个人都会遇到有很多变量的数据。 比如全国或各个地区的带有许多经济和社会变 量的数据;各个学校的研究、教学等各种变量 的数据等等。 这些数据的共同特点是变量很多,在如此多的 变量之中,有很多是相关的。人们希望能够找 出它们的少数“代表”来对它们进行描述。旅游与管理工程学院 在多数实际问题中,不同指标之间是有一定 相关性。由于指标较多及指标间有一定的相 关性,势必增加分析问题的复杂性。 因子分析就是设法将原来指标重新组合成一 组新的互相无关的几个综合指标来代替原来 指标。同时根据实际需要从中可取几个较少 的综合

2、指标尽可能多地反映原来的指标的信 息。旅游与管理工程学院 因子分析是考察多个数值变量间相关性的一种 多元统计方法,它是研究如何通过少数几个主 成分来解释多变量的方差协方差结构。 导出几个主成分,使它们尽可能多地保留原始 变量的信息,且彼此间不相关。旅游与管理工程学院 本章就介绍两种把变量维数降低以便于描述、 理解和分析的方法:主成分分析(principal component analysis)和因子分析(factor analysis)。实际上主成分分析可以说是因子 分析的一个特例。旅游与管理工程学院二、主成分分析降维原理 先假定只有二维,即只有两个变量,它们由横 坐标和纵坐标所代表;因此每

3、个观测值都有相 应于这两个坐标轴的两个坐标值;如果这些数 据形成一个椭圆形状的点阵(这在变量的二维 正态的假定下是可能的) 那么这个椭圆有一个长轴和一个短轴。在短轴 方向上,数据变化很少;在极端的情况,短轴 如果退化成一点,那只有在长轴的方向才能够 解释这些点的变化了;这样,由二维到一维的 降维就自然完成了。旅游与管理工程学院 当坐标轴和椭圆的长短轴平行,那么代 表长轴的变量就描述了数据的主要变化 ,而代表短轴的变量就描述了数据的次 要变化。 但是,坐标轴通常并不和椭圆的长短轴 平行。因此,需要寻找椭圆的长短轴, 并进行变换,使得新变量和椭圆的长短 轴平行。 如果长轴变量代表了数据包含的大部分

4、 信息,就用该变量代替原先的两个变量 (舍去次要的一维),降维就完成了。 椭圆(球)的长短轴相差得越大,降维 也越有道理。旅游与管理工程学院旅游与管理工程学院 对于多维变量的情况和二维类似,也有 高维的椭球,只不过无法直观地看见罢 了。 首先把高维椭球的主轴找出来,再用代 表大多数数据信息的最长的几个轴作为 新变量;这样,主成分分析就基本完成 了。 注意,和二维情况类似,高维椭球的主 轴也是互相垂直的。这些互相正交的新 变量是原先变量的线性组合,叫做主成 分(principal component)。 旅游与管理工程学院 正如二维椭圆有两个主轴,三维椭球有三个主 轴一样,有几个变量,就有几个主

5、成分。 选择越少的主成分,降维就越好。什么是标准 呢?那就是这些被选的主成分所代表的主轴的 长度之和占了主轴长度总和的大部分。有些文 献建议,所选的主轴总长度占所有主轴长度之 和的大约85%即可,其实,这只是一个大体的 说法;具体选几个,要看实际情况而定。旅游与管理工程学院三、主成分分析的基本原理 假定有n个样本,每个样本共有p个变量,构成一个np 阶的数据矩阵旅游与管理工程学院 当p较大时,在p维空间中考察问题比较 麻烦。为了克服这一困难,就需要进行降维 处理,即用较少的几个综合指标代替原来较 多的变量指标,而且使这些较少的综合指标 既能尽量多地反映原来较多变量指标所反映 的信息,同时它们之

6、间又是彼此独立的。旅游与管理工程学院 定义:记x1,x2,xP为原变量指标,z1 ,z2,zm(mp)为新变量指标n系数lij的确定原则: zi与zj(ij;i,j=1,2,m)相互无关;旅游与管理工程学院 z1是x1,x2,xP的一切线性组合中方差 最大者,z2是与z1不相关的x1,x2,xP的所有 线性组合中方差最大者;zm是与z1,z2,zm1都不相关的x1,x2, xP, 的所有线性组合中方差最大者。则新变量指标z1,z2,zm分别称为原变量指 标x1,x2,xP的第一,第二,第m主成分 。 旅游与管理工程学院从以上的分析可以看出,主成分分析的 实质就是确定原来变量xj(j=1,2 ,

7、 p) 在诸主成分zi(i=1,2,m)上的荷载 lij ( i=1,2,m; j=1,2 ,p)。从数学上容易知道,从数学上可以证明 ,它们分别是的相关矩阵的m个较大的特征值 所对应的特征向量。 旅游与管理工程学院四、计算步骤 (一)计算相关系数矩阵 rij(i,j=1,2,p)为原变量xi与xj的相关系数, rij=rji,其计算公式为:旅游与管理工程学院(二)计算特征值与特征向量: 解特征方程 ,常用雅可比法( Jacobi)求出特征值,并使其按大小顺序排列 ; 分别求出对应于特征值 的特征向量 ,要求 =1,即 ,其中 表示向量 的第j个分量。旅游与管理工程学院 计算主成分贡献率及累计

8、贡献率贡献率:累计贡献率: 一般取累计贡献率达8595%的特征值 所对应的第一、第二、第m(mp)个主成分。 旅游与管理工程学院 计算主成分载荷 各主成分的得分: 旅游与管理工程学院五、SPSS分析过程1、步骤 (1)数据适合性检验与抽取因子数目的确定 数据适合性检验: KMO检验和巴特立特球面检验 确定抽取因子的数目:抽取方法与因子数目确定 (2)在明确因子数据的基础上再做一次因子分析。这一 步目的在于获得清晰的因子结构以及进行项目删除。 因子旋转:旋转方法? 项目删除:原则? 因子命名 (3)删除若干项目后,再做一次因素分析。这一步的目 的在于看每个(或所有)因子解释方差的%。旅游与管理工

9、程学院因子抽取(Extraction)的方法 主成分分析法(Principal Components):一般 选这个方法就行。 普通最小二乘法, 广义最小二乘法(generalized least squares) , 最大似然法(Maximum likelihood), 主轴因子法(Principle Axis Factoring), 因子提取法(Alpha), 映像分析法(image) 旅游与管理工程学院2、数据适合性检验 判断数据是否适合作因素分析,有下列三种方 法: 如果矩阵中的相关系数大部分都小于0.3, 则不适合作因素分析。 还可采用KMO检验和巴特立特球面检验。 KMO值一般接近

10、1,若比较小则表示不适合作因 素分析。标准:0.9以上,非常好;0.8以上, 好;0.7,一般,0.6差;0.5,很差;0.5以下 ,不能接受。 巴特立特球面检(Bartletts test of Sphericity)是一种显著性检验,达到显著性 水平就比较好。旅游与管理工程学院3、确定抽取因子的数目 两个标准: 特征值(Eigenvalalue)准则,特征值大于1 有多少个因子。 碎石图(Scree test)准则,取曲线开始转 折前的因子个数。 补充原则: 有些情况下,分析人员事先确定因子的个 数(number of factors)。这种做法适合检验 因子的理论或重复某些工作。总之,采

11、取最容 易解释且最简单的因子结构为好。旅游与管理工程学院4、因子旋转(Rotation)方法 与选择 因子旋转一般在因子分析的第二步进行 旋转方法: 不旋转(None) 方差最大法(Varimax) 等量最大法(Equamax) 四次方最大法(Quartimax) 斜交旋转法(Direct Oblimin) 选择标准: 一般选Varimax(正交旋转法),为更容易 解释,选斜交旋转法旅游与管理工程学院5、因子命名 因子命名主要借助于因子负载矩阵(factor solution)。 因子命名原则: 具有高荷重的变量,对因子名称影响最大 (可考虑按大小排序)。 绝对值大于0.3的荷重是显著的(解释

12、大于 10方差)。旅游与管理工程学院6、可删除的变量 在所有因子因子荷重(lodging)均小于0.3的 项目; 两个因子上因子荷重(lodging) 差不多大小 根据实际需要,从大到小排列,删除后面不需 要的旅游与管理工程学院7、计算维度分或因子值(Factor scores) 用计算(Compute)命令简单相加即可旅游与管理工程学院六、案例分析 案例见农业生态系统.sav 要求:1.计算样本相关矩阵R2.求相关矩阵R的特征值与特征向量,并计算贡献率3.选择主成分4.对所选主成分做经济解释旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工

13、程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院旅游与管理工程学院第一主成分与x1,x5,x6,x7,x9呈显出较强的正相关, 与x3呈显出较强的负相关,而这几个变量则综合反映了生 态经济结构状况,因此可以认为第一主成分z1是生态经济 结构的代表。 第二主成分与x2,x4,x5呈显出较强的正相关,与x1呈 显出较强的负相关,其中,除了x1为人口总数外,x2,x4 ,x5都反映了人均占有资源量的情况,因此可以认为第二 主成分代表了人均资源量。 分析:旅游与管理工程学院显然,用三个主成分代替原来9个变量(x1,x2,x9 ),描述农业生态经济系统,可以使问题更进一步简化、 明了。第三主

14、成分,与x8呈显出的正相关程度最高,其 次是x6,而与x7呈负相关,因此可以认为第三主成分在一定程度上代表了农业经济结构。 旅游与管理工程学院因子分析和主成分分析的一些注意事项 可以看出,因子分析和主成分分析都依赖于原始变 量,也只能反映原始变量的信息。所以原始变量的 选择很重要。 另外,如果原始变量都本质上独立,那么降维就可 能失败,这是因为很难把很多独立变量用少数综合 的变量概括。数据越相关,降维效果就越好。 在得到分析的结果时,并不一定会都得到如我们例 子那样清楚的结果。这与问题的性质,选取的原始 变量以及数据的质量等都有关系 在用因子得分进行排序时要特别小心,特别是对于 敏感问题。由于原始变量不同,因子的选取不同, 排序可以很不一样。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号