主成分分析与因子分析

上传人:豆浆 文档编号:48618853 上传时间:2018-07-18 格式:PPT 页数:53 大小:1.30MB
返回 下载 相关 举报
主成分分析与因子分析_第1页
第1页 / 共53页
主成分分析与因子分析_第2页
第2页 / 共53页
主成分分析与因子分析_第3页
第3页 / 共53页
主成分分析与因子分析_第4页
第4页 / 共53页
主成分分析与因子分析_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《主成分分析与因子分析》由会员分享,可在线阅读,更多相关《主成分分析与因子分析(53页珍藏版)》请在金锄头文库上搜索。

1、主成分分析和因 子分析 汇报什么? 假定你是一个公司的财务经理,掌握了公司的所 有数据,比如固定资产、流动资金、每一笔借贷 的数额和期限、各种税费、工资支出、原料消耗 、产值、利润、折旧、职工人数、职工的分工和 教育程度等等。 如果让你向上面介绍公司状况,你能够把这些指 标和数字都原封不动地摆出去吗? 当然不能。 你必须要把各个方面作出高度概括,用一两个指 标简单明了地把情况说清楚。 对众多变量进行降维 每个人都会遇到有很多变量的数据。 比如全国或各个地区的带有许多经济和社会变量的数据 ;各个学校的研究、教学等各种变量的数据等等。 这些数据的共同特点是变量很多,在如此多的变量之中 ,有很多是相

2、关的,即有很多重叠信息。人们希望能够 找出它们的少数“代表”来对它们进行描述。 本章就介绍两种把变量维数降低以便于描述、理解和分 析的方法:主成分分析(principal component analysis)和因子分析(factor analysis)。实际上 主成分分析可以说是因子分析的一个特例。在引进主成 分分析之前,先看下面的例子。成绩数据(student.sav) 100个学生的数学、物理、化学、语文、历史、 英语的成绩如下表(部分)。 从本例可能提出的问题 目前的问题是,能不能把这个数据的6个变 量用一两个综合变量来表示呢? 这一两个综合变量包含有多少原来的信息 呢? 能不能利用找

3、到的综合变量来对学生排序 呢?这一类数据所涉及的问题可以推广到 对企业,对学校进行分析、排序、判别和 分类等问题。主成分分析(Principal Components Analysis) 例中的数据点是六维的; 也就是说,每个观测值是 6维空间中的一个点。我 们希望把6维空间用低维 空间表示。由于6维空间 无法直接观察,因此,我 从2维空间开始解释主成 分分析的原理。主成分分析原理 当散点呈椭圆状分布时,代表长轴的变量就描述 了数据的主要变化,而代表短轴的变量就描述了 数据的次要变化。 但是,坐标轴通常并不和椭圆的长短轴平行。因 此,需要寻找椭圆的长短轴,并进行变换,使得 新变量和椭圆的长短轴

4、平行。 如果长轴变量代表了数据包含的大部分信息,就 用该变量代替原先的两个变量(舍去次要的一维 ),降维就完成了。 椭圆(球)的长短轴相差得越大,降维也越有道 理。 主成分分析的几何解释平移、旋转坐标轴 主成分分析的几何解释平移、旋转坐标轴 主成分分析的几何解释平移、旋转坐标轴 主成分分析的几何解释平移、旋转坐标轴 样本数据的标准化可解决平移问题 根据旋转变换的公式:主成分分析 对于多维变量的情况和二维类似,也有高维的椭 球,只不过无法直观地看见罢了。 首先把高维椭球的主轴找出来,再用代表大多数 数据信息的最长的几个轴作为新变量;这样,主 成分分析就基本完成了。 注意,和二维情况类似,高维椭球

5、的主轴也是互 相垂直的。这些互相正交的新变量是原先变量的 线性组合,叫做主成分(principal component)。 主成分分析的数学模型假设我们所讨论的实际问题中,有p个指 标,我们把这p个指标看作p个随机变量,记为X1 ,X2,Xp,主成分分析就是要把这p个指标的 问题,转变为讨论p个指标的线性组合的问题, 而这些新的指标F1,F2,Fk(kp),按照保 留主要信息量的原则充分反映原指标的信息,并 且相互独立。这种由讨论多个指标降为少数几个综合指 标的过程在数学上就叫做降维。主成分分析通 常的做法是,寻求原指标的线性组合Fi。满足如下的条件:主成分之间相互独立,即无重叠的信息。即主成

6、分的方差依次递减,重要性依次递减,即每个主成分的系数平方和为1。即样本数据的标准化可解决平移问题 根据旋转变换的公式:主成分分析 正如二维椭圆有两个主轴,三维椭球有三个主轴 一样,有几个变量,就有几个主成分。 选择越少的主成分,降维就越好。什么是标准呢 ?那就是这些被选的主成分所代表的主轴的长度 之和占了主轴长度总和的大部分。有些文献建议 ,所选的主轴总长度占所有主轴长度之和的大约 85%即可,其实,这只是一个大体的说法;具体 选几个,要看实际情况而定。 对于我们的数据,SPSS输出为 这里的Initial Eigenvalues就是这里的六个 主轴长度,又称特征值(数据相关阵的特 征值)。头

7、两个成分特征值累积占了总方 差的81.142%。后面的特征值的贡献越来越 少。 特征值的贡献还可以从SPSS的所谓碎石图看出因子载荷反映的是主成分与变量间的相关系数。 (因子载荷阵)主成分载荷与因子载荷可以把第一和第二因子 的载荷点出一个二维图以 直观地显示它们如何解释 原来的变量的。这个图叫 做载荷图。该图左面三个点是数学、物理、化学三科,右边三个点 是语文、历史、外语三科。因子分析(Factor Analysis) 主要内容 一、什么是因子分析 二、因子分析模型 三、因子载荷矩阵中的几个统计特征 四、因子旋转 五、因子得分 六、在SPSS上进行因子分析的步骤因子分析(factor anal

8、ysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。例如,在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。一、什么是因子分析但消费者主要关心的是三个方面,即商店的环境 、商店的服务和商品的价格。因子分析方法可以通过24 个变量,找出反映商店环境、商店服务水平和商品价格 的三个潜在的因子,对商店进行综合评价。而这三个公 共因子可以表示

9、为:称 是不可观测的潜在因子。24个变量 共享这三个因子,但是每个变量又有自己的个性, 不被包含的部分 ,称为特殊因子。二、因子分析模型 数学模型设 个变量,如果表示为注: 因子分析与回归分析不同,因子分析中的因 子是一个比较抽象的概念,而回归因子有非常明 确的实际意义;主成分分析分析与因子分析也有不同,主成 分分析仅仅是变量变换,而因子分析需要构造因 子模型。主成分分析:原始变量的线性组合表示新的 综合变量,即主成分,无误差项;因子分析:潜在的假想变量和随机影响变 量的线性组合表示原始变量,有误差项。 主成分分析与因子分析的公式上的区别主成分分析因子分析(mp)因子得分三、因子载荷矩阵中的几

10、个统计特征1、因子载荷aij的统计意义因子载荷 是第i个变量与第j个公共因子的相关系数 模型为 因子载荷构成的km矩阵称为“因子矩阵”(factor matrix)或“因 子模式”(factor pattern),因为它反映了因子与变量关系中因子 的性质。“因子结构”(factor structure)是指因素与变量间的相 关关系,可以证明,在正交模型中,因子模式等于因素结构, 因子负荷就是变量与因素间的相关系数。因此在正交模型中不 加区别地统称为“因子载荷”。 2、变量共同度(communality)的统计意义定义:变量 的共同度是因子载荷矩阵的第i行的元素的平方和。记为统计意义:两边求方差

11、 所有的公共因子和特殊因子对变量 的贡献为1。如果 非常靠近1, 非常小,则因子分析的效果好,从原变量空间到公共因子空间的转化性质好。3、公共因子 方差贡献(Contributions)的统计意义因子载荷矩阵中各列元素的平方和 称为所有的 对 的方差贡献和。衡量的相对重要性。四、 因子旋转建立了因子分析的目的不仅仅要找出公共因子以及对变量进行分组,更重要的要 知道每个公共因子的意义,以便进行进一步的分析,如果每个公共因子的含义不 清,则不便于进行实际背景的解释。求初始解是按照因子解释变量方差的多少顺序提取因子的,因此,绝大多数变量 在第一个因子上肯定都有显著的负荷,其后的因子解释方差比例逐渐递

12、减。这时 的因素负荷矩阵中大多数因子都和许多变量相关,尤其是靠前的第一因素,负载 了过多的变量,很不便于解释。这时就需要借助“因子旋转”改变因子轴的位置, 重新分配各因子所解释的方差比例,从而得到易于解释的“简单结构”。根据矩阵代数的知识,因子旋转实际上是对因素解进行的一个变换(正交旋转是标准正交 变换),得到的模型对数据的拟合程度不发生改变,同时也不改变每个变量的共 同度。 (一)为什么要旋转因子旋转前与旋转后的因子载荷图旋转前后的因子载荷比较这里,第一个因子主要和语文、历史、英语三科有很强 的正相关;而第二个因子主要和数学、物理、化学三科 有很强的正相关。因此可以给第一个因子起名为“理科因

13、 子”,而给第二个因子起名为“文科因子”。变换后因子的共同度设正交矩阵,做正交变换变换后因子的共同度没有发生变化!(二)正交旋转(orthogonal rotation) 变换后因子贡献设正交矩阵,做正交变换变换后因子的贡献发生了变化!1、方差最大法(Varimax) 方差最大法从简化因子载荷矩阵的每一列出发,使和每个因子有关的载荷的平方的方差最大。当只有少数几个变量在某个因子 上有较高的载荷时,对因子的解释最简单。方差最大的直观意义 是希望通过因子旋转后,使每个因子上的载荷尽量拉开距离,一 部分的载荷趋于1,另一部分趋于0。此法便于解释因子,因此 最常用。2、四次方最大旋转(Quartima

14、x) 四次方最大旋转是从简化载荷矩阵的行出发,通过旋转初始 因子,使每个变量只在一个因子上有较高的载荷,而在其它的 因子上尽可能低的载荷。如果每个变量只在一个因子上有非零的载荷,这时的因子解释是最简单的。四次方最大法通过使因子载荷矩阵中每一行的因子载荷平方的方差达到最大。3、等量最大法(Equamax) 等量最大法把四次方最大法和方差最大法结 合起来求Q和V的加权平均最大。权数等于m/2,因子数有关。 (三)斜交旋转(oblique rotation) 如果因子间存在相关(斜交模型),理论上应考虑斜 交旋转以更好地形成简单结构和解释因子。由于没有 因子正交条件的限制,斜交旋转实际上就是尽可能将

15、 因素轴调整到各组变量附近或者更有利于解释因子的 位置。 f1f2f1f2x1x2x3x4x5x6五、因子得分 (一)因子得分的概念 前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。如果我们要使用这些因子做其他的研究,比如把得到的因子作为自变量来做回归分析,对样本进行分类或评价,这就需要我们对公共因子进行测度,即给出公共因子的值。计算因子得分 于是可以根据前面的公式,算出每 个学生的第一个因子和第二个因子 的大小,即算出每个学生的因子得 分f1和f2。 人们可以根据这两套因子得分对学 生分别按照文科和理科排序。当然 得到因子得分只是SPSS软件的一个 选项。因子分析和主成分分析的一些注意事项 可以看出,因子分析和主成分分析都依赖于原始变量 ,也只能反映原始变量的信息。所以原始变量的选择很 重要。 另外,如果原

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号