主成分分析与因子

上传人:tia****nde 文档编号:67667487 上传时间:2019-01-08 格式:PPT 页数:79 大小:690.51KB
返回 下载 相关 举报
主成分分析与因子_第1页
第1页 / 共79页
主成分分析与因子_第2页
第2页 / 共79页
主成分分析与因子_第3页
第3页 / 共79页
主成分分析与因子_第4页
第4页 / 共79页
主成分分析与因子_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《主成分分析与因子》由会员分享,可在线阅读,更多相关《主成分分析与因子(79页珍藏版)》请在金锄头文库上搜索。

1、第11章 主成分分析与因子分析,管理统计学 谢湘生 广东工业大学管理学院,11.1 主成分分析,主成分概念首先由 Karl Pearson在1901年引进,当时只对非随机变量来讨论的。1933年Hotelling将这个概念推广到随机变量。 在多数实际问题评估中,不同指标之间是有一定相关性。由于指标较多及指标间有一定的相关性,势必增加分析问题的复杂性。 主成分分析就是设法将原来指标重新组合成一组新的互不相关的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来的指标的信息。,引例,一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研

2、究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。,在进行主成分分析后,竟以97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入i、总收入变化率i以及时间t因素做相关分析,得到下表:,主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。 在社会经济的研究中,为了全面系统地分析和研究问题,

3、必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。,主成分分析是考察多个数值变量间相关性的一种多元统计方法。对所导出几个主成分(综合指标),要求尽可能多地保留原始变量的信息,且彼此间不相关。它是研究如何通过少数几个主成分来解释多变量的方差协方差结构。,一般地,利用主成分分析得到的主成分与原始变量之间有下列关系:,每一个主成分都是原始变量的线性组合 主成分的数目大大少于原始变量的数目 主成分保留了原始变量绝大多数信息 各主成分之间互不相关,11.1.2 数学描述,随机向量的方差-协方差矩阵,所谓随机向量是指其各分量中至少有一个

4、是随机变量的向量。由于在计量经济分析中不可避免地会涉及随机向量,因此下面简单介绍随机向量的特征。,设,是随机向量。则它的期望值为,X的方差(方差协方差矩阵)为,由于通过这一表达式计算得到的矩阵不仅包括方差也包括协方差,所以常称它为方差协方差矩阵,记为Var-Cov(X)(在不引起混淆的情况下也称为方差矩阵或协方差矩阵,记为Var(X) 或Cov(X).,样本描述,调查n个个体(样本)在这k (k n)个指标下的数值(或者用这k个指标来评价n个对象),就可得到数据矩阵Xkn:,对样本也可计算相应的协方差矩阵为,其中,是Cov(Xi, Xj)=E(Xi E(Xi)(Xj E(Xj)的极大似然估计量

5、,也可使用矩估计量,只需将上面的表达式中的系数由1/n换成1/(n 1)即可。,例如 对于二维数据,由极大似然法估计的协方差矩阵为,而由矩估计得到的协方差矩阵就是将上面矩阵中将系数换成1/2后的矩阵1。,协方差矩阵的意义在于它刻画了变量之间的相关性,主成分分析的目标就是求原来变量的线性组合Yi:,写成矩阵形式就是,或,而且使得 满足,Y的协方差矩阵Cov(Y)为对角矩阵,即诸Yi互不相关。,Y的方差尽可能大(即,对n个对象的分辨率尽可能强,或者说信息损失尽可能少)。比如使trCov(Y)=trCov(X),就没有“辨识能力”方面的损失。,然后,从Y1, Y2, , Yk中选出对方差贡献最大的部

6、分指标作为主成分。,11.1.3 几何解释示例,为了方便,我们在二维空间中讨论主成分的几何意义。 设有n个样品,每个样品有两个观测变量Xl和X2,在由变量Xl和X2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。,由图可以看出这n个样本点无论是沿着Xl 轴方向或X2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量Xl 的方差和X2 的方差定量地表示。显然,如果只考虑Xl和X2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。,如果我们将Xl 轴和X2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Yl和Y2。Yl和Y2是两个新变量。,平移、旋转坐标轴,旋转变换的目

7、的是为了使得n个样品点在Yl轴方向上的离 散程度最大,即Yl的方差最大。变量Yl代表了原始数据的绝大 部分信息,在研究某经济或管理问题时,即使不考虑变量Y2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Yl轴上,对数据中包含的信息起到了浓缩作用。,主成分分析的几何解释,平移、旋转坐标轴,主成分分析的几何解释,平移、旋转坐标轴,主成分分析的几何解释,平移、旋转坐标轴,Yl,Y2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在Yl轴上,而Y2轴上的方差很小。Yl和Y2称为原始

8、变量X1和X2的综合变量。Y简化了系统结构,抓住了主要矛盾。,为什么要根据方差确定主成分?,情形II下总分的方差为0,显然不能反映三个学生各科成绩各有所长的实际情形,而红色标记的变量对应的方差最大,可反映原始数据的大部分信息,11.1.4 有关矩阵知识的回顾,一、两个线性代数的结论,其中 是A的特征根。,1、若A是k阶实对称阵,则一定可以找到正交阵U,使,2、若上述矩阵A的各特征根所对应的单位特征向量为,则实对称阵 属于不同特征根所对应的特征向量构成的矩阵是正交的,即有,令,即,11.1.5 主成分的计算结论,(一) 第一主成分,设X的协方差阵为,由于x为非负定的对称阵,则有利用线性代数的知识

9、可得,必存在正交阵U,使得,或,其中1, 2, k为x的特征根,不妨假设1 2 k 。而U恰好是由特征根相对应的单位特征向量所组成的正交阵。,下面我们来看,是否由U的第一列元素为组合系数所构成的原始变量的线性组合是否有最大的方差。,设有k维单位向量,即,当且仅当a1 =u1时,即 时, 有最大的方差1。因为 。 如果第一主成分的信息不够,则需要寻找第二主成分。,(二) 第二主成分,在约束条件 下,寻找第二主成分,取,因为 所以约束条件 满足。,而,对k维单位向量 ,若 且 则有,所以如果取线性变换:,则 的方差就可达到第二大。,第一主成分,第二主成分,第 k 主成分,依此类推,写为矩阵形式:,

10、是协方差矩阵Cov(X)的单位特征根构成的矩阵,主成分的性质,一、均值,二、方差为所有特征根之和,说明主成分分析把k个随机变量的总方差分解成为k个不相关的随机变量的方差之和。 协方差矩阵的对角线上的元素之和等于特征根之和。,其中,精度分析,1)贡献率:第i个主成分的方差在全部方差中所占比重 ,称为它的贡献率。贡献率说明该主成分反映了原来k个指标多大的信息,有多大的综合能力 。,2)累积贡献率:前s个主成分共有多大的综合能力,用这s个主成分的方差和在全部方差中所占比重 来描述,称为累积贡献率。,我们进行主成分分析的目的之一是希望用尽可能少的主成分Y1,Y2,Ys(sk)代替原来的k个指标。到底应

11、该选择多少个主成分,在实际工作中,采用的主成分个数s的多少取决于它们是否能够反映原来变量85%以上的信息量,即当累积贡献率85%时, 主成分的个数就足够了。一些常见的问题中主成分为2到3个。,11.1.6 一个简单的等价算法,1. 数据的标准化,对样本数据矩阵Xkn中的数据Xij进行标准化处理:,处理后的数据构成的矩阵记为x,2. 两个重要结论,x的协方差矩阵Cov(x)的特征根和单位特征向量与原来数据X的协方差矩阵Cov(X)的特征根和单位特征向量相同.,由X的原来数据所求得的相关系数矩阵Rk k = 标准化后的协方差矩阵Cov(x),3. 主成分的简化算法,(1)由X的原始数据求出相关系数

12、矩阵Rk k;,(2)求R的特征根1, 2, k(从大到小排列)及一组相互正交的单位特征向量b1,b2,bk;,(3)取1, 2, q,使得累积贡献率满足,则 即为所求。,对于步骤(3),也可以按如下方式进行:,取所有特征根大于1的特征向量(设有s个)来计算主成分,即,注:这种方法计算得到的主成分个数,可能与(3)中不同,因而有可能累积贡献率达不到85%以上。,例 在企业经济效益的评价中,涉及的指标往往很多.为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发求主成分.在对我国部分省,市,自治区独立核算的工业企业的经济效益评价中,涉及到9项指标,x1100元固定资产原值实现

13、产值,X2100元固定资产原值实现利税,X3100元资金实现利税,X4100元工业总产值实现利税,X5100元销售收入实现利税,X6每吨标准煤实现工业产值,X7每千瓦时电力实现工业产值,X8全员劳动生产率,X9100元流动资金实现产值(数据见ex1102),Y1=0.928*x1+0.977*x2+0.935*x3+0.232*x4+0.460*x5 +0.934*x6+0.894*x7+0.959*x8+0.904*x9/(6.363)1/2 Y2=-0.329*x1+0.150*x2+0.310*x3+0.873*x4+0.568*x5 -0.210*x6-0.288*x7-0.01679

14、*x8-0.174*x9/(1.470)1/2,注: SPSS实际上计算的并非主成分的系数b, 而是因子分析的因子系数a, 两者之间的关系是 具体请见后面的因子分析.,11.2 因子分析,11.2.1 概述,因子分析(factor analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为(公共)因子。 例如,在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。,但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格等少数几个潜在的因子(例

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号