主成分因子分析

上传人:re****.1 文档编号:511492891 上传时间:2022-08-19 格式:DOCX 页数:7 大小:222.10KB
返回 下载 相关 举报
主成分因子分析_第1页
第1页 / 共7页
主成分因子分析_第2页
第2页 / 共7页
主成分因子分析_第3页
第3页 / 共7页
主成分因子分析_第4页
第4页 / 共7页
主成分因子分析_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《主成分因子分析》由会员分享,可在线阅读,更多相关《主成分因子分析(7页珍藏版)》请在金锄头文库上搜索。

1、一 主成分分析法的原理主成分分析法是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法 这些综合指标通常被称为主成分,主成分相比原始变量而言,具有更多的优越性,即在研究许多复杂问题时不至于丢失太多信息,从而使我们更容易抓住事物的主要矛盾,提高分析效率 该方法的核心就是通过主成分分析,选择n个主分量Y1,Y2,Yn,其中Yi (i=1,2, ,n)为第i个主成分的得分,以主分量Yi 的方差贡献率ai 作为权数,构造综合评价函数:Y=a1Y2+a2Y2+ +anYn,这样当我们把第i个主成分的得分算出来后,便可以很快求出综合得分,并且按照得分的高低来排序 同时我们可以

2、根据第i个主成分的得分来衡量某地区或某企业在第i个主成分所代表的经济效益方面的地位二、主成分分析的基本思想 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太 多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也

3、存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构 的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线 性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始 变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主 要矛盾。 上述想法可进一步概述为:设

4、某科普效果评估要素涉及个指标,这指标构 成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过 对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引

5、向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科 普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 三、主成分分析方法的原理(一)成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处

6、理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 (二)主成分分析的基本思路即:在设计指标体系时尽可能多的选择指标, 然后用一种方这些指标的特点综合而成少数几个新的指标, 这几个新指标既能够尽可能多地反映原来的指标的信息, 而且彼此间又差异显著。如果从数学上对主成分分析进行解释,即为:设有p个原始指标:X1, X2,X3, Xp, 用来对n个单位进行评价, 则共有np个数据。主成分分析的目的是要将这些原始指标组合成新的相互独立的综合指标: y1, y2,y3, yp, 这些综合指标表现为原始指标的线性函数:y1=l11X1+l12X2+l

7、1pXp,y2=l21X1+l22X2+l2pXpYp=lp1X1+lp2X2lppXp通过数学计算可将p个原始指标的总方差分解为p个不相关的综合指标的方差之和 1+ 2+ p, 并使第一个综合指标y1方差达到最大(贡献率最大), 第二个综合指标y2的方差次大, 以此类推,一般前面几个综合指标y1、 y2、 yr(rp) 即可包含总方差中绝大部分,也就是说, 主成分分析可以使原始指标的大部分方差“ 集中” 于少数几个主成分(综合指标)上, 通过对这几个主成分的分析来实现对总体的综合评价。(三)采用主成分分析法进行综合评价的原因第一, 主成分分析的降维处理技术能较好地解决多指标评价的要求。第二,

8、 主成分分析进行多指标综合评价时的权数处理与其他方法相比有很大的区别。主成分分析在进行多指标综合评价时, 权数是从信息量和系统效应角度来确定的。在数理统计中, 信息量通常是用离差平方和或方差来表示的。主成分分析计算综合评价时用的是信息量权数。信息量权数是从指标所含区分样本的信息量多少来确定重要程度的。(四)用主成分分析法进行多指标综合评价的几个优点消除了评价指标间的相关影响。另外, 主成分分析用于多指标综合评价是对彼此独立的分量进行合成, 正适于采用加权线性相合成方法, 不必在合成方法选择上多做工作。减少了指标选择的工作量。在主成分分析中由于可以消除评价指标间的相关影响, 因而在指标选择上相对

9、容易些。但主成分分析法确定评价指标的原则是宁多勿少, 尽可能地全面。主成分分析可以保留原始评价指标的大部分信息。如果指标选择不够全面, 就会先天不足,再好的分析方法也会失去效用。在主成分分析将原始变量变换为成分的过程中, 同时形成了反映成分和指标包含信息量的权数, 以计算综合评价值, 这比人为地确定权数, 工作量少些, 也有助于保证客观地反映样本间的现实关系。此外, 随着电子计算机技术的发展, SAS、 SPSS等商品化统计分析软件的推广与应用, 使得主成分分析在各类综合评价实践中的广泛应用成为现实。四、主成分分析的主要作用概括起来说,主成分分析主要由以下几个方面的作用。 1主成分分析能降低所

10、研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(mp),而低维的Y空间代替 高维的x空间所损失的信息很少。即:使只有一个主成分Yl(即 m1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。 2有时可通过因子负荷aij的结论,弄清X变量间的某些关系。 3多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取

11、前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。 4由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。 5用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。 主成分分析的主要目的二 主成分分析法应用实例现以我国长江流域各省某年国有及

12、规模以上非国有工业企业主要经济效益指标为基础,对企业经济效益进行综合评价(如表1)1 原始数据的标准化处理为了解决量纲不同不能进行比较的问题,我们应对原始数据进行标准化,消除量纲使其具有可比性 设有n个样本和p个指标,可得数据矩阵X=(Xij) np,其中i=1,2,n,j=1,2,p,用Z-score法对数据进行标准化变换Z=(xij-xj )/Sj,其中xj为第j项指标的平均值,Sj 为第j项指标的标准差。用SPSS统计软件进行标准化操作可得标准化的数据(如表2)2 求指标数据的相关矩阵在经过标准化数据处理以后,便可以很容易的得到指标数据的相关系数矩阵R,形式如下:具体相关系数,也可以通过

13、SPSS软件包计算生成3 确定主成分确定主成分可由特征方程式I-R =0,求得p个特征根在设计指标体系时尽可能多的选择指标, 然后用一种方这些指标的特点综合而成少数几个新的指标, 这几个新指标既能够尽可能多地反映原来的指标的信息, 而且彼此间又差异显著。如果从数学上对主成分分析进行解释,即为:设有p个原始指标:X1, X2,X3, Xp, 用来对n个单位进行评价, 则共有np个数据。主成分分析的目的是要将这些原始指标组合成新的相互独立的综合指标: y1, y2,y3, yp, 这些综合指标表现为原始指标的线性函数:y1=l11X1+l12X2+l1pXp,y2=l21X1+l22X2+l2pX

14、pYp=lp1X1+lp2X2lppXp通过数学计算可将p个原始指标的总方差分解为p个不相关的综合指标的方差之和 1+ 2+ p, 并使第一个综合指标y1方差达到最大(贡献率最大), 第二个综合指标y2的方差次大, 以此类推,一般前面几个综合指标y1、 y2、 yr(rp) 即可包含总方差中绝大部分,也就是说, 主成分分析可以使原始指标的大部分方差“ 集中” 于少数几个主成分(综合指标)上, 通过对这几个主成分的分析来实现对总体的综合评价。此时,Yi 称为第一主成分,Y2 称为第二主成分,以此类推Yp称为第p主成分进行主成分分析的目的之一是为了减少变量的个数,一般不会取p个主成分,而是取个mp

15、,具体可视实际情况而定,通常以所取m使得累积贡献率达到80%以上为宜(1) 基于SPSS软件包生成的总方差解释(以本文所给数据为例)表明从初始解中提取了两个综合因子,其方差总贡献率为80.958%,即可以描述原变量信息达到80.958%(见表4)(2)基于SPSS软件包生成的因子成分得分系数矩阵和模型,从而有线性组合模型:Y1 =-0.833X1 +0.306X2 +0.804X3 +0.781X4-0.896X5 +0.177X6 +0.886X7Y2 =0.318X1 +0.869X2 -0.382X3 +0.299X4-0.378X5 +0.825X6 +0.298X7(3)解释综合因子的经济含义 综合因子Y1 中X1,X3,X5,X7 的系数绝对值较大,为0.833,0.804,0.896和0.886,分别代表工业增加值率,资产负载率,工业成本费用率和产品销售率,所以综合因子Y1 反映了企业在经营活动中降低中间消耗的能力,可以概括为企业的经济效益 综合因子Y2 中X2 和X6 的系数较大,为0.869和0.825,分别代表总资产贡献率和全员劳动生产率,所以综合因子Y2 代表了企业经营活动对社会的贡献 我们可以根据上述两个线性组合模型带入标准化的原始数据计算各个地区的综合因子得分,因为综合因子Y1 和Y2 对方差贡献率分别为52.325%和28.633%,可以根据公式(

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号