主成分分析法的原理应用及计算步骤

资源描述

《主成分分析法的原理应用及计算步骤》由会员分享，可在线阅读，更多相关《主成分分析法的原理应用及计算步骤（18页珍藏版）》请在金锄头文库上搜索。

1、一、概述在处理信息时，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠，例如，高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性；学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。为了解决这些问题，最简单和最直接的解决方案是削减变量的个数，但这必然又会导致信息丢失和信息不完整等问题的产生。为此，人们希望探索一种更为有效的解决方法，它既能大大减少参与数据建模的变量个数，同时也不会造成信息的大量丢失。主成分分析正式这样一种

2、能够有效降低变量维数，并已得到广泛应用的分析方法。主成分分析以最少的信息丢失为前提，将众多的原有变量综合成较少几个综合指标，通常综合指标（主成分）有以下几个特点：主成分个数远远少于原有变量的个数原有变量综合成少数几个因子之后，因子将可以替代原有变量参与数据建模，这将大大减少分析过程中的计算工作量。主成分能够反映原有变量的绝大部分信息因子并不是原有变量的简单取舍，而是原有变量重组后的结果，因此不会造成原有变量信息的大量丢失，并能够代表原有变量的绝大部分信息。主成分之间应该互不相关通过主成分分析得出的新的综合指标（主成分）之间互不相关，因子参与数据建模能够有效地解决变量信息重叠、多重共线性

3、等给分析应用带来的诸多问题。主成分具有命名解释性总之，主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子，如何使因子具有一定的命名解释性的多元统计分析方法。二、基本原理主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标XI, X2,，XP （比如p个指标），重新组合成一组较少个数的互不相关的综合指标Fm来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp所代表的信息，又能保证新指标之间保持相互无关（信息不重叠）。设 F1 表示原变量的第一个线性组合所形成的主成分指标，即, 由数学知识可知，每一个主

4、成分所提取的信息量可用其方差来度量，其方差Var(F 1)越大，表示F1包含的信息越多。常常希望第一主成分 F1所含的信息量最大，因此在所有的线性组合中选取的F1应该是X1, X2,，XP的所有线性组合中方差最大的，故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息，再考虑选取第二个主成分指标F2,为有效地反映原信息，F1已有的信息就不需要再出现在F2中，即F2与F1要保持独立、不相关，用数学语言表达就是其协方差Cov(F1, F2)=0，所以F2是与F1不相关的X1，X2，XP 的所有线性组合中方差最大的，故称F2为第二主成分，依此类推构造出的F1、F2、Fm为原变

5、量指标X1、X2XP第一、第二、第 m 个主成分。F = a X + a X + + a X1 11 1 12 21 p pF = a X + a X + + a XV 2 21 1 22 22 p pF = a X + a X + + a Xm m1 1 m 2 2mp p根据以上分析得知：(1) Fi与Fj互不相关，即Cov(Fi，Fj) = 0,并有Var(Fi)二ai Z ai，其中Z为X的协方差阵(2) F1是X1，X2，Xp的一切线性组合(系数满足上述要求) 中方差最大的，即Fm是与F1, F2,，Fm-1都不相关的X1，X2，XP的所有线性组合中方差最大者。Fl, F2,，Fm

6、（mWp）为构造的新变量指标，即原变量指标的第一、第二、第m个主成分。由以上分析可见，主成分分析法的主要任务有两点：（1）确定各主成分Fi （i=1，2，m）关于原变量Xj （j=1，2，p）的表达式，即系数（i=1，2，m；j=1， 2，p）。从数学上可以证明，原变量协方差矩阵的特征根是主成分的方差，所以前m个较大特征根就代表前m个较大的主成分方差值；原变量协方差矩阵前 m 个较大的特征值（这样选取才能保证主成分的方差依次最大）所对应的特征向量就是相应主成分Fi表达式的系数，为了加以限制，系数启用的是对应的单位化的特征向量，即有= 1。（2）计算主成分载荷，主成分载荷是反映主成分

7、 Fi 与原变量Xj 之间的相互关联程度：三、主成分分析法的计算步骤主成分分析的具体步骤如下：（ 1）计算协方差矩阵计算样品数据的协方差矩阵：工=（sij）pp，其中i， j=1， 2，p（2）求出工的特征值及相应的正交化单位特征向量工的前m个较大的特征值12m0,就是前m个主成分对应的方差，对应的单位特征向量就是主成分Fi的关于原变量的系数，则原变量的第i个主成分Fi为：Fi =X主成分的方差（信息）贡献率用来反映信息量的大小，为：（3）选择主成分最终要选择几个主成分，即F1,F2,Fm中m的确定是通过方差（信息）累计贡献率G（m）来确定当累积贡献率大于85%时，就认为能足够反映原来变量的信

8、息了对应的m就是抽取的前m个主成分。（ 4）计算主成分载荷主成分载荷是反映主成分 Fi 与原变量 Xj 之间的相互关联程度，原来变量Xj （j=l，2，p）在诸主成分Fi （i=l，2，m）上的荷载 lij（ i=1， 2， m； j=1， 2 ， p）。：在 SPSS 软件中主成分分析后的分析结果中，“成分矩阵”反应的就是主成分载荷矩阵。（5）计算主成分得分计算样品在m个主成分上的得分：i = 1, 2,，m实际应用时，指标的量纲往往不同，所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数据变换：x - x.x* = T ji

9、 = 1,2,., n; j = 1,2,., pij sj其中：,根据数学公式知道，任何随机变量对其作标准化变换后，其协方差与其相关系数是一回事,即标准化后的变量协方差矩阵就是其相关系数矩阵。另一方面，根据协方差的公式可以推得标准化后的协方差就是原变量的相关系数，亦即，标准化后的变量的协方差矩阵就是原变量的相关系数矩阵。也就是说，在标准化前后变量的相关系数矩阵不变化。根据以上论述，为消除量纲的影响，将变量标准化后再计算其协方差矩阵，就是直接计算原变量的相关系数矩阵，所以主成分分析的实际常用计算步骤是：计算相关系数矩阵求出相关系数矩阵的特征值及相应的正交化单位特征向量选择主成分计

10、算主成分得分总结:原指标相关系数矩阵相应的特征值i为主成分方差的贡献，方差的贡献率为，越大，说明相应的主成分反映综合信息的能力越强，可根据i的大小来提取主成分。每一个主成分的组合系数(原变量在该主成分上的载荷)就是相应特征值i所对应的单位特征向量。主成分分析法的计算步骤1、原始指标数据的采集p维随机向量x = (xl,X2,.,Xp)T)n 个样品 xi = (xi1,xi2,.,xip)T,i=l,2,n,np,构造样本阵，对样本阵元进行如下标准化变换：% =九叼播= 1,2, .,p(5寸其中，得标准化阵Z。2、对标准化阵Z求矩阵o r芒Z其中，。3、解样本相关矩阵R的特征方程得p

11、个特征根，确定主成分按确定m值，使信息的利用率达85%以上，对每个入j, j=l,2,.,m,解方程组Rb =入jb得单位特征向量。4、将标准化后的指标变量转换为主成分Uij =洛磅=1, 2, .,772U1称为第一主成分,U2称为第二主成分，,Up称为第p主成分。5、对m个主成分进行综合评价对m个主成分进行加权求和，即得最终评价值，权数为每个主成分的方差贡献率。一、主成分分析基本原理概念：主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看，这是一种降维处理技术。思路：一个研究对象，往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性，利用原变

12、量之间的相关关系，用较少的新变量代替原来较多的变量，并使这些少数变量尽可能多的保留原来较多的变量所反应的信息，这样问题就简单化了。原理：假定有n个样本，每个样本共有p个变量，构成一个nXp阶的数据矩阵，x1px2px x1112xxX =?i22x xn1n 2np记原变量指标为Xl, x2, xp，设它们降维处理后的综合指标，即新变量为zl， z2， z3，zm(mWp)，则z = l x +1 x + +1 x111 112 21 p pz = 1 x +1 x HF1 xV221 122 22 p pz = 1 x +1 x + +1 xmm1 1m 2 2mp p系数lij的确定

13、原则：zi与zj (iHj； i, j=1, 2,，m)相互无关;z1是xl, x2,，xP的一切线性组合中方差最大者，z2是与 z1不相关的xl, x2,，xP的所有线性组合中方差最大者； zm 是与zl, z2, ，zm1都不相关的xl, x2,xP ,的所有线性组合中方差最大者。新变量指标zl, z2,，zm分别称为原变量指标xl, x2,， xP的第l,第2,，第m主成分。从以上的分析可以看出,主成分分析的实质就是确定原来变量 xj （j=l, 2，p）在诸主成分zi （i=l, 2,，m）上的荷载lij（i=l, 2,，m； j=l, 2，p）。从数学上可以证明，它们分别是相关矩阵m

14、个较大的特征值所对应的特征向量。二、主成分分析的计算步骤l、计算相关系数矩阵rr rii121 prr rR =21222 prr rp1p 2pp2,p）为原变量xirij（i,j=l,与xj的相关系数，rij=rji,其计算公式为2、计算特征值与特征向量解特征方程，常用雅可比法(Jacobi)并使其按大小顺序排列；分别求出对应于特征值的特征向量=1，即其中表示向量的第 j 个分量。3、计算主成分贡献率及累计贡献率求出特征值，要求九i贡献率： kk=1(i = 1,2,L , p)为九k毛1一(i = 1,2, L, p)累计贡献率：刀九kk=1一般取累计贡献率达 85%-95%的特征值第1、第2、第m (mWp)个主成分。4、计算主成分载荷I = p(z , x )=、九 e (i,j = 1,2, L, p)ji ji ij所对应的5、各主成分得分z11z21z12z22z1mz2mz z z _n1n 2nm三、主成分分析法

展开阅读全文

主成分分析法的原理应用及计算步骤

最新文档