主成分分析模型－金锄头文库

资源描述

《主成分分析模型》由会员分享，可在线阅读，更多相关《主成分分析模型（33页珍藏版）》请在金锄头文库上搜索。

1、第二讲主成分分析模型与因子分析模型,主成分概念首先是由Karl Parson 在1901年引进的,不过当时只对非随机变量来讨论的. 1933年Hotelling将这个概念推广到随机向量. 在实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间是有一定相关性.由于指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性.主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息.,一、主成分分析模型,1.什么是主成分分析,这种将多个指标化为少数互相无关的综合指标的统

2、计方法就叫主成分分析或称为主分量分析.也是数学上处理降维的一种方法.例如,某人要做一件上衣要测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、肩厚等等十几个指标，但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多，而是从多种指标中综合成几个少数的综合指标，做为分类的型号，利用主成分分析将十几项指标综合成3项指标，一项是反映长度的指标，一项是反映胖瘦的指标，一项是反映特体的指标。在商业经济中用主成分分析可将复杂的一些数据综合成几个商业指数形式，如物价指数、生活费用指数、商业活动指数等等。,主成分分析综合评价法具有以下优点：第一，可消除评价指标之间的相关影响。因为主成分分析在对原指标变量进行变换

3、后形成了彼此相互独立的主成分，而且实践证明指标间相关程度越高，主成分分析效果越好。第二，可减少指标选择的工作量，对于其它评价方法，由于难以消除评价指标间的相关影响，所以选择指标时要花费不少精力，而主成分分析由于可以消除这种相关影响，所以在指标选择上相对容易些。第三、主成分分析中各主成分是按方差大小依次排列顺序的，在分析问题时，可以舍弃一部分主成分，只取前面方差较大的几个主成分来代表原变量，从而减少了计算工作量。,2、基本思想主成分分析就是设法将原来众多具有一定相关性的指标（比如p个指标），重新组合成一组相互无关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合，作为新的综

4、合指标，但是这种线性组合，如果不加限制，则可以有很多，我们应该如何去选取呢？如果将选取的第一个线性组合即第一个综合指标记为F1，自然希望F1尽可能多的反映原来指标的信息，这里的“信息”用什么来表达？最经典的方法就是用F1的方差来表达，即Var(F1)越大，表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的，故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息，再考虑选取F2即选第二个线性组合。,为了有效地反映原来信息，F1已有的信息就不需要再出现在F2中，用数学语言表达就是要求Cov(F1,F2)=0，称F2为第二主成分，依此类推，可以制造出第三、四第p个主

5、成分。不难想像这些主成分之间不仅不相关，而且它们的方差依次递减。因此，在实际工作中，就挑选前几个最大的主成分(一般取信息量包含85%以上的前几个指标），虽然这样做会损失一部分信息，但是由于它使我们抓住了主要矛盾，并从原始数据中进一步提取了某些新的信息，因而在某些实际问题的研究中得益比损失大，这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。,3、数学模型设有n个样品，每个样品观测项指标（变量）：X1，X2，Xp，得到原始资料数据矩阵：,用数据矩阵X的p个向量（即p个指标向量）X1，Xp作线性组合（即综合指标向量）为：,上述方程要求：,且系数由下列原则确定：（1）Fi与Fj

6、（）不相关；（2）F1是X1，X2，Xp的一切线性组合中方差中最大的，F2是与F1不相关的X1，X2，Xp的一切线性组合中方差中最大的，Fp是F1，F2，Fp-1都不相关的X1，X2，Xp的一切线性组合中方差中最大的。可以证明，满足上述条件的主成分F1，F2，Fp线性组合中的系数向量恰好是X的协方差矩阵的特征值对应的特征向量。也就是说，数学上可以证明使Var(F1)达到最大，这个最大值是在的第一个特征值所对应特征向量处达到。,依此类推，使Var(Fp)达到最大，这个最大值是在的第p个特征值所对应特征向量处达到。这里要说明两点：一个是数学模型中为什么作线性组合？基于两种原因: 1)数学

7、上容易处理;2)在实践中效果好。另一个需要说明的是每次主成分的选取使Var(Fi)最大，如果不加限制就可使Var(Fi) ，则就无意义了，而常用的要求是：,设的特征根分别为：,定义：称第一主成分的贡献率为，由于，所以。因此第一主成分的贡献率就是第一主成分的方差在全部方差中的比值。这个比值越大，表明第一主成分综合X1，Xp信息的能力越强。前两个主成分的累计贡献率定义为，前k个主成分的累计贡献率定义为。如果前k个主成分的贡献率达到85%，表明取前k个主成分包含了全部测量指标所具有的信息，这样既减少了变量的个数又便于对实际问题的分析和研究。,值得指出的是：当协方差阵未知时，可用

8、其估计值S（样本协方差阵）来代替。设原始资料矩阵为：,则,而相关系数矩阵：,显然，当原始变量X1，Xp标准化后，则,实际应用时，往往指标的量纲不同，所以在计算之前先消除量纲的影响，而将原始数据标准化，这样一来S和R相同。因此一般求R的特征根和特征向量，并且不妨取。因为这时的R与只差一个系数，显然与的特征根相差n倍，但它们的特征向量不变，它并不影响求主成分。,4、主成分分析的步骤,（1）将原始数据标准化（目的是消除不同量纲、正逆指标的影响）设原始数据矩阵为,按下式进行标准化（其中Y为标准化后的数据）,（2）计算相关系数矩阵R,（3）求相关系数矩阵的特征根及对应的特征向量,（4）写出主

9、成分,（5）将k个主成分进行综合，综合成单个指标，并得出最后排序结果主成分进行综合常用的有以下三种方法。,将k个主成分综合成单指标评价，通常有以下三种方法。第一种方法，将累计贡献率达到85%的k个主成分F1，F2，Fk做线性组合，并以每个主成分Fi的方差贡献率作为权数构造一个综合评价函数：以v为评估指数，依据对每个评价对象计算出的v值大小进行综合排序。,第二种方法，只用第一个主成分作评估指数，即v= F1。理由是，第一主成分与原始变量X1，X2，Xp综合相关度最强，如果想以一个综合变量来代替原来所有变量，则最佳选择应该是F1；另一方面由于第一主成分F1对应于数据变异最大的方向也就是使数

10、据信息损失最小，精度最高的一维综合变量。但是值得注意的是使用这种方法是有前提条件的，即要求所有评估指标变量都是正相关的，也就是说对所有变量均有同增、同减的趋势。,第三种方法，根据变量的重要性程度不同赋予不同的权数，重要的变量权数取得大些，不重要的变量权数取得相对小些。即令这时因此，1p个变量的方差分别为：由于一部分在系统评估中更为重要的变量被赋予更大的权数，因此在这些指标上，变量的变差被拉长，于是在求第一主成分时，这些指标会得到更多的重视。然后，对标准化又加权后的数据阵计算协方差矩阵，求的最大特征值和特征向量，令，最后按进行排序比较或分类划级。,二、因子分析模型,1、什

11、么是因子分析因子分析是主成分分析的推广和发展。它也是将具有错综复杂关系的变量（或样品）综合为数量较少的几个因子，以再现原始变量与因子之间的相互关系，同时根据不同因子还可以对变量进行分类，它也是属于多元分析中处理降维的一种统计方法。例如，某公司对100名招聘人员的知识和能力进行测试，出了50道题的试卷，其内容包括的面较广，但总的来讲可归纳为六个方面：语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等，我们将每一方面称为因子，显然这里所说的因子不同于回归分析中因素，,因为前者是比较抽象的一种概念。而后者有着极为明确的实际意义，如人口密度、工业总产值、产量等。

12、假设100人测试的分数为，可以用上述六个因子表示成线性函数：,其中F1，F2，F6表示六个因子，它对所有Xi是共有的因子，通常称为公共因子，它们的系数ai1, ，ai6称为因子载荷，它表示第i个应试人员在六个因子方面的能力。i是第i个应试人的能力和知识不能被前六个因子包括的部分，称为特殊因子，通常假定，仔细观察这个模型与回归模型在形式上有些相似，实质很不同。,这里的F1，F6的值是未知的，并且有关参数的统计意义更不一样。因子分析的任务，首先是估计出aij和方差，然后将这些抽象因子Fi赋予实际背景的解释或说法以命名。利用综合出的少数因子，以再现原始变量和因子之间的相互关系，以达到降维的目的

13、。,2、基本思想因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究，找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系，但在这里，这少数几个随机变量是不可观测的，通常称为因子。然后根据相关性的大小把变量分组，使得同组内的变量之间相关性较高，但不同组的变量相关性较低。,3、数学模型（正交因子模型）,用矩阵表示为： X=AF+,且满足 1)mp 2)Cov(F,)=0 即F和是不相关的 3),即F1，Fm不相关且方差皆为1,即1，p不相关，且方差不同,其中是可实测的p个指标所构成p维随机向量，是不可观测的向量。F称为X的公共因子或潜因子，即前面所说的综合变量，可以把它们理

14、解为在高维空间中的互相垂直的m个坐标轴；aij称为因子载荷是第i个变量在第j个公共因子上的负荷，如果把变量Xi看成m维因子空间中的一个向量，则aij表示Xi在坐标轴Fj上的投影，矩阵A称为因子载荷矩阵；称为X的特殊因子，通常理论上要求的协方差阵是对角阵，中包括了随机误差。,因子分析的目的就是通过模型X=AF+以F代替X，由于mp，从而达到简化变量维数据的愿望。因子分析和主成分分析有许多相似这处，在求解过程中二者都是从一个协方差阵出发，但这两种模型是有区别的。主成分分析的数学模型实质上是一种变换，而因子分析模型是描述原指标X协方差阵结构的一种模型，当m=p时，就不能考虑，此时因子分析也对应一种

15、变量变换，但实际应用中，m都小于p，且为经济起见总是越小越好。另外在主成分分析中每个主成分相应的系数aij是唯一确定的，与此相反在因子分析中每个因子的相应系数不是唯一的，即因子载荷不是唯一的。从因子分析的数学模型上看，它与多变量回归也有类似之处，但本质的区别是因子分析模型作为“自变量”的F是不可观测的。,4、因子模型中公共因子、因子载荷和变量共同度的统计意义假定因子模型中，各变量的公共因子、特殊因子都已经是标准化（均值为0、方差为1）的变量（1）因子载荷的统计意义已知模型：,两端右乘Fj得：,于是：,在标准化下有：,因为各因子不相关，所以相关系数为0 故因子载荷aij的统计意义就是第i个变量与第j个公共因子的相关系数即表示Xi依赖Fj的份量（比重）。因此用统计学的术语应该叫着权，但由于历史原因，心理学家将它叫着载荷，即表示第i个变量在第j个公共因子上的负荷，它反映了第i个变量在第j个公共因子上的相对重要性。（2）变量共同度的统计意义所谓变量共同度定义为因子载荷阵A中第i行元素的平方和，即,为了说明它的统计意义，将下式两边求方差，即,由于Xi已经标准化了，所以有,此式说明了Xi的方差由两部分组成：第

展开阅读全文