主成分分析模型课件

资源描述

《主成分分析模型课件》由会员分享，可在线阅读，更多相关《主成分分析模型课件（33页珍藏版）》请在金锄头文库上搜索。

1、第二讲第二讲主成分分析模型与因子分析模型主成分分析模型与因子分析模型主成分概念首先是由主成分概念首先是由Karl Parson Karl Parson 在在19011901年年引进的引进的, ,不过当时只对非随机变量来讨论的不过当时只对非随机变量来讨论的. . 19331933年年HotellingHotelling将这个概念推广到随机向量将这个概念推广到随机向量. . 在实际问题中在实际问题中, ,研究多指标研究多指标( (变量变量) )问题是经常问题是经常遇到的遇到的, ,然而在多数情况下然而在多数情况下, ,不同指标之间是有一不同指标之间是有一定相关性定相关性. .由于指标较多再加

2、上指标之间有一定的由于指标较多再加上指标之间有一定的相关性相关性, ,势必增加了分析问题的复杂性势必增加了分析问题的复杂性. .主成分分主成分分析就是设法将原来指标重新组合成一组新的互相析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标无关的几个综合指标来代替原来指标, ,同时根据实同时根据实际需要从中可取几个较少的综合指标尽可能多地际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息反映原来指标的信息. .一、主成分分析模型一、主成分分析模型1.1.什么是主成分分析什么是主成分分析主成分分析模型这种将多个指标化为少数互相无关的综合指标的统这种将多个指标化为少数

3、互相无关的综合指标的统计方法就叫主成分分析或称为主分量分析计方法就叫主成分分析或称为主分量分析.也是数也是数学上处理降维的一种方法学上处理降维的一种方法.例如例如,某人要做一件上衣某人要做一件上衣要测量很多尺寸要测量很多尺寸,如身长、袖长、胸围、腰围、肩如身长、袖长、胸围、腰围、肩宽、肩厚等等十几个指标，但某服装厂要生产一批宽、肩厚等等十几个指标，但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多，而是从新型服装绝不可能把尺寸的型号分得过多，而是从多种指标中综合成几个少数的综合指标，做为分类多种指标中综合成几个少数的综合指标，做为分类的型号，利用主成分分析将十几项指标综合成的型号，利用主

4、成分分析将十几项指标综合成3项项指标，一项是反映长度的指标，一项是反映胖瘦的指标，一项是反映长度的指标，一项是反映胖瘦的指标，一项是反映特体的指标。在商业经济中用主指标，一项是反映特体的指标。在商业经济中用主成分分析可将复杂的一些数据综合成几个商业指数成分分析可将复杂的一些数据综合成几个商业指数形式，如物价指数、生活费用指数、商业活动指数形式，如物价指数、生活费用指数、商业活动指数等等。等等。主成分分析模型主成分分析综合评价法具有以下优点：第一，可消主成分分析综合评价法具有以下优点：第一，可消除评价指标之间的相关影响。因为主成分分析在对除评价指标之间的相关影响。因为主成分分析在对原指标变量进行

5、变换后形成了彼此相互独立的主成原指标变量进行变换后形成了彼此相互独立的主成分，而且实践证明指标间相关程度越高，主成分分分，而且实践证明指标间相关程度越高，主成分分析效果越好。第二，可减少指标选择的工作量，对析效果越好。第二，可减少指标选择的工作量，对于其它评价方法，由于难以消除评价指标间的相关于其它评价方法，由于难以消除评价指标间的相关影响，所以选择指标时要花费不少精力，而主成分影响，所以选择指标时要花费不少精力，而主成分分析由于可以消除这种相关影响，所以在指标选择分析由于可以消除这种相关影响，所以在指标选择上相对容易些。第三、主成分分析中各主成分是按上相对容易些。第三、主成分分析中各主成分是

6、按方差大小依次排列顺序的，在分析问题时，可以舍方差大小依次排列顺序的，在分析问题时，可以舍弃一部分主成分，只取前面方差较大的几个主成分弃一部分主成分，只取前面方差较大的几个主成分来代表原变量，从而减少了计算工作量。来代表原变量，从而减少了计算工作量。主成分分析模型2、基本思想、基本思想主成分分析就是设法将原来众多具有一定相关主成分分析就是设法将原来众多具有一定相关性的指标（比如性的指标（比如p个指标），重新组合成一组相互个指标），重新组合成一组相互无关的综合指标来代替原来指标。通常数学上的处无关的综合指标来代替原来指标。通常数学上的处理就是将原来理就是将原来p个指标作线性组合，作为新的综合

7、个指标作线性组合，作为新的综合指标，但是这种线性组合，如果不加限制，则可以指标，但是这种线性组合，如果不加限制，则可以有很多，我们应该如何去选取呢？如果将选取的第有很多，我们应该如何去选取呢？如果将选取的第一个线性组合即第一个综合指标记为一个线性组合即第一个综合指标记为F1，自然希望，自然希望F1尽可能多的反映原来指标的信息，这里的尽可能多的反映原来指标的信息，这里的“信息信息”用什么来表达？最经典的方法就是用用什么来表达？最经典的方法就是用F1的方差来的方差来表达，即表达，即Var(F1)越大，表示越大，表示F1包含的信息越多。包含的信息越多。因此在所有的线性组合中所选取的因此在所有的线性组

8、合中所选取的F1应该是方差最应该是方差最大的，故称大的，故称F1为第一主成分。如果第一主成分不足为第一主成分。如果第一主成分不足以代表原来以代表原来p个指标的信息，再考虑选取个指标的信息，再考虑选取F2即选第即选第二个线性组合。二个线性组合。主成分分析模型为了有效地反映原来信息，为了有效地反映原来信息，F1已有的信息就不需要已有的信息就不需要再出现在再出现在F2中，用数学语言表达就是要求中，用数学语言表达就是要求Cov(F1,F2)=0，称，称F2为第二主成分，依此类推，可以为第二主成分，依此类推，可以制造出第三、四制造出第三、四第第p个主成分。不难想像这些个主成分。不难想像这些主成分之间不仅

9、不相关，而且它们的方差依次递减。主成分之间不仅不相关，而且它们的方差依次递减。因此，在实际工作中，就挑选前几个最大的主成分因此，在实际工作中，就挑选前几个最大的主成分(一般取信息量包含一般取信息量包含85%以上的前几个指标），虽以上的前几个指标），虽然这样做会损失一部分信息，但是由于它使我们抓然这样做会损失一部分信息，但是由于它使我们抓住了主要矛盾，并从原始数据中进一步提取了某些住了主要矛盾，并从原始数据中进一步提取了某些新的信息，因而在某些实际问题的研究中得益比损新的信息，因而在某些实际问题的研究中得益比损失大，这种既减少了变量的数目又抓住了主要矛盾失大，这种既减少了变量的数目又抓住了主要矛

10、盾的做法有利于问题的分析和处理。的做法有利于问题的分析和处理。主成分分析模型3、数学模型设有设有n个样品，每个样品观测项指标（变量）：个样品，每个样品观测项指标（变量）：X1，X2，Xp，得到原始资料数据矩阵：，得到原始资料数据矩阵：用数据矩阵用数据矩阵X的的p个向量（即个向量（即p个指标向量）个指标向量）X1，Xp作线性组合（即综合指标向量）为：作线性组合（即综合指标向量）为：上述方程要求：上述方程要求：主成分分析模型且系数由下列原则确定：且系数由下列原则确定：（1）Fi与与Fj（）不相关；）不相关；（2）F1是是X1，X2，Xp的的一一切切线线性性组组合合中中方方差差中中最最大大的的，

11、F2是是与与F1不不相相关关的的X1，X2，Xp的的一一切切线线性性组组合合中中方方差差中中最最大大的的，Fp是是F1，F2，Fp-1都都不不相相关关的的X1，X2，Xp的的一一切切线线性性组组合中方差中最大的。合中方差中最大的。可以证明，满足上述条件的主成分可以证明，满足上述条件的主成分F1，F2，Fp线性组合中的系数向量线性组合中的系数向量恰好是恰好是X的协方差矩阵的协方差矩阵的特征值对应的特征向量。也就是的特征值对应的特征向量。也就是说，数学上可以证明使说，数学上可以证明使Var(F1)达到最大，这个最大达到最大，这个最大值是在值是在的第一个特征值所对应特征向量处达到。的第一个特征值

12、所对应特征向量处达到。主成分分析模型依此类推，使依此类推，使Var(Fp)达到最大，这个最大值是在达到最大，这个最大值是在的第的第p个特征值所对应特征向量处达到。个特征值所对应特征向量处达到。这里要说明两点：一个是数学模型中为什么作这里要说明两点：一个是数学模型中为什么作线性组合？基于两种原因线性组合？基于两种原因: 1)数学上容易处理数学上容易处理;2)在实践中效果好。另一个需要说明的是每次主成在实践中效果好。另一个需要说明的是每次主成分的选取使分的选取使Var(Fi)最大，如果不加限制就可使最大，如果不加限制就可使Var(Fi) ，则就无意义了，而常用的要求是：，则就无意义了，而常用的要

13、求是：主成分分析模型设设的特征根分别为：的特征根分别为：定义：定义：称第一主成分的贡献率为称第一主成分的贡献率为，由于，由于，所以所以。因此第一主成分的贡献率就是第一主成分的方因此第一主成分的贡献率就是第一主成分的方差在全部方差差在全部方差中的比值。这个比值越大，表明中的比值。这个比值越大，表明第一主成分综合第一主成分综合X1，Xp信息的能力越强。信息的能力越强。前两个主成分的累计贡献率定义为前两个主成分的累计贡献率定义为，前前k个主成分的累计贡献率定义为个主成分的累计贡献率定义为。如果前如果前k个主成分的贡献率达到个主成分的贡献率达到85%，表明取前，表明取前k个主成分包

14、含了全部测量指标所具有的信息，这个主成分包含了全部测量指标所具有的信息，这样既减少了变量的个数又便于对实际问题的分析样既减少了变量的个数又便于对实际问题的分析和研究。和研究。主成分分析模型值得指出的是：当协方差阵值得指出的是：当协方差阵未知时，可用其估计未知时，可用其估计值值S（样本协方差阵）来代替。（样本协方差阵）来代替。设原始资料矩阵为：设原始资料矩阵为：则则而相关系数矩阵：而相关系数矩阵：显然，当原始变量显然，当原始变量X1，Xp标准化后，则标准化后，则主成分分析模型实际应用时，往往指标的量纲不同，所以在计算之实际应用时，往往指标的量纲不同，所以在计算之前先消除量纲的影响，而将原始数据

15、标准化，这样前先消除量纲的影响，而将原始数据标准化，这样一来一来S和和R相同。因此一般求相同。因此一般求R的特征根和特征向量，的特征根和特征向量，并且不妨取，并且不妨取。因为这时的。因为这时的R与与只差只差一个系数，显然一个系数，显然与与的特征根相差的特征根相差n倍，倍，但它们的特征向量不变，它并不影响求主成分。但它们的特征向量不变，它并不影响求主成分。主成分分析模型4、主成分分析的步骤、主成分分析的步骤（1）将原始数据标准化（目的是消除不同量纲、）将原始数据标准化（目的是消除不同量纲、正逆指标的影响）正逆指标的影响）设原始数据矩阵为设原始数据矩阵为按下式进行标准化（其中按下式进行标

16、准化（其中Y为标准化后的数据）为标准化后的数据）（2）计算相关系数矩阵）计算相关系数矩阵R主成分分析模型（3）求相关系数矩阵的特征根及对应的特征向量）求相关系数矩阵的特征根及对应的特征向量（4）写出主成分）写出主成分（5）将）将k个主成分进行综合，综合成单个指标，个主成分进行综合，综合成单个指标，并得出最后排序结果并得出最后排序结果主成分进行综合常用的有以下三种方法。主成分进行综合常用的有以下三种方法。主成分分析模型将将k个个主主成成分分综综合合成成单单指指标标评评价价，通通常常有有以以下下三三种种方法。方法。第第一一种种方方法法，将将累累计计贡贡献献率率达达到到85%的的k个个主主成成分分F

17、1，F2，Fk做做线线性性组组合合，并并以以每每个个主主成成分分Fi的的方差贡献率方差贡献率作为权数构造一个综合评价函数：作为权数构造一个综合评价函数：以以v为评估指数，依据对每个评价对象计算出的为评估指数，依据对每个评价对象计算出的v值值大小进行综合排序。大小进行综合排序。主成分分析模型第二种方法，只用第一个主成分作评估指数，第二种方法，只用第一个主成分作评估指数，即即v= F1。理由是，第一主成分与原始变量。理由是，第一主成分与原始变量X1，X2，Xp综合相关度最强，如果想以一个综合变量综合相关度最强，如果想以一个综合变量来代替原来所有变量，则最佳选择应该是来代替原来所有变量，则最

18、佳选择应该是F1；另一；另一方面由于第一主成分方面由于第一主成分F1对应于数据变异最大的方向对应于数据变异最大的方向也就是使数据信息损失最小，精度最高的一维综也就是使数据信息损失最小，精度最高的一维综合变量。但是值得注意的是使用这种方法是有前合变量。但是值得注意的是使用这种方法是有前提条件的，即要求所有评估指标变量都是正相关提条件的，即要求所有评估指标变量都是正相关的，也就是说对所有变量均有同增、同减的趋势。的，也就是说对所有变量均有同增、同减的趋势。主成分分析模型第第三三种种方方法法，根根据据变变量量的的重重要要性性程程度度不不同同赋赋予予不不同同的的权权数数，重重要要的的变变量量权权数数

19、取取得得大大些些，不不重重要要的的变变量量权数取得相对小些。即令权数取得相对小些。即令这时这时因此，因此，1p个变量的方差分别为：个变量的方差分别为：由由于于一一部部分分在在系系统统评评估估中中更更为为重重要要的的变变量量被被赋赋予予更更大大的的权权数数，因因此此在在这这些些指指标标上上，变变量量的的变变差差被被拉拉长长，于于是是在在求求第第一一主主成成分分时时，这这些些指指标标会会得得到到更更多多的的重重视。视。然后，对标准化又加权后的数据阵然后，对标准化又加权后的数据阵计算协方计算协方差矩阵差矩阵，求，求的最大特征值的最大特征值和特征向量和特征向量，令令，最后按，最后按

20、进行排序比较或分类划级。进行排序比较或分类划级。主成分分析模型二、因子分析模型二、因子分析模型1、什么是因子分析、什么是因子分析因子分析是主成分分析的推广和发展。它也是因子分析是主成分分析的推广和发展。它也是将具有错综复杂关系的变量（或样品）综合为数量将具有错综复杂关系的变量（或样品）综合为数量较少的几个因子，以再现原始变量与因子之间的相较少的几个因子，以再现原始变量与因子之间的相互关系，同时根据不同因子还可以对变量进行分类，互关系，同时根据不同因子还可以对变量进行分类，它也是属于多元分析中处理降维的一种统计方法。它也是属于多元分析中处理降维的一种统计方法。例如，某公司对例如，某公司对1

21、00名招聘人员的知识和能力进名招聘人员的知识和能力进行测试，出了行测试，出了50道题的试卷，其内容包括的面较广，道题的试卷，其内容包括的面较广，但总的来讲可归纳为六个方面：语言表达能力、逻但总的来讲可归纳为六个方面：语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等，我们将每一方面称为养、兴趣爱好、生活常识等，我们将每一方面称为因子，显然这里所说的因子不同于回归分析中因素，因子，显然这里所说的因子不同于回归分析中因素，主成分分析模型因为前者是比较抽象的一种概念。而后者有着极为因为前者是比较抽象的一种概念。而后者有着极

22、为明确的实际意义，如人口密度、工业总产值、产量明确的实际意义，如人口密度、工业总产值、产量等。等。假设假设100人测试的分数为人测试的分数为，可以，可以用上述六个因子表示成线性函数：用上述六个因子表示成线性函数：其中其中F1，F2，F6表示六个因子，它对所有表示六个因子，它对所有Xi是是共有的因子，通常称为公共因子，它们的系数共有的因子，通常称为公共因子，它们的系数ai1, ，ai6称为因子载荷，它表示第称为因子载荷，它表示第i个应试人员在六个个应试人员在六个因子方面的能力。因子方面的能力。i是第是第i个应试人的能力和知识不个应试人的能力和知识不能被前六个因子包括的部分，称为特殊因子，通常

23、能被前六个因子包括的部分，称为特殊因子，通常假定假定，仔细观察这个模型与回归模型，仔细观察这个模型与回归模型在形式上有些相似，实质很不同。在形式上有些相似，实质很不同。主成分分析模型这里的这里的F1，F6的值是未知的，并且有关参数的的值是未知的，并且有关参数的统计意义更不一样。因子分析的任务，首先是估计统计意义更不一样。因子分析的任务，首先是估计出出aij和方差和方差，然后将这些抽象因子，然后将这些抽象因子Fi赋予赋予实际背景的解释或说法以命名。利用综合出的少数实际背景的解释或说法以命名。利用综合出的少数因子，以再现原始变量和因子之间的相互关系，以因子，以再现原始变量和因子之间的相互关系，

24、以达到降维的目的。达到降维的目的。2、基本思想、基本思想因子分析的基本思想是通过变量的相关系数矩因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究，找出能控制所有变量的少数几阵内部结构的研究，找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系，但在个随机变量去描述多个变量之间的相关关系，但在这里，这少数几个随机变量是不可观测的，通常称这里，这少数几个随机变量是不可观测的，通常称为因子。然后根据相关性的大小把变量分组，使得为因子。然后根据相关性的大小把变量分组，使得同组内的变量之间相关性较高，但不同组的变量相同组内的变量之间相关性较高，但不同组的变量相关性较低。关性较低。主

25、成分分析模型3、数学模型（正交因子模型）、数学模型（正交因子模型）用矩阵表示为：用矩阵表示为： X=AF+且满足且满足1)mp2)Cov(F,)=0 即即F和和是不相关的是不相关的3)即即F1，Fm不相关且方差皆为不相关且方差皆为1主成分分析模型即即1，p不相关，且不相关，且方差不同方差不同其中其中是可实测的是可实测的p个指标所构成个指标所构成p维维随机向量，随机向量，是不可观测的向量。是不可观测的向量。F称称为为X的公共因子或潜因子，即前面所说的综合变量，的公共因子或潜因子，即前面所说的综合变量，可以把它们理解为在高维空间中的互相垂直的可以把它们理解为在高维空间中的互相垂直的m个个坐标轴

26、；坐标轴；aij称为因子载荷是第称为因子载荷是第i个变量在第个变量在第j个公共因个公共因子上的负荷，如果把变量子上的负荷，如果把变量Xi看成看成m维因子空间中的维因子空间中的一个向量，则一个向量，则aij表示表示Xi在坐标轴在坐标轴Fj上的投影，矩阵上的投影，矩阵A称为因子载荷矩阵；称为因子载荷矩阵；称为称为X的特殊因子，通常理论的特殊因子，通常理论上要求上要求的协方差阵是对角阵，的协方差阵是对角阵，中包括了随机误差。中包括了随机误差。主成分分析模型因子分析的目的就是通过模型因子分析的目的就是通过模型X=AF+以以F代替代替X，由于由于mp，从而达到简化变量维数据的愿望。，从而达到简化变量维数

27、据的愿望。因子分析和主成分分析有许多相似这处，在求因子分析和主成分分析有许多相似这处，在求解过程中二者都是从一个协方差阵出发，但这两种解过程中二者都是从一个协方差阵出发，但这两种模型是有区别的。主成分分析的数学模型实质上是模型是有区别的。主成分分析的数学模型实质上是一种变换，而因子分析模型是描述原指标一种变换，而因子分析模型是描述原指标X协方差协方差阵阵结构的一种模型，当结构的一种模型，当m=p时，就不能考虑时，就不能考虑，此，此时因子分析也对应一种变量变换，但实际应用中，时因子分析也对应一种变量变换，但实际应用中，m都小于都小于p，且为经济起见总是越小越好。另外在主，且为经济起见总是越小越

28、好。另外在主成分分析中每个主成分相应的系数成分分析中每个主成分相应的系数aij是唯一确定的，是唯一确定的，与此相反在因子分析中每个因子的相应系数不是唯与此相反在因子分析中每个因子的相应系数不是唯一的，即因子载荷不是唯一的。从因子分析的数学一的，即因子载荷不是唯一的。从因子分析的数学模型上看，它与多变量回归也有类似之处，但本质模型上看，它与多变量回归也有类似之处，但本质的区别是因子分析模型作为的区别是因子分析模型作为“自变量自变量”的的F是不可是不可观测的。观测的。主成分分析模型4、因子模型中公共因子、因子载荷和变量共同度、因子模型中公共因子、因子载荷和变量共同度的统计意义的统计意义假定因子模

29、型中，各变量的公共因子、特殊因假定因子模型中，各变量的公共因子、特殊因子都已经是标准化（均值为子都已经是标准化（均值为0、方差为、方差为1）的变量）的变量（1）因子载荷的统计意义）因子载荷的统计意义已知模型：已知模型：两端右乘两端右乘Fj得：得：于是：于是：主成分分析模型在标准化下有：在标准化下有：因为各因子不相关，所以相关系数为因为各因子不相关，所以相关系数为0故因子载荷故因子载荷aij的统计意义就是第的统计意义就是第i个变量与第个变量与第j个公个公共因子的相关系数即表示共因子的相关系数即表示Xi依赖依赖Fj的份量（比重）。的份量（比重）。因此用统计学的术语应该叫着权，但由于历史原因，因此用

30、统计学的术语应该叫着权，但由于历史原因，心理学家将它叫着载荷，即表示第心理学家将它叫着载荷，即表示第i个变量在第个变量在第j个个公共因子上的负荷，它反映了第公共因子上的负荷，它反映了第i个变量在第个变量在第j个公个公共因子上的相对重要性。共因子上的相对重要性。（2）变量共同度的统计意义）变量共同度的统计意义所谓变量共同度定义为因子载荷阵所谓变量共同度定义为因子载荷阵A中第中第i行元素行元素的平方和，即的平方和，即主成分分析模型为了说明它的统计意义，将下式两边求方差，即为了说明它的统计意义，将下式两边求方差，即由于由于Xi已经标准化了，所以有已经标准化了，所以有此式说明了此式说明了Xi的方差由

31、两部分组成：第一部分为共的方差由两部分组成：第一部分为共同度同度，它刻划全部公共因子对变量，它刻划全部公共因子对变量Xi的总方的总方差所作的贡献，差所作的贡献，越接近于越接近于1，说明该变量的，说明该变量的主成分分析模型几乎全部信息都被所选取的公共因子说明了，如几乎全部信息都被所选取的公共因子说明了，如 =0.97，说明，说明Xi的的97%的信息被所选取的的信息被所选取的m个公个公共因子说明了，也就是说由原始变量空间转为因子共因子说明了，也就是说由原始变量空间转为因子空间转化的性质越好，保留原来信息量多，因此空间转化的性质越好，保留原来信息量多，因此是是Xi的方差的重要组成部分。当的方差

32、的重要组成部分。当时，时，说明公共因子对说明公共因子对Xi影响很小，主要由特殊因子影响很小，主要由特殊因子来来描述。第二部分描述。第二部分是特定变量所产生的方差，是特定变量所产生的方差，称为特殊因子方差仅与变量称为特殊因子方差仅与变量Xi本身的变化有关，它本身的变化有关，它是使是使Xi的方差为的方差为1的补充值。的补充值。（3）公共因子）公共因子Fj的方差贡献的统计意义的方差贡献的统计意义将因子载荷矩阵中各列元素的平方和记为将因子载荷矩阵中各列元素的平方和记为主成分分析模型称称Sj为公共因子为公共因子Fj对对X的贡献，即的贡献，即Sj表示同一公共因表示同一公共因子子Fj对诸变量所提供的方差

33、贡献之和，它是衡量公对诸变量所提供的方差贡献之和，它是衡量公共因子相对重要性指标。共因子相对重要性指标。5、因子载荷阵的估计方法、因子载荷阵的估计方法建立某个实际问题的因子模型，关键是要根据建立某个实际问题的因子模型，关键是要根据样本数据矩阵估计因子载荷矩阵样本数据矩阵估计因子载荷矩阵A。对。对A的估计方的估计方法有很多，这里仅介绍使用较为普遍的主成分法。法有很多，这里仅介绍使用较为普遍的主成分法。设随机向量设随机向量的协方差矩阵为的协方差矩阵为，为为的特征根，的特征根，e1，ep为对为对应的标准下交化特征向量，则根据线性代数的知识应的标准下交化特征向量，则根据线性代数的知识可分解为：

34、可分解为：主成分分析模型上面的分解式恰是公共因子与变量个数一样多且特上面的分解式恰是公共因子与变量个数一样多且特殊因子的方差为殊因子的方差为0时，因子模型中协方差矩阵的结时，因子模型中协方差矩阵的结构。构。又因为因子模型为：又因为因子模型为：X=AF，其中，其中D（F）=I所以所以主成分分析模型对照对照的分解式，则因子载荷矩阵的分解式，则因子载荷矩阵A的第的第j列应该是列应该是，也就是说除常数，也就是说除常数外，第外，第j列因子载荷恰是第列因子载荷恰是第j个主成分的系数个主成分的系数ej，故称为主成分分析法。，故称为主成分分析法。6、因子旋转、因子旋转建立因子分析模型的目的不仅要找出公

35、共因子建立因子分析模型的目的不仅要找出公共因子以及对变量进行分组，更重要的是要知道每个公共以及对变量进行分组，更重要的是要知道每个公共因子的意义，以便对实际问题作出科学的分析，如因子的意义，以便对实际问题作出科学的分析，如果每个公共因子的涵义不清，不便于进行实际背景果每个公共因子的涵义不清，不便于进行实际背景的解释，这时根据因子载荷矩阵的不唯一性，可对的解释，这时根据因子载荷矩阵的不唯一性，可对因子载荷矩阵实行旋转，即用一个正交矩阵右乘因子载荷矩阵实行旋转，即用一个正交矩阵右乘A（由线性代数知道，一个正交变换对应坐标系的（由线性代数知道，一个正交变换对应坐标系的一次旋转），使旋转后的因子载荷矩

36、阵结构简化，一次旋转），使旋转后的因子载荷矩阵结构简化，便于对公共因子进行解释。所谓结构简化就是使每便于对公共因子进行解释。所谓结构简化就是使每个变量仅在一个公共因子上有较大的载荷，而在其个变量仅在一个公共因子上有较大的载荷，而在其余余主成分分析模型公共因子上载荷比较小。这种变换因子载荷矩阵的公共因子上载荷比较小。这种变换因子载荷矩阵的方法称为因子旋转。旋转的方法有多种，如正交旋方法称为因子旋转。旋转的方法有多种，如正交旋转、斜交旋转等，这里仅介绍常用的最大方差正交转、斜交旋转等，这里仅介绍常用的最大方差正交旋转。旋转。7、因子得分、因子得分因子分析的数学模型是将变量表示为公共因子的因子分析

37、的数学模型是将变量表示为公共因子的线性组合：线性组合：由于公共因子能反映原始变量的相关关系，用公共由于公共因子能反映原始变量的相关关系，用公共因子代表原始变量时，有时更有利于描述研究对象因子代表原始变量时，有时更有利于描述研究对象的特征，因而往往需要反过来将公共因子表示为变的特征，因而往往需要反过来将公共因子表示为变量的线性组合，即量的线性组合，即主成分分析模型称上式为得分因子函数。用它来计算每个样品的称上式为得分因子函数。用它来计算每个样品的公共因子得分。公共因子得分。由于因子得分由于因子得分Fj的值是待估的，我们仅知道利的值是待估的，我们仅知道利用样本值可得因子载荷阵用样本值可得因子载荷

38、阵，由因子载荷，由因子载荷矩阵的意义矩阵的意义即即主成分分析模型因此，因子得分计算公式为：因此，因子得分计算公式为：8、因子分析法计算步骤：、因子分析法计算步骤：第一步：将原始数据标准化，以消除量纲的影响；第一步：将原始数据标准化，以消除量纲的影响；第二步：建立指标间的相关系数矩阵第二步：建立指标间的相关系数矩阵R；第三步：求第三步：求R的特征值与特征向量；的特征值与特征向量；第四步：建立因子载荷矩阵第四步：建立因子载荷矩阵A；第五步；对因子载荷矩阵实行方差最大旋转，根据第五步；对因子载荷矩阵实行方差最大旋转，根据旋转后的因子载荷进行指标分类并解释经济现象；旋转后的因子载荷进行指标分类并解释经济现象；第六步：计算因子得分。第六步：计算因子得分。主成分分析模型主成分分析模型

展开阅读全文

主成分分析模型课件

最新文档