最新厦门大学应用多元统计分析第06章主成分分析ppt课件

上传人:ni****g 文档编号:567314518 上传时间:2024-07-19 格式:PPT 页数:62 大小:2.80MB
返回 下载 相关 举报
最新厦门大学应用多元统计分析第06章主成分分析ppt课件_第1页
第1页 / 共62页
最新厦门大学应用多元统计分析第06章主成分分析ppt课件_第2页
第2页 / 共62页
最新厦门大学应用多元统计分析第06章主成分分析ppt课件_第3页
第3页 / 共62页
最新厦门大学应用多元统计分析第06章主成分分析ppt课件_第4页
第4页 / 共62页
最新厦门大学应用多元统计分析第06章主成分分析ppt课件_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《最新厦门大学应用多元统计分析第06章主成分分析ppt课件》由会员分享,可在线阅读,更多相关《最新厦门大学应用多元统计分析第06章主成分分析ppt课件(62页珍藏版)》请在金锄头文库上搜索。

1、厦门大学应用多元统计分厦门大学应用多元统计分析第析第06章章_主成分分析主成分分析第一节第一节 引言引言n多元统计分析处理的是多变量(多指标)问题。由于变量较多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量来代替原来较多的变量,而这

2、种代替可以反映原来多个变量的大部分信息,这实际上是一种的大部分信息,这实际上是一种“降维降维”的思想。的思想。需要讨论的问题是:需要讨论的问题是:n选择相关系数矩阵还是协方差矩阵做主成分分析。当分析中所选择相关系数矩阵还是协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。择基于相关系数矩阵的主成分分析。n选择几个主成分。主成分分析的目的是简化变量,一般情况下选择几个主成分。主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,主成分

3、的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。应该权衡主成分个数和保留的信息。n如何解释主成分所包含的经济意义。如何解释主成分所包含的经济意义。n我们知道,当一个变量只取一个数据时,这个变量(数据)我们知道,当一个变量只取一个数据时,这个变量(数据)提供的信息量是非常有限的,当这个变量取一系列不同数据提供的信息量是非常有限的,当这个变量取一系列不同数据时,我们可以从中读出最大值、最小值、平均数等信息。变时,我们可以从中读出最大值、最小值、平均数等信息。变量的变异性越大,说明它对各种场景的量的变异性越大,说明它对各种场景的“遍历性遍历性”越强,提供越强,提供的

4、信息就更加充分,信息量就越大。主成分分析中的信息,的信息就更加充分,信息量就越大。主成分分析中的信息,就是指标的变异性,用标准差或方差表示它。就是指标的变异性,用标准差或方差表示它。n主成分分析的数学模型是,设主成分分析的数学模型是,设p个变量构成的个变量构成的p维随机向量为维随机向量为X = (X1,Xp)。对。对X作正交变换,令作正交变换,令Y = TX,其中,其中T为正交阵,要求为正交阵,要求Y的各分量是不相关的,并且的各分量是不相关的,并且Y的第一个分量的第一个分量的方差是最大的,第二个分量的方差次之,的方差是最大的,第二个分量的方差次之,等等。为,等等。为了保持信息不丢失,了保持信息

5、不丢失,Y的各分量方差和与的各分量方差和与X的各分量方差和相的各分量方差和相等。等。假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合问题,而这些新的指标F1,F2,Fk (kp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。第二节第二节 主成分的几何意义及数主成分的几何意义及数 学推导学推导 一一主成分的几何意义主成分的几何意义 二二主成分的数学推导主成分的数学推导 一、主成分的几何意义一、主成分的几何意

6、义n主成分分析数学模型中的正交变换,在几何上就是作一个坐主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转。因此,主成分分析在二维空间中有明显的几何意义。标旋转。因此,主成分分析在二维空间中有明显的几何意义。假设共有假设共有n个样品,每个样品都测量了两个指标(个样品,每个样品都测量了两个指标(X1,X2),它们大致分布在一个椭圆内如图),它们大致分布在一个椭圆内如图6.1所示。事实上,散所示。事实上,散点的分布总有可能沿着某一个方向略显扩张,这个方向就把点的分布总有可能沿着某一个方向略显扩张,这个方向就把它看作椭圆的长轴方向。显然,在坐标系它看作椭圆的长轴方向。显然,在坐标系x1Ox2

7、中,单独中,单独看这看这n个点的分量个点的分量X1和和X2,它们沿着,它们沿着x1方向和方向和x2方向都具有方向都具有较大的离散性,其离散的程度可以分别用的较大的离散性,其离散的程度可以分别用的X1方差和方差和X2的方的方差测定。如果仅考虑差测定。如果仅考虑X1或或X2中的任何一个分量,那么包含在中的任何一个分量,那么包含在另一分量中的信息将会损失,因此,直接舍弃某个分量不是另一分量中的信息将会损失,因此,直接舍弃某个分量不是“降维降维”的有效办法。的有效办法。图图6.1 主成分的几何意义主成分的几何意义 n n易见,易见,n个点在新坐标系下的坐标个点在新坐标系下的坐标Y1和和Y2几乎不相关。

8、称它几乎不相关。称它们为原始变量们为原始变量X1和和X2的综合变量,的综合变量,n个点个点y1在轴上的方差达在轴上的方差达到最大,即在此方向上包含了有关到最大,即在此方向上包含了有关n个样品的最大量信息。个样品的最大量信息。因此,欲将二维空间的点投影到某个一维方向上,则选择因此,欲将二维空间的点投影到某个一维方向上,则选择y1轴方向能使信息的损失最小。我们称轴方向能使信息的损失最小。我们称Y1为第一主成分,称为第一主成分,称Y2为第二主成分。第一主成分的效果与椭圆的形状有很大的关为第二主成分。第一主成分的效果与椭圆的形状有很大的关系,椭圆越是扁平,系,椭圆越是扁平,n个点在个点在y1轴上的方差

9、就相对越大,在轴上的方差就相对越大,在y2轴上的方差就相对越小,用第一主成分代替所有样品所造成轴上的方差就相对越小,用第一主成分代替所有样品所造成的信息损失也就越小。的信息损失也就越小。 n考虑两种极端的情形:考虑两种极端的情形:一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主成分只含有二维空间点的约一半信息,若仅用这一个综合变量,成分只含有二维空间点的约一半信息,若仅用这一个综合变量,则将损失约则将损失约50的信息,这显然是不可取的。造成它的原因是,的信息,这显然是不可取的。造成它的原因是,原始变量原始变量X1和和X2的相关程度几乎

10、为零,也就是说,它们所包含的相关程度几乎为零,也就是说,它们所包含的信息几乎不重迭,因此无法用一个一维的综合变量来代替。的信息几乎不重迭,因此无法用一个一维的综合变量来代替。另一种是椭圆扁平到了极限,变成另一种是椭圆扁平到了极限,变成y1轴上的一条线,第一主成轴上的一条线,第一主成分包含有二维空间点的全部信息,仅用这一个综合变量代替原分包含有二维空间点的全部信息,仅用这一个综合变量代替原始数据不会有任何的信息损失,此时的主成分分析效果是非常始数据不会有任何的信息损失,此时的主成分分析效果是非常理想的,其原因是,第二主成分不包含任何信息,舍弃它当然理想的,其原因是,第二主成分不包含任何信息,舍弃

11、它当然没有信息损失。没有信息损失。1、若A是p阶实对称阵,则一定可以找到正交阵U,使2、若上述矩阵的特征根所对应的单位特征向量为则实对称阵 属于不同特征根所对应的特征向量是正交的,即有二、主成分的推导必存在正交阵U,使得设X的协方差阵为U恰好是由特征根相对应的单位特征向量所组成的正交阵二、主成分的数学推导二、主成分的数学推导n n n n n 设有P维正交向量(一)第一主成分(一)第一主成分下面我们来看,是否由U的第一列元素所构成为原始变量的线性组合是否有最大的方差n (二)第二主成分(二)第二主成分在约束条件 下,寻找第二主成分 因为所以则,对p维向量 ,有所以如果取线性变换: 则 的方差次

12、大。n n n 第三节第三节 主成分的性质主成分的性质 一一主成分的一般性质主成分的一般性质 二二主成分的方差贡献率主成分的方差贡献率 一、主成分的一般性质一、主成分的一般性质 n 二、主成分的方差贡献率二、主成分的方差贡献率n n 例例 设 的协方差矩阵为 解得特征根为 , ,第一个主成分的贡献率为5.83/(5.83+2.00+0.17)=72.875%,尽管第一个主成分的贡献率并不小,但在本题中第一主成分不含第三个原始变量的信息,所以应该取两个主成分。Xi与与F1的的相关系数相关系数平方平方Xi与与F2的相关系数的相关系数平方平方信息提取信息提取率率xi10.9250.855000.85

13、52-0.9980.996000.996300111第四节第四节 主成分方法应用中应注主成分方法应用中应注 意的问题意的问题 一一实际应用中主成分分析的出发点实际应用中主成分分析的出发点 二二如何利用主成分分析进行综合评价如何利用主成分分析进行综合评价 一、实际应用中主成分分析的出发点一、实际应用中主成分分析的出发点n n这里我们需要进一步强调的是,从相关阵求得的主成分与协这里我们需要进一步强调的是,从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。实际表明,这种差差阵求得的主成分一般情况是不相同的。实际表明,这种差异有时很大。我们认为,如果各指标之间的数量级相差悬殊,异有时很大。我

14、们认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使特别是各指标有不同的物理量纲的话,较为合理的做法是使用用R代替代替。对于研究经济问题所涉及的变量单位大都不统。对于研究经济问题所涉及的变量单位大都不统一,采用一,采用R代替代替后,可以看作是用标准化的数据做分析,后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。又可以避免突出数值大的变量。n 二、如何利用主成分分析进行综合二、如何利用主成分分析进行综合 评价评价n人们在对某个单位或某个系

15、统进行综合评价时都会遇到如何人们在对某个单位或某个系统进行综合评价时都会遇到如何选择评价指标体系和如何对这些指标进行综合的困难。一般选择评价指标体系和如何对这些指标进行综合的困难。一般情况下,选择评价指标体系后通过对各指标加权的办法来进情况下,选择评价指标体系后通过对各指标加权的办法来进行综合。但是,如何对指标加权是一项具有挑战性的工作。行综合。但是,如何对指标加权是一项具有挑战性的工作。指标加权的依据是指标的重要性,指标在评价中的重要性判指标加权的依据是指标的重要性,指标在评价中的重要性判断难免带有一定的主观性,这影响了综合评价的客观性和准断难免带有一定的主观性,这影响了综合评价的客观性和准

16、确性。由于主成分分析能从选定的指标体系中归纳出大部分确性。由于主成分分析能从选定的指标体系中归纳出大部分信息,根据主成分提供的信息进行综合评价,不失为一个可信息,根据主成分提供的信息进行综合评价,不失为一个可行的选择。这个方法是根据指标间的相对重要性进行客观加行的选择。这个方法是根据指标间的相对重要性进行客观加权,可以避免综合评价者的主观影响,在实际应用中越来越权,可以避免综合评价者的主观影响,在实际应用中越来越受到人们的重视。受到人们的重视。n对主成分进行加权综合。我们利用主成分进行综合评价时,对主成分进行加权综合。我们利用主成分进行综合评价时,主要是将原有的信息进行综合,因此,要充分的利用

17、原始变主要是将原有的信息进行综合,因此,要充分的利用原始变量提供的信息。将主成分的权数根据它们的方差贡献率来确量提供的信息。将主成分的权数根据它们的方差贡献率来确定,因为方差贡献率反映了各个主成分的信息含量多少。定,因为方差贡献率反映了各个主成分的信息含量多少。 n 第五节第五节 实例分析与计算机实现实例分析与计算机实现一一主成分分析实例主成分分析实例 二二利用利用SPSS进行主成分分析进行主成分分析 一、主成分分析实例一、主成分分析实例 n表表6.1是某市工业部门是某市工业部门13个行业的个行业的8项重要经济指标的数据,项重要经济指标的数据,这这8项经济指标分别是:项经济指标分别是:X1:年

18、末固定资产净值,单位:万元;:年末固定资产净值,单位:万元;X2:职工人数据,单位:人;:职工人数据,单位:人;X3:工业总产值,单位:万元;:工业总产值,单位:万元;X4:全员劳动生产率,单位:元:全员劳动生产率,单位:元/人年;人年;X5:百元固定资产原值实现产值,单位:元;:百元固定资产原值实现产值,单位:元;X6:资金利税率,单位:资金利税率,单位:%;X7:标准燃料消费量,单位:吨;:标准燃料消费量,单位:吨;X8:能源利用效果,单位:万元:能源利用效果,单位:万元/吨。吨。表表6.1 某市工业部门某市工业部门13个行业个行业8项指标项指标n我们要考虑的是:如何从这些经济指标出发,对

19、各工业部门我们要考虑的是:如何从这些经济指标出发,对各工业部门进行综合评价与排序?进行综合评价与排序?n我们先计算这些指标的主成分,然后通过主成分的大小进行我们先计算这些指标的主成分,然后通过主成分的大小进行排序。表排序。表6.2和表和表6.3分别是特征根(累计贡献率)和特征向分别是特征根(累计贡献率)和特征向量的信息。量的信息。n利用主成分得分进行综合评价时,从特征向量我们可以写出利用主成分得分进行综合评价时,从特征向量我们可以写出所有所有8个主成分的具体形式:个主成分的具体形式:表表6.2 特征根和累计贡献率特征根和累计贡献率表表6.3 特征向量特征向量表表6.4 各行业主成分得分及排序各

20、行业主成分得分及排序n我们以特征根为权,对我们以特征根为权,对8个主成分进行加权综合,得出各工个主成分进行加权综合,得出各工业部门的综合得分,具体数据见表业部门的综合得分,具体数据见表6.4。n综合得分的计算公式是:综合得分的计算公式是:根据上式可计算出各工业部门的综合得分,并可据此排序。根据上式可计算出各工业部门的综合得分,并可据此排序。n从上表可以看出,机器行业在该地区的综合评价排在第一,从上表可以看出,机器行业在该地区的综合评价排在第一,原始数据也反映出机器行业存在明显的规模优势,另外从前原始数据也反映出机器行业存在明显的规模优势,另外从前两个主成分得分上看,该行业也排在第一位,同样存在

21、效益两个主成分得分上看,该行业也排在第一位,同样存在效益优势;而排在最后三位的分别是皮革行业、电力行业和煤炭优势;而排在最后三位的分别是皮革行业、电力行业和煤炭行业。行业。二、利用二、利用SPSS进行主成分分析进行主成分分析nSPSS没有提供主成分分析的专用功能,只有因子分析的功能。没有提供主成分分析的专用功能,只有因子分析的功能。但是因子分析和主成分分析有着密切的联系。因子分析的重但是因子分析和主成分分析有着密切的联系。因子分析的重要步骤要步骤因子的提取最常用的方法就是因子的提取最常用的方法就是“主成分法主成分法”。利用。利用因子分析的结果,可以很容易地实现主成分分析。具体来讲,因子分析的结

22、果,可以很容易地实现主成分分析。具体来讲,就是利用因子载荷阵和相关系数矩阵的特征根来计算特征向就是利用因子载荷阵和相关系数矩阵的特征根来计算特征向量。即:量。即:n其中,其中,zij为第为第j个特征向量的第个特征向量的第i个元素;个元素;aij为因子载荷阵第为因子载荷阵第i行第行第j列的元素;列的元素;j j为第为第j个因子对应的特征根。然后再利用个因子对应的特征根。然后再利用计算出的特征向量来计算主成分。计算出的特征向量来计算主成分。n以下是我国以下是我国2005年第年第1、2季度分地区城镇居民家庭收支基本季度分地区城镇居民家庭收支基本情况。通过这个例子,介绍如何利用情况。通过这个例子,介绍

23、如何利用SPSS软件实现主成分分软件实现主成分分析。析。表表6.5 分地区城镇居民家庭收支基本情况分地区城镇居民家庭收支基本情况 表表6.5 分地区城镇居民家庭收支基本情况分地区城镇居民家庭收支基本情况 (一)利用(一)利用SPSS进行因子分析进行因子分析n将原始数据输入将原始数据输入SPSS数据编辑窗口,将数据编辑窗口,将5个变量分别命名为个变量分别命名为X1X5。在。在SPSS窗口中选择窗口中选择AnalyzeData ReductionFactor菜单项,调出因子分析主界面,并将变量菜单项,调出因子分析主界面,并将变量X1X5移入移入Variables框中,其他均保持系统默认选项,单击框

24、中,其他均保持系统默认选项,单击OK按钮,执行因子分析过程(关于因子分子在按钮,执行因子分析过程(关于因子分子在SPSS中实现中实现的详细过程,参见第的详细过程,参见第7章实例)。得到如表章实例)。得到如表6.6所示的特征根所示的特征根和方差贡献率表和表和方差贡献率表和表6.7所示的因子载荷阵。所示的因子载荷阵。n表表6.6中中Total列为各因子对应的特征根,本例中共提取两个列为各因子对应的特征根,本例中共提取两个公因子;公因子;% of Variance列为各因子的方差贡献率;列为各因子的方差贡献率;Cumulative %列为各因子累积方差贡献率,由表中可以看出,列为各因子累积方差贡献率

25、,由表中可以看出,前两个因子已经可以解释前两个因子已经可以解释79.31%的方差的方差 图图6.2 因子分析主界面因子分析主界面表表6.6 特征根和方差贡献率表特征根和方差贡献率表(二)利用因子分析结果进行主成分分析(二)利用因子分析结果进行主成分分析1. 将表将表6.7中因子载荷阵中的数据输入中因子载荷阵中的数据输入SPSS数据编辑窗口,数据编辑窗口,分别命名为分别命名为a1和和a2。表表6.7 因子载荷阵因子载荷阵2. 为了计算第一个特征向量,点击菜单项中的为了计算第一个特征向量,点击菜单项中的TransformCompute,调出,调出Compute variable对话框,在对对话框,

26、在对话框中输入等式:话框中输入等式: z1=a1 / SQRT(2.576) 点击点击OK按钮,即可在数据编辑窗口中得到以按钮,即可在数据编辑窗口中得到以z1为变量名的为变量名的第一特征向量。第一特征向量。再次调出再次调出Compute variable对话框,在对话框中输入等式:对话框,在对话框中输入等式: z2=a2 / SQRT(1.389)点击点击OK按钮,得到以按钮,得到以z2为变量名第二特征向量。这样,我为变量名第二特征向量。这样,我们得到了如表们得到了如表6.8所示的特征向量矩阵。所示的特征向量矩阵。图图6.3 Compute variable对话框对话框n根据表根据表6.8可以得到主成分的表达式:可以得到主成分的表达式:3. 再次使用再次使用Compute命令,就可以计算得到两个主成分。命令,就可以计算得到两个主成分。表表6.8 特征向量矩阵特征向量矩阵本章结束本章结束结束语结束语谢谢大家聆听!谢谢大家聆听!62

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号