第四讲主成分分析及其软件实现2011课件

上传人:我*** 文档编号:139324967 上传时间:2020-07-21 格式:PPT 页数:102 大小:1.26MB
返回 下载 相关 举报
第四讲主成分分析及其软件实现2011课件_第1页
第1页 / 共102页
第四讲主成分分析及其软件实现2011课件_第2页
第2页 / 共102页
第四讲主成分分析及其软件实现2011课件_第3页
第3页 / 共102页
第四讲主成分分析及其软件实现2011课件_第4页
第4页 / 共102页
第四讲主成分分析及其软件实现2011课件_第5页
第5页 / 共102页
点击查看更多>>
资源描述

《第四讲主成分分析及其软件实现2011课件》由会员分享,可在线阅读,更多相关《第四讲主成分分析及其软件实现2011课件(102页珍藏版)》请在金锄头文库上搜索。

1、中国计量学院理学院数学系,主成分分析及其SPSS实现,梦想点燃激情,激情成就未来,刘学艺 2011/4/3,数模提高班之专题四,主成分分析方法及软件实现,梦想点燃激情,激情成就未来,沈进东 2011/4/9,数模提高班之专题四,1 引言,2 主成分分析的基本概念,主成分分析的目标 主成分分析的数学模型 主成分的几何解释 主成分的几个性质 主成分的选取和使用条件 主成分分析的算法,3 主成分分析的应用案例(采用基本的Matlab命令),4 Statistics Toolbox中的主成分分析函数及应用,5 SPSS在主成分分析中的使用及案例,中国计量学院理学院数学系,在学生学习过程中,已经修完p门

2、课程,其成绩为x1,x2,xp,如何评价每个学生的综合能力?假设每门课程有权重c1,c2,cp,则加权之和为:s= c1x1+c2x2+cpxp。 每个学生对应这样一个成绩,假设有n个学生,其成绩分别为:s1,s2,sn。如果这些值很分散,表明每个人的综合能力能很好地区分。关键是如何确定权重c1,c2,cp?在数学上反映的问题是什么呢?,1. 引言,中国计量学院理学院数学系,基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。,一方面人们为了避免遗漏重要的信息而考虑尽可能多的

3、指标,,另一方面随着考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。,中国计量学院理学院数学系,一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。 在进行主成分分析后,竟以97.4的精度,用三个新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2

4、和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:,中国计量学院理学院数学系,中国计量学院理学院数学系,2. 主成分分析的基本概念, 主成分分析的目标,主成分分析,亦称主分量分析.,数学本质利用降维技术,将多个变量(指标)归,少数综合指标.,结为线性无关的几个(少数)主成分(综合指标).,目标化简多指标系统,构造方便系统分析的,中国计量学院理学院数学系, 主成分分析的数学模型,适合用主成分分析的数据具有如下结构:,样本,指 标,主成分分析最大的问题是受量纲的影响,因此,实际应用

5、中,需要对数据进行标准化。一般使用协方差矩阵或相关系数矩阵R进行分析。,x11 x21 x31 xn1,中国计量学院理学院数学系,设原始 样本点变量 型数据资料阵,其中,求线性组合(主成分),Fi表示第i个主成分,也即,中国计量学院理学院数学系,这是由于一个主成分不足以代表原来的p个变量的信息。因此需要寻找第二个乃至第三、四个主成分,原则上,第二个主成分不应该再包含第一个主成分的信息,统计上的描述就是让这两个主成分的协方差为零,几何上就是这两个主成分的方向正交。,满足条件,中国计量学院理学院数学系,中国计量学院理学院数学系, 主成分的几何解释,以最简单的二元正态变量来说明主成分的几何意义 .,

6、其 n 个样本点,的散布大致为一个椭圆.,n 个点的,在平面上作一个坐标变换,即按,坐标 X1 和 X2 呈现某种线性相关性 .,逆时针方向旋转角度 .,在坐标系 X1 OX2 中,,取新坐标轴,在椭圆长轴方向取F1 , 短轴方向取F2 .,中国计量学院理学院数学系,根据旋轴变换公式新老坐标之间有关系,n 个点的坐标 F1 和 F2 几乎不相关.,在坐标系 F1 OF2 中,,在 F1 轴上的方差达到最大,在此方向上所含的有关 n 个,样品间差异的信息是最多的 ,故,称 F1 为 第一主成分 .,在和 F1 正交的轴 F2 上方差较,小,称 F2 为 第二主成分 .,因此,用一维空间代替二维空

7、,间时,选用 F1 可使信息的损失降到最小.,这种系统简化方法体现了抓事物主要矛盾的哲学思维.,=?,中国计量学院理学院数学系, 主成分的几个性质,矩阵为 , 的特征值为,单位特征向量为,令,相应的,中国计量学院理学院数学系,说明,主成分就是以协方差矩阵的单位特征向量,之间互不相关,主成分的名次是按特征根取值大小的顺,为系数的线性组合,主成分方差为的特征值,主成分,序排列的.,.,推论1,推论2,主成分的总方差,推论4,推论5,推论3,原始变量与主成分之间的相关系数,中国计量学院理学院数学系,中国计量学院理学院数学系, 主成份的选取与使用条件, 方差贡献率, 第 k 个主成分的方差贡献率, 前

8、 k 个主成分的累积方差贡献率,在解决实际问题时, 一般不是取 p个主成分, 而是根据累计贡献率的大小取前 k个, 累计贡献率达到85%; 这样就基本包含了全部测量指标所具有的信息, 这样即减少了变量的个数有便于对实际问题的分析和研究 .,中国计量学院理学院数学系, 使用条件,主成分分析适宜用于大样本的场合.,主成分分析要求变量之间有一定的相关关系:,中国计量学院理学院数学系, 主成分分析的算法,设有n个样品,每个样品观测p项指标,将原始数据写成矩阵, 将原始数据标准化(这里为了书写方便,不妨设上边矩阵已标准化了)。, 建立变量的相关系数阵, 求得特征根 及相应的单位特征向量, 写出主成分,包

9、括对主成分的解释,中国计量学院理学院数学系,例3.1 在企业经济效益的评价中,涉及的指标往往很多。为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发求主成分。在对我国部分省、市、自治区独立核算的工业企业的经济效益评价中,涉及到9项指标,原始数据见表3-1,即样品数n=28,变量数p=9。,3. 主成分分析的应用案例,中国计量学院理学院数学系,表3-1,中国计量学院理学院数学系,续表3-1,中国计量学院理学院数学系,中国计量学院理学院数学系,clear load czsr2003.txt n,p=size(czsr2003); MEAN=mean( czsr2003) ;

10、%求各变量的均值 STD=std( czsr2003); %求各变量的标准差 MEAN=ones(n,p)*diag(MEAN); STD=ones(n,p)*diag(STD); x=(czsr2003-MEAN)./STD; %原始数据标准化,原始数据标准化,中国计量学院理学院数学系,R=cov(x); 注释: 由于数据已经过标准化处理,故x的协方差矩阵等于其相关系数矩阵,即R=corrcoef(x).,2. 建立变量的协方差矩阵,V,D=eig(R); 注释: 函数eig的功能是对矩阵R进行正交对角化变换,矩阵D是以R的特征值为对角元的对角矩阵(对角元按从小到大的顺序排列),矩阵V是正交

11、变换矩阵。,3. 求得特征根及相应的单位特征向量,中国计量学院理学院数学系,中国计量学院理学院数学系,DD= ; %将特征值对角矩阵D改写为列向量DD for i=p:-1:1 %此处要注意eig函数的输出D中特征值的排列顺序 DD=DD;D(i,i); end OFFER=DD/sum(DD); %计算特征值的方差贡献率 cumOFFER=cumsum(DD)/sum(DD); %计算特征值的方差累计贡献率 OUTCOME=DD,OFFER,cumOFFER %综合输出计算结果,4. 写出主成分 计算主成分的方差贡献率和累计方差贡献率,OUTCOME = 6.1499 0.6833 0.68

12、33 1.4729 0.1637 0.8470 0.6974 0.0775 0.9245 0.3178 0.0353 0.9598 0.1900 0.0211 0.9809 0.1160 0.0129 0.9938 0.0291 0.0032 0.9970 0.0243 0.0027 0.9997 0.0024 0.0003 1.0000,OUTCOME=DD,OFFER,cumOFFER %综合输出计算结果,中国计量学院理学院数学系,中国计量学院理学院数学系, 选取主成分 根据特征值的方差累计贡献率,取前2个(贡献率达84.70%)或前3个(贡献率达92.45%)主成分即可。 PCACOV=

13、V(:,end:-1:end-2) %输出正交单位化的特征向量矩阵V的前3列,PCACOV = 0.3756 0.2595 -0.0141 0.3934 -0.1344 -0.0853 0.3753 -0.2653 -0.1074 0.0935 -0.7113 -0.5223 0.1746 -0.4913 0.8022 0.3721 0.1650 -0.2246 0.3616 0.2254 0.0424 0.3513 0.0524 0.0830 0.3626 0.1268 0.0747,中国计量学院理学院数学系,(3) 分析并命名主成分,对所选主成分作经济解释。主成分分析的关键在于能否给主成分

14、赋予新的意义,给出合理的解释,这个解释应根据主成分的计算结果结合定性分析来进行。主成分是原来变量的线性组合,在这个线性组合中,各变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用。,线性组合中个变量的系数的绝对值大者表明该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应认为这一主成分是这几个变量的总和,这几个变量综合在一起应赋予怎样的经济意义,要结合经济专业知识,给出恰如其分的解释,才能达到深刻分析经济成因的目的。,第一主成分的线性组合中除了100元工业总产值实现利税和100元销售收入实现利税外,其余变量的系数相当,所以第一主成分可看成

15、是x1, x2, x3, x6, x7, x8, x9 的综合变量。可以解释为第一主成分反映了工业生产中投入的资金、劳动力所产生的效果,它是“投入”与“产出”之比。第一主成分所占信息总量为68.3%,在我国目前的工业企业中,经济效益首先反映在投入与产出之比上,其中固定资产的有效所产生的经济效益更大一些。 第一主成分的系数取为 0.3756 0.3934 0.3753 0.0935 0.1746 0.3721 0.3616 0.3513 0.3626,中国计量学院理学院数学系,第二主成分是把工业生产中所得总量(即工业总产值和销售收入)与局部量(即利税)进行比较,反映了“产出”对国家所作的贡献。这

16、样,在抓企业经济效益活动中,就应注重投入与产出之比和产出对国家所作的贡献,抓住了这2个方面,经济效益就一定会提高。 第二主成分的系数取为 0.2595 -0.1344 -0.2653 -0.7113 -0.4913 0.1650 0.2254 0.0524 0.1268,中国计量学院理学院数学系,第三主成分你又如何解释呢? 第三主成分的系数取为 -0.0141 -0.0853 -0.1074 -0.5223 0.8022 -0.2246 0.0424 0.0830 0.0747,如何解释第二、三主成分主成份系数的负号,可能需要更多的经济学理论的支持。,中国计量学院理学院数学系,中国计量学院理学院数学系,主成分分析的应用案例

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号