最新主成分分析训练题

上传人:大米 文档编号:563888677 上传时间:2023-11-24 格式:DOC 页数:16 大小:409.50KB
返回 下载 相关 举报
最新主成分分析训练题_第1页
第1页 / 共16页
最新主成分分析训练题_第2页
第2页 / 共16页
最新主成分分析训练题_第3页
第3页 / 共16页
最新主成分分析训练题_第4页
第4页 / 共16页
最新主成分分析训练题_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《最新主成分分析训练题》由会员分享,可在线阅读,更多相关《最新主成分分析训练题(16页珍藏版)》请在金锄头文库上搜索。

1、最新主成分分析训练题 主成分分析在数学建模中的应用朱 宁2022年11月13日第一讲 主成分分析在数学建模中的应用1学习目的1.理解主成分分析的根本思想;2.会用SAS软件编写相关程序,对相关数据进行主成分分析;3.会用SAS软件编程结合主成分分析方法解决实际问题。2学习要求1.理解主成分分析的根本原理,掌握主成分分析的根本步骤;2.会用SAS软件编写相关程序,对相关数据进行分析处理和假设检验;3.撰写不少于3000字的小论文;4. 精读一篇优秀论文。3. 理论根底3. 1根本思想 在实际问题的研究中,往往会涉及众多的变量。但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题

2、带来困难。一般来说,虽然每个变量提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造,用为数较少的互不相关的新变量来反映原来变量所提供的绝大局部信息,通过对新变量的分析到达解决问题的目的。主成分分析就是在这种降维的思想下产生的处理高维数据的方法。3.2 根本原理1.总体的主成分定义1.设为P维随机向量,称为X的第i主成分i=1,2,P,如果: (1) (2) 当i1时, (3) 定理1.设是P维随机向量,且,的特征值为,为相应的单位正交特征向量,那么X的第i主成分为 定义2.我们称为主成分

3、的奉献率;又称为主成分的累计奉献率。记,其中为的特征值,是相应的单位正交特征向量,记正交矩阵主成分,其中那么总体主成分有如下的性质:性质1. ,即P个主成分的方差为:,且它们是互不相关的。性质2. ,通常称为原总体X的总方差或称总惯量。性质3.主成分与原始变量的相关系数为 并把主成分与原始变量的相关系数称为因子负荷量。性质4. 。性质5. 假设记,即令 这时标准化后的随机向量的协方差阵就是原随机向量X的相关阵R。从相关阵R出发求主成分,记主成分向量为,那么有与总体主成分相应的性质:性质1. ,其中为相关矩阵R的特征值。性质2. .性质3.主成分与标准化变量的相关系数为 ,其中是R对应于的单位正

4、交特征向量。性质4. 性质5. 。2.样本的主成分定义1.设变量的n次观测数据阵X已标准化,这时样本的协方差阵就是样本相关阵R,且R的特征值为,其相应标准化特征向量为,样本主成分为 类似总体主成分,样本主成分也具有如下的性质:性质1. 因为0,而上式说明当时,第i个主成分得分向量与第j个主成分得分向量是相互正交的。性质2. 。称为样本主成分的奉献率;又称为样本主成分的累计奉献率。性质3.样本主成分具有是残差平方和最小的优良性。3.3 根本步骤 数据标准化其中,为第列的方差; 计算协方差矩阵; 计算协方差矩阵的特征值与特征向量;利用特征方程求出按大小排列特征值以及相应的特征向量; 选择前几个特征

5、向量,确定主成分;3.4 根本命令 使用proc princomp过程进行主成分分析,其主要语句格式如下:Proc princomp ; Var 变量列表; Run;其中:1Proc princomp语句用来规定输入、输出和一些运行选项,其选项及功能如下:data=数据集名1:指明所要分析的数据集,假设省略那么表示分析最新生成的数据集。out=数据集名2:命名一个输出SAS数据集,其中包含原始数据以及各主成分得分即各主成分的观测值。outstat=数据集名3:命名一个包含各变量的均值、标准差、相关矩阵或协方差矩阵、特征值和特征向量的SAS数据集。covariance(cov):要求从协方差矩阵

6、出发作主成分分析,假设省略此选项,那么从相关矩阵出发进行分析;除非各变量的度量单位是可比拟的或已经过某种方式的标准化,否那么不宜使用此选项,应从相关矩阵出发作主成分分析。N=n:指定要计算的主成分的个数,其默认值为参与分析的变量的个数。prefix=name:规定各主成分名称的前缀。省略此句那么SAS系统自动赋予各主成分名称分别为prin1,prin2,;假设“name=A,那么各主成分名称分别为A1,A2,前缀的字符个数加上后面数字位数应不超过8个字符。2VAR variables;此句中的“variables局部列出数据集中参与主成分分析的变量名称。假设省略此句,那么被分析数据集中所有数值

7、变量均参与分析。4举例【例1】 (中学生身体四项指标的主成分分析) 在某中学随机抽取某年级30名学生,测量其身高X1、体重X2、胸围X3和坐高X4,数据见教材P277的表7.4。试对这30名学生体四项指标数据做主成分分析。data d721; input number x1-x4 ; cards;1 148 41 72 78 2 139 34 71 763 160 49 77 86 4 149 36 67 795 159 45 80 86 6 142 31 66 767 153 43 76 83 8 150 43 77 799 151 42 77 80 10 139 31 68 7411 14

8、0 29 64 74 12 161 47 78 8413 158 49 78 83 14 140 33 67 7715 137 31 66 73 16 152 35 73 7917 149 47 82 79 18 145 35 70 7719 160 47 74 87 20 156 44 78 8521 151 42 73 82 22 147 38 73 7823 157 39 68 80 24 147 30 65 7525 157 48 80 88 26 151 36 74 8027 144 36 68 76 28 141 30 67 7629 139 32 68 73 30 148 38

9、70 78;proc princomp data=d721 prefix=z out=o721 ; var x1-x4;run;options ps=32 ls=85;proc plot data=o721; plot z2*z1 $ number=*/href=-1 href=2 vref=0;run;proc sort data=o721; by z1;run;proc print data=o721; var number z1 z2 x1-x4;run;quit;由PRINCOMP过程由相关阵出发进行主成分分析。由下面的相关阵来看, 指标之间存在着严重的共线关系,就要用主成分的方法进行

10、降维也就是说用较少的指标就能很好衡量学生的身体根本情况。从相关阵的特征直来看,第一主成分的奉献率已高达88.53%,且前两个主成分的累计奉献率已高达96.36%,因此只需用两个主成分就能很好地概括这组数据。另由第四个特征值近似为0,可以看出这4个标准化后的身体指标变量有近似的共线性。由最大的两个特征值对应的特征向量可以写出第一和第二主成分:利用特征向量的值对各个主成分进行分析。第一主成分特征值对应的第一个特征向量的各个分量均在0.5附近,而且都是正值,它反映学生的魁梧程度。身体高大的学生,他的4个部位的尺度都比拟大;而身体矮小的学生,他的4个部位的尺寸都比拟小。因此我们可以称第一主成分为大小因

11、子。第二大特征值对应的特征向量中第一和第四个分量均为负值,其它的都为正值,它反映学生的胖瘦情况,可称为形态因子。从第二主成分得分对第一主成分得分的散布图看,很直观地看出,按学生的身体指标尺寸,这30名学生大约分三组以第一主成分得分值为-1和2为分界点。每一组包括哪几名学生可由每一给散点旁边的序号可以得知。5训练题5.1用主成分分析方法探讨城市工业主体结构。表1是某市工业部门13个行业8项指标的数据。表1 某市工业部门13个行业8项指标的数据年末固定资产净值万元职工人数人工业总产值万元全员劳动产率元/人年百元固定原资产值实现产值元资金利税率标准燃料消费量吨能源利用效果万元/吨1(冶金)90342

12、524551010911927282.00016.1001974350.1722(电力)4903197320351031334.2007.1005920770.0033(煤炭)6735211393767178036.1008.2007263960.0034(化学)4945436241815572250498.10025.9003482260.9855(机械)1391902035052158981060993.20012.6001395720.6286(建材)122151621910351638262.5008.7001458180.0667(森工)23726572810312329184.40

13、022.200209210.1528(食品)11062230785493523804370.40041.000654860.2639(纺织)17111239075210821796221.50021.500638060.27610(缝纫)12063930612615586330.40029.50018400.43711(皮革)21505704620010870184.20012.00089130.27412(造纸)525161551038316875146.40027.500787960.15113(文教艺术用品)1434113203193961469194.60017.80063541.574(1) 试用主成分分析方法确定8项指标的样本主成分综合变量;假设要求损失信息不超过15,应取几个主成分;并对这几个主成分进行解释;(2) 利用主成分得分对13个行业进行排序和分类。5.2 某市为了全面分析机械类各企业的经济效益,选择了8个不同的利润指标,14家企业关于这8个指标的统计数据如表3所示。试进行主成分分析,并对所选取的主成分作出解释。表2 14家企业的利润指标的统计数据 变量企业号净产值利润率固定资产利润率总产值利润率销售收入利润率产品本钱利润率物耗利润率人均利润率流动资金利润率140.4

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号