sas学习系列33. 主成分分析

上传人:小** 文档编号:89043874 上传时间:2019-05-16 格式:DOC 页数:12 大小:209.98KB
返回 下载 相关 举报
sas学习系列33. 主成分分析_第1页
第1页 / 共12页
sas学习系列33. 主成分分析_第2页
第2页 / 共12页
sas学习系列33. 主成分分析_第3页
第3页 / 共12页
sas学习系列33. 主成分分析_第4页
第4页 / 共12页
sas学习系列33. 主成分分析_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《sas学习系列33. 主成分分析》由会员分享,可在线阅读,更多相关《sas学习系列33. 主成分分析(12页珍藏版)》请在金锄头文库上搜索。

1、33. 主成分分析(一)原理一、基本思想主成份分析,是数学上对数据降维的一种方法,是将多个变量转化为少数综合变量(集中了原始变量的大部分信息)的一种多元统计方法。其主要目的是将变量减少,并使其改变为少数几个相互独立的线性组合形成的新变量(主成份,其方差最大),使得原始资料在这些成份上显示最大的个别差异来。在所有的线性组合中所选取的F1应该是方差最大的,称为第一主成分。如果第一主成分不足以代表原来所有指标的信息,再考虑选取第二个线性组合F2, 称为第二主成分。为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)0. 依此类推可以构造出第三、第四

2、、第p个主成分。主成份分析,可以用来综合变量之间的关系,也可用来减少回归分析或聚类分析中的变量数目。二、基本原理 设有n个样品(多元观测值),每个样品观测p项指标(变量):X1,Xp,得到原始数据资料阵:其中,Xi = (x1i,x2i,xni)T,i = 1, , p.用数据矩阵X的p个列向量(即p个指标向量)X1,Xp作线性组合,得到综合指标向量:简写成:Fi = a1iX1 + a2iX2 +apiXp i = 1, , p限制系数ai = (a1i,a2i,api)T为单位向量,即且由下列原则决定:(1)Fi与Fj互不相关,即COV(Fi, Fj)= aiTai=0,其中为X的协方差矩

3、阵;(2)F1是X1,X2,Xp的所有满足上述要求的线性组合中方差最大的,即F2是与F1不相关的X1,Xp所有线性组合中方差最大的,Fp是与F1,Fp-1都不相关的X1,Xp所有线性组合中方差最大的。满足上述要求的综合指标向量F1,F2,Fp就是主成分,这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值i,每一个主成分的组合系数ai = (a1i,a2i,api)T就是特征值i所对应的单位特征向量。方差的贡献率为i越大,说明相应的主成分反映综合信息的能力越强。注:主成分分析是将原始变量组成

4、的坐标系进行平移变换,使得新的坐标原点和数据群点的重心重合。新坐标第一轴与数据变化最大方向对应。F1,F2,Fp可以理解为p维空间中互相垂直的p个坐标轴。三、基本步骤1. 计算样品数据协方差矩阵 = (sij)pp,其中2. 求出的特征值及相应的特征向量12p0, 及相应的正交化单位特征向量:则X的第i个主成分为Fi= aiTX,i=1, , p.3. 选择主成分在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。一般用方差贡献率解释主成分Fi所反映的信息量的大小,m的确定是用累计贡献率达到足够大(一般在85%以上)为原则。4. 计算n个样品在m个主成分得分5. 数据的标准化实际应用时

5、,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法,常用方法是将原始数据标准化其中,即把每列变为均值为0,方差为1. 注:标准化后变量的协方差矩阵 = (sij)pp,与原变量的相关系数矩阵R= (rij) pp相同,故主成分分析可以从原始变量数据的相关系数矩阵,也可以从标准化数据的协方差矩阵出发做分析。(二)PROC PRINCOMP过程步基本语法:PROC PRINCOMP data = 数据集 ;ID 变量;VAR 变量变量; 说明:(1)可选项type = COV/CORR原始数据用CORR(相关系数矩阵,默认);标准化数据用COV(协方差矩阵);

6、out数据集存储原始数据和各主成分得分(相应特征值); outstat数据集存储若干统计量; n=设定主成分个数; stdOUT=数据集中,将主成分得分标准化为单位方差; noint要求模型中不含截距。(2)VAR语句指定做主成分分析的变量;(3)PARTIAL语句指明对偏相关阵或偏协方差矩阵进行分析时,被偏出去的数值变量名。例1 对全国30个省市自治区经济发展基本情况的八项指标作因子分析。省份GDPx1居民消费水平x2固定资产投资x3职工平均工资x4货物周转量x5居民消费价格指数x6商品零售价格指数x7工业总产值x8北京1394.892505519.018144373.9117.3112.6

7、843.43天津920.112720345.466501342.8115.2110.6582.51河北2849.521258704.8748392033.3115.2115.81234.85山西1092.481250290.94721717.3116.9115.6697.25内蒙古832.881387250.234134781.7117.5116.8419.39辽宁2793.372397387.9949111371.1116.11141840.55吉林1129.21872320.454430497.4115.2114.2762.47黑龙江2014.532334435.734145824.811

8、6.1114.31240.37上海2462.575343996.489279207.4118.71131642.95江苏5155.2519261434.9559431025.5115.8114.32026.64浙江3524.7922491006.396619754.4116.6113.5916.59安徽2003.5812544744609908.3114.8112.7824.14福建2160.522320553.975857609.3115.2114.4433.67江西1205.111182282.844211411.7116.9115.9571.84山东5002.3415271229.555

9、1451196.6117.6114.22207.69河南3002.741034670.3543441574.4116.5114.91367.92湖北2391.421527571.684685849120116.61220.72湖南2195.71408422.6147971011.8119115.5843.83广东5381.7226991639.838250656.5114111.61396.35广西1606.151314382.595105556118.4116.4554.97海南364.171814198.355340232.1113.5111.364.33四川35341261822.544

10、645902.3118.51171431.81贵州630.07942150.844475301.1121.4117.2324.72云南1206.6812613345149310.4121.3118.1716.65西藏55.98111017.8773824.2117.3114.95.57陕西1000.031208300.274396500.9119117600.98甘肃553.351007114.815493507119.8116.5468.79青海165.31144547.76575361.6118116.3105.8宁夏169.75135561.985079121.8117.1115.311

11、4.4新疆834.571469376.955348339119.7116.7428.76代码:data Economics;infile C:MyRawDataEconomics.txt;input Province $ x1 x2 x3 x4 x5 x6 x7 x8;run;proc princomp data = Economics n = 3 out = Resusts plots= score(ellipse ncomp=2);id Province;var x1-x8;run;proc print data = Resusts;run;运行结果及说明:PRINCOMP 过程观测30变

12、量8简单统计量x1x2x3x4x5x6x7x8均值1921.0926671745.933333511.50833335457.633333666.1200000117.2866667114.9066667862.9980000StD1474.806031861.641934402.88547651310.218052459.93526042.02531111.8980813584.5872585相关矩阵x1x2x3x4x5x6x7x8x11.00000.26680.95060.19060.6172-.2726-.26360.8737x20.26681.00000.42610.7181-.1510-.2351-.59270.3631x30.95060.42611.00000.39960.4306-.2805-.35910.7919x40.19060.71810.39961.0000-.3556-.1350-.53920.1044x50.6172-.15100.4306-.35561.0000-.25320.02170.6586x6-.2726-.2351-.2805-.1350-.25321.00000.7628-.1252x7-.2636-.5927-.3591-.53920.02170.76281.0000-.1921x80.87370.3

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号