七章主成分分析

上传人:大米 文档编号:568905447 上传时间:2024-07-27 格式:PPT 页数:64 大小:888.03KB
返回 下载 相关 举报
七章主成分分析_第1页
第1页 / 共64页
七章主成分分析_第2页
第2页 / 共64页
七章主成分分析_第3页
第3页 / 共64页
七章主成分分析_第4页
第4页 / 共64页
七章主成分分析_第5页
第5页 / 共64页
点击查看更多>>
资源描述

《七章主成分分析》由会员分享,可在线阅读,更多相关《七章主成分分析(64页珍藏版)》请在金锄头文库上搜索。

1、第七章 主成分分析v7.1 引言v7.2 总体的主成分v7.3 样本的主成分17.1 引言v主成分分析(principal component analysis)由皮尔逊(Pearson,1901)首先引入,后来被霍特林(Hotelling,1933)发展了。v主成分分析是一种通过降维技术把多个变量化为少数几个主成分(综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。2v习题7.6 下表给出的是美国50个州每100 000个人中七种犯罪的比率数据。这七种犯罪是:x1:杀人罪x5 :夜盗罪x2:强奸罪x6 :偷盗罪x3:抢劫罪x7 :汽车犯

2、罪x4:斗殴罪 试图用降维的方式对50个州的犯罪情况进行比较分析。34statex1x2x3x4x5x6x7Alabama14.225.296.8278.31135.51881.9280.7Alaska10.851.696.82841331.73369.8753.3Arizona9.534.2138.2312.32346.14467.4439.5Arkansas8.827.683.2203.4972.61862.1183.4California11.549.42873582139.43499.8663.5Colorado6.342170.7292.91935.23903.2477.1Conne

3、cticut4.216.8129.5131.813462620.7593.2Delaware624.9157194.21682.63678.4467Florida10.239.6187.9449.11859.93840.5351.4Georgia11.731.1140.5256.51351.12170.2297.9Hawaii7.225.512864.11911.53920.4489.4Idaho5.519.439.6172.51050.82599.6237.6Illinois9.921.8211.320910852828.5528.6Indiana7.426.5123.2153.51086.

4、22498.7377.4Iowa2.310.641.289.8812.52685.1219.9Kansas6.622100.7180.51270.42739.3244.3Kentucky10.119.181.1123.3872.21662.1245.4Louisiana15.530.9142.9335.51165.52469.9337.7Maine2.413.538.71701253.12350.7246.95主成分的应用v(1)在一些应用中,这些主成分本身就是分析的目的,此时我们需要给(用来降维的前几个)主成分一个符合实际背景和意义的解释,以明白其大致的含义。v(2)在更多的另一些应用中,主

5、成分只是要达到目的的一个中间结果(或步骤),而非目的本身。例如,将主成分用于聚类(主成分聚类)、回归(主成分回归)、评估正态性、寻找异常值,以及通过方差接近于零的主成分发现原始变量间的多重共线性关系等,此时的主成分可不必给出解释。6v旋转公式:7图7.1.1 寻找主成分的正交旋转 7.2 总体的主成分v一、主成分的定义及导出v二、主成分的性质v三、从相关阵出发求主成分8一、主成分的定义及导出v设 ,E(x)=,V(x)=。考虑如下的线性变换希望在约束条件 下寻求向量a1,使得 达到最大,y1就称为第一主成分。v设1 2p0为的特征值, , i=1,2,p为相应的一组正交单位特征向量。则可求得第

6、一主成分为它的方差具有最大值1。 9v如果第一主成分所含信息不够多,还不足以代表原始的p个变量,则需考虑再使用 ,并要求Cov(y1,y2) =0我们在此条件和约束条件 下寻求向量a2,使得 达到最大,所求的y2称为第二主成分。可求得其方差为2。 v一般来说,x的第i主成分是指:在约束条件 和 Cov(yk,yi)=0, k=1,2,i1下寻求ai,使得达到最大。第i主成分为10主成分的几何意义v在几何上,ti表明了第i主成分的方向,yi是x在ti上的投影值(其绝对值即为投影长度),i是这些值的方差,它反映了ti上投影点的变异程度。11x投影到ti上的值其中i是ti与x的夹角。12主成分向量与

7、原始向量之间的关系式1314主成分与原始变量之间的关系式矩阵y1y2ypx1t11t12t1px2t21t22t2pxptp1tp 2tpp15正交变换 的几何意义v正交变换 的几何意义是将Rp中由x1,x2,xp构成的原p维坐标轴作一正交旋转,一组正交单位向量t1,t2,tp表明了p个新坐标轴的方向,这些新坐标轴彼此仍保持正交(或说垂直)。16多元正态总体的主成分方向17二、主成分的性质v1.主成分向量的协方差矩阵v2.主成分的总方差 v3.原始变量xi与主成分yk之间的相关系数v4.m个主成分对原始变量的贡献率v5.原始变量对主成分的影响181.主成分向量的协方差矩阵V(y)= 其中=di

8、ag(1,2,p),即V(yi)= i, i=1,2,p,且y1,y2,yp互不相关。192.主成分的总方差 v 或20v总方差中属于第i主成分yi (或被yi所解释)的比例为称为主成分yi的贡献率。v第一主成分y1的贡献率最大,表明它解释原始变量 x1,x2,xp的能力最强,而y2,y3,yp的解释能力依次递减。v主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。 21v前m个主成分的贡献率之和称为主成分y1,y2,ym的累计贡献率,它表明y1,y2, ,ym解释x1,x2,xp的能力。v通常取(相对于p)较小

9、的m ,使得累计贡献达到一个较高的百分比(如8090)。此时,y1,y2, ,ym可用来代替x1,x2,xp,从而达到降维的目的,而信息的损失却不多。223.原始变量xi与主成分yk之间的相关系数 v x=Ty即xi=ti1y1+ti2y2+tipyp所以Cov(xi,yk)=Cov(tikyk,yk)=tikkv在实际应用中,通常我们只对xi (i=1,2,p)与yk (k=1,2,m)的相关系数感兴趣。234.m个主成分对原始变量的贡献率vm个主成分y1,y2,ym从原始变量x1,x2,xp中提取的信息量,可度量为xi与y1,y2,ym的复相关系数的平方,它是xi的方差可由y1,y2,ym

10、联合解释的比例,称之为m个主成分y1,y2,ym对原始变量xi的贡献率。v 24v例7.2.1 设x=(x1,x2,x3)的协方差矩阵为其特征值为1=5.83,2=2.00,3=0.17相应的特征向量为若只取一个主成分,则贡献率为5.83/(5.83+2.00+0.17)=0.72875=72.875%25 应再取y2,此时累计贡献率为(5.83+2.00)/8=97.875%(y1, y2)对每个变量xi的贡献率分别为 , 都比较高。表7.2.1 y1及( (y1,y2) )对每个原始变量的贡献率i(y1,xi)(y2,xi)10.9250.8550.0000.85520.9980.9960

11、.0000.99630.0000.0001.0001.000265.原始变量对主成分的影响v yk=t1kx1+t2kx2+tpkxp称tik为第k主成分yk在第i个原始变量xi上的载荷,它反映了xi对yk的重要程度。v v在解释主成分时,我们需要考察载荷,同时也应考察一下相关系数。27v例7.2.2 设x=(x1,x2,x3)的协方差矩阵为经计算,的特征值及特征向量为1=109.793,2=6.469,3=0.738 相应的主成分分别为28y1=0.305x1+0.041x2+0.951x3y2=0.944x1+0.120x20.308x3 y3=0.127x1+0.992x20.002x3

12、可见,方差大的原始变量x3在很大程度上控制了第一主成分y1,方差小的原始变量x2几乎完全控制了第三主成分y3,方差介于中间的x1则基本控制了第二主成分y2。y1的贡献率为这么高的贡献率首先归因于x3的方差比x1和x2的方差大得多,其次是x1,x2,x3相互之间存在着一定的相关性。y3的特征值相对很小,表明x1,x2,x3之间有这样一个线性依赖关系:0.127x1+0.992x20.002x3c其中c=0.1271+0.99220.0023为一常数。29v v方差大的那些变量与具有大特征值的主成分有较密切的联系,而方差小的另一些变量与具有小特征值的主成分有较强的联系。通常我们取前几个主成分,因此

13、所取主成分会过于照顾方差大的变量,而对方差小的变量却照顾得不够。揭示多重共线性关系vyp的贡献率常常很小,可视作接近于一个常数(均值)。虽然yp似乎显得不重要,一般被忽略,但它却可能揭示出原始变量之间存在着一个意外的多重共线性关系。v更进一步来说,如果后几个主成分的贡献率都非常小,则可能表示变量之间有几个彼此独立的多重共线性关系。v如果V(yp)=0,则表明x1,x2,xp之间(以概率1)存在线性关系(或者说完全共线性关系)。此时应从这些原始变量中删除“多余”的变量(一般来说,有几个主成分方差为零,就有几个“多余”的变量),然后再重新进行主成分分析。31三、从相关阵出发求主成分v通常有两种情形

14、不适合直接从协方差矩阵出发进行主成分分析。一种是各变量的单位不全相同的情形。另一种是各变量的单位虽相同,但其变量方差的差异较大(在应用中常表现为各变量数据间的数值大小相差较大)的情形,32v最常用的标准化变换是令 。v显然,的协差阵正是x的相关阵R。v从R出发求主成分,主成分分析将均等地对待每一个原始变量。v设 为R的p个特征值, 为相应的单位特征向量,且相互正交,则p个主成分为v记 于是y*=T*x*33从R出发的主成分性质v(1)E(y*)=0,V(y*)=*,其中 v(2) 。v(3)变量 与主成分 之间的相关系数即有34 因此,在解释主成分 时,由相关阵R求得的载荷 和相关系数 所起的

15、作用是完全相同的,只需选其一用来作主成分解释即可。v(4)主成分 对变量 的贡献率v(5) 。35v例7.2.3 在例7.2.2中,x的相关阵R的特征值及特征向量为相应的主成分分别为36 的贡献率为 和 累计贡献率为现比较本例中从R出发和例7.2.2中从 出发的主成分计算结果。从R出发的 的贡献率0.705明显小于从出发的y1的贡献率0.938,事实上,原始变量方差之间的差异越大,这一点也就倾向于越明显。 可用标准化前的原变量表达如下:37可见, 在原变量x1,x2,x3上的载荷相对大小与例7.2.2中yi在x1,x2,x3上的载荷相对大小之间有着非常大的差异。这说明,标准化后的结论完全可能会

16、发生很大的变化,因此标准化不是无关紧要的。387.3 样本的主成分v设数据矩阵为则样本协差阵和样本相关阵分别为397.3 样本的主成分v一、样本主成分的定义v二、从S出发求主成分v三、从 出发求主成分v四、主成分分析的应用v五、若干补充及应用中需注意的问题40回顾主成分的定义v第一主成分:在约束条件|a1|=1下寻求向量a1,使得 的方差 达到最大。v第二主成分:在约束条件|a2|=1和Cov(y1,y2) =0下寻求向量a2,使得 的方差 达到最大。v第i主成分:在约束条件|ai|=1和Cov(yk,yi)=0, k=1,2,i1下寻求ai,使得 的方差 达到最大。 41一、样本主成分的定义

17、v若向量a1在约束条件|a1|=1下,使得 的样本方差 达到最大,则称线性组合 为第一样本主成分。若向量a2在约束条件|a2|=1和 42 的样本协方差 下,使得 的样本方差 达到最大,则称线性组合 为第二样本主成分。一般地,若向量ai 在约束条件|ai|=1和 的样本协方差43 下,使得的样本方差达到最大,则称线性组合 为第i样本主成分, i=1,2,p 。v需要指出的是,样本主成分是使样本方差而非方差达到最大,是使样本协方差而非协方差为零。44二、从S出发求主成分v用类似于上一节的方法,以S代替即可求得样本主成分。设 为S的特征值, 为相应的单位特征向量,且彼此正交。则第i样本主成分为 ,

18、它具有样本方差 , i=1,2,p,各主成分之间的样本协方差为零。v在几何上,p个样本主成分的方向为 所在的方向,且彼此垂直。n个样品点在 上的投影点最为分散,在其余 上投影点的分散程度依次递减。45v总样本方差vxi与 的样本相关系数其中 ,k=1,2,p。46主成分得分v v中心化的第i主成分v若将各观测值xj代替上式中的x,则第i主成分的值称之为观测值xj的第i主成分得分。所有观测值的平均主成分得分47三、从 出发求主成分v设样本相关阵 的p个特征值为 , 为相应的正交单位特征向量,则第i样本主成分 其中x*是各分量经(样本)标准化了的向量,即48标准化后的主成分得分v令将其代替上述公式

19、中的x*,即得观测值xj在第i主成分上的得分所有观测值的平均主成分得分49四、主成分分析的应用v在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平,其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释。v主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。50v如果原始变量之间具有较高的相关性,则前面少数几个主成分的累计贡献率通常就能达到一个较高水平,也就是说,

20、此时的累计贡献率通常较易得到满足。v主成分分析的困难之处主要在于要能够给出主成分的较好解释,所提取的主成分中如有一个主成分解释不了,本身作为目的的整个主成分分析也就失败了。v主成分分析是变量降维的一种重要、常用的方法,简单的说,该方法要应用得成功,一是靠原始变量的合理选取,二是靠“运气”。51 v例7.3.1 在制定服装标准的过程中,对128名成年男子的身材进行了测量,每人测得的指标中含有这样六项:身高(x1)、坐高(x2) 、胸围(x3) 、手臂长(x4) 、肋围(x5)和腰围(x6) 。所得样本相关矩阵列于表7.3.1。 x1x2x3x4x5x6x11.00x20.791.00x30.36

21、0.311.00x40.760.550.351.00x50.250.170.640.161.00x60.510.350.580.380.631.00表7.3.1 男子身材六项指标的样本相关矩阵52表7.3.2 的前三个特征值、特征向量以及贡献率特征向量 :身高0.4690.3650.092 :坐高0.4040.3970.613 :胸围0.3940.3970.279 :手臂长0.4080.3650.705 :肋围0.3370.5690.164 :腰围0.4270.3080.119特征值3.2871.4060.459贡献率0.5480.2340.077累计贡献率0.5480.7820.85953前

22、三个主成分分别为根据累计贡献率可考虑取前面两个或三个主成分。称第一主成分为(身材)大小成分,称第二主成分为形状成分(或胖瘦成分),称第三主成分为臂长成分。 可考虑取前两个主成分。由于 非常小,所以存在共线性关系:54v例7.3.2 在习题6.5中,如下八项男子径赛运动记录: x1:100米(秒) x5:1500米(分) x2:200米(秒) x6:5000米(分) x3:400米(秒) x7:10000米(分) x4:800米(秒) x8:马拉松(分)表7.3.3 八项男子径赛运动记录的样本相关矩阵x1x2x3x4x5x6x7x8x11.000x20.9231.000x30.8410.8511

23、.000x40.7560.8070.8701.000x50.7000.7750.8350.9181.000x60.6190.6950.7790.8640.9281.000x70.6330.6970.7870.8690.9350.9751.000x80.5200.5960.7050.8060.8660.9320.9431.00055表7.3.4 的前三个特征值、特征向量以及贡献率特征向量 :100米0.3180.5670.332 :200米0.3370.4620.361 :400米0.3560.2480.560 :800米0.3690.0120.532 :1500米0.3730.1400.153

24、 :5000米0.3640.3120.190 :10000米0.3670.3070.182 :马拉松0.3420.4390.263特征值6.6220.8780.159贡献率0.8280.1100.020累计贡献率0.8280.9370.95756 在径赛项目上的强弱成分。 反映了速度与耐力成绩的对比。v例7.3.3 对例6.3.3中的数据从相关矩阵出发进行主成分分析。57图7.3.1 相关矩阵58图7.3.2 特征值和特征向量第一主成分可称为综合消费性支出成分。第二主成分可称为(受地区气候影响的)消费(结构)倾向成分,后面表7.3.6中的排序进一步支持了这一解释。第三主成分很难给出明显的解释,

25、因此我们只取前面两个主成分。59表7.3.5 按第一主成分排序的31个地区地区地区江西2.2341.867新疆0.6970.647河南1.9470.388四川0.5330.041黑龙江1.9270.636广西0.2512.058吉林1.8590.151山东0.1470.983山西1.8480.404福建0.2011.337内蒙古1.8260.509湖南0.2190.203安徽1.7960.519江苏0.4070.311甘肃1.5490.526云南0.4350.479宁夏1.5010.906西藏0.4372.365辽宁1.3130.844重庆1.1150.409贵州1.2980.341天津2.0

26、060.044海南1.1571.913浙江3.5830.531青海1.0450.426北京5.4262.466陕西0.8590.501广东5.5833.072河北0.7690.580上海5.8660.195湖北0.7170.24760表7.3.6 按第二主成分排序的31个地区地区地区广东5.5833.072山西1.8480.404广西0.2512.058重庆1.1150.409海南1.1571.913青海1.0450.426江西2.2341.867云南0.4350.479福建0.2011.337内蒙古1.8260.509安徽1.7960.519甘肃1.5490.526陕西0.8590.501浙江3.5830.531河南1.9470.388河北0.7690.580贵州1.2980.341黑龙江1.9270.636江苏0.4070.311新疆0.6970.647湖北0.7170.247辽宁1.3130.844湖南0.2190.203宁夏1.5010.906上海5.8660.195山东0.1470.983四川0.5330.041西藏0.4372.365天津2.0060.044北京5.4262.466吉林1.8590.151616263五、若干补充及应用中需注意的问题v1.关于时间序列数据v2.主成分用于聚类分析v3.关于不同时期的主成分分析v4.对综合得分方法的质疑64

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号