数学模型讲座主成分分析.ppt

上传人:桔**** 文档编号:567572904 上传时间:2024-07-21 格式:PPT 页数:32 大小:424.50KB
返回 下载 相关 举报
数学模型讲座主成分分析.ppt_第1页
第1页 / 共32页
数学模型讲座主成分分析.ppt_第2页
第2页 / 共32页
数学模型讲座主成分分析.ppt_第3页
第3页 / 共32页
数学模型讲座主成分分析.ppt_第4页
第4页 / 共32页
数学模型讲座主成分分析.ppt_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《数学模型讲座主成分分析.ppt》由会员分享,可在线阅读,更多相关《数学模型讲座主成分分析.ppt(32页珍藏版)》请在金锄头文库上搜索。

1、1主成分分析Principal Components Analysis武汉理工大学统计学系 唐湘晋LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”2 1. 概概 述述 多元问题的复杂性指标(变量)多,指标间存在相关性。 问题能否构造出一些综合指标使满足如下条件 指标个数尽可能少, 指标间相互独立, 尽可能多地包含原指标所含的关于总体的信息。1 主成分分析的原理LOGO时间管理之时间管理之“四象限法则四象限法则”3 例如做一件上衣要测量的指标有身长、袖长、胸围、腰围、肩宽、肩厚等等十几项指标。某服装厂生产一批新型服装,需将十几项指标综合为3项指标(

2、分别反应长度、胖瘦、特体),用作分类的型号。 又如商业经济 多项指标-物价、生活费用、商业活动指数。1. 概概 述述LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”4 主成分分析主成分分析是将原来众多具有相关性的众多具有相关性的指标指标化为少数几个相互独立的综合指标少数几个相互独立的综合指标的一种统计方法。1. 概概 述述LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”5原始数据矩阵p 维空间n 个点研究n 个点的关系,难!降维,近似在低维空间表达。2. 直直 观观 想想 法法LOGO时间管理之时间

3、管理之“四象限法则四象限法则”6 如果椭圆很扁,则在 y 的坐标系中,样本点的第一个坐标y1 就代表了这些点的分布情况。例如,二元总体,正态分布。2. 直直 观观 想想 法法LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”7设p 维随机变量 的数学期望为0,x的主成分主成分指的是综合变量 , 它满足如下条件 ,其中 是正交矩阵。即(1)3.主成分问题的数学提法主成分问题的数学提法LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”8 在形如(1)的线性变换中,y1 具有最大的方差; y1 与y2 相互独

4、立,且在与y1 相互独立的线性变换中y2 具有最大的方差; y3 与y1 和y2 相互独立,且在与y1 和 y2 相互独立的线性变换中, y3具有最大的方差;如此类推。分别叫做x的y1 ,y2 , yp第一、第二、 、第p 主成分。3.主成分问题的数学提法主成分问题的数学提法LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”9 设 是x 的主成分,它们的方差分别为 ,由于问题 x 的主成分是否存在? 即能够使成立的正交矩阵 是否存在?问题解决思路假设主成分存在,看一下U应满足什么的条件,能否按照这个条件把U求出来。 相互独立,所以又因为3.主成分问

5、题的数学提法主成分问题的数学提法LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”10所以即 或 。若记则有即是对应的单位特征向量。是 的特征值, 说明求法,最大方差性质。3.主成分问题的数学提法主成分问题的数学提法LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”11定理定理: 设p 维随机变量 的数学期望为0,且协方差阵为 ,它的特征值为 为相应的单位特征向量,则x 第 i 主成分为3.主成分问题的数学提法主成分问题的数学提法LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“

6、四象限法则四象限法则”12说明说明1求主成分关键是要从协方差矩阵 求出正交变换矩阵 。说明说明2若已经求出主成分 ,则原来的p 个指标 就可以转化为用p 个新的指标 (即主成分)来表达。这p 个新的指标是相互独立的,这给问题的分析带来了很大的方便。3.主成分问题的数学提法主成分问题的数学提法LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”13说明说明3新的指标 的方差分别为 ,如果某一个 很小,总体分布在 这个方向上分散程度很小,这个分量所起作用不大,因而可以忽略不考虑。将这些分量去掉,就可以降低维数, 给分析问题带来更大的方便。3.主成分问题的

7、数学提法主成分问题的数学提法LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”14 实际问题中总体协方差矩阵 是未知的,只能用样本协方差矩阵 去估计。因此实用中,从样本协方差矩阵 出发,求 一个正交矩阵 ,将 变成对角矩阵 ,即 4.样本主成分样本主成分LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”15样本主成分-由 出发求出的主成分。 样本点 的主成分坐标为注注 样本数据要求是中心化的数据样本数据要求是中心化的数据。4.样本主成分样本主成分LOGO时间管理之时间管理之“四象限法则四象限法则”时间管

8、理之时间管理之“四象限法则四象限法则”16 是样本点在第j 个主成分方向上的方差,它代表样本点在这个主成分方向上的分散程度。若 很小,这个主成分可忽略不记。 问题 小到什么程度才算小呢?第j个主成分的贡献率5.贡献率贡献率LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”17主成分舍弃原则主成分舍弃原则前 m 个主成分的累计贡献率 接近于1(80%或85%),则可将余下的p-m个主成分舍去。贡献率的计算小结小结 可设计m个互不相关的综合指标: 总方差5.贡献率贡献率LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则

9、四象限法则”187. 因子负荷量因子负荷量 因子负荷量因子负荷量称主成分yk与原始变量xi的相关系数 为第j 因子 在第 个主分量 上的因子负荷量。因子负荷量的样本估计值LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”19因子负荷量的性质注在解释主成分的实际意义时有一定参考价值。7. 因子负荷量因子负荷量LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”208. R 分析分析 从原始数据阵X出发求主成分的缺点结果与测量单位有关。R分析从标准化数据阵 出发求主成分。用 代替 求正交矩阵 。第j个主成分的

10、贡献率因子负荷量的样本估计值LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”212 主成分分析的计算步骤与应用主成分分析的计算步骤与应用1. 计算步骤 (R分析) 列出观测资料矩阵X, 计算样本相关矩阵R, 计算R的特征值和特征向量-求正交变换, 计算贡献率及累计贡献率,确定主成分个数,建立主成分方程, 解释各主成分的意义, 计算各样本的主成分坐标y, 计算负荷量表。LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”222.MatLab计算工具计算工具 原始数据矩阵中,每列对应一个变量。 样本特征数的

11、计算工具平均值: mean( )方差: var( ) 标准差:std( )协方差矩阵: cov( )相关系数矩阵: corrcoef( ) 主成分计算工具pcacov()调用方法pc = pcacov(X)pc,latent,explained = pcacov(X)为原始数据的协方差或相关系数矩阵,pc为由特征向量组成的矩阵,即 , latent为特征值,explained为因子贡献率。LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”23样本号 叶长 2/3处宽 1/3处宽 1/2处宽(No.) x1 x2x3x41108 9511811029

12、0 951171103130 951401254114 851131085113 871211106120 90122114787 679788894 6688869115 841181061090 751039611117 60847612134 731049213150 731109614140 64958715126 75969016118 43595217136 55897518145 63978419161 641129420155 60100833.计算实例计算实例 作为研究杨树形状的一部分,测定20片杨树叶,每个叶片测定4个变量,变量名称及测量值如右表。试求表示叶片长和宽的主分量

13、。原始数据文件 leaf.txtLOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”24 由数据文件建立数据矩阵 load(leaf.txt) 基本统计量的计算平均值 mean=mean(X)方差 Xvar=var(X)标准差 Xstd=std(X)协方差矩阵 Sx=cov(X)相关系数矩阵 R=corrcoef(X) R-分析求主成分pc,latent,explained = pcacov(R)(验证U=pc; U*R*U 为对角矩阵,对角线为特征值)LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”2

14、5特征向量及特征根表特征向量及特征根表 叶长 0.1485 -0.9544 0.2515 -0.0614 2/3处宽-0.5735 0.0984 0.7734 0.2514 1/3处宽-0.5577 -0.2695 -0.5585 0.5517 1/2处宽-0.5814 -0.0824 -0.1629 -0.7929 特征根 2.9200 1.0237 0.0489 0.0074 贡献率 72.9996 25.5919 1.2230 0.1856 累积贡献率 72.9996 98.5915 99.8145 100.00第一主成分 “叶宽”综合因子第二主成分 “叶长”综合因子第三主成分 “逐渐变

15、尖”综合因子(符号相反、对比度)第四主成分 “尖翘程度”综合因子(两端与中间对比)LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”26说明说明1:单位特征向量可以相差一个正负号,如atlab的计算结果中第二主成分对应的特征向量与书中结果相差一个负号。说明说明2:前两个主成分的累积贡献率为98.6%,因此决定选取两个主成分。 建立主成分方程建立主成分方程 主成分方程的推导记则LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”27用MatLab求解A、BC=diag(ones(size(Xstd)./Xs

16、td)A=U*CB=-U*C*XmeanA = 0.0068 -0.0390 -0.0319 -0.0348 -0.0435 0.0067 -0.0154 -0.0049 0.0115 0.0526 -0.0319 -0.0097 -0.0028 0.0171 0.0315 -0.0474B = 8.6265 6.8864 -1.0184 0.2634主成分方程为主成分方程LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”28 解释各主成分意义解释各主成分意义第一主成分 “叶宽”综合因子第二主成分 “叶长”综合因子(第三、四主成分可忽略,不解释。)

17、第三主成分 “逐渐变尖”综合因子(符号相反、对比度)第四主成分 “尖翘程度”综合因子(两端与中间对比)第三、四主成分是表示叶形的综合因子,贡献很小,说明形状差异很小。LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”29 计算各样本的主成分坐标用MatLab计算Y=A*X+diag(B)*ones(size(X)Y做样本排序图 plot(Y(:,1),Y(:,2), c*) LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”30 计算因子负荷量计算因子负荷量用MatLab计算 lamd=diag(lat

18、ent)Ryx=lamd(1/2)*URyx= 0.2538 -0.9800 -0.9530 -0.9935 -0.9656 0.0996 -0.2727 -0.0833 0.0556 0.1711 -0.1235 -0.0360 -0.0053 0.0217 0.0475 -0.0683 因子负荷表 0.2538 -0.9656 -0.9800 0.0996 -0.9530 -0.2727 -0.9935 -0.0833LOGO时间管理之时间管理之“四象限法则四象限法则”时间管理之时间管理之“四象限法则四象限法则”314. 注释 R-分析和从原始数据阵X出发求主成分结果一般不同。 R或Sx的特征根相差越大,主成分分析的效率越高。若所有特征值都很接近,则主成分分析无价值。 关于总体分布的假设。 主成分分析的广泛应用。(简化数据结构、寻找综合因子、样本排序和分类、利用综合因子对系统进行评价等等。也是进一步研究的基础。)LOGO时间管理之时间管理之“四象限法则四象限法则”32应用应用解释:自然、心理、社会现象 、经济 (考试)综合评价:企业分类:(企业30指标)规模效益

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 模板/表格 > 财务表格

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号