数学模型讲座主成分分析.ppt

上传人:乱石****奔波... 文档编号:153558307 上传时间:2020-11-30 格式:PPT 页数:32 大小:266KB
返回 下载 相关 举报
数学模型讲座主成分分析.ppt_第1页
第1页 / 共32页
数学模型讲座主成分分析.ppt_第2页
第2页 / 共32页
数学模型讲座主成分分析.ppt_第3页
第3页 / 共32页
亲,该文档总共32页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《数学模型讲座主成分分析.ppt》由会员分享,可在线阅读,更多相关《数学模型讲座主成分分析.ppt(32页珍藏版)》请在金锄头文库上搜索。

1、1,主成分分析Principal Components Analysis,武汉理工大学统计学系 唐湘晋,2,1. 概 述 多元问题的复杂性指标(变量)多,指标间存在相关性。 问题能否构造出一些综合指标使满足如下条件 指标个数尽可能少, 指标间相互独立, 尽可能多地包含原指标所含的关于总体的信息。,1 主成分分析的原理,3,例如做一件上衣要测量的指标有身长、袖长、胸围、腰围、肩宽、肩厚等等十几项指标。某服装厂生产一批新型服装,需将十几项指标综合为3项指标(分别反应长度、胖瘦、特体),用作分类的型号。 又如商业经济 多项指标-物价、生活费用、商业活动指数。,1. 概 述,4,主成分分析是将原来众多

2、具有相关性的指标化为少数几个相互独立的综合指标的一种统计方法。,1. 概 述,5,原始数据矩阵,p 维空间n 个点,研究n 个点的关系,难! 降维,近似在低维空间表达。,2. 直 观 想 法,6,如果椭圆很扁,则在 y 的坐标系中,样本点的第一个坐标y1 就代表了这些点的分布情况。,例如,二元总体, 正态分布。,2. 直 观 想 法,7,设p 维随机变量 的数学期望为0, x的主成分指的是综合变量 , 它满足如下条件 ,其中 是正交矩阵。 即,(1),3.主成分问题的数学提法,8, 在形如(1)的线性变换中,y1 具有最大的方差; y1 与y2 相互独立,且在与y1 相互独立的线性变换中y2

3、具有最大的方差; y3 与y1 和y2 相互独立,且在与y1 和 y2 相互独立的线性变换中, y3具有最大的方差;如此类推。分别叫做x的y1 ,y2 , yp第一、第二、 、第p 主成分。,3.主成分问题的数学提法,9,设 是x 的主成分,它们的方差分别为 ,由于,问题 x 的主成分是否存在? 即能够使成立的正 交矩阵 是否存在? 问题解决思路假设主成分存在,看一下U应满足什 么的条件,能否按照这个条件把U求出来。,相互独立,所以,又因为,3.主成分问题的数学提法,10,所以,即 或 。若记,则有,即,是对应的单位特征向量。,是 的特征值,,说明求法,最大方差性质。,3.主成分问题的数学提法

4、,11,定理: 设p 维随机变量 的数学 期望为0,且协方差阵为 ,它的特征值为 为相应的单位特征向量,则x 第 i 主成分为,3.主成分问题的数学提法,12,说明1求主成分关键是要从协方差矩阵 求出正交变换矩阵 。 说明2若已经求出主成分 ,则原来的p 个指标 就可以转化为用p 个新的指标 (即主成分)来表达。这p 个新的指标是相互独立的,这给问题的分析带来了很大的方便。,3.主成分问题的数学提法,13,说明3新的指标 的方差分别为 ,如果某一个 很小,总体分布在 这个方向上分散程度很小,这个分量所起作用不大,因而可以忽略不考虑。将这些分量去掉,就可以降低维数, 给分析问题带来更大的方便。,

5、3.主成分问题的数学提法,14,实际问题中总体协方差矩阵 是未知的,只能用样本协方差矩阵 去估计。因此实用中,从样本协方差矩阵 出发,求 一个正交矩阵 ,将 变成对角矩阵 ,即,4.样本主成分,15,样本主成分-由 出发求出的主成分。 样本点 的主成分坐标为 注样本数据要求是中心化的数据。,4.样本主成分,16,是样本点在第j 个主成分方向上的方差,它代表样本点在这个主成分方向上的分散程度。若 很小,这个主成分可忽略不记。 问题 小到什么程度才算小呢?,第j个主成分的贡献率,5.贡献率,17,主成分舍弃原则前 m 个主成分的累计贡献率 接近于1(80%或85%),则可将余下的p-m个主成分 舍

6、去。,贡献率的计算,小结 可设计m个互不相关的综合指标: 总方差,5.贡献率,18,7. 因子负荷量,因子负荷量称主成分yk与原始变量xi的相关系数 为第j 因子 在第 个主分量 上的因子负荷量。,因子负荷量的样本估计值,19,因子负荷量的性质,注在解释主成分的实际意义时有一定参考价值。,7. 因子负荷量,20,8. R 分析,从原始数据阵X出发求主成分的缺点结果与测 量单位有关。R分析从标准化数据阵 出发求主成 分。用 代替 求正交矩阵 。,第j个主成分的贡献率,因子负荷量的样本估计值,21,2 主成分分析的计算步骤与应用,1. 计算步骤 (R分析) 列出观测资料矩阵X, 计算样本相关矩阵R

7、, 计算R的特征值和特征向量-求正交变换, 计算贡献率及累计贡献率,确定主成分个数,建立主成分方程, 解释各主成分的意义, 计算各样本的主成分坐标y, 计算负荷量表。,22,2.MatLab计算工具 原始数据矩阵中,每列对应一个变量。 样本特征数的计算工具 平均值: mean( )方差: var( ) 标准差:std( ) 协方差矩阵: cov( )相关系数矩阵: corrcoef( ) 主成分计算工具pcacov() 调用方法 pc = pcacov(X) pc,latent,explained = pcacov(X) 为原始数据的协方差或相关系数矩阵, pc为由特征向量组成的矩阵,即 ,

8、latent为特征值, explained为因子贡献率。,23,样本号 叶长 2/3处宽 1/3处宽 1/2处宽 (No.) x1 x2x3x4 1108 95118110 290 95117110 3130 95140125 4114 85113108 5113 87121110 6120 90122114 787 679788 894 668886 9115 84118106 1090 7510396 11117 608476 12134 7310492 13150 7311096 14140 649587 15126 759690 16118 435952 17136 558975 18

9、145 639784 19161 6411294 20155 6010083,3.计算实例 作为研究杨树形 状的一部分,测定 20片杨树叶,每个 叶片测定4个变量, 变量名称及测量值 如右表。试求表示 叶片长和宽的主分 量。 原始数据文件 leaf.txt,24, 由数据文件建立数据矩阵 load(leaf.txt) 基本统计量的计算 平均值 mean=mean(X) 方差 Xvar=var(X) 标准差 Xstd=std(X) 协方差矩阵 Sx=cov(X) 相关系数矩阵 R=corrcoef(X) R-分析 求主成分pc,latent,explained = pcacov(R) (验证U=

10、pc; U*R*U 为对角矩阵,对角线为特征值),25,特征向量及特征根表 叶长 0.1485 -0.9544 0.2515 -0.0614 2/3处宽-0.5735 0.0984 0.7734 0.2514 1/3处宽-0.5577 -0.2695 -0.5585 0.5517 1/2处宽-0.5814 -0.0824 -0.1629 -0.7929 特征根 2.9200 1.0237 0.0489 0.0074 贡献率 72.9996 25.5919 1.2230 0.1856 累积贡献率 72.9996 98.5915 99.8145 100.00,第一主成分 “叶宽”综合因子 第二主成

11、分 “叶长”综合因子 第三主成分 “逐渐变尖”综合因子(符号相反、对比度) 第四主成分 “尖翘程度”综合因子(两端与中间对比),26,说明1:单位特征向量可以相差一个正负号,如atlab的计算结果中第二主成分对应的特征向量与书中结果相差一个负号。 说明2:前两个主成分的累积贡献率为98.6%,因此决定选取两个主成分。 建立主成分方程 主成分方程的推导,记,则,27,用MatLab求解A、B C=diag(ones(size(Xstd)./Xstd) A=U*C B=-U*C*Xmean,A = 0.0068 -0.0390 -0.0319 -0.0348 -0.0435 0.0067 -0.0

12、154 -0.0049 0.0115 0.0526 -0.0319 -0.0097 -0.0028 0.0171 0.0315 -0.0474,B = 8.6265 6.8864 -1.0184 0.2634,主成分方程为,主成分方程,28, 解释各主成分意义 第一主成分 “叶宽”综合因子 第二主成分 “叶长”综合因子 (第三、四主成分可忽略,不解释。) 第三主成分 “逐渐变尖”综合因子(符号相反、对比度) 第四主成分 “尖翘程度”综合因子(两端与中间对比) 第三、四主成分是表示叶形的综合因子,贡献很小,说明形状差异很小。,29, 计算各样本的主成分坐标,用MatLab计算 Y=A*X+dia

13、g(B)*ones(size(X) Y 做样本排序图 plot(Y(:,1),Y(:,2), c*),30, 计算因子负荷量,用MatLab计算 lamd=diag(latent) Ryx=lamd(1/2)*U,Ryx= 0.2538 -0.9800 -0.9530 -0.9935 -0.9656 0.0996 -0.2727 -0.0833 0.0556 0.1711 -0.1235 -0.0360 -0.0053 0.0217 0.0475 -0.0683,因子负荷表 0.2538 -0.9656 -0.9800 0.0996 -0.9530 -0.2727 -0.9935 -0.0833,31,4. 注释 R-分析和从原始数据阵X出发求主成分结果一般不同。 R或Sx的特征根相差越大,主成分分析的效率越高。若所有特征值都很接近,则主成分分析无价值。 关于总体分布的假设。 主成分分析的广泛应用。(简化数据结构、寻找综合因子、样本排序和分类、利用综合因子对系统进行评价等等。也是进一步研究的基础。),32,应用,解释:自然、心理、社会现象 、经济 (考试) 综合评价:企业 分类:(企业30指标),规模,效益,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 事务文书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号