主成分分析matlab理论+实验

上传人:第*** 文档编号:61715773 上传时间:2018-12-10 格式:PPT 页数:25 大小:408.51KB
返回 下载 相关 举报
主成分分析matlab理论+实验_第1页
第1页 / 共25页
主成分分析matlab理论+实验_第2页
第2页 / 共25页
主成分分析matlab理论+实验_第3页
第3页 / 共25页
主成分分析matlab理论+实验_第4页
第4页 / 共25页
主成分分析matlab理论+实验_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《主成分分析matlab理论+实验》由会员分享,可在线阅读,更多相关《主成分分析matlab理论+实验(25页珍藏版)》请在金锄头文库上搜索。

1、如果你是一个公司的财务经理,掌握公司的所有财务数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。 如果让你在董事会上介绍公司状况,你能够把这些指标和数字原封不动地摆出去吗? 当然不能。 你必须将各个方面进行高度概括,用几个代表指标简单明了地把情况说清楚。,引言,6.5 主成分分析,在处理实际问题中,在很多情况下,不同指标之间可能存在一定的相关性,即变量反映样本的信息有一定重叠。,由于指标较多再加上信息的重叠,势必增加了问题的复杂性。我们希望通过克服相关性、重叠性,用较少的变量代替原来较多的变量,而这些较少变

2、量可以反映原来众多变量的大部分信息,这实际上是一种“降维”的思想。,主成分分析(principal component analysis)是一种通过降维技术将多个变量化为少数几个主成分(即综合变量)的统计分析方法。这些主成分通常表示为原始变量的某种线性组合,能够反映原始变量的绝大部分信息。,一. 什么是主成分分析,一般来说,主成分分析得到的主成分与原始变量间有如下基本关系:,二. 关系,1.每一个主成分都是各原始变量的线性组合 2.主成分的数目大大少于原始变量的数目 3.各主成分之间互不相关 4.主成分保留了原始变量绝大部分信息,主成分分析在几何上是一个坐标变换,在二维空间中有明显的几何意义。

3、,三. 几何解释,假设共有n个样品,每个样品测量两个指标(X1,X2),,在坐标系x1Ox2中,这n个点沿x1 和x2方向都有较大的分量,若 仅考虑其中一个分量,包含在另一分量中的信息将会损失,因此直接舍弃某个分量不是“降维”的有效办法。,若将该坐标系按逆时针方向旋转某个角度变成新坐标系,变换公式为,记x1,x2,xP为原变量指标,z1,z2,zm(mp)为新变量指标, z1是x1,x2,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,xP的所有线性组合中方差最大者; zm是与z1,z2,zm1都不相关的x1,x2,xP的所有线性组合中方差最大者。,新变量z1,z2,zm称为原

4、变量指标x1, x2, ,xP 的第1,第2,第m主成分。,系数aij的确定原则:, zi与zj(ij;i,j=1,2,m)不相关;,第一主成分提取的信息 最大,称为第一主成分,,的特征值,对应的单位正交特征向量,第二主成分提取的信息 次大,,前m个主成分共解释的方差贡献即贡献率之和称为累积贡献率。,总方差中属于第i主成分zi(或被zi所解释)的比例称为主成分zi的贡献率。,(1)主成分分析目的是用少的主成分z1,z2,zm(mp)代替原来的p个指标,究竟应该选择多少个主成分? 一般来说,实际工作中,要求累积贡献率85%,常见的情况是2到3个。,五. 主成分分析中注意的问题,(2) 为使主成分

5、分析能够均等地对待每一个原始变量,消除由于单位的不同可能带来的影响,常将各原始变量作标准化处理,由于经标准化变换后的协方差阵就是相关系数矩阵,因此通常从相关系数矩阵出发进行主成分分析。,(3)计算相关系数阵的特征值,对应的单位正交特征向量,(4)由累积贡献率确定主成分个数m,并写出主成分,实际应用中,主成分分析的具体步骤可归纳为:,(1)将原始数据标准化;,(2)建立相关系数矩阵;,六. 主成分分析过程,七. 主成分分析的应用,进行综合评价时,如何选择评价指标以及对这些指标进行综合评价?一般做法是通过对各指标加权的办法。 由于主成分分析能从选定的指标体系中归纳出大部分信息,根据主成分提供的信息

6、进行综合评价,不失为一个可行的选择。,1. 综合评价,利用主成分进行综合评价时,对主成分进行加权综合,权数根据其方差贡献率确定 。,本质上,综合评价函数是对原始指标的线性综合,从计算主成分到加权,经过两次线性运算后得到综合评价函数。,将各主成分作为新自变量代替原来自变量做回归分析。用主成分分析筛选变量,可用较少的计算量获得选择最佳变量子集合的效果,并且由于各主成分两两不相关,不存在由于多重共线性带来的影响。,2主成分回归,3主成分聚类,主要用于样品的聚类,先构建主成分,再进行聚类。,保留多少主成分取决于保留部分的累计方差在方差总和中所占百分比,它包括着前几个主成分概括信息的多少。在实践中,粗略

7、规定一个百分比便可决定保留几个主成分,如果多保留一个主成分,但累计方差增加无几,便不再保留。,设 为主成份的特征值,则前k个方差累计贡献率为,一般累计方差贡献率大于85%时不再增加新的主成分。,调用主成分在Matlab中用princomp和pcacova函数 pc,score=princomp(x) pc,score,latent=princomp(x) pc,score, explain=pcacova(covx),输出参数 pc 主成分系数 score 即原x矩阵在主成分空间的表示。 latent x 协方差矩阵的特征值。 explain 累计方差贡献率 注意:用原矩阵x* pc(:,1:

8、n)是保留的主成分用原始变量表示的线性组合,其中的n是降到的维数。,例5-3 用Matlab自带数据进行主成分分析,数据文件. hald文件包含影响温度的4个因素,保存在ingredients变量中。代码见5.3.m,第一步:考虑变量之间相关性 load hald %载入Matlab 自带的数据文件 corrcoef(ingredients) % 自变量相关系数矩阵 ans = 1.0000 0.2286 -0.8241 -0.2454 0.2286 1.0000 -0.1392 -0.9730 -0.8241 -0.1392 1.0000 0.0295 -0.2454 -0.9730 0.0

9、295 1.0000 第二步:主成分分析 pc,score,latent,tsquare=princomp(ingredients),主成分系数 pc = -0.0678 -0.6460 0.5673 0.5062 -0.6785 -0.0200 -0.5440 0.4933 0.0290 0.7553 0.4036 0.5156 0.7309 -0.1085 -0.4684 0.4844 由此得到4个主成分如下:,协方差矩阵的特征值 latent = 517.7969 67.4964 12.4054 0.2372 从特征值可以看出前两个主成分可以很好地解释98%的方差。,covx=cov(i

10、ngredients);%自变量间协方差矩阵 pc,latent,explain=pcacov(covx)%参数pc,latent同上 累计方差贡献率 explain = 86.5974 11.2882 2.0747 0.0397,可以看出采用pcacov函数计算主成分结果同princomp函数结果是一样的。后者多个explain,效果更强大。,将生成4个主成分,保存在变量new中 new=ingredients*pc 变量中每一列就是一个主成分。,验证主成分之间的相关性; corrcoef(new) ans = 1.0000 -0.0000 -0.0000 -0.0000 -0.0000 1

11、.0000 0.0000 0.0000 -0.0000 0.0000 1.0000 0.0000 -0.0000 0.0000 0.0000 1.0000 第三步:用前两个主成分进行回归 regress(heat,new(:,1:2) ans = -2.1843 -1.089 温度和主成分之间关系:,还原成线性回归形式: -2.1843*pc(:,1) -1.0894*pc(:,2) ans = 0.8519 1.5039 -0.8862 -1.4783 这样,温度和自变量间的关系如下: 第四步:验证主成分优势,corr(heat,ingredients) ans = 0.7307 0.8163 -0.5347 -0.8213 表明前两个自变量和因变量之间正相关,后两个负相关,和主成分回归模型匹配。 假若不用主成分分析而是直接对自变量和因变量进行回归,则 c0=regress(heat,ingredients) 2.1930 1.1533 0.7585 0.4863,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号