MATLAB主成分数据处理

上传人:平*** 文档编号:14183658 上传时间:2017-10-28 格式:DOC 页数:40 大小:997.64KB
返回 下载 相关 举报
MATLAB主成分数据处理_第1页
第1页 / 共40页
MATLAB主成分数据处理_第2页
第2页 / 共40页
MATLAB主成分数据处理_第3页
第3页 / 共40页
MATLAB主成分数据处理_第4页
第4页 / 共40页
MATLAB主成分数据处理_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《MATLAB主成分数据处理》由会员分享,可在线阅读,更多相关《MATLAB主成分数据处理(40页珍藏版)》请在金锄头文库上搜索。

1、主成分分析主成分分析(principal component Analysis),是由皮尔逊(pearson)于 1901 年首先引入,后来由霍特林(hotelling)于 1933 年进行了发展。在实际问题中,为了尽可能完整的获取有关的信息,往往需要考虑众多的变量,这虽然可以避免重要信息的疏漏,但也增加了分析的复杂性,一般来说,当研究的问题涉及很多变量,并且变量间相关性明显,即包含的信息有所重叠时,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,本节拟

2、介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。这样容易抓住事物的主要矛盾,使得问题得到简化。主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的多元统计方法,这些主成分能够反映原始变量的大部分信息,通常表示为原始变量的线性组合,为使得这些主成分所包含的信息互不重叠,要求各主成分之间互不相关。本章主要内容包括:主成分分析的理论简介,主成分分析的MATLAB 实现,主成分分析的主要具体案例。11.1 主成分分析简介11.1.1 主成分分析的几何意义假设从二元总体 (EX=0)中抽取容量为 n 的样本,12(,)x绘出样本观测值的散点图,散点大致分布在一个椭圆内 与

3、 呈现出1x2明显的线性相关。这 n 个样品在 轴方向和 方向具有相似的离散度,1x2x离散度可以用 和 包含了近视相等的信息量,丢掉其中任意一个变1x2量,都会损失比较多的信息。逆时针旋转一个角度 ,使得 轴旋转1x到椭圆的长轴方向 , 轴旋转到椭圆的短轴 ,则有1y2x2y(11.1)122cosinicsyx此时可以看到,n 个点在新坐标系下的坐标 和 几乎不相关,并且1y2的方差要比 的方差大得多,也就是说 包含了原始数据中大部1y2y分的信息,此时丢掉变量 ,信息的损失是比较小的。这里称 为2y 1y第一主成分 为第二主成分。2y主成分分析的目的就是对原变量加以改造,在不致损失原变量

4、太多信息的情况下尽可能地降低原变量的维数,即用较少的新变量代替原来的各变量。主成分分析的过程其实就是坐标系旋转的过程,新坐标系的各个坐标系的轴的方向是原始数据变差最大的方向,各主成分表达式就是新旧坐标转换关系式。11.1.2 总体的主成分1、从总体协方差矩阵出发求解主成分设 为一个 维总体,假定 期望和协方差矩阵均存(,)pxx px在并已知,记 , ,(Evar()()()TxEXEX考虑如下线性变换 112112 2212.pmppppyaxxaxyax 其中, 均为单位向量。2,下面求 ,使得 的方差达到最大。1a1y设 为 的 个特征值, 为相应的正120p p12,ptt交单位特征向

5、量,即 , , , ,iittit0ijtij,1,2,ijp由矩阵知识可知1 piiiTt其中 为正交矩阵, 是对角元素为 的对12(,)pTtt 12,p角矩阵。考虑 的方差1y1111111var()var()var()piiiyxcxat2 2111111 1()()p p pii i ii i it t t 11111 aTaa(11.3)由式(11.3 )可知,当 时, 的方差达到最大,最大1at1ytx值为 。称 为第一主成分 。如果第一主成分从数据中提取的11ytx信息还不够多,还应考虑第二主成分。下面求 ,在2a条件下使得 的方差达到最大。由12cov(,)0y2y11221

6、21cov(,) 0txatatat可得 ,于是21at1222221vr()var()var()piiiyxxat2 2221 1 1()()p p pii i ii i it t t 22222 aTaa(11.4)由式(11.4 )可知,当 时, 的方差达到最大,最大2at2ytx值为 。称 为 第二主成分 。类似的,在约束22ytx下可得,当 时 的方差达cov(,)0(1,2)kiyi iiatiiytx到最大,最大值为。 称i(1,2)iiytxp为 第 i 主成分 。2 主成分的性质(1 )主成分向量的协方差矩阵为对角阵记112212(,) pppytxttxTytx(11.5)

7、则,()()EyTxvarrvar(T即主成分向量的协方差矩阵为对角矩阵。(2 )主成分的总方差等于原始变量的总方差:设协方差矩阵 ,则 ,于是()ijvar()(1,2,)iijxp1 1 11var()() var()p p pi i ij ii i i iytr x 由此可见,原始数据的总方差等于 个互不相关的主成分的方差之和,p也就是说 个互不相关的主成分包含了原始数据中的全部信息,但是p主成分所包含的信息更为集中。总方差中第 个主成分 的方差所占的比例iiy称为主成分 的 贡献率 。主成分的贡献率反映了1(,2)pijjip i主成分综合原始变量信息的能力,也可理解为解释原始变量的能

8、力。由贡献率定义知, 个主成分的贡献率依次递减,即综合原始变量信息的能力依次递减。第一个主成分的贡献率最大,即第一个主成分综合原始变量信息的能力强。前 个主成分的贡献率之和 称为前()mp11pmijij个主成分的累积贡献率,它反映了前 个主成分综合原始变量信息(或解释原始变量)的能力。由于主成分分析的主要目的是降维,所以需要在信息损失不太多的情况下,用少数几个主成分来代替原始变量 ,以进行后续的分析,究竟用几个主成分来代替原始12,pxx变量才合适呢?通常的做法是取较小的 ,使得恰前 个主成分的累m积贡献率不低于某一水平(如 85%以上),这样就达到了降维的目的。(3 )原始变量 与主成分

9、之间的相关系数ixiy(,)iixy由式(11.5 )可知 于是T12iii ipxtytty(11.6) 从而cov(,)cov(,)cov(,)i ijjijjjijxytytyt(,)(,) ,1,2,varar(jiiii iiixy tjpxy (4 )前 个主成分对变量 的贡献率mi称 2 21 1(,)mmii jij jixyt 为前 个主成分对变量 的贡献率。这个贡献率反映了前 个主成i m分从变量 中提取的信息的多少。由式(11.6)可知ix,固所有 个主成分对变量 的贡献2221iii pittt pix率为 2 21 1(,)p pii jij jixyt (5 )原始

10、变量对主成分 的贡献i主成分 的表达式为iy12 ,1,2,jjjj pjyttxttxp 称 为第 个主成分 在第 个原始变量 上的 载荷, 它反ijtjjyiix映了 对 的重要程度。在实际问题中,通常根据载荷 解释主ixjy ijt成分的实际意义。 3,从总体相关系数矩阵出发求解主成分当总体各变量取值的单位或数量级不同时,从总体协方差矩阵出发求解主成分就显得不合适了,此时应将每个变量标准化。记标准化变量为 (),1,2,variiixEp则可以从标准化总体*12(,)pxx的协方差矩阵求解主成分,即从总体 的 相关系数矩阵出发求解主成分,因为总体 协方x差矩阵就是 的相关系数矩阵。x设总

11、体 的相关系数矩阵为 ,从 R出发求解主成分的步骤与从出发求解主成分的步骤一样,设 为 R的 个特征*120p p值, 为相应的正交单位特征向量。则 个主成分为*12,ptt*,12,iiytxp(11.7)记 112*2 12(,) pppytxttxtxy (11.8)则有以下结论,()0Ey*12var()(,)pydiagtt*1)piitRP* *cov(,)(,) ,1,2,arar(ijij jiijxyxy tjp 此时前 个主成分的累积贡献率为 。m*1miip11.1.3 样本的主成分在实际生活问题中,总体 的协方差矩阵 或相关系数矩阵 往xR往是未知的,需要由样本进行估计

12、。设 为取自总体 的12,nx x样本,其中 。记样本观测值矩阵为12(,)(,)iiiipxx 1212212pnnpxxX的每一行对应一个样品,每一列对应一个变量。记样本协方差矩阵和样本相关系数矩阵分别为 1()()niiijiSxxs,()ijRrijijijs其中 为样本均值。将 作为 的估计, R作为 的估计,1niix S从 或 出发可求得样本的主成分SR1.从样本协方差矩阵 出发求解主成分S设 120p为 的 个特征值, 12,ptt为相应的正p交单位特征向量,则样本的 个主成分为,12,iiytxp(11.9)将样品 的观测值带入第 个主成分,称得到的值ixj,(1,2,;1,

13、2,)jijytnjp 为样品 的观测值带入 第 j主ix成分得分。从样本相关系数矩阵 R出发求解主成分设 为 的 个特征值, 为相应120p p,12ptt的正交单位特征向量,则样本的 个主成分为,1,2,iiytxip(11.10)将样品 标准化后的观测值 带入第 个主成分,即可得样品ixixj的第 主成分得分ixj,12,;1,2,ijjytxinjp 3,由主成分得分重建(恢复)原始数据假定从样本协方差矩阵 出发求解主成分,记 为样本的主成分得SY分值矩阵,则(11.112112122 21212 (,)p ppnnpnnpyyxxY ttXTxxyy 1)注意到 为正交矩阵,则有 ,

14、于是由式(11.11)可得T1T,也就是说根据主成分得分和主成分表达式,可以重建(恢复)XY原始数据,这在数据压缩与解压缩中有着重要的作用。当然在实际应用中,可能不会得到全部的 个主成分,假定只用前 个p()mp主成分记样本的前 个主成分的得分矩阵为m1212212pmnnpyLyYMyLy当前 个主成分的累积贡献率达到一个比较高的水平时,由m得到的矩阵 可以作为原始样本观测值矩阵 的一个很好的XYTmXX近视,此时 为样本的残差,MATLAB 统计工具箱中提供了重建数据和求残差的函数 pcares。若 和 的数据量小于原始样本观测值mYT矩阵 的数据量,就能起到数据压缩的目的。X以上讨论的是从样本协方差矩阵 出发求解主成分,然后由样本的S主成分得分重建原始数据。若从样本的相关系数矩阵 R出发求解主成分,同样可以由样本的主成分得分重建原始数据,只是此时需要进行逆标准化变换,这里不再作详细讨论。11.1.4 关于主成分表达式的两点说明这里需要说明的是,即使限定了方差矩阵或相关系数矩阵的 个p特征值对应的特征向量为正交单位向量,它们也是不唯一的,从而主成分的表达式也是不唯一的,假如若 是总体或样本的一个主成ytx分,则 也是总体或

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号