《应用多元分析》版PPT

上传人:豆浆 文档编号:50797829 上传时间:2018-08-11 格式:PPT 页数:55 大小:1.65MB
返回 下载 相关 举报
《应用多元分析》版PPT_第1页
第1页 / 共55页
《应用多元分析》版PPT_第2页
第2页 / 共55页
《应用多元分析》版PPT_第3页
第3页 / 共55页
《应用多元分析》版PPT_第4页
第4页 / 共55页
《应用多元分析》版PPT_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《《应用多元分析》版PPT》由会员分享,可在线阅读,更多相关《《应用多元分析》版PPT(55页珍藏版)》请在金锄头文库上搜索。

1、第七章 主成分分析v7.1 引言v7.2 总体的主成分v7.3 样本的主成分7.1 引言v主成分分析(或称主分量分析,principal component analysis)由皮尔逊(Pearson,1901)首先引入,后 来被霍特林(Hotelling,1933)发展了。v主成分分析是一种通过降维技术把多个变量化为少 数几个主成分(即综合变量)的统计分析方法。这 些主成分能够反映原始变量的绝大部分信息,它们 通常表示为原始变量的某种线性组合。v主成分分析的一般目的是: (1)变量的降维; (2)主成分的解释。寻找主成分的正交旋转 v旋转公式:7.2 总体的主成分v一、主成分的定义及导出v二

2、、主成分的性质v三、从相关阵出发求主成分一、主成分的定义及导出v设 为一个p维随机向量,E(x)=,V(x)=。考虑如下的线性变换希望在约束条件 下寻求向量a1,使得 达到最大,y1就称为第一主成分。v设1 2p0为的特征值, , i=1,2,p为相应的单位特征向量,且相互正交。则 可求得第一主成分为它的方差具有最大值1。v如果第一主成分所含信息不够多,还不足以代表原 始的p个变量,则需考虑再使用一个综合变量 ,为使y2所含的信息与y1不重叠,应要求 Cov(y1,y2) =0 我们在此条件和约束条件 下寻求向量a2,使 得 达到最大,所求的 称为第二主成 分。求得的第二主成分为其方差为2。

3、v一般来说,x的第i主成分是指:在约束条件 和 Cov(yk,yi)=0, k=1,2,i1 下寻求ai,使得 达到最大。第i主成分为主成分的几何意义v在几何上,ti表明了第i主成分的方向,yi是x在ti上的 投影值(其绝对值 即为投影长度),i是这些值的 方差,它反映了在ti上投影点的分散程度。x投影到ti上的值其中i是ti与x的夹角。主成分向量与原始向量之间的关系式主成分与原始变量之间的关系式矩阵y1y2ypx1t11t12t1px2t21t22t2pxptp1tp 2tpp正交变换 的几何意义v正交变换 的几何意义是将Rp中由x1,x2, ,xp构 成的原p维坐标轴作一正交旋转,一组正交

4、单位向 量t1,t2, ,tp表明了p个新坐标轴的方向,这些新坐标 轴彼此仍保持正交(或说垂直)。二、主成分的性质v1.主成分向量的协方差矩阵v2.主成分的总方差 v3.原始变量xi与主成分yk之间的相关系数v4.m个主成分对原始变量的贡献率v5.原始变量对主成分的影响1.主成分向量的协方差矩阵V(y)=其中=diag(1, 2,p),即V(yi)= i, i=1,2,p,且y1,y2, ,yp互不相关。2.主成分的总方差 v由于所以 或v总方差中属于第i主成分yi (或被yi所解释)的比例 为称为主成分yi的贡献率。v第一主成分y1的贡献率最大,表明它解释原始变量x1,x2, ,xp的能力最

5、强,而y2,y3, ,yp的解释能力依次 递减。v主成分分析的目的就是为了减少变量的个数,因而 一般是不会使用所有p个主成分的,忽略一些带有 较小方差的主成分将不会给总方差带来大的影响。 v前m个主成分的贡献率之和称为主成分y1,y2, ,ym的累计贡献率,它表明y1,y2, ,ym解释x1,x2, ,xp的能力。v通常取(相对于p)较小的m ,使得累计贡献达到 一个较高的百分比(如8090)。此时,y1,y2, ,ym可用来代替x1,x2, ,xp,从而达到降维的目的, 而信息的损失却不多。3.原始变量xi与主成分yk之间的相关系数 v x=Ty 即 xi=ti1y1+ti2y2+tipyp

6、 所以 Cov(xi,yk)=Cov(tikyk,yk)=tikkv在实际应 用中,通常我们只对xi (i=1,2,p)与yk (k=1,2,m)的相关系数感兴趣。4.m个主成分对原始变量的贡献率vm个主成分y1,y2,ym从原始变量x1,x2,xp中提取的信息量,可 度量为xi与y1,y2,ym的复相关系数的平方,称为m个主成分 y1,y2,ym对原始变量xi的贡献率。其值为v当m=p时,v例7.2.1 设x=(x1,x2,x3)的协方差矩阵为其特征值为 1=5.83,2=2.00,3=0.17 相应的特征向量为若只取一个主成分,则贡献率为 5.83/(5.83+2.00+0.17)=0.7

7、2875=72.875%可见,y1对第三个变量的贡献率为零,这是因为x3 与x1和x2都不相关,在y1中未包含一点有关x3的信息 ,这时仅 取一个主成分就显得不够了,故应再取y2 ,此时累计贡献率为 (5.83+2.00)/8=97.875%(y1,y2)对每个变量xi的贡献率分别为 ,都比较高。表7.2.1 y1及(y1,y2)对每个原始变量的贡献率i(y1,xi)(y2,xi)10.9250.8550.0000.85520.9980.9960.0000.99630.0000.0001.0001.0005.原始变量对主成分的影响v yk=t1kx1+t2kx2+tpkxp 称tik为第k主成

8、分yk在第i个原始变量xi上的载荷,它 度量了xi对yk的重要程度。v在解释主成分时,我们需要考察载荷,同时也应 考察一下相关系数。v方差大的那些变量与具有大特征值的主成分有较密 切的联系,而方差小的另一些变量与具有小特征值 的主成分有较强的联系。通常我们取前几个主成分 ,因此所取主成分会过于照顾方差大的变量,而对 方差小的变量却照顾得不够。v例7.2.2 设x=(x1,x2,x3)的协方差矩阵为经计算,的特征值及特征向量为 1=109.793,2=6.469,3=0.738相应的主成分分别为y1=0.305x1+0.041x2+0.951x3 y2=0.944x1+0.120x20.308x

9、3 y3=0.127x1+0.992x20.002x3 可见,方差大的原始变量x3在很大程度上控制了第一主成分 y1,方差小的原始变量x2几乎完全控制了第三主成分y3,方 差介于中间的x1则基本控制了第二主成分y2。y1的贡献率为这么高的贡献率首先归因于x3的方差比x1和x2的方差大得多 ,其次是x1,x2,x3相互之间存在着一定的相关性。y3的特征值 相对很小,表明x1,x2,x3之间有这样一个线性依赖关系: 0.127x1+0.992x20.002x3c 其中c=0.1271+0.99220.0023为一常数。三、从相关阵出发求主成分v最常用的标准化变换是令 。v显然,的协方差矩阵正是x的

10、相关矩阵R 。v从R出发求主成分,主成分分析将均等地对待每一个原始变 量。v从R出发求得主成分的方法与从出发是完全类似的,并且 主成分的一些性质具有更简洁的数学形式。设 为R的p个特征值, 为相应的单位特征向量,且相互正交,则p个主成分为 。记 ,于是y*=T*x*从R出发的主成分性质v(1)E(y*)=0,V(y*)=*,其中 v(2) 。v(3)变量 与主成分 之间的相关系数即有因此,在解释主成分 时,由相关矩阵R求得的载 荷 和相关系数 所起的作用是完全相同的,只需选其一用 来作主成分解释即可。v(4)主成分 对变量 的贡献率v(5) 。v例7.2.3 在例7.2.2中,x的相关矩阵R的

11、特征值及特征向量为相应的主成分分别为的贡献率为和 累计贡献率为现比较本例中从R出发和例7.2.2中从 出发的主成 分计算结果。从R出发的 的贡献率0.705明显小于 从出发的y1的贡献率0.938,事实上,原始变量方 差之间的差异越大,这一点也就倾向于越明显。 可用标准化前的原变量表达如下:可见, 在原变量x1,x2,x3上的载荷相对大小与例 7.2.2中yi在x1,x2,x3上的载荷相对大小之间有着非常 大的差异。这说明,标准化后的结论完全可能会 发生很大的变化,因此标准化不是无关紧要的。7.3 样本的主成分v我们可以从协差阵或相关阵R出发求得主成分。 但在实际问题 中,或R一般都是未知的,

12、需要通 过样本来进行估计。设数据矩阵为则样本协差阵和样本相关阵分别为7.3 样本的主成分v一、样本主成分的定义v二、从S出发求主成分v三、从 出发求主成分v四、主成分分析的应用v五、若干补充及应用中需注意的问题一、样本主成分的定义v若向量a1在约束条件 下,使得的样本方差达到最大,则称线性组合 为第一样本主成 分。若向量a2在约束条件 和的样本协方差下,使得 的样本方差达到最大,则称线性组合 为第二样本主成分 。一般地,若向量ai 在约束条件 和的样本协方差下,使得的样本方差达到最大,则称线性组合 为第i样本主成分 , i=1,2,p 。v需要指出的是,样本主成分是使样本方差而非方差 达到最大

13、,是使样本协方差而非协方差为零。二、从S出发求主成分v用类似于上一节的方法,以S代替即可求得样本主 成分。设 为S的特征值, 为相应的单位特征向量,且彼此正交。则第i样本 主成分为 ,它具有样本方差 , i=1,2,p ,各主成分之间的样本协方差为零。在几何上,p 个样本主成分的方向为 所在的方向,且 彼此垂直。n个样品点在 上的投影点最为分散,在 其余 上投影点的分散程度依次递减。v总样本方差vxi与 的样本相关系数其中 ,k=1,2,p。主成分得分v在实际应 用中,我们常常让xj 减去 ,使样本数据 中心化。这不影响样本协差阵S,在前面的论述中 惟一需要变化的是,将第i主成分改写成中心化的

14、形 式,即v若将各观测值 xj代替上式中的观测值 向量x,则第i 主成分的值称之为观测值 xj的第i主成分得分。所有观测值 的 平均主成分得分三、从 出发求主成分v设样本相关阵 的p个特征值为 , 为相应的正交单位特征向量,则第i样本 主成分v其中x*是各分量经(样本)标准化了的向量,即标准化后的主成分得分v令这是xj的各分量数据经标准化后的数据向量,将其 代替上述样本主成分公式中的x*,即得观测值 xj在 第i主成分上的得分所有观测值 的平均主成分得分四、主成分分析的应用v在主成分分析中,我们首先应保证所提取的前几个 主成分的累计贡献率达到一个较高的水平,其次对 这些被提取的主成分必须都能够给出符合实际背景 和意义的解释。v主成分的解释其含义一般多少带有点模糊性,不像 原始变量的含义那么清楚、确切,这是变量降维过 程中不得不付出的代价。因此,提取的主成分个数 m通常应明显小于原始变量个数p(除非p本身较小 ),否则维数降低的“利”可能抵不过主成分含义不 如原始变量清楚的“弊”。v如果原始变量之间具有较高的相关性,则前面少数

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号