《统计分析方法及应用》(第十章)

资源描述

《《统计分析方法及应用》(第十章)》由会员分享，可在线阅读，更多相关《《统计分析方法及应用》(第十章)（54页珍藏版）》请在金锄头文库上搜索。

1、第十章主成分分析,10.1 引言10.2 总体的主成分10.3 样本的主成分,10.1 引言,主成分分析（或称主分量分析，principal component analysis）由皮尔逊（Pearson,1901）首先引入，后来被霍特林（Hotelling,1933）发展了。主成分分析是一种通过降维技术把多个变量化为少数几个主成分（即综合变量）的统计分析方法。这些主成分能够反映原始变量的绝大部分信息，它们通常表示为原始变量的某种线性组合。主成分分析的一般目的是： (1)变量的降维； (2)主成分的解释。,寻找主成分的正交旋转,旋转公式：,10.2 总体的主成分,一、主成分的定义及导出二、主

2、成分的性质三、从相关阵出发求主成分,一、主成分的定义及导出,设为一个p维随机向量，E(x)=， V(x)=。考虑如下的线性变换希望在约束条件下寻求向量a1，使得达到最大，y1就称为第一主成分。设1 2p0为的特征值，， i=1,2,p为相应的单位特征向量，且相互正交。则可求得第一主成分为它的方差具有最大值1。,如果第一主成分所含信息不够多，还不足以代表原始的p个变量，则需考虑再使用一个综合变量，为使y2所含的信息与y1不重叠，应要求Cov(y1,y2) =0我们在此条件和约束条件下寻求向量a2，使得达到最大，所求的称为第二主成分。求得的第二主成分为其方差为2。一般来说，x的第

3、i主成分是指：在约束条件和 Cov(yk,yi)=0, k=1,2,i1下寻求ai，使得达到最大。第i主成分为,主成分的几何意义,在几何上，ti表明了第i主成分的方向，yi是x在ti上的投影值（其绝对值即为投影长度），i是这些值的方差，它反映了在ti上投影点的分散程度。,x投影到ti上的值,其中i是ti与x的夹角。,主成分向量与原始向量之间的关系式,主成分与原始变量之间的关系式矩阵,正交变换的几何意义,正交变换的几何意义是将Rp中由x1,x2, ,xp构成的原p维坐标轴作一正交旋转，一组正交单位向量t1,t2, ,tp表明了p个新坐标轴的方向，这些新坐标轴彼此仍保持正交（或说垂直）。,二

4、、主成分的性质,1.主成分向量的协方差矩阵2.主成分的总方差 3.原始变量xi与主成分yk之间的相关系数4.m个主成分对原始变量的贡献率5.原始变量对主成分的影响,1.主成分向量的协方差矩阵,V(y)=其中=diag(1, 2,p)，即V(yi)= i, i=1,2,p，且y1,y2, ,yp互不相关。,2.主成分的总方差,由于所以或,总方差中属于第i主成分yi （或被yi所解释）的比例为称为主成分yi的贡献率。第一主成分y1的贡献率最大，表明它解释原始变量 x1,x2, ,xp的能力最强，而y2,y3, ,yp的解释能力依次递减。主成分分析的目的就是为了减少变量的个数，因而一般是不会使用所

5、有p个主成分的，忽略一些带有较小方差的主成分将不会给总方差带来大的影响。,前m个主成分的贡献率之和称为主成分y1,y2, ,ym的累计贡献率，它表明y1,y2, ,ym解释x1,x2, ,xp的能力。通常取（相对于p）较小的m ，使得累计贡献达到一个较高的百分比（如8090）。此时，y1,y2, ,ym可用来代替x1,x2, ,xp，从而达到降维的目的，而信息的损失却不多。,3.原始变量xi与主成分yk之间的相关系数,x=Ty即xi=ti1y1+ti2y2+tipyp所以Cov(xi,yk)=Cov(tikyk，yk)=tikk在实际应用中，通常我们只对xi (i=1,2,p)与yk (k=1

6、,2,m)的相关系数感兴趣。,4.m个主成分对原始变量的贡献率,m个主成分y1,y2,ym从原始变量x1,x2,xp中提取的信息量，可度量为xi与y1,y2,ym的复相关系数的平方，称为m个主成分y1,y2,ym对原始变量xi的贡献率。其值为当m=p时，,例10.2.1 设x=(x1,x2,x3)的协方差矩阵为其特征值为1=5.83，2=2.00，3=0.17相应的特征向量为若只取一个主成分，则贡献率为5.83/(5.83+2.00+0.17)=0.72875=72.875%,可见，y1对第三个变量的贡献率为零，这是因为x3与x1和x2都不相关，在y1中未包含一点有关x3的信息，这时仅取一个主

7、成分就显得不够了，故应再取y2，此时累计贡献率为(5.83+2.00)/8=97.875%(y1，y2)对每个变量xi的贡献率分别为，都比较高。,表10.2.1 y1及(y1,y2)对每个原始变量的贡献率,5.原始变量对主成分的影响,yk=t1kx1+t2kx2+tpkxp称tik为第k主成分yk在第i个原始变量xi上的载荷，它度量了xi对yk的重要程度。在解释主成分时，我们需要考察载荷，同时也应考察一下相关系数。方差大的那些变量与具有大特征值的主成分有较密切的联系，而方差小的另一些变量与具有小特征值的主成分有较强的联系。通常我们取前几个主成分，因此所取主成分会过于照顾方差大的变量，而对方

8、差小的变量却照顾得不够。,例10.2.2 设x=(x1,x2,x3)的协方差矩阵为经计算，的特征值及特征向量为1=109.793，2=6.469，3=0.738 相应的主成分分别为,y1=0.305x1+0.041x2+0.951x3y2=0.944x1+0.120x20.308x3y3=0.127x1+0.992x20.002x3可见，方差大的原始变量x3在很大程度上控制了第一主成分y1，方差小的原始变量x2几乎完全控制了第三主成分y3，方差介于中间的x1则基本控制了第二主成分y2。y1的贡献率为这么高的贡献率首先归因于x3的方差比x1和x2的方差大得多，其次是x1,x2,x3相互之间存在着

9、一定的相关性。y3的特征值相对很小，表明x1,x2,x3之间有这样一个线性依赖关系：0.127x1+0.992x20.002x3c其中c=0.1271+0.99220.0023为一常数。,三、从相关阵出发求主成分,最常用的标准化变换是令。显然，的协方差矩阵正是x的相关矩阵R。从R出发求主成分，主成分分析将均等地对待每一个原始变量。从R出发求得主成分的方法与从出发是完全类似的，并且主成分的一些性质具有更简洁的数学形式。设为R的p个特征值，为相应的单位特征向量，且相互正交，则p个主成分为。记，于是y*=T*x*,从R出发的主成分性质,(1)E(y*)=0，V(y*)=*，其中 (2) 。

10、(3)变量与主成分之间的相关系数即有,因此，在解释主成分时，由相关矩阵R求得的载荷和相关系数所起的作用是完全相同的，只需选其一用来作主成分解释即可。(4)主成分对变量的贡献率(5) 。,例10.2.3 在例10.2.2中，x的相关矩阵R的特征值及特征向量为相应的主成分分别为,的贡献率为和累计贡献率为现比较本例中从R出发和例10.2.2中从出发的主成分计算结果。从R出发的的贡献率0.705明显小于从出发的y1的贡献率0.938，事实上，原始变量方差之间的差异越大，这一点也就倾向于越明显。可用标准化前的原变量表达如下：,可见，在原变量x1,x2,x3上的载荷相对大小与例

11、10.2.2中yi在x1,x2,x3上的载荷相对大小之间有着非常大的差异。这说明，标准化后的结论完全可能会发生很大的变化，因此标准化不是无关紧要的。,10.3 样本的主成分,我们可以从协差阵或相关阵R出发求得主成分。但在实际问题中，或R一般都是未知的，需要通过样本来进行估计。设数据矩阵为则样本协差阵和样本相关阵分别为,其中为样本均值。可以用S代替，用代替R，然后从S或出发按类似于上一节的方法求得样本主成分。,10.3 样本的主成分,一、从S出发求主成分二、从出发求主成分三、主成分分析的应用四、若干补充及应用中需注意的问题,一、从S出发求主成分,用类似于上一节的方法，以S代替即可求得样本主

12、成分。设为S的特征值，为相应的单位特征向量，且彼此正交。则第i样本主成分为，它具有样本方差 , i=1,2,p，各主成分之间的样本协方差为零。在几何上，p个样本主成分的方向为所在的方向，且彼此垂直。n个样品点在上的投影点最为分散，在其余上投影点的分散程度依次递减。,总样本方差xi与的样本相关系数其中，k=1,2,p。,主成分得分,在实际应用中，我们常常让xj 减去，使样本数据中心化。这不影响样本协差阵S，在前面的论述中惟一需要变化的是，将第i主成分改写成中心化的形式，即若将各观测值xj代替上式中的观测值向量x，则第i主成分的值称之为观测值xj的第i主成分得分。所有观测值的平均

13、主成分得分,二、从出发求主成分,设样本相关阵的p个特征值为，为相应的正交单位特征向量，则第i样本主成分其中x*是各分量经（样本）标准化了的向量，即,标准化后的主成分得分,令这是xj的各分量数据经标准化后的数据向量，将其代替上述样本主成分公式中的x*，即得观测值xj在第i主成分上的得分所有观测值的平均主成分得分,三、主成分分析的应用,在主成分分析中，我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平，其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释。主成分的解释其含义一般多少带有点模糊性，不像原始变量的含义那么清楚、确切，这是变量降维过程中不得不付出的代价。因此，提取的主成分个数m通常应明显小于原始变量个数p（除非p本身较小），否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。,如果原始变量之间具有较高的相关性，则前面少数几个主成分的累计贡献率通常就能达到一个较高水平，也就是说，此时的累计贡献率通常较易得到满足。主成分分析的困难之处主要在于要能够给出主成分的较好解释，所提取的主成分中如有一个主成分解释不了，整个主成分分析也就失败了。主成分分析是变量降维的一种重要、常用的方法，简单的说，该方法要应用得成功，一是靠原始变量的合理选取，二是靠“运气”。,

展开阅读全文