多元统计分析之主成分分析

上传人:M****1 文档编号:459056800 上传时间:2023-09-17 格式:DOCX 页数:13 大小:78.63KB
返回 下载 相关 举报
多元统计分析之主成分分析_第1页
第1页 / 共13页
多元统计分析之主成分分析_第2页
第2页 / 共13页
多元统计分析之主成分分析_第3页
第3页 / 共13页
多元统计分析之主成分分析_第4页
第4页 / 共13页
多元统计分析之主成分分析_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《多元统计分析之主成分分析》由会员分享,可在线阅读,更多相关《多元统计分析之主成分分析(13页珍藏版)》请在金锄头文库上搜索。

1、第七章主成分分析7.1什么是主成分分析及基本思想1什么是主成分分析主成分概念首先由Karl parson在1901年引进,不过当时只对非随机变量来讨论的。1933年Hotelling 将这个概念推广到随机向量。在实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间是有一 定相关性。由于指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。主成分分析 就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要 从中可取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个指标化为少数互相无关的综 合指标的统计方法叫做主成分

2、分析或称主分量分析。也是数学上处理降维的一种方法,例如,某人要做 一件上衣要测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、肩厚等十几项指标,但某服装厂要生产 一批新型服装绝不可能把尺寸的型号分得过多,而是从多种指标中综合成几个少数的综合指标,做为分 类的型号,如利用主成分分析将十几项指标综合成3项指标,一项是反映长度的指标,一项是反映胖瘦 的指标,一项是反映特体的指标。在商业经济中用主成分分析可将复杂的一些数据综合成几个商业指数 形式,如物价指数、生活费用指数,商业活动指数等等。主成分分析除了可以单独用来处理上面所讨论的这一类问题外,还可以与其它方法结合起来使用, 例如与回归分析结合起来就是主

3、成分回归,它可以克服回归问题中由于自变量之间的高度相关而产生的 分析困难。2基本思想主成分分析就是设法将原来众多具有一定相关性的指标(比如p个指标),重新组合成一组新的相 互无关的综合指标来代替原来指标。通常数学上的处理就是将原来,个指标作线性组合,作为新的综合 指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?如果将选取的第一 个线性组合即第一个综合指标记为F,自然希望F1尽可能多的反映原来指标的信息,这里的“信息” 用什么来表达?最经典的方法就是用F1的方差来表达,即Var(F)越大,表示F1包含的信息越多。因此 在所有的线性组合中所选取的F1应该是方差最大的,故称

4、F1为第一主成分。如果第一主成分不足以代 表原来p个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信 息就不需要再出现在F2中,用数学语言表达就是要求。彼(人,F2)=0,称F2为第二主成分,依此类推可 以构造出第三,四,第p个主成分。不难想像这些主成分之间不仅不相关,而且它们的方差依次 递减。因此在实际工作中,就挑选前几个最大主成分,虽然这样做会损失一部分信息,但是由于它使我 们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息。因而在某些实际问题的研究中得益比 损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。7.2主成分分析

5、的数学模型及几何解释1数学模型设有n个样品,每个样品观测p项指标XX1112XXX =2122X X-n1n 2(变量);X1,X2,Xp,得到原始数据资料阵: VX1PX。,、2催(X 1, X 2,Xp) Xnp其中X1ii = 1,,pX2i:Xni用数据矩阵X的p个向量(即p个指标向量)X,,Xp作线性组合(即综合指标向量)为:F = a X + a X + + a X1111212pl pF2 = a12X1 + a22X2 +. + a 2XF = a X + a X + + a XIp 1 p 12 p2pp p简写成F = ai X + a2 X2 +. + a X(注意:X是

6、n维向量上述方程组要求:i = 1,-所以尸.也是n维向量。)pi p,pa2 + a2 + a2 = 1i = 1,,p1i2ipi且系数a由下列原则决定:(1)F 与 Fj (i 丰 j, i, j = 1,p)不相关;(2)f1是X1,-,X的一切线性组合(系数满足上述方程组)中方差最大的,F2与F1不相关的 X ,,X 一切线性组合中方差最大的,,X是与F, F2, , F 1都不相关的X,Xp的一切线性 组合中方差最大的。如何求满足上述要求的方程组的系数a呢?下一节将会看到每个方程式中的系数向量 (a*, a,a), i = 1,p不是别的而恰好是X的协差阵Z的特征值所对应的特征向量

7、,也就是说,数 学上可以证明使Var(F1)达到最大,这个最大值是在Z的第一个特征值所对应特征向量处达到。依此类 推使Var(F )达到最大值是在Z的第p个特征值所对应特征向量处达到。p2主成分的几何意义从代数学观点看主成分就是p个变量x 1,-,X,的一些特殊的线性组合,而在几何上这些线性组合 正是把X1, -, X,构成的坐标系旋转产生的新坐标系,新坐标轴使之通过样品变差最大的方向(或说具 有最大的样品方差)。下面以最简单的二元正态变量来说明主成分的几何意义。设有n个样品,每个样品有p个变量记为X,,X,它们的综合变量记为F,F2,F。当p=2 时,原变量是X,X2,设X = (X,X2)

8、N*,),它们有下图的相关关系:对于二元正态分布变量,n个点的散分大致为一个椭园,若在椭园长轴方向取坐标轴孔,在短轴方 向聚七,这相当于在平面上作一个坐标变换,即按逆时针方向旋辕 角度,根据旋转轴变换公式新老坐 标之间有关系:F = X cos 0 + X 2 sin 0F = -X sin 0 + X cos 0212我们看到尸1, F2是原变量X和X2的线性组合,用矩阵表示是cos 0-sin 0sin 0 Xp J E - X cos 0 X_ll_ 2 -IFF2显然U = U-1且是正交矩阵,即UU = I。从上图还容易看出二维平面上的n个点的波动(可用方差表示)大部分可以归结为在F

9、轴上的波 动,而在F2轴上的波动是较小的。如果上图的椭圆是相当扁平的,那么我们可以只考虑F方向上的波 动,忽略F2方向的波动。这样一来,二维可以降为一维了,只取第一个综合变量4即可。而F是椭圆 的长轴。对p元正态分布变量来说,一般情况,p个变量组成p维空间,n个样品就是p维空间的n个点, 找主成分的问题就是找p维空间中椭球体的主轴问题。7.3主成分的推导及性质在下面推导过程中,要用到线性代数中的两个定理先作一下复习:人0 一定理一 若A是px p阶实对称阵,则一定可以找到正交阵U使U-1AU =,其中0人-p -气,入p是A的特征根。定理二 若上述矩阵A的特征根所对应的单位特征向量为七,up令

10、 UA(u1, -, U )=“11“12U1U U u21222 pU U Up1p2pp则实对称A属于不同特征根所对应的特征向量是正交的即气-uj = 0n UU = UU = I。1主成分的推导7设F = a1 X1 + a2X2 + + a X AaX其中a = (a ,a ,a ),X = (X , X ,X ),求主成分就是寻找X的线性函数aX使相就的方差尽12p12p可能地大即使Var(aX) = E(aX - E(aX)(aX - E(aX)=aE(X - EX)(X - EX) a=a Za达到最大值,且a a = 1。设协差阵Z的特征根为气 软2 Xp 0,相应的单位特征向

11、量为U1,U2,Up。U11u12 U1puu U令 U A(u,U )=21222 Pz=1P(px P ):Uu Up1p2pp J由前面线性代数定理可知:UU = UU = I,且入1 = U 人.100 U = E X u u i i ii=1Xp因此所以而且aa = 2PX aU ua = 2PX (aU )(aU ) = 2PX (aU )2i i ii i ii ii =1i =1i=1因此同理当a = U1时有aa V X X(au )2 = X (aU)(aU) = X a UUa = X a a = X1i1111i=1A,u ui i iJu:u = u. XX1 111

12、 i=1a =七使Var (a X) = a a达到最大值,Var (U X) = u: u111=XX uu uu = X (uU )2 = X i 1 i i 111 11i=1且Var (U X) = X.而且Cov(UX,U X) = uu , = u:XXuUL a=1 a a a=XX (uU )(uf u ) = 0,i 丰 ja i a a ja=1上述推导表明:X 1;X2,Xp的主成分就是以的特征向量为系数的线性组合,它们互不相关, 其方差为的特征根。之 由于的特征根X1 X2 . X 0,所以有:VarF VarF2 VarF 0。了解这一点也就 可以明白为什么主成分的名

13、次是按特征根取值大小的顺序排列的。P在解决实际问题时,一般不是取P个主成分,而是根据累计贡献率的大小取前k个。定义 称第一主成分的贡献率为X.2X,由于Var(F ) = X,所以X .2X = 胃(F 。因此1 ir 11 i Vi=1 1=1匕 Var(F )ii=1第一主成分的贡献率就是第一主成分的方差在全部方差X X中的比值。这个值越大,表明第一主成分 ii=1综合X ,,X,信息的力越强。前两个主成分的累计贡献率定义为(X1+ X2)/x.,前k个主成分的累计贡献率定义为人 2人。如果前k个主成分的贡献率达到85%,表明取前k个主成分包含了全部测量指标所具有I :i的信息,这样既减少

14、了变量的个数又便于对实际问题的分析和研究。i=1 i=1值得指出的是:当协差阵未知时,可用其估计值S (样本协差阵)来代替。设原始资料阵为:X11X21X12X22X1pX2pXn1Xn2Xnp -l则而相关系数阵:其中sij=1 na=1sR =(.)其中y ,=,一iS jj显然当原始变量X ,,Xp标准化后,则S = R =1X Xn实际应用时,往往指标的量纲不同,所以在计算之前先消除量纲的影响,而将原始数据标准化,这样一来S和R相同。因此一般求R的特征根和特征向量,并且不妨取R = XX。因为这时的R与1XXn只差一个系数,显然XX与1XX的特征根相差n倍,但它们的特征向量不变,它并不影响求主成分。n2主成分的主要性质性质1 F的协差阵为对角阵Ao证明:记 =(气)pa, UU = Ip显然 Var (F) = U

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号