第五章主成分分析(1)(主成分模型)

上传人:hs****ma 文档编号:513880433 上传时间:2022-10-15 格式:DOC 页数:38 大小:1.31MB
返回 下载 相关 举报
第五章主成分分析(1)(主成分模型)_第1页
第1页 / 共38页
第五章主成分分析(1)(主成分模型)_第2页
第2页 / 共38页
第五章主成分分析(1)(主成分模型)_第3页
第3页 / 共38页
第五章主成分分析(1)(主成分模型)_第4页
第4页 / 共38页
第五章主成分分析(1)(主成分模型)_第5页
第5页 / 共38页
点击查看更多>>
资源描述

《第五章主成分分析(1)(主成分模型)》由会员分享,可在线阅读,更多相关《第五章主成分分析(1)(主成分模型)(38页珍藏版)》请在金锄头文库上搜索。

1、第五章主成分分析与经验正交分解5.1主分量分析的数学模型当存在若干个随机变量时,寻求它们的少量线性组合(即主成分),用以解释这些随机变量,是很必要的。首先我们看一个例子。几个数据集1、Tiiblr 1.2; measure diita, CIksL wnisl., mid hip iibasurtbucMil.s nn 20 individuals (in inclift;).chest waisthips genderchest waisthips gender343032male362435373227male3G2Fi37IflLtillr:倨31:!fiinak342437temaJe

2、3G3339male332231female影酉汨male3G汕弟temale4332:用nialf372637(en)ae103342male342538female383040male362637temak403037male382840female113239male352335female(1) 身材情况能否用单个指标刻画(2) 男女身材之间有什么异同chest waist hips gen der chest waist hips gen der34 30 32 male 36 24 35 female37 32 37 male 36 25 37 female38 30 36 mal

3、e 34 24 37 female36 33 39 male 33 22 34 female38 29 33 male 36 26 38 female43 32 38 male 37 26 37 female40 33 42 male 34 25 38 female38 30 40 male 36 26 37 female40 30 37 male 38 28 40 female41 32 39 male 35 23 35 female2、Table 1.4: exan data. Exam score呂 for five psycholo students.subject matiis en

4、glish history geograpiiy ciiemistry physics16070755853422806566757076353605048454348579717768795458080844446subject maths en glish history geography chemistry physics1 60 70 75 58 53 422 80 65 66 75 70 763 53 60 50 48 45 434 85 79 71 77 68 795 45 80 80 84 44 463、 air pollution in cities in the USA.

5、The following variables were obtained for 1 US cities: SO2: SO2 content of air in micrograms per cubic metre;temp: average ann ual temperature in degrees Fahre nheit;manu: n umber of man ufacturi ng en terprises emplo ying 20 or more workers;popul: populati on size (1970 cen sus) in thousa nds;wind:

6、 average ann ual wind speed in miles per hour;precip: average ann ual precipitati on in in ches;predays: average n umber of days with precipitati on per year.Table 1.5: US airpollution data. Air pollution in 41 US cities.S02 temp raanu popul wind precip predaysAlbany4G47.6441168.833.3G135Albuquerque

7、1156,8462448.9i - t i58Atlanta2461.53G84979.148.34115Baltimore4755,06259059.641.31111BufFfilo1147 J39146312.436.1116GCharleston3155,23571.54075148Chicago11050,63344336910434.44122Cincinnati2354.04624537.139.04132Cleveland6549,7100775110.934.99155Coliiinbns2651.5266540S.637.01131Dallas9G6,264184410,9

8、35.9478Brnvcr1751,94545159X)12.95S6Des Moines1749,010420111.230.85103Dptrnifr仙4QQ10fU1.M10 1an由;1为例5. 1为了调查学生的身材状况,可以测量他们的身高 (XJ、体重(X2)、胸围(X3)和坐高(X4 )。可是用这4个指标表达学生身材状况不方便。但若用y1 =3.6356 X1+3.3242 X2 +2.4770 X3 +2.1650 X4表示学生身体魁梧程度;用y2 =-3.9739 X2+1.3582 X1+3.7323 X3 -1.5729 X4表示学生胖瘦程度。则这两个指标(y1, y2)很

9、好概括了 4个指标(x1- x4)o例中,学生不同,身高(XJ、体重(X2)、胸围(X3)和坐高(X4)不同;(X1, X2, X3, x4)是4维随机向量;是他们的2个线性组合,y1, y2能很好表示x1, x2, x3,X4的特性。类似的问题在许多地方出现:可观测的随机变量很多,需要选出所有所有随机变量的少数线性组合,使之尽可能刻划全部随机变量的特性,选出的线性组合就是诸多随机变量的主成分,又称为主分量。寻求随机向量主成分,并加以解释,称为主成分分析,又称为 主分量分析。主成分分析在许多学科中都有应用,细节可参看张尧廷(1991)、Richard(2003),主成分分析在气象等科学中称为P

10、CA方法,见吴洪宝(2005)。主成分分析的数学模型是:对于随机向量X,想选一些常数向量 Ci,用ci X尽可能多反映随机向量 X的主要信息,也即 D(CjX)尽量大。但是Ci的模可以无限增大,从而使D(qX)无限变大,这是我们不希望的;于是限定ci模的大小,而改变 c各分量的比例,使D(qX)最大;通常取Ci的模为1最方便。定义5.1设随机向量X =(花,.以卩)二阶矩存在,若常数向量 C!,在条件|c| |= 1下使D(cX)最大,则称七二qX是X的第一主成分或第一主分量。由定义可见,尽可能多地反映原来 p个随机变量变化的信息。但是一个主成分往往不能完全反映随机向量特色,必须建立其它主成分

11、,它们也应当最能反映随机向量变化,而且他们应当与第一主成分不相关(不包含Y,的信息)。定义5.2 若常数向量C=C2在条件|c | = l , COV(YhC X)=0下,使D(c X)最大,则称丫2 =C2X是x的第二主成分;若常数向量c= C3在条件|c J = l , cov,cX) =0 ,cov(Y2,c X) =0下,使D(c X)最大,则称丫3二c/X是X的第三主成分;,。当随机向量方差已知时,定理5.1给出主成分的计算公式。定理5.1设随机向量 (X1,.Xp)方差存在为 U 特征值从大到小为 -p, j对应的彼此正交单位特征向量为Cj。则X的第j个主成分为Cj与X的内积,即(

12、5.1)Yj 二5X证明:任取 P维单位向量 C,必有ctjCj tj2 =1 。于是D(cX) = c八 tj2 j ,而在条件二 t j = 1 下,当 b = 1, t2 二二 tp = 0即 c = c 时,2D(cX) tj,j最大,所以 X的第一主成分是 ci与X的内积 辛=GX。由条件pcov(Y,c X)=0 ,可得 g!:c = AiCic = Mi = 0 ,于是 cX=tjCjX ,从而j=2p 2D(cX) = c3c =、 tj.j ;j=2所以在条件|c | = 1、cov(Y,cX)=0下,当c = c2时,D(cX)=cEc最大,所以X的第2个主成分为c2与X的

13、内积Y2 - c2X。对第三,第四 ”主成分同样可证。Procecxiing in lhi way atid writing in matrix notaunn, the result for a ranthtin variable X with E(X) = /丄 and Var(X) = = f AI氏 ihc PC trnstnmialion which is defined asY = r(X-fjt).(103)Here we have ccniercd lhe qriablc X in order to ob(ain a iitean PC variable F,Thturcm 1

14、0J Fora given X (址 E) M F = rT(X 肚)be the PC transformation. ThenE Yj = 0, j L , p(W4)Vart Fp = A;,7 = 1,.,.,/?(10.5)Cov(rfli 羊 j(m.6)Var(Y) Var K?) Var(KP) 0(HK7)p,Var(X;) =in Z)j=1p(Kk8)口 如打)= |E|*(IM)Proof To prove (10.6). we use yi to denote the i th column of P. ThenCov(Yj, Yj) = yjT Var(X 衣)力=y/ Var(X)yj.As Var( X) =

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号