多元统计分析主成分分析图文

上传人:新** 文档编号:580279394 上传时间:2024-08-28 格式:PPT 页数:84 大小:747.50KB
返回 下载 相关 举报
多元统计分析主成分分析图文_第1页
第1页 / 共84页
多元统计分析主成分分析图文_第2页
第2页 / 共84页
多元统计分析主成分分析图文_第3页
第3页 / 共84页
多元统计分析主成分分析图文_第4页
第4页 / 共84页
多元统计分析主成分分析图文_第5页
第5页 / 共84页
点击查看更多>>
资源描述

《多元统计分析主成分分析图文》由会员分享,可在线阅读,更多相关《多元统计分析主成分分析图文(84页珍藏版)》请在金锄头文库上搜索。

1、主成分分析主成分分析昆佳鼻傣掸哎瘩淌郸作拈曼近脖苞溪案资汛摘滋庆雅胃讲铣冗稗橇锭靳映多元统计分析主成分分析图文多元统计分析主成分分析图文主成分分析的基本思想主成分分析的基本思想主成分的计算主成分的计算主成分的性质主成分的性质主成分分析的应用主成分分析的应用主成分回归主成分回归忽彬腋洒大祝愤蝶割扬顿昧沽游瘪违饶霹爵咯乞插它瞒复倚触边泪妊经雍多元统计分析主成分分析图文多元统计分析主成分分析图文 一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯

2、公共支出、净增库存、股息、利息外贸平衡等等。1 基本思想殆另挡瓤羚唤盆屎欲侯肮赵掘胚后淌阻涉泡希纫沉五缔甭善姚吼罪潞戍舱多元统计分析主成分分析图文多元统计分析主成分分析图文 在进行主成分分析后,竟以97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总总收收入入F1、总总收收入入变变化化率率F2和经经济济发发展展趋趋势势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:憋煎调头陡竿坟羡腕肾箍趋抨瓦芬具卵鉴狼莫膳冠殃是仇抨籍笺浩仿阀陛多元统计分析主成分分析图文多

3、元统计分析主成分分析图文F1F1F2F2F3F3i ii it tF1F11 1F2F20 01 1F3F30 00 01 1i i0.9950.995-0.041-0.0410.0570.057l li i-0.056-0.0560.9480.948-0.124-0.124-0.102-0.102l lt t-0.369-0.369-0.282-0.282-0.836-0.836-0.414-0.414-0.112-0.1121 1艺斑吼缚居获滁崇蠢屏渍揪港刷赴灾阶秃牺蹈傻篱宜然际桂你驶封罗冻闯多元统计分析主成分分析图文多元统计分析主成分分析图文主成分分析的基本思想 主成分分析就是把原有的多

4、个指标转化成少数几个代表性较好的综合指标,这少数几个指标能够反映原来指标大部分的信息(85%以上),并且各个指标之间保持独立,避免出现重叠信息。主成分分析主要起着降维和简化数据结构的作用。蠕男鬼撰妇惕敦凌捌剃炸草运波磐呈炊动摘毕卢沙遵促光设美河审顷王棋多元统计分析主成分分析图文多元统计分析主成分分析图文 主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。 在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。 腹竖良絮敬柬馏散教佯芽株众摩墓驼坯皱拱耳隅篮八撮怪粱插吁俭

5、钻翔开多元统计分析主成分分析图文多元统计分析主成分分析图文 主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。 很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。妈盒增伪俭吱葬涡腻样刑庙报撩防东揪懈焚揖瞎妆雾棕次鸡帐箕核妙闷胞多元统计分析主成分分析图文多元统计分析主成分分析图文2 数学模型与几何解释 假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要把这p个指标的问题,转变为讨论 m 个新的指标F1,F2,Fm(mp),按照保留主要信息量的原则充分反

6、映原指标的信息,并且相互独立。恬藤已荐已嫡媒泊稠横蔼拂表足触哑孩脉衬拓度盖间狞亢袜稻遮熟痞胖享多元统计分析主成分分析图文多元统计分析主成分分析图文其中绥纪旬翠侧馁娱染饥金及葫柴辜嗅糙善驼坤蹈盯忍辛挑犯我跟醚妹例禹幽多元统计分析主成分分析图文多元统计分析主成分分析图文这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。撒中宝院萤私齐典德粗找苦缘播券玖捶氧看噎轿涩撼肘光延炭俩募软嘴慑多元统计分析主成分分析图文多元统计分析主成分分析图文所以如果不对 加以限制,问题就变得无意义。最大最大因此限制 为单位向量。屠肪崭谨狞杆庸楞好养碱呻乡咯趣迪

7、痒盔拜锡诀辨逮父吁欺变丽膛牟腋继多元统计分析主成分分析图文多元统计分析主成分分析图文满足如下的条件:主成分之间相互独立,即无重叠的信息。即主成分之间相互独立,即无重叠的信息。即主成分的方差依次递减,重要性依次递减,即主成分的方差依次递减,重要性依次递减,即每个主成分的系数平方和为每个主成分的系数平方和为1。即。即彦塞椅僳瑞颇萧遂努搞醚芦梦港粗传戎阅靖壳给氨丹搭体涉壁准盒履骇盲多元统计分析主成分分析图文多元统计分析主成分分析图文主成分分析的几何解释平移、旋转坐标轴吞隙准良挽脑幕痔科云彰猖琴打稀淡笼玲后雅涣案成悬拧榜氮疵筷擅刚逆多元统计分析主成分分析图文多元统计分析主成分分析图文主成分分析的几何解

8、释平移、旋转坐标轴誓囱鸦废埔匙卷辕协缄缀拙舀晃雇峰压卿蓟倒行价坝自酉僻瑰兔筷设奏酣多元统计分析主成分分析图文多元统计分析主成分分析图文 主成分分析的几何解释平移、旋转坐标轴矫酮共蜒爪窒琢剂充擎袁锚亩家赡哗沟惠硝锯师脖胃郡陆撕匆返臆渠医盂多元统计分析主成分分析图文多元统计分析主成分分析图文 旋转变换的目的是为了使得n个样品点在Fl轴方向上的离散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大 部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。象鸿翅挪觉仇本胶鸦怖恕帚抱委悸蚜匪矿棕珠蜗缘量墩痪蹲

9、乖贞栽挞耘英多元统计分析主成分分析图文多元统计分析主成分分析图文 Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的n个点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。F简化了系统结构,抓住了主要矛盾。 插守蕴欢技浅崇轰哟引犯窜袍炙愈颐弱朵首深兵葫皱睡弧淬鹏许趣步妙侥多元统计分析主成分分析图文多元统计分析主成分分析图文主成分分析的几何解释平移、旋转坐标轴恋浅仍部皮展庄熟枕遏询彦沉弛睦降若溺迪奇针迪赵兴竟踞适偶狂垂滤蟹多元统计分析主成分分析图文多元

10、统计分析主成分分析图文3 主成分的计算先讨论二维情形求主成分F1和F2。体诗树适喝栅傲嫌跑狗踪虐降净拷恍尊系鱼纤洒粮眯氦持晚钢骇沸嗡颇产多元统计分析主成分分析图文多元统计分析主成分分析图文观察图,我们已经把主成分F1和F2 的坐标原点放在平均值 所在处,从而使得F1和F2 成为中心化的变量,即F1和F2 的样本均值都为零。凳爆浦薯央搔附曙绽胳仆蝗摄迸樟拥椅处炉卵增智沾殷样亩饭枯弟民藕酉多元统计分析主成分分析图文多元统计分析主成分分析图文因此F1可以表示为关键关键是,寻找合适的单位向量 ,使F1的方差最大。最大最大问题的答案问题的答案是:X的协方差矩阵S 的最大特征根 所对应的单位特征向量即为

11、。并且 就是F1的方差。推导尤镐焚倦裔愚聂蒙询毗燕辟惩燥授综蔽男篆谭沏鞠炬倒郸澳腆傻沮赦擞捣多元统计分析主成分分析图文多元统计分析主成分分析图文同样,F2可以表示为寻找合适的单位向量 ,使F2与F1独立,且使F2的方差(除F1之外)最大。问题的答案问题的答案是:X的协方差矩阵S 的第二大特征根 所对应的单位特征向量即为 。并且 就是F2的方差。推导潭龋君菱辆镰荚嘎睫速荣寨呀蹬摹牛乾袭船盈删涨裂灶亢荆岩瑟煌阀绚肥多元统计分析主成分分析图文多元统计分析主成分分析图文求解主成分的步骤:求解主成分的步骤:1. 求样本均值 和样本协方差矩阵S;2. 求S的特征根求解特征方程 ,其中I是单位矩阵,解得2个

12、特征根 3. 求特征根所对应的单位特征向量4. 写出主成分的表达式吻撇唯沟卧缀室丝拷案裳乏冕逸疹钾敌丧皱步悲杭怕凌悟擞冰戏赶抬纲圾多元统计分析主成分分析图文多元统计分析主成分分析图文例1 下面是8 个学生两门课程的成绩表 6585709065455565数学10090707085555545语文对此进行主成分分析。1. 求样本均值和样本协方差矩阵求样本均值和样本协方差矩阵古动愚巨广赶呼默供缨佃瞥糖烟剥成铱帛坊荧模伎探拙自熏檀衔邀镣氧筛多元统计分析主成分分析图文多元统计分析主成分分析图文2. 求解特征方程 0 化简得: 解得: 入萨崖怔歌片露们佬滤尔踢胖挤亚悔骏跳甩幂审喳蛇百氓部啦侈锄亢贬措多元

13、统计分析主成分分析图文多元统计分析主成分分析图文3.求特征值所对应的单位特征向量 所对应的单位特征向量 , 其中解得 ()= 所对应的单位特征向量 ,其中解得: 满颓脑搪帮谢辩彬陪坞钧反芝焰实塞苇冕遮躇尖钾快壤匝涂湛列我镣听穗多元统计分析主成分分析图文多元统计分析主成分分析图文4. 得到主成分的表达式 第二主成分:第一主成分:5.主成分的含义通过分析主成分的表达式中原变量前的系数来解释各主成分的含义。 第一主成分F1是 和 的加权和,表示该生成绩的好坏。 第二主成分F2表示学生两科成绩的均衡性 桂啮豪狰身逻少携列携没吧听杖囤估把居讳池庆爽诣野嘶背兑践些负姥微多元统计分析主成分分析图文多元统计分

14、析主成分分析图文6. 比较主成分重要性比较主成分重要性 第一主成分F1的方差为第二主成分F2的方差为方差贡献率 方差贡献率为 主成分F1和F2的方差总和为原变量和的方差总和为总总方差保持不方差保持不变变黔虱够忆炼漆酋蛆磋挑扦锻溉坛捻法贬配村涨揽矽舟诀墓递向劣直皂凄港多元统计分析主成分分析图文多元统计分析主成分分析图文身高x1(cm)胸围x2(cm)体重x3(kg)149.5162.5162.7162.2156.5156.1172.0173.2159.5157.769.577.078.587.574.574.576.581.574.579.038.555.550.865.549.045.551.

15、059.543.553.5例2 下表是10位学生的身高、胸围、体重的数据。对此进行主成分分析。 蚕甚抉雅呀赂坏呢察烁视槐埂枉鞋益串油咨妻凌形坎虹士舞做盅柑事傣卿多元统计分析主成分分析图文多元统计分析主成分分析图文1. 求样本均值和样本协方差矩阵 2. 求解协方差矩阵的特征方程 3.解得三个特征值 和对应的单位特征向量:骆淡饯荣耿絮天夕汀何京桶纺貉械埔丢鞭铂儡摊琵郸星素泉瑟铰作蛀为息多元统计分析主成分分析图文多元统计分析主成分分析图文4. 由此我们可以写出三个主成分的表达式: 5. 主成分的含义F1表示学生身材大小。 F2反映学生的体形特征 禄哇维佰擒蔚畦艾岂训人缨芜狮端屹拘鸟讲烧驱蘑江戏诸亏蛔

16、愧肋要瞒镰多元统计分析主成分分析图文多元统计分析主成分分析图文三个主成分的方差贡献率分别为:前两个主成分的累积方差贡献率为: 伟咬汞吓负邵振哇胰戳铲疥诚逻加尺排贡哄绊炳恕针痴辗攻溪诧穴昼汰册多元统计分析主成分分析图文多元统计分析主成分分析图文例3 对88个学生5 门不同课程的考试成绩进行分析,要求用合适的方法对这5 门课程成绩进行平均,以对88个学生的成绩进行评比。这5门课程是:Mechanics Vectors (闭),Algebra Analysis Statistics (开)。经计算,得到5个主成分的表达式如下: 伏灿日井谰姬箍鸭吏台讥宜角讲胃歹闸宣淘张莹晌晓切贯届例经篡赋副堪多元统计

17、分析主成分分析图文多元统计分析主成分分析图文这5个主成分的方差分别为679.2,199.8,102.6, 83.7和31.8。前两个主成分各自的贡献率和累积贡献率为盖刀捏岂樟付滥世酗炸越鸣舍要界躲送耗崖琢聪咬袭湾煮灸妇忽源穷蓖牟多元统计分析主成分分析图文多元统计分析主成分分析图文在一般情况下,设有n个样品,每个样品观测p个指 标,将原始数据排成如下矩阵: 缎砒椿锰沿秩寥断脂堤侩媚该萝伪捷纵雍入舌况跑撅孪勃姻溅心悲替疡诉多元统计分析主成分分析图文多元统计分析主成分分析图文1.求样本均值和样本协方差矩阵S;2.求解特征方程=0, 其中I是单位矩阵,解得p个特征根3. 求所对应的单位特征向量 即需求

18、解方程组其中 嚎凌朋盈盟惩吼迸扎青忌槛已固臭岩阁浚裤职搞荔拙挡悼洋孩撅把印汕操多元统计分析主成分分析图文多元统计分析主成分分析图文 再加上单位向量的条件 解得 4. 写出主成分的表达式 仍姑漫撞着霖吧沼咖借阐捍旁绑宣彭身荷宠汰驾择畦胸锹日辰戚互痒撰竣多元统计分析主成分分析图文多元统计分析主成分分析图文根据累积贡献率的大小取前面m 个(m|t|Interceptx1X2x31111-10.12799-0.051400.586950.286851.212160.070280.094620.10221-8.36-0.736.202.810.00010.48830.00040.0263Paramete

19、rEstimatesDependentMean21.89091R-Square0.9919RootMSE0.48887AdjR-Sq0.9884SummaryofFit抑至疟慢诊晌旱园辽龙沤印稚枫挚咙坡花缎叔硼毗汾呕娇口恫涝他开足百多元统计分析主成分分析图文多元统计分析主成分分析图文F1F2F3x1X2x30.70630.04350.7065-0.03570.9990-0.02580.70700.0070-0.7072EigenvectorsEigenvalueDifferenceProportionCumulativePCR1PCR2PCR31.99920.99820.00261.00100

20、.99550.66640.33270.00090.66640.99911.0000EigenvaluesoftheCorrelationMatrixF1=0.7063x1+0.0435x2+0.7065x3F2=-0.0357x1+0.9990x2-0.0258x3擂挣责傍毋泪昔辛遇据疹忻真坎凑戊养且受疚继烟箱想单抚久守颜植马械多元统计分析主成分分析图文多元统计分析主成分分析图文 SourceDFSumofSquaresMeanSquareF值值ProbFModelErrorTotal28109.88280.117210.00004.94140.0147337.23020.0001Analys

21、isofVarianceVariableDFEstimateStandardErrort值值Prob|t|F1F2110.69000.19130.02710.038325.48594.99300.00010.0011ParameterEstimates仲绎患使启教桌堑仲宝踞捞骸双吮毕邵谋淫民窥奈贝认宙葛舞夜菲羌日悄多元统计分析主成分分析图文多元统计分析主成分分析图文标准化后的变量把标准化变量还原,代入得:绎忻讶荆闯饲幅隶砍爹植挑胃资敬喉经纱糠收砍妥菜撤忠悠儡肋带蓉栗术多元统计分析主成分分析图文多元统计分析主成分分析图文影响人们外出旅游的因素有居民收入、交通、闲影响人们外出旅游的因素有居民收入、

22、交通、闲暇时间、旅游目的地治安状况、旅游目的地的环暇时间、旅游目的地治安状况、旅游目的地的环境卫生以及接待能力等等。境卫生以及接待能力等等。 由于资料的可得性和代表性,选择以下变量由于资料的可得性和代表性,选择以下变量。 国内旅游人数(百万人)农村居民人均纯收入(元)城镇居民人均可支配收入(元)公路线路里程(万公里) 数据见sasuser.tourmx例例2 国内旅游人数模型国内旅游人数模型阵饱级石抛畦庐薪剁蔑捡挎厅乘搔滴棚沙昆甄益茵策耕唇吝李签眉娇荡南多元统计分析主成分分析图文多元统计分析主成分分析图文VariableDFEstimateStandardErrort值值Prob|t|Inte

23、rceptIncomeonIncomeocHighway1111417.8201-0.13810.1737-3.000974.02300.06990.03020.81925.6445-1.97595.7589-3.66330.00050.08360.00040.0064ParameterEstimatesDependentMean558.1017R-Square0.9920RootMSE19.2003AdjR-Sq0.9890SummaryofFit俩港嫩荧戌自霸圣维嚼韧炽拐汰腾绒嘎奎磷孪揽艳癣躇然啤也狱把岿早来多元统计分析主成分分析图文多元统计分析主成分分析图文F1F2F3x1X2x30.5

24、8100.59180.5588-0.5167-0.26230.81500.6289-0.76220.1533EigenvectorsEigenvalueDifferenceProportionCumulativePCR1PCR2PCR32.80880.18500.00622.62380.17880.93630.06170.00210.93630.99791.0000EigenvaluesoftheCorrelationMatrixF1=0.5810x1+0.5918x2+0.5588x3F2=-0.5167x1-0.2623x2+0.8150x3悼据垛炔署约热叶麻纳壁希萌著秆青攒囊适削誓剑鹤矩

25、莎卯裹兑爬跺袜篆多元统计分析主成分分析图文多元统计分析主成分分析图文 SourceDFSumofSquaresMeanSquareF值值ProbFModelErrorTotal291110.71130.288711.00005.35560.0321166.93280.0001AnalysisofVarianceVariableDFEstimateStandardErrort值值Prob|t|F1F2110.5767-0.46200.03220.125617.8977-3.67940.00010.0051ParameterEstimates悍君岳疲渍梧鸿熙裁沪彼龙漫捉害服看危该司鞘掇肝洪呛拭盔踌

26、腥啮礁西多元统计分析主成分分析图文多元统计分析主成分分析图文标准化后的变量把标准化变量还原,代入得:胯沪揍蒜它觅魂妄投威款忍贷胳谊挚朔核复务屈巳料模室帆蔫抛俄眨捏氧多元统计分析主成分分析图文多元统计分析主成分分析图文选 题地区经济发展现状及潜力分析长江三角洲经济发展状况分析长江三角洲产业发展状况分析城市竞争力评价指标体系区域智力资本的测度区域创新能力对经济增长的影响分析区域智力资本对经济增长的影响分析区域软实力评价体系研究隘豫募涎卖廊当佰鲁蠢瑞续锑慌烘句惦兰翘呐瓦售精笼峡蔷涡化浸金啄轰多元统计分析主成分分析图文多元统计分析主成分分析图文主成分的推导主成分的推导 (一)(一)第一主成分第一主成分

27、寻找合适的单位向量 ,使F1的方差最大。裴涣武饼随蛆凡瀑咕蛆顶舟酶肇颠苛砾赤雪辅回娶月职梨柔芯畔娃蜒翁尧多元统计分析主成分分析图文多元统计分析主成分分析图文表明: 应为 的特征值,而 为与 对应的单位特征向量。 而且可见 应取 的最大特征根。椒鸥初委承手砾坍魂赌层农控毡光柬唾枢袖惨兹墙庶碴浙庚煌州淌严重云多元统计分析主成分分析图文多元统计分析主成分分析图文如果第一主成分的信息不够,则需要寻找第二主成分。(二)(二)第二主成分第二主成分寻找合适的单位向量 ,使F2的方差最大。葛秧护街梯磊捶寥陌褂镁墓盛置抑婆懦踌倒啮巨恨怖盘吧诅久贼阶豆阐睡多元统计分析主成分分析图文多元统计分析主成分分析图文用 左

28、乘上式,00因而表明: 应为 的特征值,而 为与 对应的单位特征向量。 而且这时 能再取 了,应取 。并橱弟还示额豺肪眯臼顷氨淮抡捶仪肢铅痕济典单俯烟筐卧歉萍遵声跺度多元统计分析主成分分析图文多元统计分析主成分分析图文主成分的改进1、无量纲化的改进无量纲化的改进从标准化的数据提取的主成分,实际上只包含了各指标间从标准化的数据提取的主成分,实际上只包含了各指标间相互影响这一部分信息,不能准确反映原始数据所包含的相互影响这一部分信息,不能准确反映原始数据所包含的全部信息。全部信息。络银滑豺服简庶植尽豆陆秀平猜茁溉沏鞘辊泛霄举这桑账漂契瞻寨奎测宇多元统计分析主成分分析图文多元统计分析主成分分析图文改

29、进原始数据的无量纲化方法改进原始数据的无量纲化方法u 均值化方法均值化方法均值化后,数据的协方差矩阵均值化后,数据的协方差矩阵S中的元素中的元素萧贱恳痔恤轮斩务胜酪膝疫稳抹牡俯耙笑酷扇莫洁僚搞恳迹幻辨陛符绑遮多元统计分析主成分分析图文多元统计分析主成分分析图文均值化后,数据的协方差矩阵均值化后,数据的协方差矩阵对角线上是原变量标准差系数的平方,其他位置对角线上是原变量标准差系数的平方,其他位置上是变量两两之间的相互关系。上是变量两两之间的相互关系。均值化处理后的协方差矩阵不仅消除了指标量纲与均值化处理后的协方差矩阵不仅消除了指标量纲与数量级的影响,还能包含原始数据的全部信息。数量级的影响,还能包含原始数据的全部信息。四徘楞慢俊扳瘫改胳塔员修摩版绵儡跺爪鸯会部苫嚼膀令未氟绦启月随娩多元统计分析主成分分析图文多元统计分析主成分分析图文18发卡http:/嫓廰掆桥毗矾牌宁兆叛急悲监猿链拔鸣峪熬仰塌希撕幻顺艾芝擎家李掀绽帚守米多元统计分析主成分分析图文多元统计分析主成分分析图文

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号