统计建模与R软件课程报告.doc

上传人:灯火****19 文档编号:135095418 上传时间:2020-06-12 格式:DOC 页数:12 大小:810.84KB
返回 下载 相关 举报
统计建模与R软件课程报告.doc_第1页
第1页 / 共12页
统计建模与R软件课程报告.doc_第2页
第2页 / 共12页
统计建模与R软件课程报告.doc_第3页
第3页 / 共12页
统计建模与R软件课程报告.doc_第4页
第4页 / 共12页
统计建模与R软件课程报告.doc_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《统计建模与R软件课程报告.doc》由会员分享,可在线阅读,更多相关《统计建模与R软件课程报告.doc(12页珍藏版)》请在金锄头文库上搜索。

1、重庆大学统计建模与R软件课程报告 结论及对该模型的评价统计建模与R软件课程报告对某地区农业生态经济的发展状况作主成分分析摘 要主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相关独立或不相关的变量。通常是选出比原始变量个数少,又能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。也就是说,主成分分析实际上是一种降维方法。关键词:主成分分析 相关矩阵 相关R函数目 录1 绪论21.1主成分方法简介22总体主成分22.1主成分的定义与导出22.2主成分的性质32.3从相关矩阵出发求主成分52.4相关的R函数63

2、 数据模拟74 结论及对该模型的评价12参考文献121 绪论1.1主成分方法简介主成分分析(principal component analysis)是将多个指标化为少数几个综合指标的一种统计分析方法,由Pearson(1901)提出,后来被Hotelling(1933)发展了。主成分分析是一种通过降维技术把多个变量化成少数几个主成分的方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的线性组合。主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多

3、元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。2总体主成分2.1主成分的定义与导出设是p维随机变量,并假设,。考虑如下线性变换 (2.1)易见 , (2.2) , (2.3)我们希望的方差达到最大,即是约束优化问题 的解。因此,是最大特征值(不妨设为)的特征向量。此时,称为第一主成分。类似

4、地,希望的方差达到最大,并且要求。由于是的特征向量,所以,选择的应与正交。类似于前面的推导,是第二大特征值(不妨设为)的特征向量。称为第二主成分。一般情况下对于协方差阵,存在正交阵,将它化为对角阵,即 (2.4)且,则矩阵的第列就对应于,相应的为第主成分。2.2主成分的性质关于主成分有如下性质:(1)主成分的均值和协方差阵。 记 ,由于 (2.5)所以有 .(2)主成分的总方差由于 所以 或,其中是协方差阵的第个对角元素。由此可以看出,主成分分析把p个原始变量的总方差分解成了p个不相关变量的方差之和。称总方差中第主成分的比例为主成分的贡献率。第一主成分的贡献率最大,表明它解释原始变量的能力最强

5、,而的解释能力依次减弱。主成分分析的目的就是为了减少变量的个数,因而一般不会使用所有的p个主成分,忽略一些较小方差的主成分,不会给总方差带来大的影响。称前m个主成分的贡献率之和为主成分的累积贡献率,它表明解释的能力。相对于p,通常取较小的m,使得累积贡献率达到一个较高的百分比(如80%90%)。此时,可用来代替,达到降维的目的,而信息的损失却不多。(3)原始变量与主成分之间的相关系数由式(1.5)知 (2.6)即 , (2.7)所以, , (2.8) , . (2.9)在实际应用中,通常只对与的相关系数感兴趣。(4)个主成分对原始变量的贡献率前面提到的累积贡献率这个概念度量了个主成分从原始变量

6、中提取信息的多少,那么包含有的多少信息应该用什么指标来度量呢?这个指标就是与的复相关系数的平方,称为个主成分对原始变量的贡献率,记为,即. (2.10)对式(1.7)两边取方差,得到 , (2.11)由于,故实际上是的加权平均。由式(1.10)式(1.11),可以得到对的贡献率为 . (2.12)(5)原始变量对主成分的影响式(1.5)也可以写成 ,称为第主成分在第个原始变量上的载荷,它度量了对的重要程度。2.3从相关矩阵出发求主成分当各变量的单位不完全相同,或虽单位相同,但变量间的数值大小相差较大时,直接从协方差阵出发进行主成分分析就显得不妥。为了使主成分分析能够均等地对待每一个原始变量,消

7、除由于单位不同可能带来的影响,常常将原始 变量作标准化处理,即令 , (2.13)显然,的方差矩阵就是的相关矩阵。从相关矩阵出发导出的主成分方法与从协方差出发导出的主成分方法完全类似,并且得到的主成分的一些行之更加简洁。设为相关矩阵的p个特征值,为相应的单位特征向量,且相互正交,则相应的p个主成分为 ,。令,,于是 .关于相关矩阵的主成分有如下性质:(1),其中.(2).(3)变量与主成分之间的相关系数为 ,.(4)主成分对的贡献率为 .(5).2.4相关的R函数与主成分分析有关的函数主要有以下一些:1.princomp函数作主成分分析最主要的函数是princomp()函数,其使用格式为pri

8、ncomp(formula,data=NULL,subset,na.action,. . .)其中formula是没有响应变量的公式(类似回归分析、方差分析,但无响应变量),data是数据框。或者princomp(x,cor=FALSE,scores=TRUE,covmat=NULL,subset=rep(TRUE,nrow(as.matrix(x),)其中x是用于主成分分析的数据,以数值矩阵或数据框的形式给出;cor是逻辑变量,当cor=TRUE表示用样本的相关矩阵作主成分分析,当cor=FALSE(默认值)表示用样本的协方差阵作主成分分析;covmat是协方差阵,如果数据不用x提供,可由协

9、方差阵提供。2.summary函数summary()函数的目的是提取主成分信息,其使用格式为summary(object, loadings=FALSE, cutoff=0.1,. . .)其中object是由princomp()得到的对象;loadings是逻辑变量,当loadings=TRUE表示显示loadings的内容,当loadings=FALSE则不显示。3.loadings函数Loadings()函数是显示主成分分析loadings的内容,该内容实际上是主成分对应的各列,即前面分析的正交矩阵。loadings(x) 其中x是由函数princomp()得到的对象。4.predict

10、函数predict()函数是预测主成分的值,其使用格式为predict(object,newdata,. . .)其中object是由princomp()得到的对象,newdata是由预测值构成的数据框,当newdata为默认值时,预测已有数据的主成分值。5.screeplot函数screeplot()函数是画出主成分的碎石图,其使用格式为screeplot(x,npcs=min(10,length(x$sdev),type=c(“barplot”,”lines”),main=deparse(substitute(x), )其中x是由princomp()得到的对象;npcs是画出的主成分的个数

11、;type是描述画出的碎石图的类型:“barplot”是直方图类型,“lines”是直线图类型。3 数据模拟表1 某农业生态经济系统各区域单元的有关数据序号1363.9120.35216.101192.11295.3426.72418.4922.23126.2622141.5031.68424.3011 752.35452.2632.31414.4641.45527.0663100.6951.06765.6011 181.54270.1218.2660.1627.47412.4894143.7391.33633.2051 436.12354.2617.48611.8051.89217.5345

12、131.4121.62316.6071 405.09586.5940.68314.4010.30322.932668.3372.03276.2041 540.29216.398.1284.0650.0114.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9011.65273.3071 501.24225.2518.3522.6450.0343.201986.6240.84168.904897.36196.3716.8615.1760.0556.1671091.3940.81266.502911.24226.5118.2795.6430.0764.4771176.9120.85850.302103.52217.0919.7934.8810.0016.1651251.2741.04164.609968.33181.384.0054.0660.0155.4021368.8310.83662.804957.14194.049.1104.4840.0025.7901477.3010.62360.102824.37188.0919.4095.7215.0558.4131576.9481.02268.00

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 总结/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号