多元统计分析期末论文

资源描述

《多元统计分析期末论文》由会员分享，可在线阅读，更多相关《多元统计分析期末论文（12页珍藏版）》请在金锄头文库上搜索。

1、多元统计分析期末论文多元统计分析期末论文一二三四五总分学院：工商管理专业：人力资源管理年级：学号：姓名：我国地区经济发展浅析我国地区经济发展浅析摘要摘要：本文主要运用聚类分析法，主成分分析法，因子分析法三种多元统计分析方法对 2011 年我国 31 个省、市、自治区的地区经济发展状况以及影响地区经济发展的主要因素（指标）相结合进行剖析。根据不同分类方法得出不同的分析结果，从而从不同角度分析我国各地区经济发展存在的主要差异以及导致这些差异出现的原因，并最终就三种统计分析方法的结果对我国目前地区经济发展状况进行客观的综合概述。关键字关键字：地区发展水平聚类分析法主成分分析法因子分析法一、引言

2、一、引言在日常生活过程中，我们常常遇到一些计算量大，分析工作复杂度高的数据分析工作，为了能够更加简便地进行数据分析，在此给大家介绍几种多元统计分析的方法。本文主要运用了聚类分析法，主成分分析法和因子分析法对 2011 年我国 31 个省市自治区地区经济发展水平以及影响地区经济发展的几项重要指标进行了统计分析。二、聚类分析二、聚类分析聚类分析是研究“物以类聚”的一种方法。聚类分析是应用最广泛的一种分类技术，它把性质相近的个体归为一类，使得同一类中的个体具有高度的同质性，不同类之间的个体具有高度的异质性。聚类分析的职能是建立一种分类方法，它是将一批样品或变量，按照它们在性质上的相似程度进行分类。通

3、常我们用距离来度量样品之间的相似程度，用相似系数来度量变量之间的相似程度。1.1.参与聚类的样本总量表参与聚类的样本总量表通过观察上表，我们可以看出，在整个聚类过程中，描述我国所有省、市、自治区经济发展状况的 31 个样品都参与了聚类分析过程，没有遗失或未参与的样品。这充分说明此次聚类分析已经对全部 31 个样品的各项指标进行了相似聚类，不需要再利用判别分析再进行二度聚类。2.2.样品聚为样品聚为 3 3 类时的样品归类表类时的样品归类表ClusterCluster MembershipMembershipCase3 Clusters1:Case 1 12:Case 2 13:Case 3 1

4、4:Case 4 25:Case 5 16:Case 6 17:Case 7 28:Case 8 29:Case 9 110:Case 10 311:Case 11 312:Case 12 213:Case 13 114:Case 14 215:Case 15 316:Case 16 117:Case 17 118:Case 18 119:Case 19 320:Case 20 221:Case 21 222:Case 22 223:Case 23 124:Case 24 225:Case 25 226:Case 26 227:Case 27 228:Case 28 229:Case 29 2

5、30:Case 30 231:Case 31 23.3.所有样品的聚类树形图所有样品的聚类树形图（1）结合以上样品归类情况表和聚类树形图，分别给出了将 2011 年我国 31 个省、市、自治区经济发展状况作为样品聚类分为三类时的各样品所属类别。观察聚类树形图我们可以清楚地看出，此次聚类样品最适合分为三类。第一类包括 11 个样品，分别为：北京市、天津市、河北省、内蒙古自治区、辽宁省、福建省、河南省、湖北省、湖南省和四川省。从地区分布和地区经济发展状况来看，第一类所包含的省、市、自治区主要分布在我国高校林立；人才济济；资源丰富；交通网络发达；经济发展状况良好；靠近中国首都的华北地区及其周边资源较

6、丰富；交通网络较发达；与外界交流方便的省、市、自治区和资源相对较丰富；高校较多；人才较为集中；气候四季适宜；河川密布；工业发展蓬勃；人口较集中的中南地区及其周边生活习俗优良；气候环境俱佳的省、市、自治区。（2）第二类包括 16 个样品，分别为：山西省、吉林省、黑龙江省、安徽省、江西省、广西壮族自治区、海南省、贵州省、云南省、西藏省、重庆市、陕西省、甘肃省、青海省、宁夏回族自治区、新疆维吾尔自治区。从地区分布和地区经济发展状况来看，第二类所包含的省、市、自治区主要分布在我国自然气候条件恶劣；人才缺乏；各方面资源有限；交通线路不丰富；地理位置较偏远的东北地区以及我国社会政治治安不稳定；自然条件恶劣

7、；少数名族聚集；民俗民风差异大；多自然灾害；人口相对较稀少；人口素质相对较低；深居内陆；对外交通不便；对外交流困难的西北地区和我国城市化水平低；资源不足的的部分中南地区省份和气候单一；资源缺乏；对外交通不便；经济发展单一落后的亚热带地区。（3）第三类包括 4 个样品，分别为：江苏省、山东省、浙江省和广东省。从地区分布和地区经济发展状况来看，第三类所包含的省、市、自治区主要分布在我国东南沿海和临海的华中地区。这些地区高校林立；人才人口集中；工业高度发达；科学技术引入便利；海陆交通四通八达；既有外资投入又有内政支持鼓励；既有中国尖端技术又有国外先进管理文化渗入；得天独厚的地理位置和环境优势；劳动力

8、丰富；经济高速发展。近年来，这些地区更是吸引了大量的“孔雀东南飞” 、 “民工潮”此起彼伏，众多社会现象不止向我们说明了这些地区对人才和劳动力的吸引力；也让人们意识到了这些地区丰富的就业机遇和个人发展前景；更重要的是，国内外先进的技术和人才以及眼界开阔的海归们也积极投入到了这些地区的经济发展中，促使这些地区的经济蓬勃发展；同时也在不断地加剧地区之间抢夺资源和地区发展不平衡的矛盾，使中国国内地区贫富差距和国民生活水平差距进一步拉大。三、主成分分析三、主成分分析主成分分析也称主分量分析，是一种将多个指标化为少数几个综合指标的统计分析方法。在经济问题研究中，为了全面、系统地分析问题，我们必须考虑众多

9、对某经济过程有影响的因素，这些因素在统计学中被称为指标，也成为变量，每个指标都在不同程度上反映了所研究问题的某些信息，但是指标之间彼此有一定的相关性，因而所得的统计数据在一定程度上反映的信息有重叠。主成分分析可将相关的指标化成不相关的指标，避免了信息重复带来的虚假性。此外，主成分分析能用较少的变量反应更多的问题，减少计算量的同时简化了问题。1.1.单变量描述统计量表单变量描述统计量表（1）由上表第二栏均值可以看出，2011 年我国 31 个省市自治区经济发展地区生产总值均值为16820.68 亿元；工业发展均值为 7479.8642 亿元；建筑业均值为 1030.3368 亿元但人均生产总值均

10、值却只有 39441.87 元。这些数据显著地反映了中国地大物博，经济高速发展，国内生产总值堪比世界任何一个发达国家，可当与中国庞大的人口系统相比较时，我们便黯然了。（2）由上表第三栏标准差可以看出，2011 年我国 31 个省市自治区经济发展地区生产总值标准差高达 13216.28621；工业标准差也高达 6296.67453；即使是标准差最小的住宿和餐饮业也高达277.56833。由此可见我国地区发展极不均衡，地区贫富差距仍然非常大。（3）由上表第四栏参与计算的观测量数可以得知，此次统计分析的样品数量为我国 31 个省市自治区的地区发展各项指标。2.2.各变量相关矩阵图各变量相关矩阵图上表

11、表示的是影响我国经济发展水平的 10 个主要指标之间的相关性。由上表可以看出，各变量与自身的完全相关性是毋庸置疑的。其次我们可以看出，各个指标之间也存在一定的相关性，如地区生产总值与工业之间的相关系数高达 0.988；与住宿和餐饮业之间的相关系数高达 0.958；与批发零售业之间的相关系数高达 0.957；与房地产业之间的相关系数高达 0.954；与交通运输、仓储和邮政业之间的相关系数高达 0.923；与其他服务业之间的相关系数高达 0.921；与建筑业之间的相关系数高达 0.92；与金融业之间的相关系数高达 0.818；而与人均生产总值之间的相关系数为 0.407。据此我们可以判断出，地区生

12、产总值与工业、建筑业、交通运输、仓储和邮政业、批发零售业、住宿和餐饮业、金融业、房地产业以及其他服务业之间的发展都是密切相关的，而在这众多相关的指标中，地区生产总值与工业的发展关系最密切。3.3.总方差分解图总方差分解图由上表可以看出，通过主成分分析过程，我们从众多指标中提取出了三个主成分因子，这三个主成分因子的特征值分别为 8.253,1.035 和 0.31；它们的各因子方差贡献率分别为82.531%，10.347%和 3.099%；以及在最后一栏，我们可以得知这三个主成分因子的累积方差贡献率最终达到 95.977%。4.4.旋转前的因子载荷矩阵图旋转前的因子载荷矩阵图5.5.利用因子载荷

13、矩阵图计算出的特征向量表利用因子载荷矩阵图计算出的特征向量表第一特征向量第二特征向量第三特征向量0.34461110.3404340.33764920.33486450.33103550.32581410.31850420.30945380.30736520.1789193-0.13073180.06585740.017693-0.21428230.1189365-0.2221459-0.1258171-0.29193510.35484360.80110130.02873680.001796-0.29096060.1293158-0.3592106-0.2029540.50469090.362

14、8027-0.39333560.4292566根据以上利用因子载荷矩阵图计算出的特征向量表，带入以上已求出的 3 个特征向量，可得以下 3 个主成分因子的表达式为：Y1=0.3446111X1+0.340434X2+0.3376492X3+0.3348645X4+0.3310355X5+0.3258141X6+0.3185042X7+0.3094538X8+0.3073652X9+0.1789193X10Y2=-0.1307318X1+0.0658574X2+0.017693X3-0.2142823X4+0.1189365X5-0.2221459X6-0.1258171X7-0.2919351

15、X8+0.3548436X9+0.8011013X10Y3=0.0287368X1+0.001796X2-0.2909606X3+0.1293158X4-0.3592106X5-0.202954X6+0.5046909X7+0.3628027X8-0.3933356X9+0.4292566X10三、因子分析三、因子分析因子分析是主成分分析的推广，它也是一种把多个相关变量（指标）化为少数几个不相关变量的统计分析方法。因子分析的目的不仅是找出公因子，更重要的是知道每个公因子的意义。但是用其他方法求解所求出的公因子解，各因子的典型代表变量不很突出，因而容易使因子的意义含糊不清，不便于对因子进行解释。

16、为此必须对因子载荷矩阵进行旋转，使得因子载荷的平方按列向 0 和1 两级转化，达到其简化结构的目的。1.1.旋转后的因子载荷矩阵旋转后的因子载荷矩阵由上图中可以看出，旋转后的因子载荷矩阵中，因子载荷的平方按列向 0 和 1 两级转化。此外，在第一个公因子中，建筑业有较大的载荷；在第二个公因子中，金融业和其他服务业有较大的载荷；在第三个公因子中，人均生产总值有较大的载荷。在这三个公因子中，载荷较大的变量都没有出现重复现象，由此我们便可得知，每一个变量仅在一个公因子上有较大载荷，而在其余公因子上的载荷比较小。2.2.因子得分系数矩阵因子得分系数矩阵根据上图因子得分系数矩阵，我们可以得到以下 3 个因子得分表达式：F1=0.905X1+0.882X2+0.866X3+0.821X4+0.766X5+0.712X6+0.402X7+0.575X8+0.655X9+0.117X10F1=0.299X1+0.273X2+0.457X3+0.53X4+0.591X5+0.563X6+0.729X7+0.719X8+0.684X9+0.21X10F1=0.099X

展开阅读全文