全国地区经济发展水平的聚类和实例判别分析

资源描述

《全国地区经济发展水平的聚类和实例判别分析》由会员分享，可在线阅读，更多相关《全国地区经济发展水平的聚类和实例判别分析（12页珍藏版）》请在金锄头文库上搜索。

1、2011/1/8全国地区全国地区经经济济发发展展水水平平的的聚聚类类和和实实例例判判别别分分析析摘要:针对我国各省(直辖)市的 2009 年度经济数据,选取 9 个经济指标进行系统聚类分析,得到我国 3 类不同的地区经济类型;利用实例进行判别分析, 结合实际情况分析结果。聚类结果为制订有针对性的地区经济发展战略提供依据。关键词:SPSS;聚类分析;判别分析；区域经济。1.引言由于传统的生产力布局造成的经济发展起点不同,加上地域、资源、技术和政策等条件的差异,各个地区的经济发展水平高低不齐。因此,对各地区经济发展水平进行分类、比较和研究,总结出有助于经济发展的优势和阻碍经济发展的劣势,有针对性地

2、制订地区经济发展战略,对促进国民经济协调发展有重要意义1。聚类分析和判别分析是是进行以上分析的两个重要的方法。1.1 聚类分析定义。聚类分析又称群分析、点群分析。根据研究对象特征对研究对象进行分类的一种多元分析技术,把性质相近的个体归为一类,使得同一类中的个体都具有高度的同质性,不同类之间的个体具有高度的异质性。聚类分析的基本思想。我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系),于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量作为划分类型的依据，把一些相似程度较大的样品(或指标)聚合为一类,把另外一些相似程度较大的样品(或指标

3、)又聚合为另一类;关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕。1.2 判别分析定义。判别分析是一种进行统计判别和分组的技术手段。根据一定量案例的一个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量之间的数量关系,建立判别函数,然后便可以利用这一数量关系对其他未知分组类型所属的案例进行判别分组。判别分析的基本思想。对已知分类的数据建立由数值指标构成的分类规则即判别函数,然后把这样的规则应用到未知分类的样本去分类。本文针对我国各省(直辖)市的 2009 年度经济数据, 考虑到数据的可得性和来源的权威性，选取 9 个经济指标进

4、行系统聚类分析,得到我国 3 类不同的地区经济类型;并利用实例进行判数理统计第二次大作业 2 / 12别分析,以确认聚类效果。聚类结果将为制订有针对性的地区经济发展战略提供依据。2.解决问题2.1 提出经济指标，收集数据要对区域经济发展做出综合评价，首先需要从反映地区经济发展的众多指标中精选出一系列主要指标这些指标应：(1)体现我国地区经济协调发展的战略，全面反映建设社会义现代化强国的总目标；(2)体现公平，建立一个全面的、综合的、公平的指标体系；(3)充分考虑统计数据的可采集性、指标的实用性和评价方法的可操作性，指标数量控制在合理的范围内。本文选取了 2009 年全国 26 个省、直辖市、自

5、治区的 9 项指标，旨在从四个方面分析地区经济：（1）人力资源：X1-就业人员（万人）；（2）经济产出：X2-人均地区生产总值(元)、X3-第一产业生产总值（亿元）、X4-第二产业生产总值（亿元）、X5-第三产业生产总值（亿元）；（3）人民生活：X6-各地区全体居民消费水平（元）、X7-社会消费品零售总额（亿元）、X9-城镇单位就业人员平均工资(元)（4）资本投入：X8-城镇固定资产投资亿元。上述指标数据来源于中国统计年鉴 2010，如表 1 所示，利用社会经济统计软件SPSS19.0 建立数据库并对数据进行分析处理。表一：国内 31 个省、直辖市、自治区的 9 项指标数据3 地区X1X2X3

6、X4X5X6X7X8X9 北京1255.0771 70452 118.29 2855.55 9179.19 22154 5309.9 4149.63 57779 天津507.2572 62574 128.85 3987.84 3405.16 15149 2430.8 4446.57 43937 河北3899.7263 24581 2207.34 8959.83 6068.31 7193 5764.9 10476.50 27774 山西1599.6490 21522 477.59 3993.80 2886.92 6854 2809.0 4509.56 28066 内蒙古1142.4670

7、 40282 929.60 5114.00 3696.65 9668 2855.3 7143.84 30486 辽宁2189.9600 35239 1414.90 7906.34 5891.25 10848 5812.6 11605.12 30523 吉林1184.7065 26595 980.57 3541.92 2756.26 8410 2957.3 5958.95 25943 黑龙江1687.4677 22447 1154.33 4060.72 3371.95 7737 3401.8 4695.74 24805 上海929.2393 78989 113.82 6001.78 893

8、0.85 29572 5173.2 4618.91 58336 江苏4536.1304 44744 2261.86 18566.37 13629.07 11993 11484.1 14266.80 35217 浙江3825.1840 44641 1163.08 11908.49 9918.78 15790 8622.3 7454.33 36553 安徽3689.7458 16408 1495.45 4905.22 3662.15 6829 3527.8 7945.50 28723 福建2168.8523 33840 1182.74 6005.30 5048.49 10950 4481.

9、0 5548.61 28366 江西2244.1462 17335 1098.66 3919.45 2637.07 6229 2484.4 6008.12 24165 数理统计第二次大作业 3 / 12山东5449.7660 35894 3226.64 18901.83 11768.18 10494 12363.0 15439.10 29398 河南5948.7810 20597 2769.05 11010.50 5700.91 6607 6746.4 11454.89 26906 湖北3024.4758 22677 1795.90 6038.08 5127.12 7791 5928.

10、4 7183.67 26547 湖南3907.7007 20428 1969.69 5687.19 5402.81 7929 4913.7 6880.00 26534 广东5643.3420 41166 2010.27 19419.70 18052.59 15291 14891.8 10230.05 36469 广西2862.6294 16045 1458.49 3381.54 2919.13 6893 2790.7 4689.88 27322 海南431.4476 19254 462.19 443.43 748.59 6695 537.5 942.68 24790 重庆1878.4

11、823 22920 606.80 3448.77 2474.44 8308 2479.0 4855.11 30499 四川4945.2270 17339 2240.61 6711.87 5198.80 6863 5758.7 9090.09 28149 贵州2341.1072 10309 550.27 1476.62 1885.79 5044 1247.3 2049.83 27437 云南2730.2048 13539 1067.60 2582.53 2519.62 5926 2051.1 4117.51 26163 西藏169.0721 15295 63.88 136.63 240.

12、85 4060 156.6 327.64 45347 陕西1919.4801 21688 789.64 4236.42 3143.74 7069 2699.7 5888.37 29566 甘肃1406.6191 12872 497.05 1527.24 1363.27 5284 1183.0 2076.36 26743 青海285.5393 19454 107.40 575.33 398.54 6495 300.5 689.09 32481 宁夏328.5056 21777 127.25 662.32 563.74 7858 339.3 964.16 32916 新疆829.1711

13、 19942 759.74 1929.59 1587.72 5990 1177.5 2434.15 27617 注：北京、河北、山东、贵州、重庆五省、直辖市、自治区不参与聚类分析，将作为实例数据进行判别分析，检验聚类结果。2.2 聚类分析2.2.1 聚类分析步骤将国内 26 个省、直辖市、自治区的 9 项指标数据输入 SPSS,做聚类分析,具体步骤为:选择 AnalyzeClassifyHierarchical Cluster，进行系统聚类分析（Hierarchical Cluster Analysis），引入的变量是 X1至 X9。采取对样品（个案）进行聚类，即 Q 型聚类分析（对研究对象本

14、身分类）。其中 Statistics: Single solution, NO.为 3; Plot: Dendrogram;聚类方法使用平均联结（组之间）（类间平均链锁法），距离测量技术选择 Euclidean 距离平方（即两观察单位间的距离为其值差的平方和，该技术用于 Q 型聚类），Save: NO. of cluster 为 3，得出以下计算结果。2.2.2 聚类结果表2 案例处理汇总a案例有效缺失总计N百分比N百分比N百分比26100.00.026100.0a. 平均联结（组之间）表2中分别为有效个案、缺失个案和个案总数的个数和百分数。脚注显示聚类时采用的聚数理统计第二次大作业 4 /

15、12类方法为Between-groups linkage平均联结（组之间）。表3 聚类表群集组合首次出现阶群集阶群集 1群集 2系数群集 1群集 2下一阶12224561345.303008214157208462.908009324257557591.086001841720 10401374.97300751826 14755902.798001361019 15241795.236001571217 19539029.1410410826 19617723.9251099214 29888533.8708211101223 31656913.71770131125 40601907.87

16、5901712411 49453303.5790014131218 49653173.012105181434 62992431.75101221151013 65271276.798601716816 74739070.114002017210 83256074.767111519181224 94536493.09413319192121.171E817182120891.583E81602421233.922E8191422222215.099E82102423177.271E8002524281.110E922202525123.206E923240表 3 所列各项的意义如下：“阶”指聚类步骤号；“群集组合”指在某步中合并的个案；“系数”指距离或相似系数；“首次出现阶群集”指新生成聚类；“下一阶”指对应步骤生成的新类将在第几步与其它个案或新类合并。数理统计第二次大作业 5 / 12表4 群类结果案例3 群集1: 天津 1 2: 山西

展开阅读全文