文档详情

全国各省经济的聚类分析及判别分析

mg****85
实名认证
店铺
DOC
458.50KB
约12页
文档ID:34646903
全国各省经济的聚类分析及判别分析_第1页
1/12

1全国各省经济的聚类分析及判别分析唐鹏钧 (DY1001109)摘要:利用 SPSS 软件对全国 31 个省、直辖市、自治区(浙江、湖南、甘肃除外)的主要经济指标进行聚类分析,将其经济分成 4 种类型,并对浙江、湖南、甘肃进行类型判别分析通过这两个方法对全国各省进行经济分类本文选取了 7项经济指标作为决定经济类型的影响因素,各项数据均来自 2010 年国家统计年鉴分析结果表明:北京市和上海市为第一类经济类型;江苏省和山东省为第三类型; 广东省为第四类经济;其他 25 个省、直辖市、自治区均属于第二类型关键词:聚类分析、判别分析、经济类型0 引言聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类系统聚类分析又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量) 、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。

判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品) ,总结出分类的规律性(判别函数)来指导未来的分类聚类分析与判别分析都是研究分类的,但是它们有所区别:(1)聚类分析一般寻求客观的分类方法,在进行聚类分析以前,对总体到底有几种类型并不知道判别分析则是在总体类型划分已知,在各总体分布或来自总体训练样本的基础上,对当前的新样本判定它们属于哪个总体2(2)两类方法的建立的模型不一样,因此在处理某些特定的问题时,就会得出不一样的结果,就本题看来,出现了经济类型上的判别不一致的细微差异,但是作为分类方法来说,两种方法在大部分情况下都能取得一致的效果3)聚类分析与判别分析也是有联系的如我们对研究的多元数据的特征不熟悉,当然要先进行聚类分析,才能考虑判别分析的问题随着改革开放的进行,我国进入了一个前所未有的经济飞速发展时期,整体经济实力与日俱增但是,我们也应该看到各个地区的发展不平衡,沿海地区发展较快,经济增长也较快,而中西部发展相对较慢因此,基于这种现状,本文对全国各地区的经济进行聚类分析首先对除浙江、湖南、甘肃三省的其他各省经济进行聚类,然后对浙江、湖南、甘肃三省的经济类型进行判别分析。

通过本文的分析研究,可以清楚地认识到我国经济类型构成,以及各地区的发展差异,最终对国家以及各地区的发展及政策制定实施起到指导作用本文采用多元统计分析方法,对全国 31 个省、直辖市、自治区的 7 项经济指标进行聚类分析和判别分析,从而能够比较客观地反映了当前各地区的经济类型1 实验方案1.1 数据统计本文根据 2010 年国家统计年鉴,选取了 2009 年 31 个省、直辖市、自治区的 7 项经济指标 [1],如表 1 所示其中包括:各省的国内生产总值 X1、农业生产总值 X2、工业生产总值 X3、建筑业生产总值 X4、进出口总值 X5、批发企业销售额 X6 和餐饮业 X71.2 聚类分析将表 1 所示的 31 个省、直辖市、自治区(除浙江、湖南和甘肃) 2009 年的各项数据导入 SPSS为了便于分析,在聚类分析前,先对数据进行标准差标准化处理,其过程为:“Analyze→Descriptive Statistics→Descriptives…”,然后对标准差标准化后的数据进行聚类分析(Hierarchical Cluster Analysis)其过程为:依次选择“Analyze →Classify →Hierarchical Cluster”,引入的变量是 X1 至3X7。

从而对样品(个案) 进行聚类,即 Q 型聚类分析(对研究对象本身分类)聚类方法使用 Between-groups linkage(类间平均链锁法),距离测量技术选择Squared Euclidean distance(Euclidean 距离平方,即两观察单位间的距离为其值差的平方和,该技术用于 Q 型聚类)最终得出聚类分析结果值得注意的是本文选择的聚类类型共分 4 类表 1 2009 年我国 31 个省、直辖市、自治区的各项经济指标数据统计单位:亿元地区 国内生产总值(X1)农业生产总值(X2)工业生产总值(X3)建筑业生产总值(X4)进出口总值(X5)批发企业销售额(X6)餐饮业(X7)北京 12153.03 315.0 11039.13 34297216 5334148 22558.0 341.7天津 7521.85 281.7 13083.63 15641917 4488051 8599.5 62.6河北 17235.48 3640.9 24062.76 23328055 1343558 2730.6 26.5山西 7358.31 908.7 9249.98 16501463 163150 2705.0 44.9内蒙古 9740.25 1570.6 10699.44 9129264 108694 1487.6 41.1辽宁 15212.49 2704.6 28152.73 28557785 3076882 6428.7 93.3吉林 7278.75 1734.3 10026.55 10241235 555747 1049.4 18.2黑龙江 8587.00 2251.1 7301.60 12351015 78345 2028.3 27.4上海 15046.45 283.2 24091.26 32476545 18670215 20170.8 292.6江苏 34457.30 3816.0 73200.03 89289353 25969712 15364.8 205.2浙江 22990.35 1873.4 41035.29 88614109 6929148 13888.0 166.5安徽 10062.82 2569.5 13312.59 19598071 523140 2937.0 41.2福建 12236.53 2001.2 16762.82 19415838 4377455 4617.1 80.5江西 7655.18 1733.8 9783.96 11853294 770607 1002.8 24.7山东 33896.65 6003.1 71209.42 40516317 7559835 7584.4 262.6河南 19480.46 4871.5 27708.15 32201197 376612 3083.0 98.7湖北 12961.10 2985.2 15567.02 30468409 703772 4259.0 81.4湖南 13059.69 3207.9 13507.64 23234734 182177 1643.9 65.3广东 39482.56 3337.6 68275.77 29806043 38241318 18599.1 384.4广西 7759.16 2377.2 6880.04 8758730 367765 1464.0 17.6海南 1654.21 705.0 1057.45 1366053 301396 517.5 8.4重庆 6530.01 913.1 6772.90 17524046 295047 2864.0 73.7四川 14151.28 3689.8 18071.68 29003710 936469 2570.6 94.2贵州 3912.68 875.2 3426.69 5060158 18647 825.8 9.5云南 6169.75 1706.2 5197.45 10774227 43593 2591.0 17.0西藏 441.36 93.4 51.60 910274 99 33.2 0.4陕西 8169.80 1337.2 8470.40 22052762 252626 1956.2 76.1甘肃 3387.56 876.3 3770.38 5243473 10693 1205.8 12.8青海 1081.27 157.3 1080.35 1848156 19432 184.2 2.6宁夏 1353.31 243.5 1461.58 2323586 22142 373.6 8.04新疆 4277.05 1297.6 4001.12 7258850 27362 2511.8 7.01.3 判别分析选择 SPSS→Analyze →Classify→Discriminant Analysis,定义分类结果为指标变量 X8,采用自变量全进入模型来进行判别分析,由于在聚类分析中将全国各省、直辖市的经济类型分为四类,因此其取值范围为 1~4。

2 结果分析与讨论2.1 聚类分析通过 SPSS 对数据进行标准差标准化,结果如表 2 所示从表中的方差结果可以看出,由于方差的数值很大,所以各地区的差异还是相当大的,这也说明各地区发展的不平衡表2 Descriptive StatisticsN Minimum Maximum Mean Std. Deviation VarianceX1 28 441.36 39482.56 11638.0746 9892.22609 97856137.108X2 28 93.40 6003.10 1942.9821 1519.32615 2308351.937X3 28 51.60 73200.03 17499.9321 20393.65336 415901097.219X4 28 910274.00 89289353.00 20091198.8929 17672676.52727 312323495637290.000X5 28 99.00 38241318.00 4093779.2500 8934837.44997 79831320257392.700X6 28 33.20 22558.00 5039.1786 6310.60159 39823692.455X7 28 .40 384.40 87.1964 107.59274 11576.197Valid N (listwise) 28 再对标准差标准化后的数据进行聚类分析,结果如表3、4所示。

表3显示,进行聚类分析的只有28个省、直辖市、自治区采用的是组间聚类表3 Case Processing Summary(a)CasesValid Missing TotalN Percent N Percent N Percent528 100.0 0 .0 28 100.0a Average Linkage (Between Groups)表4说明整个聚类分析过程共进行了27步,而且每一步的合并也有清楚地显示通过该表,可以详细地了解每一步的聚类过程表4 Agglomeration ScheduleCluster CombinedStage Cluster First AppearsStage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage1 26 27 .008 0 0 32 7 13 .014 0 0 63 24 26 .025 0 1 114 8 18 .073 0 0 105 4 20 .098 0 0 96 5 7 .124 0 2 107 19 22 .125 0 0 118 23 28 .161 0 0 139 4 25 .242 5 0 1510 5 8 .256 6 4 1311 19 24 .262 7 3 2012 16 21 .338 0 0 1613 5 23 .389 10 8 1514 11 12 .607 0 0 1815 4 5 .849 9 13 1816 3 16 .860 0 12 1717。

下载提示
相似文档
正为您匹配相似的精品文档