高级统计学作业聚类分析

资源描述

《高级统计学作业聚类分析》由会员分享，可在线阅读，更多相关《高级统计学作业聚类分析（23页珍藏版）》请在金锄头文库上搜索。

1、全国各地区消费价格增长水平的聚类分析摘要:针对我国各省(直辖)市的2009年度消费价格增长水平数据,选取9个经济指标进行系统聚类分析,得到我国3类不同的地区消费价格增长水平类型。聚类结果为制订有针对性的地区消费市场战略提供依据。关键词:SPSS;聚类分析；消费水平。1.引言由于传统的经济发展起点不同,加上地域、资源、技术和政策等条件的差异,各个地区的经济发展水平高低不齐，导致各地区的工资水平和消费价格增长水平的不同。因此,对各地区消费价格增长水平进行分类、比较和研究,总结出有助于市场调节和商业发展的对策,有针对性地制订地区经济发展战略,对促进国民经济协调发展有重要意义。聚类分析和判别分析是是进

2、行以上分析的两个重要的方法。1.1聚类分析1定义：聚类分析又称群分析、点群分析。根据研究对象特征对研究对象进行分类的一种多元分析技术,把性质相近的个体归为一类,使得同一类中的个体都具有高度的同质性,不同类之间的个体具有高度的异质性。聚类分析的基本思想：我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系),于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量作为划分类型的依据，把一些相似程度较大的样品(或指标)聚合为一类,把另外一些相似程度较大的样品(或指标)又聚合为另一类;关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单

3、位,直到把所有的样品(或指标)聚合完毕。1.1.1 系统聚类法系统聚类法的基本原理：首先将一定数量的样本或指标各自看成一类，然后根据样本（或指标）的亲疏程度，将亲疏程度最高的两类进行合并，然后考虑合并后的类与其他类之间的亲疏程度，再进行合并。重复这一过程，直到将所有的样本（或指标）合并为一类。系统聚类分为Q型聚类和R型聚类两种：Q型聚类是对样本进行聚类，它使具有相似特征的样本聚集在一起，使差异性大的样本分离开来；R型聚类是对变量进行聚类，它使差异性大的变量分离开来，相似的变量聚集在一起，这样就可以在相似变量中选择少数具有代表性的变量参与其他分析，实现减少变量个数、降低变量维度的目的。在本例中进

4、行的是Q型聚类。类与类之间距离的计算方法主要有以下几种：（1）最短距离法（Nearest Neighbor），是指两类之间每个个体距离的最小值；（2）最长距离法（Farthest Neighbor），是指两类之间每个个体距离的最大值；（3）组间联接法（Between-groups Linkage），是指两类之间个体之间距离的平均值；（4）组内联接（Within-groups Linkage），是指把两类所有个体之间的距离都考虑在内；（5）重心距离法（Centroid clustering），是指两个类中心点之间的距离；（6）离差平方和法（Ward法），同类样品的离差平方和应当较小，

5、类与类之间的离差平方和应当较大。1.1.2 K-均值法（快速聚类法）K-均值法（又称快速聚类法），是由MacQueen于1967年提出的，它将数据看成K维空间上的点，以距离作为测度个体“亲疏程度”的指标，并通过牺牲多个解为代价换得高的执行效率。但是，K-均值法只能产生指定类数的聚类结果，而类数的确定离不开实践经验的积累。快速聚类分析的基本思想是：首先按照一定方法选取一批凝聚点（聚心），再让样本向最近的凝聚点凝聚，形成初始分类，然后再按最近距离原则修改不合理的分类，直到合理为止。因此，在快速聚类中，应首先要求用户自行给出需要聚成多少类，最终也只能输出关于它的唯一解。快速聚类是一个反复迭代的分类过

6、程，在聚类过程中，样本所属的类会不断调整，直到最终达到稳定为止。1.1.3 数据来源本文针对我国各省(直辖)市的2009年度消费价格分类指数数据2,考虑到数据的可得性和来源的权威性，选取9个消费指标进行系统聚类分析并假定上年相应价格指数为100,得到我国3类不同的地区消费价格增长水平类型。聚类结果将为制订有针对性的地区经济发展战略提供依据。表-1数据来源于中国统计摘要-2010，利用社会经济统计软件SPSS19.0建立数据库并对数据进行分析处理。表-1：国内 31个省、直辖市、自治区的9项消费价格指标数据地区居民消费价格指数食品烟酒及用品衣着家庭设备用品及服务医疗保健和个人用品交通和通信娱乐教

7、育文化居住北京98.5102.4102.298.4100.399.995.997.689.8天津99.0101.2104.797.399.7102.696.396.194.9河北99.3101.0101.996.499.8101.597.097.898.4山西99.6101.8101.996.999.5101.197.899.297.4内蒙古99.7101.3100.899.799.3101.097.298.798.0辽宁100.0102.8101.193.8100.7101.897.598.499.0吉林100.1101.0101.199.2102.1101.297.699.39

8、9.0黑龙江100.2101.2101.096.899.3102.499.099.4101.0上海99.6102.1100.899.3101.599.497.598.096.6江苏99.6100.9101.799.0101.3100.796.799.997.5浙江98.5100.7100.598.299.8102.496.098.492.7安徽99.1100.8101.297.199.0101.297.9100.394.0福建98.299.0102.196.3100.3101.396.998.394.8江西99.3100.1100.499.0101.3101.197.3100.39

9、6.5山东100.0101.3102.497.2100.1101.398.1100.898.8河南99.4101.3101.799.7100.4101.997.8101.293.9湖北99.6100.5101.499.1100.2101.498.498.997.7湖南99.6100.3100.2100.0100.5100.298.2101.196.9广东97.798.5102.797.399.3100.997.498.093.5广西97.998.5100.897.898.6100.597.999.892.0海南99.399.9100.998.6101.9104.398.199.6

10、94.0重庆98.4100.0101.694.797.299.498.298.595.9四川100.8102.0101.898.1100.8101.199.3101.299.7贵州98.798.5100.995.699.6100.998.2100.298.4云南100.4101.6100.198.1100.3101.597.498.8101.9西藏101.4103.9101.9101.699.3101.497.099.1100.0陕西100.5102.3101.599.399.6101.699.498.899.2甘肃101.3103.5102.699.8101.4101.497.

11、5100.3101.0青海102.6103.0101.4107.0101.5102.599.3100.4104.4宁夏100.7101.6102.199.2100.9101.798.4100.0101.7新疆100.7102.1101.598.6101.9101.999.099.999.9其中，北京、河北、山东、贵州、重庆五省、直辖市、自治区不参与聚类分析，将作为待判别样本进行判别分析后的分组归类，以检验聚类结果。2聚类分析2.1系统聚类分析法2.1.1系统聚类分析法步骤将国内26个省、直辖市、自治区的9项消费价格指标数据输入SPSS,做聚类分析,具体步骤为:（1）在数据编辑窗口的主菜

12、单中选择“分析(A)”“分类(F)”“系统聚类(H)”（如图-1所示）。图-1（2）弹出“系统聚类分析”对话框，将“地区”变量选入“标注个案(C)”中，将其他变量选入“变量框”中，如图-2所示。在“分群”单选框中选中“个案”，表示进行的是Q型聚类。在“输出”复选框中选中“统计量”和“图”，表示要输出的结果包含以上两项。图-2（3）单击“统计量(S)”按钮，在“系统聚类分析：统计量”对话框中选择“合并进程表”、“相似性矩阵”，如图-3所示，表示输出结果将包括这两项内容。图-3（4）单击“绘制(T)”按钮，在“系统聚类分析：图”对话框中选择“树状图”、“冰柱”，如图-4所示，表示输出的结果将包括

13、谱系聚类图（树状）以及冰柱图（垂直）。图-4（5）单击“方法(M)”按钮，弹出“系统聚类分析：方法”对话框，如下图-5所示。图-5“聚类方法(M)”选项条中可选项包括如图-6所示的几种方法，本例中选择“组间联接”：图-6“度量标准-区间(N)”选项条中可选项包括如图-7所示的几种度量方法，本例中选择“平方Euclidean距离”：图-7“转换值-标准化(S)”选项条中可选项包括如图-8所示的几种将原始数据标准化的方法，本例中选择“全局从0到1”：图-82.1.2系统聚类法结果表-2 案例处理摘要a案例有效缺失合计N百分比N百分比N百分比26100.0%0.0%26100.0%a. 平方 Euclidean 距离已使用表-2中分别为有效个案、缺失个案和个案总数的个数和百分数。脚注显示聚类时采用的聚类方法为Between-groups linkage平均联结（组之间）。表-3表-3显示的是用平方Euclidean距离计算的近似矩阵表，其实质是一个不相似矩阵，其中的数值表示各个样本之间的相似系数，数值越大，表示两样本距离越大。表-4 聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 21812.15

展开阅读全文