《聚类分析实验报告记录》由会员分享,可在线阅读,更多相关《聚类分析实验报告记录(21页珍藏版)》请在金锄头文库上搜索。
1、聚类分析实验报告记录作者:日期:实验名称:学生班级:学生姓名:指导老师:完成日期:应用多元统计分析课程实验报告用聚类分析的方法研究山东省17个市的产业类型的差异化统计0901贾绪顺杜春霖陈维民张鹏张艳丽2011.12.12实验内容根据聚类分析的原理,使用系统聚类分析的COMplete linkage (最长距离法)和WARD离差平方和 法),运用SPS软件对2009年山东省17个城市生产总值的数据进行C型聚类,将17个城市分为5类,发 现不同城市产业类型的差异化,并解释造成这种差异的原因二,实验目的希望通过实验研究山东省17个市的生产总值的差异化,并分析造成这种差异化的原因,可以更深刻 的掌握
2、聚类分析的原理;进一步熟悉聚类分析问题的提出、解决问题的思路、方法和技能;达到能综合运用所学基本理论和专业知识;锻炼收集、整理、运用资料的能力的目的;希望能会调用SPSS软件聚类分析有关过程命令,并且可以对数据处理结果进行正确判断分析,作出 综合评价。三,实验方法背景与原理3.1方法背景聚类分析又称群分析,是多元统计分析中研究样本或指标的一种主要的分类方法,在古老的分类学中,人们主要靠经验和专业知识,很少利用数学方法。随着生产技术和科学的发展,分类越来越 细,以致有时仅凭经验和专业知识还不能进行确切分类,于是数学这个有用的工具逐渐被引进到分类学中,形成了数值分类学。近些年来,数理统计的多元分析
3、方法有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐的分离出聚类分析这个新的分支。结合了更为强大的数学工具的聚类分析方法已经越来越多应用到经济分析和社会工 作分析中。在经济领域中,主要是根据影响国家、地区及至单个企业的经济效益、发展水平的各项指标进 行聚类分析,然后很据分析结果进行综合评价,以便得出科学的结论。聚类分析源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,彳艮 多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类分析的主要应用,在商业方面,最常见的就是客户群的细分问题,
4、可以从客户人口特征、消费行为和喜好方面的数据,对客户进行特征分析,充分利用数据进行客户的客观分组,使诸多特征有相似性的客户能被分在同一组内,而不相似的客户能被区分到另一些组中。在生物方面,聚类分析可以用来对动植物进行分类,对基因进行分类等,从而获取对动植物种群固有结构的认识,对物种进行很好的分类。在电子商务方面,聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过对客户的浏览行为、浏览网站、客户的年龄等,对客户进行分析,找出不同客户的共同特征,通过共同特征对客 户进行分类,可以帮助电子商户更好的了解他们的客户,并向客户提供更合适的服务。在保险行业上,根据产、寿险进行分类,不同类别的
5、公司进行分类,对保险投资比例进行分类管 理,从而提高保险投资的效率。3.2实验的方法与原理聚类分析是研究“物以类聚”的一种科学有效的方法。做聚类分析时,出于不同的目的和要求,可以选择不同的统计量和聚类方法。 聚类分析方法中最常用的一种是系统聚类法,其基本思想是:先将待聚类的n个样品(或者变量)各自看成一类,共有。类;然后按照选定的方法计算每两类之间的聚类统计量,即某种距离(或 者相似系数),将关系最为密切的两类合为一类,其余不变,即得到n-1类;再按照前面的计算方法计算新类与其他类之间的距离(或相似系数),再将关系最为密切的两类并为一类,其余不变,即得到n-2类;如此下去,每次重复都减少一类,
6、直到最后所有 的样品(或者变量)都归为一类为止。系统聚类分析有两种类型:Q型样本聚类和R型变量聚类。这里我们运用的是Q型聚类。Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来。 本实验中,分别采用最长距离法和离差平方和法对样本进行分类。方法一:用最长距离对样本进行分类个体与小类间的最长距离是该个体与小类每个个体距离的最大值冷x j在聚类分析前,首先把数据进行标准化变换xiir - j 1,2,n, j 1,2, ,n,变换后的数据,每个变量样本均值为0,标准差为1,而且标准化变换后的数据Xj与变量的量纲无关。采用系统聚类的方法,用最长距离法计算欧氏距离:m2
7、djXit Xjti, j 1,2,,n,其中乂,表示第i个样品的第t个指标的观测值,楫表示第j个样品的第t个指标的观测值,djj为第i个样品与第j个样品之间的欧式距离。若dj越小,那么第i与j两个样品之间的性质就越接近。最长距离法求类与类之间的距离,设类Gp和Gq合并Gr后,按照最长距离计算新类G与Gk其他类的类间距离,其递推公式为D kG G 二 max pna. d pna. d. = max D D kp,q,gjiGj G方法二:用离差平方和法(WARD对样品进行分类离差平方和法是Ward (1936)提出的,也称为Ward法。它基于方差分析思想,如果类分得正确,则同类样品之间的离差
8、平方和应当较小,不同类样品之间的离差平方和应当较大。假正已将n个样品分为k类,记为Gi, G2,.,Gk,nt表示Gt类的样品个数,冷1)表示Gt的重心,X()表示Gt中第i个样品(i=1, .,nJ,则Gt中样品的离差平方和为ntw 二X(i)t X (t)X (ti) X (t),i 1i,其中x(:),X为m维向量,Wt为一数值(t-1,2.,1k个类的总离差平方和为k nt(t)(t)(t)(t)X( i) X 入Xt-1kw-W =t-i当k固定时,要选择使 W达到极小的分类。Ward法的基本思想是,先将n个样品各自成一类,此时 即=。;然后每次将其中某两类合并为一类, 因每缩小一类
9、离差平方和就要增加,每次选择使W增加最小的两类进行合并,直至所有样品合并为一类为 止。Ward法把某两类合并后增加的离差平方和看成为类间的平方距离,即令Pq - - r表示类Gp和Gq的平方距离,其中GrGp,GWp, Wq分别为Gp,Gq类中样品的离差平方和。利用Wr的定义可得1其中 X r x npX pnrWr=X(:)t 1np(p)Xi)nqxqD2qx(X ,.经整理可得xnp%xq当样品间距离米用欧氏距离时,上式可表为其中dpq表示Gp,Gq的重心X P与X勺的平方距离:d2 2dpq这表明此时Word法定义的类间距离与重心法只相差一个常数倍。当Gp和Gq合并为Gr后,Gr与其他
10、类Gknq(q) x( i) xn n_qnrd pq,,xq(r)(q)(r)x(i) x,的距离有如下递推公式上述两种方法都是将性质接近的样品划为一类。本中各事物之间的性质,将性质相近的归为一类,聚类分析依据的基本原则是直接比较样 而将性质相差比较大的分在不同类。也就是说,同类事物之间性质差异小,类与类之间的性质相差比较大。n个样品每个自成一类,系统聚类分析是聚类分析中应用的最广泛的一种方法。首先将然后每次将具有最小距离的两类合并成一类,合并后重新计算类与类之间的距离,这个过程一直持续到所有样品归为一类为止。分类结果可以画成一张直观的聚类谱系图。应用系统聚类法进行聚类分析的步骤如下: 确定
11、待分类的样品的指标 收集数据 对数据进行变换处理 使各个样品自成一类,即n个样品一共有。类 计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类 并类后,如果类的个数大于1那么重新计算各类之间的距离,继续并类,直至所有样品归为一类为止 最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。四、实验数据与实验结果我们根据2010年山东统计年鉴的数据,运用SPS软件进行分析,得到如下实验数据与结果:1,原始数据表1-1山东省17城市生产总值原始数据地区X1X2X3X4X5X6X7X8济南市20686756207047723918747206396083784
12、3068943039214.918024610青岛市2750396470619047319569985573358748318068137064274.819611331淄博市140618885808189994915803024482918841455053392105.710056751枣庄市506499522437375175320366515042207428159220766.04228513东营市15345343411995904554293158094651696382238339167.43887417烟台市16417465664535873808675649475292597
13、58835008978175.814126854潍坊市1049750260488560117098002614157765480444473999183.212148004济宁市130067202264575152429981603336462192522895386130.310042495泰安市9325693253014401632878139704493382994485953677.36978426威海市18217523564194514747879202809033008526166840481.87092776日照市173144218934672520230049983761762
14、907147866850.93195391莱芜市56684295868280363118304580172513845116421.31888211临沂市35471973916299277507081512526247787892876138161.911587531德州市4265744336222612620289109731624432973129539782.86586211聊城市7202729310486841005847119170244032858102791787.95585951滨州市325673933182983262779883523823004112148044472.24507461荷泽市3674339212364541950326662842939450371340737108.866