2022年统计方法6聚类分析

资源描述

《2022年统计方法6聚类分析》由会员分享，可在线阅读，更多相关《2022年统计方法6聚类分析（14页珍藏版）》请在金锄头文库上搜索。

1、精选word文档下载可编辑第页码页码页共 S 总页数总页数页统计方法6聚类分析【-述职报告ppt】统计方法6 聚类分析第一节基本概念1分类问题直观解释：聚类分析就是用某种准则将靠近的点集归为一类对样本（观测值）进行聚类，也可以对指标(变量)进行聚类。2 距离样品之间的距离设p维空间内的点x?(x1,x2,.,xp)?及y?(y1,y2,.yp)? 定义两点之间的距离（1）欧氏距离dxy?(?(xi?yi)1 22i?1p2（2）马氏距离?2dxyx?y(x?y)其中?是数据矩阵的协方差阵。马氏距离的优点是考虑了空间内的概率分布，在正态总体的情况下，有比较好的效果。距离的定义比较灵

2、活，只要满足条件都可以作为聚类时的距离。变量之间的距离变量之间的距离要考虑到变量之间的相互关系。常用的距离如夹角余弦，相关系数等类和类之间的距离在聚类过程中，要涉及到类和类之间的合并，因此也要考虑类间的距离。如类间最短距离设dij是样本i和样本j之间的距离，dpq是类gp和类gq之间的距离定义类间的最短距离为mindij dpq=i?p,j?q类似的可以定义类间的最长距离，平均距离等。第二节系统聚类法系统聚类方法是非常容易在计算机上实现的一种聚类方法，其聚类步骤为：1）将空间各点各自视为一类，计算每类间的距离矩阵，将距离最小者归为一类。2）对与新的类重新计算类与类间的距离矩阵，再将距离

3、最小者归为一类。3）这一过程一直进行下去，直到所有的点归为一类为止。? 例 8.2.1：设抽六个样，每个样本只有一个变量，即：1，2，5，7，9，10。定义距离为：两点的绝对值。试用最小距离法对它们进行系统聚类。g1g21）计算得距离矩阵d(0)，为g3g1g2g3g4g5g6?01?468?9?030527485?0?20?310g4g5g62） d(0)的最小距离时是1，对应元素d12=d56=1，则将 g1，g2并成g7；g5；g6并成g8。3）计算g7，g8与其他类道距离，得d（1）g7g3g4g8g7g3g4g8?030? ?5207420?4)的d（1）的最小距离是2，把g3,g

4、4,g8合并为类g9，5)把g7和g9合并为g10，聚类距离为3。此时已将全部样本合并为一类，聚类结束。可以按照聚类的距离，通过谱系图把聚类的过程表示出来。最后，选择合适的阈值，确定聚类的个数。如取阈值为2.5，则分为2类，g7和g9 第三节动态聚类法（k均值法）k-均值法是一种划分方法。函数kmeans把数据划分为k个互不相交的类，然后对每个观测返回类的标号。对于大量的数据k-均值法比系统聚类法更合适。kmeans把数据集中的每一个数据视为占有空间中某个位置的对象。k-均值法寻找划分使得每一类内部的数据足够近而类之间的数据足够远。函数提供了5种距离的测量。步骤step1：选择k 个样品作

5、为初始凝聚点，或者将样品分为k 个初始类，然后将其重心（均值）作为初始凝聚点step2：将每个样品归入离其凝聚点最近的类（通常采用欧氏距离）。step3：重新计算每个类的重心（均值）；step4：重复step2，直到各类重心不再变化，类不再变化为止。动态聚类的结果严重依赖初始凝聚点的选取。经验表明，聚类过程的绝大多数重要变化均发生在第一次再分类中。第四节matlab统计工具箱中的聚类分析 a系统聚类法1.点点距离的计算命令pdist y=pdist(x)y=pdist(x,metric) y=pdist(x,distfun)y=pdist(x,minkowski,p)这里：x：为数据矩阵met

6、ric：各种距离方法euclidean：欧几里得距离euclidean distance (default) seuclidean：标准欧几里得距离. mahalanobis：马氏距离 cityblock：绝对值距离 minkowski：明可夫斯基距离cosine：cosine角度距离（对变量聚类） correlation：相关系数距离.（对变量聚类） hamming：hamming 距离（符号变量求距离）jaccard： jaccard 系数距离（符号变量求距离） chebychev：切比雪夫距离2.类类距离的计算命令linkage，基本语法为； z=linkage(y)z=linkage

7、(y,method)这里：y：为pdist输出的结果，即点点的距离矩阵。method：为计算类类间距离的方法。它们有： single: 最短距离法 (系统内定) complete：最长距离法。averaunjsge：平均距离法。weighted：加权平均距离法。centroid：中心距离法。median：加权重心法。3)聚类命令cluster，语法为： t=cluster(z,cutoff,c) t=cluster(z,maxclust,n)这里：z：为linkage输出的层次数据。cutoff：按某个值进行切割，值c取（0，1）之间的值。maxclust：按最大聚类数聚类，n为指定的聚类数。

8、4)作聚类图命令dendrogram，其语法为： h=dendrogram(z) h=dendrogram(z,p)h,t=dendrogram(.)h,t,perm=dendrogram(.).=dendrogram(.,colorthreshold,t) .=dendrogram(.,orientation,orient) .=dendrogram(.,labels, s)这里：z：为linkage输出的层次数据。p：原始结点个数的设置，p=0显示全部点。系统内定显示30个点。colorthreshold：颜色设置，其值t0。orientation：聚类图的位置，内定是从上到下。可选值为：

9、 top ：从上到下 (default) bottom：从下到上 left：从左到右 right：从右到左 labels：标号例 16个地区(北京,天津,河北,山西,内蒙古,辽宁,吉林,黑龙江,上海,江苏,浙江,安徽,福建,江西,山东,河南)农民支出情况调查,指标为食品,衣着,燃料,住房,生活用品,文化生活服务.x=190.33 43.77 9.73 60.54 49.01 9.04;135.2 36.4 10.47 44.16 36.49 3.94;95.21 22.83 9.3 22.44 22.81 2.8;104.78 25.11 6.4 9.89 18.17 3.25;128.41

10、 27.63 8.94 12.58 23.99 3.27;145.68 32.83 17.79 27.29 39.09 3.47;159.37 33.38 18.37 11.81 25.29 5.22;116.22 29.57 13.24 13.76 21.75 6.04;221.11 38.64 12.53 115.65 50.82 5.89;144.98 29.12 11.67 42.6 27.3 5.74;169.92 32.75 12.72 47.12 34.35 5;153.11 23.09 15.62 23.54 18.18 6.39;144.92 21.26 16.96 19.5

11、2 21.75 6.73;140.54 21.5 17.64 19.19 15.97 4.94;115.84 30.26 12.2 33.61 33.77 3.85;101.18 23.26 8.46 20.2 20.5 4.3; zx=zscore(x);y=pdist(zx);z=linkage(y,average)z=12.0000 13.0000 0.66563.0000 16.0000 0.99314.0000 18.0000 1.071114.0000 17.0000 1.203210.0000 11.0000 1.26705.0000 19.0000 1.27562.0000 1

12、5.0000 1.283321.0000 23.0000 1.70886.0000 7.0000 1.82458.0000 20.0000 1.879924.0000 25.0000 2.330226.0000 27.0000 2.647622.0000 28.0000 2.96641.0000 9.0000 3.178829.0000 30.0000 5.2728s=北京,天津,河北,山西,内蒙古,辽宁,吉林,黑龙江,上海,江苏,浙江,安徽,福建,江西,山东,河南 dendrogram(z,orientation,right,labels,s)上海北京内蒙古山西河南河北吉林辽宁浙江江苏山东天

13、津黑龙江江西福建安徽0.511.522.533.544.555.5t=cluster(z,5) t=4 2 3 3 3 2 2 1 5 2 2 1 1 1 2 3find(t=1) ans=813 14find(t=2) ans=2 6 7 10 11 15find(t=3) ans=3 4 5 16find(t=4) ans=1find(t=5) ans=9或者： t=clusterdata(zx,distance,euclid,linkage,average,maxclust,5) t=4 2 3 3 3 2 2 1 5 2 2 1 1 1 2它与前面的cluster(z,5)相等b k均值法函数kmeans把数据划分为k个互不相交的类，然后对每个观测返回类的标号。

展开阅读全文