统计方法6聚类分析

上传人:hs****ma 文档编号:500880540 上传时间:2023-07-16 格式:DOC 页数:18 大小:421.50KB
返回 下载 相关 举报
统计方法6聚类分析_第1页
第1页 / 共18页
统计方法6聚类分析_第2页
第2页 / 共18页
统计方法6聚类分析_第3页
第3页 / 共18页
统计方法6聚类分析_第4页
第4页 / 共18页
统计方法6聚类分析_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《统计方法6聚类分析》由会员分享,可在线阅读,更多相关《统计方法6聚类分析(18页珍藏版)》请在金锄头文库上搜索。

1、统计方法6聚类分析第一节基本概念1分类问题直观解释:聚类分析就是用某种准则将靠近的点集归为一类 对样本(观测值)进行聚类,也可以对指标(变量)进行聚类。 02. 距离样品之间的距离设 p维空间内的点 X(x1,x2,.,xp)及y (yi,y2,.yp)定义两点之间的距离21/2yi)(i)欧氏距离pdxy2(Xii 1(2 )马氏距离dXy x y (x y)其中是数据矩阵的协方差阵。马氏距离的优点是考虑了空间内的概率分布,在正态总体的情况下,有比较好的效果。距离的定义比较灵活,只要满足条件都可以作为聚类时的距离。 变量之间的距离变量之间的距离要考虑到变量之间的相互关系。常用的距离如夹角余弦

2、,相关系数等 类和类之间的距离在聚类过程中,要涉及到类和类之间的合并,因此也要考虑类间的距离。 如类间最短距离设dj是样本i和样本j之间的距离,Dpq是类Gp和类Gq之间的距离 定义类间的最短距离minPq = i p,j qdj类似的可以定义类间的最长距离,平均距离 等。第二节系统聚类法系统聚类方法是非常容易在计算机上实现的一种聚类方法,其聚类步骤为:1) 将空间各点各自视为一类,计算每类间的距离矩阵,将距离最小者归为一类。2) 对与新的类重新计算 类与类间的距离矩阵,再将距离最小者归为一类。3) 这一过程一直进行下去,直到所有的点归为一类为止。例:设抽六个样,每个样本只有一个变量,即:1,

3、2,5,7, 9,10。定义距离为:两点的绝对值。试用最小距离法对它们进行系统聚类。G1G:2G3(G4G5G6G10G2101)计算得距离矩阵D(0),为G3430G46520G587420G698531 02) D(0)的最小距离时是1,对应元素 D12=D56=1,则将G1, G2 并成 G7 ; G5 ; G6 并成 G8。3) 计算G7,G8与其他类道距离,得 D( 1)G7G3G4G8Gi0G330G4520G874204)的D ( 1)的最小距离是2,把G3,G4,G8合并为类G9,5)把G7和G9合并为G10,聚类距离为3。此时已将全部样本合并为一类,聚类结束。 可以按照聚类的

4、距离,通过谱系图把聚类的过程表示出来。Clf 1 亡&239 丄一1 1;GAG7G1OG9G6=10G81L234最后,选择合适的阈值,确定聚类的个数。如取阈值为2.5,则分为2类,G7和G9第三节动态聚类法(k均值法)k-均值法是一种划分方法。函数 kmeans把数据划分为k个互不相交的类,然后对每个观 测返回类的标号。对于大量的数据k-均值法比系统聚类法更合适。Kmeans把数据集中的每一个数据视为占有空间中某个位置的对象。k-均值法寻找划分使得每一类内部的数据足够近而类之间的数据足够远。函数提供了 5种距离的测量。步骤Step1 :选择k个样品作为初始凝聚点,或者将样品分为k个初始类,

5、然后将其重心(均值)作为初始凝聚点Step2 :将每个样品归入离其凝聚点最近的类(通常采用欧氏距离)。Step3 :重新计算每个类的重心(均值);Step4 :重复Step2,直到各类重心不再变化,类不再变化为止。动态聚类的结果严重依赖初始凝聚点的选取。经验表明,聚类过程的绝大多数重要变化均发生在第一次再分类中。第四节MATLAB统计工具箱中的聚类分析A系统聚类法1. 点点距离的计算命令pdistY = pdist(X)Y = pdist(X,metric)Y = pdist(X,distfu n)Y = pdist(X,mi nkowski,p)这里:X:为数据矩阵metric :各种距离方

6、法 euclidean :欧几里得距离 Euclidean distanee (default) seuclidean :标准欧几里得距离. mahala no bis :马氏 距离 cityblock :绝对值距离minkowski :明可夫斯基距离 cosine : cosine角度距离(对变量聚类)correlation :相关系数距离.(对变量聚类)hammi ng: Hammi ng 距离(符号变量求距离)jaccard : Jaccard 系数距离(符号变量求距离)chebychev :切比雪夫距离2. 类类距离的计算命令lin kage,基本语法为;Z = lin kage(Y)

7、Z = lin kage(Y,method)这里:Y:为pdist输出的结果,即点点的距离矩阵。method:为计算类类间距离的方法。它们有:single:最短距离法(系统内定)complete :最长距离法。average :平均距离法。weighted :加权平均距离法。centroid :中心距离法。median:加权重心法。3)聚类命令cluster,语法为:T = cluster(Z,cutoff,c)T = cluster(Z,maxclust ,n)这里:Z:为linkage输出的层次数据。cutoff :按某个值进行切割,值c取(0,1)之间的值。maxclust :按最大聚类

8、数聚类,n为指定的聚类数。4) 作聚类图命令den drogram,其语法为:H = den drogram(Z)H = den drogram(Z,p)H,T = den drogram(.)H,T,perm = den drogram(.).=den drogram(.,colorthreshold,t).=den drogram(.,orie ntatio n,orie nt).=den drogram(.,labels, S)这里:Z:为linkage 输出的层次数据。p :原始结点个数的设置,p=0显示全部点。系统内定显示 30个点。 colorthreshold :颜色设置,其值

9、t0 。 orie ntatio n :聚类图的位置,内定是从上到下。可选值为: top :从上到下(default) bottom :从下到上left :从左到右 right :从右到左labels :标号 例16个地区(北京,天津,河北,山西,内蒙古,辽宁,吉林,黑龙江,上海,江苏,浙江,安徽,福建,江西,山东,河南)农民支出情况调查,指标为食品,衣着,燃料,住房,生活用品,文化 生活服务.x=190.33 43.77 9.73 60.54 49.01 9.04;135.2 36.4 10.47 44.16 36.49 3.94;95.21 22.83 9.3 22.4422.81 2.8

10、;104.78 25.11 6.4 9.89 18.17 3.25;128.41 27.63 8.94 12.58 23.99 3.27;145.68 32.8317.79 27.29 39.09 3.47;159.37 33.38 18.37 11.81 25.29 5.22;116.22 29.57 13.24 13.76 21.756.04;221.11 38.64 12.53 115.65 50.82 5.89;144.98 29.12 11.67 42.6 27.3 5.74;169.92 32.75 12.7247.12 34.35 5;153.11 23.09 15.62 23.

11、54 18.18 6.39;144.92 21.26 16.96 19.52 21.75 6.73;140.5421.5 17.64 19.19 15.97 4.94;115.84 30.26 12.2 33.61 33.77 3.85;101.18 23.26 8.46 20.2 20.5 4.3;zx=zscore(x);y=pdist(zx);z=li nkage(y,average)12.0000 13.0000 0.66563.000016.00000.99314.000018.00001.071114.000017.00001.203210.000011.00001.26705.0

12、00019.00001.27562.000015.00001.283321.000023.00001.70886.00007.00001.82458.000020.00001.879924.000025.00002.330226.000027.00002.647622.000028.00002.96641.00009.00003.178829.000030.00005.2728s=北京,天津, 河北,山西,内家古,辽宁,吉林,黑龙江,上海江苏,浙江,安徽,福建,江西,山东,河南den drogram(z,orie ntati on ,right,labels,s)T=cluster( z,5)

13、T =4233322152211123fin d(T=1) ans =8121314fin d(T=2)ans =267101115fin d(T=3)ans =34516fin d(T=4)ans =1fin d(T=5)ans =9或者:Tclusterdata(zx,dista nce,euclid,li nkage,average,maxclust,5)T =423332215221112它与前面的cluster(z,5) 相等B K均值法函数kmeans把数据划分为k个互不相交的类,然后对每个观测返回类的标号。Kmeans把数据集中的每一个数据视为占有空间中某个位置的对象。K-均值法寻找划分使得每一类内部的数据足够近而类之间的数据足够远。函数提供了 5种距离的测量。IDX = kmea ns(X,k)将n个点分为k

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号