《数据仓库与数据挖掘》实验二 聚类分实验报告

上传人:bao****ty 文档编号:117173586 上传时间:2019-11-18 格式:DOC 页数:9 大小:242KB
返回 下载 相关 举报
《数据仓库与数据挖掘》实验二 聚类分实验报告_第1页
第1页 / 共9页
《数据仓库与数据挖掘》实验二 聚类分实验报告_第2页
第2页 / 共9页
《数据仓库与数据挖掘》实验二 聚类分实验报告_第3页
第3页 / 共9页
《数据仓库与数据挖掘》实验二 聚类分实验报告_第4页
第4页 / 共9页
《数据仓库与数据挖掘》实验二 聚类分实验报告_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《《数据仓库与数据挖掘》实验二 聚类分实验报告》由会员分享,可在线阅读,更多相关《《数据仓库与数据挖掘》实验二 聚类分实验报告(9页珍藏版)》请在金锄头文库上搜索。

1、实验二、聚类分析实验报告吴诗乐 通信7班 20123100053一、实验目的通过计算机编程实现并验证谱系聚类法的模式分类能力,了解和掌握最小距离归类原则在模式识别中的重要作用与地位。二、实验内容1)用Matlab实现谱系聚类算法,并对给定的样本集进行分类;2)通过改变实验参数,观察和分析影响谱系聚类算法的分类结果与收敛速度的因素;三、实验原理、方法和手段人类认识世界往往首先将被认识的对象进行分类,聚类分析是研究分类问题的多元数据分析方法,是数值分类学中的一支。多元数据形成数据矩阵,见下表1。在数据矩阵中,共有n个样品 x1,x2,xn(列向),p个指标(行向)。聚类分析有两种类型:按样品聚类或

2、按变量(指标)聚类。表1 数据矩阵样品指标聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或变量之间的相似程度。按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品(或变量)进行分类。 分类统计量-距离与相似系数 样品间的相似性度量-距离用样品点之间的距离来衡量各样品之间的相似性程度(或靠近程度)。设是样品 之间的距离,一般要求它满足下列条件:在聚类分析中,有些距离不满足3),我们在广义的角度

3、上仍称它为距离。n 欧氏距离n 绝对距离n Minkowski 距离n Chebyshev距离n 方差加权距离其中 n 马氏距离 其中 S 是由样品算得的协方差矩阵:样品聚类通常称为Q型聚类,其出发点是距离矩阵。 变量间的相似性度量-相似系数当对p个指标变量进行聚类时,用相似系数来衡量变量之间的相似程度(或关联程度)。一般地,若 表示变量之间的相似系数,应满足:的绝对值越接近于1,说明变量 的关联越大。相似系数中最常用的是相关系数与夹角余弦。n 相关系数变量之间的相关系数定义为:事实上,是变量的观测值之间的相关系数。n 夹角余弦变量的观测值 ,其夹角余弦定义为:变量聚类通常称为 R 型聚类。在

4、 R 型聚类中,相似系数矩阵 C 是出发点,相似系数矩阵可以是相关矩阵,也可以是夹角余弦矩阵。 谱系聚类法 类间距离定义为简单起见,以i,j分别表示样品,以dij简记i,j之间的距离。Gp,Gq分别表示两个类,设它们分别含有np,nq个样品。若类Gp中有样品,则其均值称为类 Gp 的重心。类Gp与Gq之间的距离记为 Dpq,有多种多样定义方式。n 最短距离n 最长距离n 类平均距离n 重心距离n 离差平方和距离 类间距离的递推公式按照谱系聚类法的思想,先将样品聚合成小类,在逐步扩大为大类。设类 Gr由类Gp、Gq合并所得,则Gr包含nr=np+nq个样品。问题:由Gp,Gq与其它类Gk(kp,

5、q)的距离计算Gr与Gk(kp,q)的距离,即建立类间距离的递推公式。n 最短距离n 最长距离n 类平均距离n 重心距离n 离差平方和距离 谱系聚类法的步骤谱系聚类法的步骤如下:Step1 n 个样品开始时作为 n 个类,计算两两之间的距离,构成一个对称距离矩阵:此时,Dpq=dpq;Step2 选择 D(0)中的非对角线上的最小元素,设这个最小元素是 Dpq。此时,Gp=xp,Gq=xq。将Gp,Gq合并成一个新类Gr=Gp,Gq。在 D(0)中消去Gp和Gq所对应的行与列,并加入有新类Gr与剩下的其它未聚合的类间的距离所组成的一行和一列,得到一个新的距离矩阵D(1),它是n-1阶方阵;St

6、ep3 从 D(1)出发重复 Step2 的作法得 D(2),再由D(2)出发重复上述步骤,直到n个样品聚为1个大类为止;注意:在合并过程中要记下合并样品的编号及两类合并时的水平(即距离)并绘制聚类谱系图。 谱系聚类法的统计量用谱系聚类法聚类时,聚多少类合适,这是一个实际的问题。一个较好的聚类应该在类内阁样品尽可能相似的前提下,使得类的个数尽可能少。这里需要考虑谱系距离用到的统计量,利用它们,可以在一定程度上判别聚多少类为合适。n R2统计量设谱系得第 G 层共有G个类,定义其中 为Gk的重心,Sk越小,说明Gk中各样品越相似。定义 R2 统计量如下:R2总是随着分类数目的减少而减小,可以从R

7、2值的变化看n个样品分成几类最合适。比如,分为5类以前各类的R2减小较缓慢;假定分为5类时,R2=0.85,而下一次合并,即分为4类时R2减小较快,如R2=0.35,则认为分为5类较合适。n 半偏相关统计量这一统计量与离差平方和距离有关。设类 Gp,Gq的离差平方和分别是:将 Gp,Gq合并成Gr后的离差平方和为合并后的离差平方和增量为定义半偏相关统计量为:SPRSQ是上一步R2值与该步R2值的差值,当SPRSQ值越大时,说明上一次合并效果越好。n 伪F统计量伪F统计量 PSF是PSF值越大表示这些观测可显著地分为 G 个类。n 伪 t2 统计量设Sp,Sq,Wpq的含义如前所述,定义伪 t2

8、 统计量为PST2大,说明合并Gp,Gq为Gr后,使得离差平方和的增量Wpq相对于原Gp,Gq的类内离差平方和大。这表明合并的两个类Gp,Gq是很分开的,也就是上一次聚类效果较好。四、Matlab中相关函数介绍n pdist函数调用格式:Y=pdist(X,metric)说明:用 metric指定的方法计算 X 数据矩阵中对象之间的距离。X:一个mn的矩阵,它是由m个对象组成的数据集,每个对象的大小为n。metric取值如下:euclidean:欧氏距离(默认);seuclidean:标准化欧氏距离;mahalanobis:马氏距离;cityblock:布洛克距离;minkowski:明可夫斯

9、基距离;cosine:correlation: hamming:jaccard: chebychev:Chebychev距离。n squareform函数 调用格式:Z=squareform(Y,.) 说明: 强制将距离矩阵从上三角形式转化为方阵形式,或从方阵形式转化为上三角形式。n linkage函数调用格式:Z=linkage(Y,method)说 明:用method参数指定的算法计算系统聚类树。 Y:pdist函数返回的距离向量; method:可取值如下: single:最短距离法(默认); complete:最长距离法;average:未加权平均距离法; weighted: 加权平均

10、法;centroid: 质心距离法; median:加权质心距离法;ward:内平方距离法(最小方差算法)返回:Z为一个包含聚类树信息的(m-1)3的矩阵。n dendrogram函数调用格式:H,T,=dendrogram(Z,p,)说明:生成只有顶部p个节点的冰柱图(谱系图)。n cophenet函数调用格式:c=cophenetic(Z,Y)说明:利用pdist函数生成的Y和linkage函数生成的Z计算cophenet相关系数。n cluster 函数调用格式:T=cluster(Z,)说明:根据linkage函数的输出Z 创建分类。n clusterdata函数调用格式:T=clus

11、terdata(X,)说明:根据数据创建分类。T=clusterdata(X,cutoff)与下面的一组命令等价:Y=pdist(X,euclid);Z=linkage(Y,single);T=cluster(Z,cutoff);五、实例编程实现为了研究世界各国森林、草原资源的分布规律,共抽取了21个国家的数据,每个国家4项指标,原始数据见下表1。使用该原始数据对国别进行聚类分析。表1 抽样数据表国别森林面积(万公顷)森林覆盖率(%)林木蓄积量(亿立方米)草原面积(万公顷)中国1197812.593.531908美国2844630.4202.023754日本250167.224.858德国10

12、2828.414.0599英国2108.61.51147法国145826.716.01288意大利63521.13.6514加拿大3261332.7192.82385澳大利亚1070013.910.545190前苏联9200041.1841.537370捷克45835.88.9168波兰86827.811.4405匈牙利16117.42.5129南斯拉夫92936.311.4640罗马尼亚63426.711.3447保加利亚38534.72.5200印度674820.529.01200印尼218084.033.71200尼日利亚149016.10.82090墨西哥485024.632.6745

13、0巴西5750067.6238.015900要求: 利用 clusterdata函数对样本数据进行一次聚类; 分步聚类:(1)找到数据集合中变量两两之间的相似性和非相似性,用pdist函数计算变量之间的距离;(2)用 linkage函数定义变量之间的连接;(3)用 cophenetic函数评价聚类信息;(4)用cluster函数创建聚类。 比较分析两种方法的优缺点。六:实验结果1、 利用 clusterdata函数对样本数据进行一次聚类,其程序为:X=11978 12.5 93.5 31908; 28446 30.4 202.0 23754; 2501 6702 2408 58; 1028 2

14、8.4 14.0 599; 210 8.6 1.5 1147; 1458 26.7 16.0 1288; 635 21.1 3.6 514; 32613 32.7 192.8 2385; 10700 13.9 10.5 45190; 92000 41.1 841.5 37370; 458 35.8 8.9 168; 868 27.8 11.4 405; 161 17.4 2.5 129; 929 36.3 11.4 640; 634 26.7 11.3 447; 385 34.7 2.5 200; 6748 20.5 29.0 1200; 2180 84.0 33.7 1200; 4850 24.6

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号