实战聚类－金锄头文库

资源描述

《实战聚类》由会员分享，可在线阅读，更多相关《实战聚类（15页珍藏版）》请在金锄头文库上搜索。

1、这篇文章与上一篇的回归分析是一次实习作业整理出来的。所以参考文献一并放在该文最后。CNBlOG网页排版太困难了，又不喜欢live writer聚类分析是将物理或者抽象对象的集合分成相似的对象类的过程。本次实验我将对同一批数据做两种不同的类型的聚类；它们分别是系统聚类和K-mean聚类。其中系统聚类的聚类方法也采用3种不同方法，来考察对比它们之间的优劣。由于没有样本数据，因此不能根据其数据做判别分析。评价标准主要是观察各聚类方法的所得到的类组间距离和组内聚类的大小。分析数据依然采用线性回归所使用的标准化后的能源消费数据。1.1 系统聚类本次实验的系统聚类都是凝聚系统聚类，为了控制变量，都采用平方

2、Euclidean距离。1.1.1 最短距离聚类法最短距离法聚类步骤如下：1. 规定样本间的距离，计算样本两两之间的距离，得到对称矩阵。开始每个样品自成一类。2. 选择对称矩阵中的最小非零元素。将两个样品之间最小距离记为D1，将这两个样品归并成为一类，记为G1。3. 计算G1与其他样品距离。重复以上过程直到所有样品合并为一类。我们在SPSS中实现最短距离分析非常简单。单击“”-“” -“”。将弹出如图1-1所示的对话框，设置相应的参数即可。图1-1 最短距离法我们的数据已经做过标准化，在“转化值”-“标准化”选项上选无。在统计量的聚类成员中选择“无”，因为这是非监督分类，不需要指定最终分出的类

3、个数。在绘制中选择绘制“树状图”。单击确定，得到以下结果。1. 表3-1显示了数据的缺失情况：案例处理汇总a案例有效缺失总计N百分比N百分比N百分比30100.00.030100.0表1-1 数据汇总我们的数据经过预处理，所以缺失值个数为0. 2. 由于相关矩阵过于庞大，无法在文档中贴出，得到的是一个非相似矩阵。表1-2是样品聚类过程。样品21和28在第一步合并为一类，它们之间的非相关系数最小，为0.211。在下一次合并是第十步。在第五步的时候，样品2、27、14组成一类，出现群集，样品个数为3。如上类推，可以解释表格。聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 2

4、12128.211001021224.4650063227.49100541320.5850095214.6453066212.678527727.7026088225.7737099213.91684111021291.0851012112181.1069012122211.115111013132171.36012014142261.56413015152221.6271401616251.6491501717281.87716018182163.02717019192303.54318020202114.9301902121245.02420022222106.4452102423198

5、.26200262421510.093220252522310.09624026261210.189232527271611.38726028281313.153270292911932.3672800表1-2 聚类过程我们可以通过更加形象直观的树状图来观察整个聚类过程和聚类效果。如图1-2所示，最短距离法组内距离小，但组间距离也较小。分类特征不够明显，无法凸显各个省份的能源消耗的特点。但是我们可以看到广东省能源消耗组成和其他省份特别不同，在其他方法中也显现出来。图1-2 最短距离法聚类图1.1.2 组间联接聚类组间联接聚类法定义为两类之间的平均平方距离，即。类CK和CL 合并为下一步的CM

6、则CM 与CJ距离的递推公式为：。我们依然贴出组间联接法的聚类表和树状图。1. 聚类表如表1-3所示，相关解释类似于表1-1所述。聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 212128.211001021224.4650053227.49100641320.5850085712.8400276214.9373077271.1056511813251.3314011917181.36000141021291.4951013112131.7037815128261.87700151321222.13310018145172.378091615283.715111216

7、16253.926151418174165.0240023182215.5261613211910116.445002220198.2620025212308.744180232261011.50801924232414.2022117252461514.28822027251219.8222023262612323.36325028273626.51602428281331.2102627292911969.1142800表1-2 组间联接聚类法 2. 树状图如图1-3所示，可以看到聚类的组间距离较大，组内距离较小。聚类结果较为理想。可以看到海南与青海，宁夏自治区，重庆市的能源消耗特点近似，

8、北京、上海两地能源消耗特点也近似。江浙两地亦然。最后广东和各地能源消耗特点都不同。 1.1.3 Ward法聚类Ward即离差平方和法。它的思想是，同类离差平方和较小，类间偏差平方和较大。Ward方法并类时总是使得并类导致的类内离差平方和增量最小。公式：递推公式：我依然贴出ward法聚类表和树状图。1. 聚类表如表1-4所示，相关解释类似于表1-1所述. 聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 212128.106001121224.3380053227.58400641320.87600957121.359021262141.902308717182.582001

9、382293.3516012913254.1404014108265.07900161121226.290101912277.6478514135179.00607211421311.211129191541613.72300231683016.6421002117101119.8650020181923.99600251922130.5561411242061037.15401722215843.8981316242261552.15920026233462.10301526242573.0511921272512386.143180272636106.4422322282712139.00

10、125242928319177.895260292913286.00027280表1-4 Ward法聚类表 2. 树状图如图1-4所示，我们可以看到这个结果较以上两种方法都为理想，组内距离都很小，控制在五次迭代之内。然后组间距离非常大。各分类的样品也基本符合它们的能源消耗特点。最后在接近10次迭代，广东被归入山东、山西这两个分别是能源消耗大省和能源产量大省的一类，说明它们之间的相似度也不大。图1-4 Ward法聚类树状图1.2 K-mean聚类K-mean聚类是用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类，然后逐步调整，得到最终K个分类。K-mean法对离群点敏感容易扭曲数据分布。单击“”-“” -“”将弹出如图1-5所示的对话框，我们根据系统聚类法的经验将K选择为5。迭代次数和系统聚类一样选择25次。图1-5 K-mean聚类设置下面输出和解释K-mean聚类结果。1. 表1-5是K-mean的迭代历史记录，非常明了。迭代历史记录a迭代聚类中心内的更改1234512.7961.4141.813.0002.29921.014.000.990.000.0003.000.000.000.000.000a. 由于聚类中心内没有

展开阅读全文