《基于快速聚类法的植物分类》由会员分享,可在线阅读,更多相关《基于快速聚类法的植物分类(22页珍藏版)》请在金锄头文库上搜索。
1、1基于快速聚类法的植物分类摘 要 本文主要讨论根据某植物的萼片及花瓣的长宽数据运用快速聚类法进行 分类的问题。 针对问题一,将数据录入 EXCEL 表格,运用快速聚类法并采用欧氏距离将 Iris 数据分成 3 类,利用 SAS 软件求解可得 3 类的频数分别为 51、35 及 64。 针对问题二,同问题一的做法但采用绝对距离将数据分成 3 类,利用 SAS 软件求解可得 3 类的频数分别为 51、37 及 62。 针对问题三,同问题一的做法但采用距离()将数据分成 3 类,mL1.5m 利用 SAS 软件求解可得 3 类的频数分别为 51、37 及 62。 在分类数不确定的情况下将模型进行推广
2、,利用快速聚类法和 SAS 软件对 各类结果进行比较分析,得出较好的分类。关键词 快速聚类法;SAS 软件;欧氏距离;绝对距离;距离mL2一、问题重述植物是生命的主要形态之一,不同种类的植物形状一般不同。土壤环境, 空气,阳光等都会影响植物的种类及形状,通过观察植物的形态对人类更好的 了解植物有很大作用。现对某三种不同种类的植物的叶片及花瓣的长、宽进行 调查。为此,取三个种类的植物,每个种类取 50 个样本,分别测量出123,G G G每个样本的萼片长、宽及花瓣长、宽。为了更准确地将植物分类,根据题目中 所给数据,解决以下问题: 问题一:用快速聚类法将这些数据分成 3 类,并写出分类结果; 问
3、题一:用快速聚类法并采用绝对距离将这些数据分成 3 类,写出分类结 果; 问题一:用快速聚类法并采用距离()将这些数据分成 3 类,写mL1.5m 出分类结果。二、问题分析聚类分析是研究分类问题的多元数据分析方法,为了解植物的本质特征, 往往需要划分不同的类型去研究,当样品容量较大时,采用快速聚类法比较准 确,快速聚类法先将样品粗略的分一下类,然后再按某种原则进行修改,直至 分类比较合理为止。本文数据量较大,采取快速聚类法进行分类快速有效。取某植物的三个种类,每个种类取 50 个样本,分别测量出每个样123,G G G本的萼片长、宽及花瓣长、宽。利用 SAS 软件对 Iris 数据运用快速聚类
4、法分别 采用欧氏距离、绝对距离及距离() ,从中选择出适当的聚点,进而mL1.5m 对数据进行分类。三、基本假设1.数据均真实有效可操作; 2.样本均是随机选取; 3.不考虑人为因素,检测仪器精确度不同的影响。四、符号表示1x萼片长2x萼片宽3x花瓣长4x花瓣宽3iG第 种类的样本i1,2,3i 五、模型的建立与求解5.1 快速聚类法(欧式距离) 利用 SAS 软件对 Iris 数据采用欧氏距离进行快速聚类分析(见附录中程序 1) ,初始聚点如表 1 所示:表 1 初始聚点聚类 1x2x3x4x158.0000000040.0000000012.000000002.00000000277.00
5、00000038.0000000067.0000000022.00000000357.0000000019.0000000042.0000000013.00000000聚点 1、2 和 3 对应的样品号分别为 60、21 和 77 号。分 3 类的聚类结果如 表(见附录中表 1)所示,从聚类的情况具体分析,第一类属于萼长居中,萼 宽最宽,花瓣长和宽最小的样品,大部分为种;第二类属于萼长最长,萼宽1G居中,花瓣长和宽最大的样品,大部分为种;第一类属于萼长和萼宽最小,3G花瓣长和宽居中的样品,大部分为种。三种植物总共 150 个样本分为三类,2G 第一类包含 51 个样本,离聚点的最大距离是 18
6、.0043;第二类包含 35 个样本, 离聚点的最大距离是 13.7788;第三类包含 64 个样本,离聚点的最大距离是 17.9732。 聚类的大致情况见表 2: 表 2 150 个样品分 3 类情况类号频数类内到聚点最大 距离最邻近类至最邻近类距离15118.0043333.643423513.7788318.363236417.9732218.3632类间距离有助于分析类间的接近程度,第 3 类与第 2 类的距离最小,为 18.3632,所以第 3 类与第 2 类最相近。 三个类的变量的样本均值与标准差如表 3 和表 4 所示: 表 3 三个类的变量的样本均值聚类1x2x3x4x150.
7、2352941234.0588235314.686274512.764705884聚类1x2x3x4x268.7428571430.6285714357.9142857121.17142857359.1718750027.2812500044.2343750014.29687500表 4 三个类的变量的样本标准差聚类1x2x3x4x13.7072266474.3054001661.7831454912.41319900024.9784409163.4307066184.6864725762.36998032134.9330588323.1089668065.2937285072.9313829
8、42根据样本均值与标准差可知:1、2、3 类的数据基本都集中在均值附近, 第三类的数据分布没有第一类集中。 5.2 快速聚类法(绝对距离) 利用 SAS 软件对 Iris 数据采用绝对距离进行快速聚类分析(见附录中程序 2),初始聚点如表 5 所示: 表 5 初始聚点聚类1x2x3x4x158.0000000040.0000000012.000000002.00000000277.0000000038.0000000067.0000000022.00000000357.0000000019.0000000042.0000000013.00000000聚点 1、2 和 3 对应的样品号分别为为
9、60、21 和 77 号。聚类中位数如表 6 所示:表 6 聚类中位数聚类1x2x3x4x150.0000010334.0000006114.999997892.00000114267.0000022930.0000024756.9999981721.00000046358.5001876827.4981011744.9999986313.99999909分 3 类的聚类结果如表(见附录中表 2)所示,由表 6 和附录中表 2 可得5第一类属于萼长最小,萼宽最宽,花瓣长和宽最小的样品,大部分为种;第1G二类属于萼长最长,萼宽居中,花瓣长和宽最大的样品,大部分为种;第三3G类属于萼长居中,萼宽最
10、小,花瓣长和宽居中的样品,大部分为种。三种植2G 物总共 150 个样本分为三类,第一类包含 51 个样本,离聚点的最大距离是 30;第二类包含 37 个样本,离聚点的最大距离是 29;第三类包含 62 个样本, 离聚点的最大距离是 29.9983。 聚类的大致情况见表 7: 表 7 150 个样品分 3 类情况类号 频数类内到聚点最大距离最邻近类至最邻近类距离15130.0000357.002123729.0000330.001736229.9983230.0017类间距离有助于分析类间的接近程度,第 3 类与第 2 类的距离最小,为 30.0017,所以第 3 类与第 2 类最相近。 5.
11、3 快速聚类法(距离() )mL1.5mL 利用 SAS 软件对 Iris 数据采用距离进行快速聚类分析(相关程序见附mL录中程序 3) ,初始聚点如表 8 所示:表 8 初始聚点聚类1x2x3x4x158.0000000040.0000000012.000000002.00000000277.0000000038.0000000067.0000000022.00000000357.0000000019.0000000042.0000000013.00000000聚点 1、2 和 3 对应的样品号分别为 60、21 和 77 号,最终聚点如表 8 所示:表 8 最终聚点聚类1x2x3x4x15
12、0.1327692834.0472050014.691246062.32597683268.1573117530.6031046557.0764686920.99938469358.8557596627.2889588544.3679435914.011829536分 3 类聚类结果如表(见附录中表 3)所示,由表 8 和附录中表 3 可得第一类 属于萼长最小,萼宽最宽,花瓣长和宽最小的样品,大部分为种;第二类属1G于萼长最长,萼宽最小,花瓣长和宽最大的样品,大部分为种;第三类属于3G萼长居中,萼宽最小,花瓣长和宽居中的样品,大部分为种。2G 三种植物总共 150 个样本分为三类,第一类包含
13、51 个样本,离聚点的最大 距离是 21.1702;第二类包含 37 个样本,离聚点的最大距离是 18.5932;第三 类包含 62 个样本,离聚点的最大距离是 19.7812。 聚类的大致情况见表 9: 表 9 150 个样品分 3 类情况类号频数类内到聚点最大 距离最邻近类至最邻近类距离15121.1702339.148523718.5932321.281736219.7812221.2817类间距离有助于分析类间的近似(或接近)程度,可知第三类与第二类的 距离最小,为 21.2817,所以第三类与第二类最接近。六、模型评价与推广6.1 模型评价 优点: (1)利用数学软件 SAS 对模型
14、进行分析,具有科学性; (2)采用的快速聚类法有成熟的理论基础,可信度较高; (3)该模型建立所用的数学工具和聚类分析理论较简单,便于操作。 缺点: (1)样本数据稍少,得出的分类方法可能与实际情况相违背; (2)尚未用快速分类法讨论其他的分类数,可能不是最优分类; (3)快速分类法自身有限制,无法对模型有全面、细致的分类求解。 6.2 模型推广 将样本分为其他的类数,运用快速聚类法、利用 SAS 软件分别求解,通过 综合比较得出最优分类个数;运用快速聚类法得出的分类方法,以此植物的不 同种类的萼片及花瓣长宽数据为依据进行简单分类,便于对此植物的管理,也 可以推广到其他植物或动物的分类。参考文
15、献参考文献 1 范金城,梅长林,数据分析M,北京:科学出版社,2002.7附录表 1 三种植物个样本聚类结果150观测聚类与种子 的距离观测聚类与种子 的距离观测聚类与种子 的距离 111.49415114.690110114.2584 226.76195214.292810215.2894 336.08225336.042810322.5801 424.44865414.918610438.1103 537.03475514.340510526.3238 614.29745613.477810633.9408 727.809657311.293610711.1276 835.96315826
16、.75210811.9596 9118.00435919.24810937.6049 1016.652260110.16811038.6975 1133.23166116.0209111212.6961 1236.25966238.355811227.2703 1328.18886335.191411313.7543 1438.17796414.365311438.5428 1526.78166511.589411535.9327 1637.63156634.389711614.8484 1722.47456736.305711736.1072 1813.47216811.819511835.918 1933.09886914.8211933.7447 2029.48637031.679212035.3765 21213.321371311.3416121317.9732 2237.016172112.091812234.9907 2325.11767312.208912324.6608 2429.8727428.065812424.6822