基于快速聚类法的植物分类.doc

上传人:m**** 文档编号:545928394 上传时间:2022-11-07 格式:DOC 页数:22 大小:535.51KB
返回 下载 相关 举报
基于快速聚类法的植物分类.doc_第1页
第1页 / 共22页
基于快速聚类法的植物分类.doc_第2页
第2页 / 共22页
基于快速聚类法的植物分类.doc_第3页
第3页 / 共22页
基于快速聚类法的植物分类.doc_第4页
第4页 / 共22页
基于快速聚类法的植物分类.doc_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《基于快速聚类法的植物分类.doc》由会员分享,可在线阅读,更多相关《基于快速聚类法的植物分类.doc(22页珍藏版)》请在金锄头文库上搜索。

1、基于快速聚类法的植物分类摘 要 本文主要讨论根据某植物的萼片及花瓣的长宽数据运用快速聚类法进行分类的问题。针对问题一,将数据录入EXCEL表格,运用快速聚类法并采用欧氏距离将Iris数据分成3类,利用SAS软件求解可得3类的频数分别为51、35及64。针对问题二,同问题一的做法但采用绝对距离将数据分成3类,利用SAS软件求解可得3类的频数分别为51、37及62。针对问题三,同问题一的做法但采用距离()将数据分成3类,利用SAS软件求解可得3类的频数分别为51、37及62。在分类数不确定的情况下将模型进行推广,利用快速聚类法和SAS软件对各类结果进行比较分析,得出较好的分类。关键词 快速聚类法;

2、SAS软件;欧氏距离;绝对距离;距离一、问题重述植物是生命的主要形态之一,不同种类的植物形状一般不同。土壤环境,空气,阳光等都会影响植物的种类及形状,通过观察植物的形态对人类更好的了解植物有很大作用。现对某三种不同种类的植物的叶片及花瓣的长、宽进行调查。为此,取三个种类的植物,每个种类取50个样本,分别测量出每个样本的萼片长、宽及花瓣长、宽。为了更准确地将植物分类,根据题目中所给数据,解决以下问题:问题一:用快速聚类法将这些数据分成3类,并写出分类结果;问题一:用快速聚类法并采用绝对距离将这些数据分成3类,写出分类结果;问题一:用快速聚类法并采用距离()将这些数据分成3类,写出分类结果。二、问

3、题分析聚类分析是研究分类问题的多元数据分析方法,为了解植物的本质特征,往往需要划分不同的类型去研究,当样品容量较大时,采用快速聚类法比较准确,快速聚类法先将样品粗略的分一下类,然后再按某种原则进行修改,直至分类比较合理为止。本文数据量较大,采取快速聚类法进行分类快速有效。 取某植物的三个种类,每个种类取50个样本,分别测量出每个样本的萼片长、宽及花瓣长、宽。利用SAS软件对Iris数据运用快速聚类法分别采用欧氏距离、绝对距离及距离(),从中选择出适当的聚点,进而对数据进行分类。三、基本假设1.数据均真实有效可操作;2.样本均是随机选取;3.不考虑人为因素,检测仪器精确度不同的影响。 四、符号表

4、示萼片长萼片宽花瓣长花瓣宽第种类的样本五、模型的建立与求解5.1 快速聚类法(欧式距离)利用SAS软件对Iris数据采用欧氏距离进行快速聚类分析(见附录中程序1),初始聚点如表1所示: 表1 初始聚点聚类158.0000000040.0000000012.000000002.00000000277.0000000038.0000000067.0000000022.00000000357.0000000019.0000000042.0000000013.00000000聚点1、2和3对应的样品号分别为60、21和77号。分3类的聚类结果如表(见附录中表1)所示,从聚类的情况具体分析,第一类属于萼

5、长居中,萼宽最宽,花瓣长和宽最小的样品,大部分为种;第二类属于萼长最长,萼宽居中,花瓣长和宽最大的样品,大部分为种;第一类属于萼长和萼宽最小,花瓣长和宽居中的样品,大部分为种。三种植物总共150个样本分为三类,第一类包含51个样本,离聚点的最大距离是18.0043;第二类包含35个样本,离聚点的最大距离是13.7788;第三类包含64个样本,离聚点的最大距离是17.9732。聚类的大致情况见表2:表2 150个样品分3类情况类号频数类内到聚点最大距离最邻近类至最邻近类距离15118.0043333.643423513.7788318.363236417.9732218.3632类间距离有助于分

6、析类间的接近程度,第3类与第2类的距离最小,为18.3632,所以第3类与第2类最相近。三个类的变量的样本均值与标准差如表3和表4所示:表3 三个类的变量的样本均值聚类150.2352941234.0588235314.686274512.76470588268.7428571430.6285714357.9142857121.17142857359.1718750027.2812500044.2343750014.29687500表4 三个类的变量的样本标准差聚类13.7072266474.3054001661.7831454912.41319900024.9784409163.430706

7、6184.6864725762.36998032134.9330588323.1089668065.2937285072.931382942 根据样本均值与标准差可知:1、2、3类的数据基本都集中在均值附近,第三类的数据分布没有第一类集中。5.2 快速聚类法(绝对距离)利用SAS软件对Iris数据采用绝对距离进行快速聚类分析(见附录中程序2),初始聚点如表5所示:表5 初始聚点聚类158.0000000040.0000000012.000000002.00000000277.0000000038.0000000067.0000000022.00000000357.0000000019.0000

8、000042.0000000013.00000000聚点1、2和3对应的样品号分别为为60、21和77号。聚类中位数如表6所示:表6 聚类中位数聚类150.0000010334.0000006114.999997892.00000114267.0000022930.0000024756.9999981721.00000046358.5001876827.4981011744.9999986313.99999909分3类的聚类结果如表(见附录中表2)所示,由表6和附录中表2可得第一类属于萼长最小,萼宽最宽,花瓣长和宽最小的样品,大部分为种;第二类属于萼长最长,萼宽居中,花瓣长和宽最大的样品,大部

9、分为种;第三类属于萼长居中,萼宽最小,花瓣长和宽居中的样品,大部分为种。三种植物总共150个样本分为三类,第一类包含51个样本,离聚点的最大距离是30;第二类包含37个样本,离聚点的最大距离是29;第三类包含62个样本,离聚点的最大距离是29.9983。聚类的大致情况见表7:表7 150个样品分3类情况类号频数类内到聚点最大距离最邻近类至最邻近类距离15130.0000357.002123729.0000330.001736229.9983230.0017类间距离有助于分析类间的接近程度,第3类与第2类的距离最小,为30.0017,所以第3类与第2类最相近。5.3 快速聚类法(距离()利用SA

10、S软件对Iris数据采用距离进行快速聚类分析(相关程序见附录中程序3),初始聚点如表8所示:表8 初始聚点聚类158.0000000040.0000000012.000000002.00000000277.0000000038.0000000067.0000000022.00000000357.0000000019.0000000042.0000000013.00000000聚点1、2和3对应的样品号分别为60、21和77号,最终聚点如表8所示:表8 最终聚点聚类150.1327692834.0472050014.691246062.32597683268.1573117530.6031046

11、557.0764686920.99938469358.8557596627.2889588544.3679435914.01182953分3类聚类结果如表(见附录中表3)所示,由表8和附录中表3可得第一类属于萼长最小,萼宽最宽,花瓣长和宽最小的样品,大部分为种;第二类属于萼长最长,萼宽最小,花瓣长和宽最大的样品,大部分为种;第三类属于萼长居中,萼宽最小,花瓣长和宽居中的样品,大部分为种。三种植物总共150个样本分为三类,第一类包含51个样本,离聚点的最大距离是21.1702;第二类包含37个样本,离聚点的最大距离是18.5932;第三类包含62个样本,离聚点的最大距离是19.7812。聚类的大

12、致情况见表9:表9 150个样品分3类情况类号频数类内到聚点最大距离最邻近类至最邻近类距离15121.1702339.148523718.5932321.281736219.7812221.2817类间距离有助于分析类间的近似(或接近)程度,可知第三类与第二类的距离最小,为21.2817,所以第三类与第二类最接近。六、模型评价与推广6.1模型评价优点:(1)利用数学软件SAS对模型进行分析,具有科学性;(2)采用的快速聚类法有成熟的理论基础,可信度较高;(3)该模型建立所用的数学工具和聚类分析理论较简单,便于操作。缺点:(1)样本数据稍少,得出的分类方法可能与实际情况相违背;(2)尚未用快速分

13、类法讨论其他的分类数,可能不是最优分类;(3)快速分类法自身有限制,无法对模型有全面、细致的分类求解。6.2模型推广将样本分为其他的类数,运用快速聚类法、利用SAS软件分别求解,通过综合比较得出最优分类个数;运用快速聚类法得出的分类方法,以此植物的不同种类的萼片及花瓣长宽数据为依据进行简单分类,便于对此植物的管理,也可以推广到其他植物或动物的分类。参考文献1 范金城,梅长林,数据分析M,北京:科学出版社,2002.附录表1 三种植物个样本聚类结果观测聚类与种子的距离观测聚类与种子的距离观测聚类与种子的距离111.49415114.690110114.2584226.76195214.292810215.2894336.08225336.042810322.5801424.44865414.918610438.1103537.03475514.340510526.3238614.29745613.477810633.9408727.809657311.293610711.1276835.96315826.75210811.95969118.0043

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号