Iris数据的结果分类

上传人:ni****g 文档编号:549152191 上传时间:2023-05-24 格式:DOC 页数:14 大小:427KB
返回 下载 相关 举报
Iris数据的结果分类_第1页
第1页 / 共14页
Iris数据的结果分类_第2页
第2页 / 共14页
Iris数据的结果分类_第3页
第3页 / 共14页
Iris数据的结果分类_第4页
第4页 / 共14页
Iris数据的结果分类_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《Iris数据的结果分类》由会员分享,可在线阅读,更多相关《Iris数据的结果分类(14页珍藏版)》请在金锄头文库上搜索。

1、Iris数据的结果分类摘 要 本文主要讨论了用快速聚类法对R.A.Fisher的Iris数据分类的问题。针对问题一,由样本数目较大且已知分类数目为3,用快速聚类法并用欧式距离对样本分类。通过SAS软件快速聚类得到样本分类(见文中表1)。根据分类表得到这三类各观测值的取值范围,结合每一类的聚点得到结论如下:相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物,最后通过聚类的均值及标准差分析检验分类的合理性。针对问题二,用快速聚类法并用绝对距离对样

2、本分类。通过SAS软件快速聚类得到样本分类(见文中表6)。根据分类表得到这三类各观测值的取值范围,结合每一类的聚点得到结论如下:相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物,最后通过聚类与最终聚点的均值绝对值离差分析检验分类的合理性针对问题三,用快速聚类法并用距离()对样本分类。通过SAS软件快速聚类得到样本分类(见文中表11)。根据分类表得到这三类各观测值的取值范围,结合每一类的聚点得到结论如下:相比第2、3两类,第1类属于萼片短、萼

3、片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物,最后通过聚类与最终聚点的均幂根离差分析检验分类的合理性。聚类分析,是研究分类问题的一种多元统计方法,被广泛应用在经济、社会、人口等诸多方面。关键词 快速聚类分析;欧氏距离;绝对距离;距离一、问题重述R.A.Fisher在1936发表的Iris数据中,研究某植物的萼片长、宽及花瓣长、宽。:萼片长,:萼片宽,:花瓣长,:花瓣宽。R.A.Fisher取了该植物3个种类,每个种类取50个样品,共150个样品。数据如表1(见附录)问题一:

4、用快速聚类法将表1数据分3类;问题二:用快速聚类法并用绝对距离分3类,写出分类结果;问题三:在题一、题二基础上,用快速聚类法并采用距离分3类,写出分类结果。二、问题分析针对问题一,采用快速聚类法将表1(见附录)数据分为3类。快速聚类法的步骤:选择聚点,可以通过以下三种方法:经验选择、最小最大原则和将样品随机分为K类,以每类的重心作为聚点。聚点是一批有代表性的样品,它的选择决定了初始分类,分类数给定后,选取过程会根据递推公式算出初始聚点;然后计算各数据与聚点的欧氏距离并分类,检验分类是否合理,不合理返回到第二步初始分类,修改分类,如此反复循环,直至分类合理。针对问题二,与题一相似,首先先确定数据

5、的聚点,采用绝对距离聚类分析时,最终聚点应是每一类的中位向量,确定聚点后,进行初步分类,然后计算数据间的绝对距离,根据各数据与聚点间的绝对距离进行分类。检验分类是否合理,修改分类,直至合理为止。针对问题三,采用快速聚类法并利用距离将表1数据分为3类。与题一相似,先选择聚点,进行初始分类。采用距离进行快速聚类分析时,最终聚点是每一类的中心向量,代入距离公式,求出各数据与聚点的距离,并按大小分类。三、基本假设1、假设所有数据都有效;2、假设所有花无重大变异,即无较大差异;3、假设该植物样品的选取具有随机性,无人为主观干扰。四、符号表示符号意义快速聚类法采用欧氏距离下的聚点快速聚类法利用绝对距离下的

6、聚点快速聚类法采用距离的聚点快速聚类法按绝对距离的最终聚点快速聚类法按距离的最终聚点五、模型建立与求解随着人类社会的发展与科学技术的进步,对分类学的要求也越来越高。只凭经验或专业知识对研究对象定性分类,这往往是不够的,有时不能进行确切的分类。于是数学被引进分类学中,形成了数值分类学。随着多元数据分析方法研究的深入,在数值分类学中形成了聚类分析这一学支,聚类分析是多远数据分析的重要组成部分(1)。本文样本量较大,将采用聚类分析法中快速聚类法对数据分类。5.1快速聚类法将表1数据分为3类本文数据样本容量较大,用快速聚类法分类。快速聚类是快速有效的聚类方法。快速聚类法先将样本数据粗略地分一下类,然后

7、将按某种原则进行修正,直至分类比较合理为止。快速聚类的大致过程如图1所示初始分类分类是否合理最终分类选择聚点选择聚点合理不合理图1 快速聚类法步骤用SAS系统中的proc astclus过程(见附录)得到以下结果。快速聚类法按欧氏距离把表1数据分为3类,初始聚点是:,,它们对应的植物编号是19,58,117.分3类的结果见表1表1 150个植物样品按欧氏距离分3类的结果第1类第2类第3类植物序号1,6,10,18,26,3136,37,40,42,4447,51,52,54,5556,59,60,61,6465,68,69,72,73,79, 80,88,89,9296,97,101,1021

8、07,108,113,116,125,126,135,136137,139,140,144145146,150,2,4,7,13,15,1720,21,23,24,2735,39,41,45,5058,74,75,75,8182,84,90,103,105111,112,124,127128,132,133,1493,5,8,9,11,1214,16,19,22,2528,29,30,32,3334,38,43,46,4849,53,57,62,6366,67,70,71,7677,83,85,86,8791,93,94,95,98,99,100,104,106109,110,114,1151

9、17,118,119,120121,122,129,130131,134,138,141142,143,147,148频数503862 根据表1分类结合题一分析表1分类的实际意义:表2 3类植物萼片及花瓣情况项目类别萼片长萼片宽花瓣长花瓣宽143-58192410191626279253851691625349-7019-3430-5610-20从聚类的情况具体分析,相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物。通过proc astcl

10、us过程可以得到聚类的大致情况,见表2表3 150个植物样品按欧氏距离分3类情况聚类频数均方根标准差从聚点到观测的最大距离最近的聚类聚类质心间的距离1503.080116.3668333.88832353.903413.9967318.14833654.224718.0714218.1483通过proc astclus过程还可以得到按欧氏距离分3类这3类类内的均值及标准差见表3与表4表4 按欧氏距离分3类的均值聚类均值聚类x1x2x3x4150.2600000034.1000000014.680000002.46000000268.6571428630.8857142957.771428572

11、1.42857143359.3076923127.4000000044.2923076914.49230769表5 分3类的标准差聚类标准差聚类x1x2x3x413.7947869724.3389550141.8999462941.05385589424.9106298692.9081167204.6087239162.67103983234.9935053973.1264996405.2729352502.979739276平均数和标准差是反映数据集中趋势和离散程度的重要测量值。从表3中可以看出第1类的均值为与其聚点相近,第1类内变量各自对应的标准差分别为3.794786972,4.3389

12、55014,1.899946294,1.053855894,标准差偏小,说明第1类样品数据较为集中,与聚点偏差不大,分类较好。第2类的均值为与其聚点相近,第2类内变量各自对应的标准差分别为4.910629869,2.908116720,4.608723916,2.671039832标准差偏小,说明第2类数据较为集中,与聚点偏差不大,分类较好。第3类的均值为与其聚点相近,第3类内变量各自对应的标准差为4.993505397,3.126499640,5.272935250,2.979739276标准差较小,说明第3类数据较为集中,与聚点偏差不大,分类较好。综上关于采用欧氏距离将附录中表1数据分3类

13、这3类的均值及标准差的分析,这3类分类合理。5.2用快速聚类法并用绝对距离分3类距离与相似系数是聚类分析的出发点,距离是衡量样品间的相似度的量,不同的距离定义,得出的分类结果一般也不同。题一用的是欧氏距离。题二采用绝对距离进行快速聚类。通过SAS系统中的proc astclus过程(见附录)得到以下结果快速聚类法按绝对距离把表1(附录)数据分为3类,初始聚点是:,,它们对应的植物编号是19,58,117。表6 按绝对距离分3类的结果第1类第2类第3类植物序号1,6,10,18,26,3136,37,40,42,4447,51,52,54,5556,59,60,61,6465,68,69,72,

14、73,79, 80,88,89,9296,97,101,102107,108,113,116,125,126,135,136137,139,140,144145,146,1502,4,7,13,15,1720,21,23,24,2734,35,39,41,4550,58,74,7581,82,84,90,103105,111,112,123124 127,128,131132,133,148,1493,5,8,9,11,1214,16,19,22,2528,29,30,32,3338,43,46,4849,53,57,62,6366,67,70,71,7677,83,85,86,8791,93,94,95,98,99,100,104,106109,110,114,115117,118,119,120121,122,129,130134,138,141142,143,147频数503862表6同题一的表1相比,题二中的第2类比题一的第2类多了序号为34、131、148的样本,而第3类相比题一减少了序号为34、131、148样本。进一步地,根据表6数据结合题意分析分类的实际意义,总结如表6表7 3类植物萼片及花瓣情况项目类别

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号