聚类分析例题

上传人:m**** 文档编号:564754129 上传时间:2023-12-28 格式:DOCX 页数:14 大小:77.17KB
返回 下载 相关 举报
聚类分析例题_第1页
第1页 / 共14页
聚类分析例题_第2页
第2页 / 共14页
聚类分析例题_第3页
第3页 / 共14页
聚类分析例题_第4页
第4页 / 共14页
聚类分析例题_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《聚类分析例题》由会员分享,可在线阅读,更多相关《聚类分析例题(14页珍藏版)》请在金锄头文库上搜索。

1、聚类分析例题52由卩酒葡萄的等级划分5 21葡萄酒的质量分类由问题1 中我们得知,第二组评酒员的的评价结果更为可信,所以我们通过第二组评 酒员对于 酒的评分做出处理。我们通过excel计算出每位评酒员对每支酒的总分,然后计算出每支酒的10个 分数的平均值,作为总的对于这支酒的等级评价。通过国际酿酒工会对于葡萄酒的分级,以百分制标准评级,总共评出了六个级别(见 表5)。等级特优优优良良及格不及格分数95-10090-9480-8970-7960-690-59表5 :葡萄酒等级表些在问题2的计算中,我们求出了各支酒的分数,考虑到所有分数在区间61 6, 8L 5波动,以些原等级表分级,结果将会很模

2、糊,不能分得比较清晰。为此我们需要进一步细化等 级。为此我们重 新细化出 5 个等级,为了方便计算,我们还对等级进行降序数字等级(见表 6) 些等级偏优偏优良良中及格分数80-8475-7970-7465-6960-64数字等级51321些通过对数据的预处理,我们得到了一个新的矢于葡萄酒的分级表格(见表7):表7 :各支葡萄酒的等级编号红酒原等级1号 2号 3号 4号 号 6号 号6&1细化等级2 -白酒779原等级细化等级7474.671.272. 166. 365733332233228号 9号 10号 号号 13号 14号 15号 16号 17号 18号19号20号21号667& 26&

3、86166& 36&72.665.769974.565472.675.8722223222232375.875.67537472380.479872.473977. 178.467380.376776.476.6792543322号/1633/943423号77. 13477.43424号71.53376. 13425号6& 22279.53426号723374.33327号71.533773428号79.634经过整埋,我#L初步得到了对于匍萄酒田勺质量的分1的表格。考虑到葡萄酒的质量与酿酒葡萄间有比较之间的矢系,我们将保留葡萄酒质量对于酿酒葡萄 的影响,些些些些先单纯从酿酒葡萄的理化指标对

4、酿酒葡萄进行分类,然 后在通过葡萄酒质量对酿酒些些些些葡萄质量的优劣进一步进行划分。5. 2. 2 建立模型在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程我们用到了聚类分析方法中的 ward 最小方差 法,又叫做离差平方和法。聚类分析是研究分类问题的一种多元统计方法。所谓类,通俗地说,就是指相似元素的 集合。为 了将样品进行分类,就需要研究样品之间矢系。这里的最小方差法的基本思想就是 将一个样品看作 P 维空间的一个点,并在空间的定义距离,距离较近的点归为一类;距离较 远的点归为不同的类。面对 现在的问题,我们不知道元素的分类,连要分成几类都不知道。现 在我们将用 SAS 系统里面 的 step

5、disc 和 cluster 过程完成判别分析和聚类分析,最终确定 元素对象的分类问题。建立数据阵,具体数学表示为:扎伽X ( 5 2 1)乂 X 叽式中,行向量 x 严兀,”)表示第 j 个样品;列向量 Xj=(xj, -, W,表示第 j 项指标。(i=l, 2, n; j=l, 2, -m)接下来我们将要对数据进行变化,以便于我们比较和消除纲号。在此我们用了使用最广 范的方 法ward最小方差法。其中用到了类间距离来进行比较,定义为:2 二 n 疋一疋 il2 /(I/哄 +1/耳)(5. 2.2)Ward 方法并类时总是使得并类导致的类内离差平方和增量最小。系统聚类数的确定。在聚类分析

6、中,系统聚类最终得到的一个聚类树,如何确定类的个 数,这是 一个十分困难但又必须解决的问题;因为分类本身就没有一定标准,人们可以从不 同的角度给出不同 的分类。在实际应用中常使用下面几种方法确定类的个数。由适当的阀值确定,此处阀值为 Q-根据样本的散点图直观的确定。当样本所含指标只有 2 个或 3 个时,可运用散点图直观 观察。如 果指标超过 3 个时,可用主成份法先综合指标。根据统计量确定分类个数。在 SAS 中,提供了一些来自方差分析思想的统计量近似检验类个数如何选择更合适。统计量:疋二 l_s ; /S ; =S ; /S ;(5. 2. 3)其中,s ;为分类数为k个数时的总类内离差平

7、方和,S ;为所有样品或变量的总离差平方和。F 越大,说明类内的离差平方和在总离差平方和中比例较小,也就是分为k个类的效果越好。显然分 类越多,每个类离差越小,疋越大,所以我们只能取k使得用足够大,但k本 身比较小,而且疋不 再大幅度增加。2) 半偏F统计量:在把类Q和类C,合并为下一水平的类时,定义半偏相矢:半偏 F 二 Bu/T(5. 2. 4)其中以为合并类引起的类内离差平方和的增量:ST为类C,的类内离差平方和。半偏F用于评价单次合并效果,其值越大,说明上次合并效果越好。3) 伪F统计量:(5. 2.5)伪“统计量评价分为k个类的效果。伪F统计量越大,表达分为k个类越合理。通常取伪F统

8、 计量较大而类数小的聚类水平。4) 伪尸统计量:广二刃(S 女 + SJ / 巾人 + q - 2)(5. 2. 6)用此统计量评价合并类G和类q的效果,该值大说明合并的两个类Q和类C,是很分开的,这个合并不成功,而应该去合并前的水平。通过使用 sas 软件的 cluster 过程和 tree 过程,可以求解分析出结果。5. 2. 3 模型的求解与分析首先,我们利用附件 2 中白葡萄酒中酿酒葡萄的 59 个理化指标,通过聚类分析,把 酿酒葡萄 分成五类,得到初步的结果(见图 3):从图中我们能够直观的看到把酿酒葡萄分为 5 大类,为了检验效果,我们通过判别分 析检验原 本的 28 种葡萄分类的

9、结果,得到表&组号12概率0. 27270. 12503450. 33330. 40001.000表 8 :误判概率表(具体表见附录)在误差一栏我们看到,每一组的分类都存在或多或少的误差,我们觉得这个结果是不 满意的 为了进一步优化方案以及简化分析过程,我们利用逐步判别法对参与分类的因素进 行逐步剔除,以 达到减少噪声干扰的目的,让得到的结果更加合理和完善。通过逐步判别法,我们剔除了原本 59 个数据中的 35 个相矢不大,造成干扰的因素, 剩下了24 个因素。经过剔除干扰项后,为了检验剔除后干扰项后的结果是否更加合理,我 们重新对剩余的24 个因素进行了聚类分析,做谱系聚类图和判别分析。得到

10、了新的结果 (见表 9):图3:谱系聚类图图4:优化后的谱系聚类表 9 :优化后的聚类分析部分结果(详细见附录)分类数样品数半偏R伪F统计虽伪尸统计量640.01710.91547.69. 1560. 05000. 86537.06. 14110. 06120. 80432.917.33210.10320. 70129.317.9270.16480. 53630. 110.01280. 5362030. 1综合个数据检验,把葡萄分为5个类别是比较合理的一种方案,为了检验与之前的差异我们得 到 了 新 的 谱 系 聚类 图( 见 图4 )通过对比前后的两图,我们可以发现,分类的结果除了组间的类别

11、有点波 动之外,整 体的分组是没有改变的。所以,我们第一步得到了优化结果的可靠。但仅仅用图说明是不够 的,为此我们 通过判别分析法,通过具体数据来说明分 析结果的可靠。组号12345概率000. 166701.000表 10 :优化后的判别分析表数据我们不难发现,表中的错误只在第 3组出现了 0. 1667的误差,其他组是没有存在误差的。 这个结果是比较令人满意也令人信服的。由此,我们得到的结果是,我们此次对于白葡萄酒 的酿酒葡萄进些些行的分类是合理可靠的 。具体分类结果为:表 11 :白葡萄酒酿酒葡萄分类分类/组数组别A/共组Pl, P& P13, P16, P17, P18, P19, P

12、22B/共组P14, P21, P23C/共组P2, P3, P4, P6, P7, P9,P11,P12D/共组PIO, P20, P25, P26E/共组P3, P5, P15, P24, P27, P28通过该组的成功检验,我们接下来将会对红葡萄酒的酿酒葡萄进行同算法的分类。由 于用到些些的算法与检验方法一样,所以这里不再累赘,将直接输出最后分组结果。部分详细内 容见附录。表 12 :红葡萄酒酿酒葡萄的分类分类/组数组别A/共组Pl, P4, P5, P& P15,P17, P24B/共组P2, P7, P9, Pll, P19, P20, P22, P23C/共组PIO, P13, P

13、14, P16, P25, P26, P27D/共组P6, P12, P18E/共组P3, P21分类完毕,接下来我们将利用矢于红酒质量的评分等级来对对应的葡萄进行评分,首些先应该说明的是,烂葡萄是不能酿出好酒,根据这个,我们可以客观的说出一点,一般好的 葡萄能 酿出好的酒,可能酿酒过程会意外让酒变质导致酒变差,但好的酒由好的葡萄酿制出 来是毫无疑问 的。为此我们把对于酒的等级相当于对葡萄打分。每种葡萄分别得到分数S、/表示第i种葡萄。通过将每组的葡萄总分除以组内总数得到的数据,对葡萄进行分分类指标二工&/组内数通过指标的具体分数,我们就可以轻松对葡萄进行等级划分,结果见表 13 :表 13 :对白葡萄酒和红 葡萄酒的酿酒葡萄评价分类有白葡萄酒酿酒葡萄得分EBCD厂4.23. 753.62红葡萄酒酿酒葡萄得分等级特优 优 良好 中 等级B,E良好proc cluster data=wg outtree 二 tree method=wardccc pseudo print=15;var al-a59;id number;run;proc tree data=tree out 二 new nclusters=5 graphics;copy ala59;id number ;run;proc stepdisc data Z1 new;clas

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号