应用统计补充专题

上传人:博****1 文档编号:513909884 上传时间:2023-06-04 格式:DOC 页数:10 大小:82KB
返回 下载 相关 举报
应用统计补充专题_第1页
第1页 / 共10页
应用统计补充专题_第2页
第2页 / 共10页
应用统计补充专题_第3页
第3页 / 共10页
应用统计补充专题_第4页
第4页 / 共10页
应用统计补充专题_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《应用统计补充专题》由会员分享,可在线阅读,更多相关《应用统计补充专题(10页珍藏版)》请在金锄头文库上搜索。

1、补充专题2:判别分析和聚类分析一、判别分析和聚类分析判别分析解决这样的问题:事先知道研究对象分为几个类别,而且有一些类别已知的样品,从这些类别已知的样品出发,建立一种判别方法,对类别未知的样品进行分类。聚类分析解决这样的问题:有一些样品需要分类,但是它们可以分为哪几类,各是什么样的类型,事先都不知道,也没有已知类别的样品可以作为参考,为此,只能根据“物以类聚”的原则,把特性比较接近的样品聚集在一起,成为一类。这就是聚类分析。二、聚类分析问题举例:1. 动植物的分类采集了一大批动物或植物的标本,事先不知道它们可以分为几类,只是根据从标本测得的各种数据(如动物的各种体形特征,植物的各种外形尺寸),

2、考虑把特征相近的标本聚集在一起,分成几类,这就是一个聚类分析问题。2. 上市股票的分类股市中有成百上千只股票,每只股票都有大批数据(如股票价格、成交量、市盈率、公司资本、负债、产值、利润等),根据这些数据把特征相近的股票聚集在一起,分成几类,这也是一个聚类分析问题。3. 不同情况气象年份的分类对某地积累了许多年的气象资料,每一年都有一大批数据(如该年各个月份的平均气温、降水量、年最高气温、年最低气温等),要求把气象情况相近的年份聚集在一起,分成几类,这也是一个聚类分析问题。4. 教学评估后,依照各项指标得分对高校办学水平的等级进行分类;世界杯结束后,依进球数和失球数对参赛球队的水平进行分类等,

3、都可用聚类分析的方法解决。三、聚类分析的方法方法很多,最常用也比较成熟的一种方法是系统聚类法(Hierarchical Clustering Method),也称谱系聚类法。1. 相似度的测量1)样品间的距离:常见的有绝对值距离、欧氏距离等。设有p个指标X1,X2,Xp, 进行了n次观测,得到样本观测值为xi=(xi1, xi2, , xip),i=1,2, ,n. 第i个与第j个样品之间的欧氏距离定义为2)类与类之间的距离:常见的有最短距离、最长距离、重心距离等。其中最短距离定义为类Gi与类Gj中两个最近元素之间的距离为这两类之间的最短距离。计算公式为D1(i, j)=mindijiGi,

4、jGj2. 系统聚类法的基本思路和计算流程:1)将n个样品分为n类,每类一个样本。2)选择样品间距离的计算方法,如欧氏距离。3)选择类与类之间距离的计算方法,如最短距离。4)选择距离最小的两类合并为一个新类,原来n类减少为n-1类。5)重复第4)步,直到合并为一大类为止。6)画出分类图, 并做出分析。四、系统聚类法实例【例1】有8个样本,每个样本2个指标,数据如表1所示。样品之间的距离用欧氏距离,类与类之间的距离用最短距离,使用系统聚类法对这8个样本进行分类。样本编号12345678指标12244-4-2-3-1指标25343322-3解:系统聚类过程如下。1)将8个样品分为8类。2)计算类与

5、类之间的距离矩阵3)由D0看出,最小元素为1.0,是G3和G4、G6和G7间的距离,将G3和G4合并为新类G9,将合G3和G4并为新类G10 .4)重新计算新类之间的距离矩阵5)由D1看出,最小元素为1.4,是G5和G10间的距离,将G5和G10合并为新类G11 .6)重新计算新类之间的距离矩阵7)由D2看出,最小元素为2,是G1和G2、G2和G9间的距离,将G1 、G2和G9合并为新类G12 .8)重新计算新类之间的距离矩阵9)由D3看出,最小元素为4.1,是G11和G12间的距离,将G11和G12合并为新类G13 .最后将G8和G13合并为一类.10)画出分类图:(此例只考虑两个指标,故可

6、画出指标1、指标2观察值的散点图,与分类图与相对照)G12G9G9G13G12G11G1067583421 / 文档可自由编辑打印11)从聚类图可以看出,当样品分为两类时,第一类为样品8,第二类为样品1,2,3,4, 5,6,7,;当样品分为三类时,第一类为样品8,第二类为样品5,6,7;第三类为样品1,2, 3,4。依次类推,可以分出不同数量类别时,各类所包含的样品。【例2】2002年世界杯足球赛中,前16名的球队在此前的小组赛中的进球数和失球数统计如表2所示。样本点之间的距离用欧氏距离,类与类之间的距离用最短距离,使用系统聚类法对这16个球队进行分类。球队编号球队名称进球数失球数1丹麦522塞内加尔543西班牙944巴拉圭665巴西1136土耳其537韩国418美国569德国11110爱尔兰5211瑞典4312英格兰2113墨西哥4214意大利4315日本5216比利时65解:散点图分类谱系图:从谱系图可以看出,当样本分为两类时,第一类为,第二类为;当样本分为三类时,第一类为,第二类为;第三类为。依次类推,可以分出不同数量类别时,各类所包含的球队。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号