多元统计分析课件(聚类分析)

上传人:ldj****22 文档编号:51576280 上传时间:2018-08-15 格式:PPT 页数:107 大小:1.32MB
返回 下载 相关 举报
多元统计分析课件(聚类分析)_第1页
第1页 / 共107页
多元统计分析课件(聚类分析)_第2页
第2页 / 共107页
多元统计分析课件(聚类分析)_第3页
第3页 / 共107页
多元统计分析课件(聚类分析)_第4页
第4页 / 共107页
多元统计分析课件(聚类分析)_第5页
第5页 / 共107页
点击查看更多>>
资源描述

《多元统计分析课件(聚类分析)》由会员分享,可在线阅读,更多相关《多元统计分析课件(聚类分析)(107页珍藏版)》请在金锄头文库上搜索。

1、Cluster Analysis 第五章聚类分析第五章聚类分析第一节 什么是聚类分析聚类分析也是一种分类技术。是研究“物以类聚”的一种方法。与多元分析的其他方法相比,该方法理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,应用方面取得了很大成功。举 例对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能 力和语言理解能力。其得分如下,选择合 适的统计方法对应聘者进行分类。应聘者得分如下应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424例如,对上市公司的经营业

2、绩进行分类;例如,根据经济信息和市场行情,客观地对不同商品、不同用户及时地进行分类。例如,当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。 聚类分析内容系统聚类动态聚类模糊聚类图论聚类第二节距离和相似系数描述亲疏程度有两个途径:1、把每个样品看成p维(变量的个数为 p个)空间的一个点,在p维坐标中,定义点与点之间的距离。2、用某种相似系数来描述样品之间的亲 疏程度。变量的类型变量按测量尺度的不同可以分为以下三类:1、间隔尺度变量(数值型变量)用连续的数量来度量,如长度、

3、重量、产值、成本2、有序尺度变量(有序变量)如一、二、三等品不能用明确的数量度量,用等级表示,有次序关系。3、名义尺度变量用一些类来表示。性别中的男与女,职业的分类。聚类的种类聚类的种类根据分类的对象可将聚类分析分为:(1)Q型(即样品的聚类clustering for individuals)(2)R型(即变量或指标的聚类 clustering for variables)1 1、对样品分类(、对样品分类(Q Q型)型)常用的距离与相似系数的定义常用的距离与相似系数的定义样本资料矩阵样本资料矩阵(1 1)距离)距离假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p

4、维空间中的n个点,则第i样品与第j样品之间的距离记为dij定义距离的准则定义第i个和第j个样品间的距离要求满足如下四个条件(距离可以自己定义,只要满足距离的条件):距离矩阵样品间距离矩阵明氏(明氏(MinkowskiMinkowski )距离距离绝对值距离绝对值距离绝对值距离绝对值距离实例实例欧式(欧式(EuclidianEuclidian )距离距离二维空间欧式距离二维空间欧式距离欧氏欧氏EuclidianEuclidian距离距离实例实例切比雪夫距离变量标准化变量标准化标准化欧式距离欧式距离马氏马氏MahalanobisMahalanobis 距离距离MahalanobisMahalano

5、bis 距离实例距离实例兰氏兰氏 CanberraCanberra距离距离距离矩阵样品间距离矩阵例 题学生的身高与体重资料样样品 1 2 3 4 5 6 7 8 9 身高 X1160 159 160 157 169 162 165 154 160体重 X249 46 53 41 49 50 48 43 45(2 2)相似系数)相似系数研究样品间的关系常用距离,研究指标(变量)间的关系常用相似系数。相似系数常用的有:夹角余弦与相关系数2、对指标(变量)分类(对指标(变量)分类(R R型)型)相似系数的定义相似系数的定义夹角余弦(夹角余弦(CosineCosine)相似矩阵变量间相似矩阵相关系数相

6、关系数相似矩阵第三节第三节 八种系统聚类方法八种系统聚类方法 (hierarchical clustering hierarchical clustering methodmethod) 将将n n个样品各作为一类个样品各作为一类系统聚类法是诸聚类分析方法中使用最多系统聚类法是诸聚类分析方法中使用最多的一种,按下列步骤进行:的一种,按下列步骤进行: 计算计算n n个样品两两之间的距离,构成距离矩阵个样品两两之间的距离,构成距离矩阵 合并距离最近的两类为一新类合并距离最近的两类为一新类 计算新类与当前各类的距离。再合并、计算计算新类与当前各类的距离。再合并、计算,直至只有一类为止,直至只有一类为

7、止 画聚类图,解释画聚类图,解释类与类之间的距离类与类之间的距离 1.最短距离法(single linkage) 2.最长距离法(complete linkage) 3.中间距离法(median method) 4.重心法(centroid method)5.类平均法(average linkage) 6.可变类平均法(flexible-beta method) 7.可变法 8.离差平方和法(Wards minimum- variance method)(一)(一)最短距离法最短距离法 (single linkage(single linkage,nearest neighbornearest

8、 neighbor) )类类间:两类间两两样品距离最短 x21x12x22x11递推公式例1 设抽取五个样品,每个样品只侧一个指标,他们是1,2,3.5,7,9,试用最短距离法对五个样品进行分类。(样品间用绝对值距离)D(0) 表1D(0) G1=X1G2=X2G3=X3G4=X4G5=X5G1=X1 0G2=X2 1 0G3=X3 2.5 1.5 0G4=X4 6 5 3.5 0G5=X5 8 7 5.5 2 0D(1)表2D(1) G6 G3 G4 G5G6=G1, G2 0G3=X3 1.5 0G4=X4 5 3.5 0G5=X5 7 5.5 2 0D(2)表3D(2) G7 G4 G5

9、G7=G3, G6 0G4=X4 3.5 0G5=X5 5.5 2 0D(3)表4D(3) G7 G8G7 0G8=G4,G5 3.5 0聚类谱系图聚类谱系图最短距离法最短距离法聚类的聚类的步骤步骤1、定义样品之间的距离,计算初始距离矩阵D(0)2、找出D(0)中非对角线上的最小值,设为Dpq,将对应的两 类Gp和Gq合并成一个新类,记为Gr ,即Gr=(Gp, Gq)3、计算新类与其它类之间的距离,得距离矩阵D(1) 。4、用D(1)代替D(0),重复2、3的过程得D(2),如此下去 直到所有样品合并成一类为止。(二)(二)最最长长距离法距离法(Furthest Neighbor )类类间:

10、两类间两 两样品距离最长的x11x21x11x21递推公式D(0)表1D(0) G1 G2 G3 G4 G5G1=X1 0G2=X2 1 0G3=X3 2.5 1.5 0G4=X4 6 5 3.5 0G5=X5 8 7 5.5 2 0D(1)表2D(1) G6 G3 G4 G5 G6=G1, G2 0G3=X3 2.5 0G4=X4 6 3.5 0G5=X5 8 5.5 2 0D(2)表3D(2) G6 G7 G3G6 0G7=G4,G5 8 0G3=X3 2.5 5.5 0D(3)表4D(3) G7 G8 G7 0G8=G3,G6 8 0(三)中间距离法Median method最短距离最长

11、距离中间距离如果在某一步将类Gp与Gq类合并为Gr,任一类Gk和新Gr的距离公式为:当 时,由初等几何知就是上面三角形的中线。D2(0) G1 G2 G3 G4 G5G1=X1 0G2=X2 1 0G3=X3 6.25 2.25 0G4=X4 36 25 12.25 0G5=X5 64 49 30.25 4 0D2(1) G6 G3 G4 G5G6=X1, X2 0G3=X3 4 0G4=X4 30.25 12.25 0G5=X5 56.25 30.25 4 0D2(2) G7 G4 G5G7 0 G4 20.25 0 G5 42.25 4 0D2(3) G7 G8 G7=X1, X2,X3

12、0G8=X4,X5 30.25 0(四)重心法(Centroid clustering):类类间:两类重心之间的距离即均值 点间的距离递推公式注意:初始距离用欧式距离则有下列D2(0) G1 G2 G3 G4 G5G1=X1 0G2=X2 1 0G3=X3 6.25 2.25 0G4=X4 36 25 12.25 0G5=X5 64 49 30.25 4 0D2(1) G6 G3 G4 G5G6=X1, X2 0G3=X3 4 0G4=X4 30.25 12.25 0G5=X5 56.25 30.25 4 0D 2(2) G7 G4 G5G7=X1, X2 X3 0G4=X4 23.36 0G5=X3 46.69 4 0D2(3)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号