应用统计学.6

上传人:E**** 文档编号:118218905 上传时间:2019-12-11 格式:PDF 页数:97 大小:361.15KB
返回 下载 相关 举报
应用统计学.6_第1页
第1页 / 共97页
应用统计学.6_第2页
第2页 / 共97页
应用统计学.6_第3页
第3页 / 共97页
应用统计学.6_第4页
第4页 / 共97页
应用统计学.6_第5页
第5页 / 共97页
点击查看更多>>
资源描述

《应用统计学.6》由会员分享,可在线阅读,更多相关《应用统计学.6(97页珍藏版)》请在金锄头文库上搜索。

1、应用统计学应用统计学应用统计学应用统计学 任 飞任 飞 华东理工大学 商学院华东理工大学 商学院 email:fren email:fren 聚类分析聚类分析聚类分析聚类分析 前言前言前言前言 ?聚类分析是用多元统计理论进行 分类的一种方法 聚类分析是用多元统计理论进行 分类的一种方法 ?聚类的原则是聚类的原则是“组(类)内同质, 组(类)间差异 组(类)内同质, 组(类)间差异” ?本讲所介绍的是系统聚类法和有 序样品聚类法 本讲所介绍的是系统聚类法和有 序样品聚类法 聚类的尺度聚类的尺度聚类的尺度聚类的尺度 聚类分析是通过被分类的对象的聚类分析是通过被分类的对象的 各种指标进行分类的,而指

2、标按各种指标进行分类的,而指标按 其测量的尺度可以有以下三种:其测量的尺度可以有以下三种: 间隔尺度间隔尺度 有序尺度有序尺度 名义尺度名义尺度 在实际问题中,在实际问题中, 收集n个收集n个样品样品样品样品,对每一个样品测量p 个 ,对每一个样品测量p 个指标指标指标指标: 可以根据p个指标值对n个样品进行分类可以根据p个指标值对n个样品进行分类 也可以根据n个样品对p个指标进行分类也可以根据n个样品对p个指标进行分类 数据表数据表 指标指标 样品样品 1 2 1 2 p p 1 1 2 2 n n x x11 11 x x12 12 x x1p 1p x x21 21 x x22 22 x

3、 x2p 2p x xn1 n1 x xn2 n2 x xnp np ?衡量衡量两个样品两个样品两个样品两个样品之间的接近程度的方法:之间的接近程度的方法: 将每个样品看成p维空间中的一个点,将每个样品看成p维空间中的一个点, 在p维空间中定义在p维空间中定义两点的距离两点的距离两点的距离两点的距离, 距离近, 距离近 的点归为一类。的点归为一类。 ?衡量两个衡量两个指标指标指标指标之间的接近程度的方法:之间的接近程度的方法: 可定义指标间的可定义指标间的相似系数相似系数相似系数相似系数,相似系数越,相似系数越 接近1或-1的,两个指标就越相似,可以接近1或-1的,两个指标就越相似,可以 归为

4、一类。归为一类。 间隔间隔间隔间隔尺度的度量尺度的度量尺度的度量尺度的度量 ?距离距离 ?相似系数相似系数 数据的标准化处理数据的标准化处理数据的标准化处理数据的标准化处理 ?为了消除指标间的量纲的影响,对 数据常常进行标准化处理 为了消除指标间的量纲的影响,对 数据常常进行标准化处理 j jij ij s xx x = j jij ij R xx x = 标准差标准化标准差标准化 极差标准化极差标准化 距离距离距离距离 以d以dij ij表示第i个样品与第j个样品之间的距 离,作为p维空间中两点距离,要满足: 表示第i个样品与第j个样品之间的距 离,作为p维空间中两点距离,要满足: ?d d

5、ij ij0 ,对一切i,j 0 ,对一切i,j ?d dij ij0 ,当第i个样品与第j个样品p个指 0 ,当第i个样品与第j个样品p个指 标都相同标都相同 ?d dij ij d dji ji ,对一切i,j,对一切i,j ?d dij ij d dik ik+ d + dkj kj ,对一切i,j,k,对一切i,j,k 最常用的距离最常用的距离最常用的距离最常用的距离 ?绝对值距离绝对值距离 ?欧氏距离欧氏距离 ?闵氏距离闵氏距离 ?切比雪夫距离切比雪夫距离 ?马氏距离马氏距离 绝对值距离绝对值距离绝对值距离绝对值距离 = = p 1k jkikij xx)1 (d 欧氏距离欧氏距离欧

6、氏距离欧氏距离 2 1 (2)() p ijikjk k dxx = = 闵氏距离闵氏距离闵氏距离闵氏距离 q 1 p 1k q jkikij xx)q(d = = 切比雪夫距离切比雪夫距离切比雪夫距离切比雪夫距离 () 1 max ij d ikjk kp xx = 马氏距离马氏距离马氏距离马氏距离 )xx(S)xx()M(d ji 1 ji 2 ij = (), i=1,2,p j=1,2,p ijij Ss=L L 11 11 ()() , 1 nn ijkiikjjiki kk sxxxxxx nn = = 相似系数相似系数相似系数相似系数 以c以cij ij表示第i个指标与第j个指标

7、之间 的相似系数,要满足: 表示第i个指标与第j个指标之间 的相似系数,要满足: ?ccij ij1 ,对一切i,j 1 ,对一切i,j ?c cij ij 1 ,当且仅当1 ,当且仅当 x x x x i i i i x x x x j j j j ?c cij ij c cji ji,对一切i,j ,对一切i,j 最常用的相似系数最常用的相似系数最常用的相似系数最常用的相似系数 = = = n 1k 2 kj n 1k 2 ki n 1k kjki ij xx xx )1 (c = = = n k jkj n k iki n k jkjiki ij xxxx xxxx c 1 2 1 2

8、1 )()( )()( )2( 相关系数相关系数 夹角余弦夹角余弦 夹角余弦与相关系数示意图夹角余弦与相关系数示意图 0 xi xj ),( ji xx SPSSSPSSSPSSSPSS中聚类分析的距离选择中聚类分析的距离选择中聚类分析的距离选择中聚类分析的距离选择 AnalyzeAnalyzeAnalyzeAnalyze ClassifyClassifyClassifyClassify Hierarchical ClusterHierarchical ClusterHierarchical ClusterHierarchical Cluster MethodMethodMethodMetho

9、d ?在在MeasureMeasureMeasure栏中选择距离测度方法:Measure栏中选择距离测度方法: ? ? Block Block Block Block -d d d dij ijijij(1) (1)(1)(1) ? ? Euclidean distance Euclidean distance Euclidean distance Euclidean distance -d d d dij ijijij(2) (2)(2)(2) ? ? Squared Euclidean distanceSquared Euclidean distanceSquared Euclidean

10、distanceSquared Euclidean distance ? ? ChebychevChebychevChebychevChebychev -d d d dij ijijij( ( ( ( ) ) ) ) ? ? MinkowskiMinkowskiMinkowskiMinkowski -d d d dij ijijij(q (q(q(q) ) ) ) ? ? Cosine Cosine Cosine Cosine -c c c cij ijijij(1) (1)(1)(1) ? ? Pearson correlation Pearson correlation Pearson c

11、orrelation Pearson correlation -c c c cij ijijij(2) (2)(2)(2) 系统聚类法的基本思路系统聚类法的基本思路系统聚类法的基本思路系统聚类法的基本思路 基本思想基本思想基本思想基本思想逐步将距离近的类合并在一起逐步将距离近的类合并在一起 具体做法具体做法具体做法具体做法 先将n个样品各自看成一类,即有先将n个样品各自看成一类,即有n个类n个类, (此时的类间距离为样品间距离),(此时的类间距离为样品间距离), 选择距离最小的合并成一个新类;选择距离最小的合并成一个新类; 定义新类与新类之间的距离,定义新类与新类之间的距离, 然后再将距离最小

12、的合并;然后再将距离最小的合并; 每合并一次,至少减少一类;每合并一次,至少减少一类; 直到所有的样品都并成直到所有的样品都并成一类一类为止为止 X1 86420-2-4-6 X2 8 6 4 2 0 -2 -4 -6 21 20 19 18 17 16 15 14 1312 11 10 9 8 7 6 5 4 32 1 例例例例7.07.07.07.0 X1 86420-2-4-6 X2 8 6 4 2 0 -2 -4 -6 21 20 19 18 17 16 15 14 1312 11 10 9 8 7 6 5 4 32 1例例例例7.07.07.07.0- - - -1 1 1 11=

13、ij d X1 86420-2-4-6 X2 8 6 4 2 0 -2 -4 -6 21 20 19 18 17 16 15 14 1312 11 10 9 8 7 6 5 4 32 1例例例例7.07.07.07.0- - - -2 2 2 22= ij d X1 86420-2-4-6 X2 8 6 4 2 0 -2 -4 -6 21 20 19 18 17 16 15 14 1312 11 10 9 8 7 6 5 4 32 1例例例例7.07.07.07.0- - - -3 3 3 32= ij d 系统聚类法系统聚类法系统聚类法系统聚类法 ?最短距离法最短距离法 ?最长距离法最长距离

14、法 ?中间距离法中间距离法 ?重心法重心法 ?类平均法类平均法 ?离差平方和法离差平方和法 最短距离法最短距离法最短距离法最短距离法 ?在最短距离法中两类间的距离定义 为: 在最短距离法中两类间的距离定义 为: ij GjGi pq dminD q,p = 最短距离示意图最短距离示意图最短距离示意图最短距离示意图 D Dpq pq G Gp p G Gq q A* B* *C *D A* B* *C *D 聚类步骤聚类步骤聚类步骤聚类步骤- - - -1 1 1 1: ?规定样品间的距离,规定样品间的距离, 计算距离矩阵D计算距离矩阵D0 0 , , 其中 D其中 Dpq pq=d =dpq

15、pq 例例例例7.17.17.17.1 (1)样本间距离(1)样本间距离 采用绝对值距离,建立D采用绝对值距离,建立D0 0 G G1 1=X=X1 1 G G2 2=X=X2 2 G G3 3=X=X3 3 G G4 4=X=X4 4 G G5 5=X=X5 5 G G1 1=X=X1 1 G G2 2=X=X2 2 G G3 3=X=X3 3 G G4 4=X=X4 4 G G5 5=X=X5 5 0 0 1 01 0 2.5 1.5 02.5 1.5 0 6 5 3.5 06 5 3.5 0 8 7 5.5 2 08 7 5.5 2 0 聚类步骤聚类步骤聚类步骤聚类步骤- - - -2 2 2 2: ?选择D选择D0 0 中最小元素,设为D 中最小元素,设为Dpq pq, , 将G将Gp p与G与Gq q合并成一个新类,记为G合并成一个新类,记为Gr r, 则G则Gr r= G= Gp p, G, Gq q 例例例例7.17.17.17.1 (2) (2) D D0 0中最小元素为1中最小元素为1 G G1 1=X=X1 1 G G

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号