多元统计应用第4讲(聚类分析)

上传人:飞*** 文档编号:51643085 上传时间:2018-08-15 格式:PPT 页数:44 大小:191.50KB
返回 下载 相关 举报
多元统计应用第4讲(聚类分析)_第1页
第1页 / 共44页
多元统计应用第4讲(聚类分析)_第2页
第2页 / 共44页
多元统计应用第4讲(聚类分析)_第3页
第3页 / 共44页
多元统计应用第4讲(聚类分析)_第4页
第4页 / 共44页
多元统计应用第4讲(聚类分析)_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《多元统计应用第4讲(聚类分析)》由会员分享,可在线阅读,更多相关《多元统计应用第4讲(聚类分析)(44页珍藏版)》请在金锄头文库上搜索。

1、2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved数理统计及其应用聚类分析Cluster Analysis2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved第一节 聚类分析方法 第二节 聚类统计量 第三节 无量纲化方法 第四节 Q型系统聚类法 第五节 R型系统聚类法第六节 快速聚类法 推荐阅读2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved第一节 聚类分析方法n聚类分析是根据“物以类聚”的道理,对样品或 指标

2、进行分类的一种多元统计分析方法,它们 讨论的对象是大量的样品,要求能合理地按各 自的特性来进行合理的分类,没有任何模式可 供参考或依循,即是在没有先验知识的情况下 进行的。n基本思想是根据事物本身的特性研究个体分类 的方法;聚类原则是同一类中的个体有较大的 相似性,不同类中的个体差异很大。2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reservedn基本程序:是根据一批样品的多个观测指标, 具体地找出一些能够度量样品或指标之间相似 程度的统计量,然后利用统计量将样品或指标 进行归类。n具体进行聚类时,由于目的、要求不同,因而 产生各种不同的聚

3、类方法:n由小类合并到大类的方法n由大类分解为小类的方法n静态聚类法、动态聚类法n按样本聚类(Q)、按指标聚类(R)2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reservedn在社会经济领域中存在着大量分类问题,如:对我国31个省市自治区独立核算工业企业经济 效益进行分析,一般不是逐省市自治区去分析 ,而较好地做法是选取能反映企业经济效益的 代表性指标,如百元固定资产实现利税、资金 利税、产值利税率等,根据这些指标对全国各 省市自治区进行分类,然后根据分类结果对企 业经济效益进行综合评价,就易于得出科学的 分析。2006-2007,wenj

4、ie, 福建师大福清分校 数学与计算机科学系 All rights reserved第二节 聚类统计量n一、概述n二、Q型聚类统计量n三、R型聚类统计量2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved概述n设有n个样本单位,每个样本测得p项指 标(变量),原始资料阵为:nQ型聚类以距离作为统计量,R型聚类以 相似系数作为统计量。2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reservedQ型聚类统计量(距离)n把n个样本点看成p维空间的n个点n1、绝对距离(Block距离)n2、

5、欧氏距离(Euclidean distance)2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reservedn3、明考斯基距离(Minkowski)n4、兰氏距离n5、马氏距离n6、切比雪夫距离(Chebychev)2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reservedR型聚类统计量n对两个指标之间的相似程度用相似系数 来刻划,相似系数的绝对值越接近于1, 表示指标间的关系越密切,绝对值越接 近于0,表示指标间的关系越疏远。2006-2007,wenjie, 福建师大福清分校 数学与计

6、算机科学系 All rights reservedn1、夹角余弦n2、相关系数n3、同号率2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved第三节 无量纲化方法n所谓无量纲化处理,是将原始数据矩阵 中每个元素按照某种特定的运算把它变 成一个新值,且是数值的变化不依赖于 原始数据中其它数据的新值。2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reservedn1、极差正规化(规格化变换、阈值法)n2、标准化变换n3、功效系数法n4、相对化变换2006-2007,wenjie, 福建师大

7、福清分校 数学与计算机科学系 All rights reservedn例:某年我国部分省市经济效益情况n用以上几种方法对其无量纲化。指标标实际值实际值 北京天津上海江苏苏广东东产产品销销售率(%) 资资金利税率(%) 成本利润润率(%) 劳动劳动 生产产率(元/人) 流动资动资 金周转转次数(次 ) 净资产净资产 率(%)96.01 14.90 9.51 14830 1.68 28.4095.72 9.21 3.35 10004 1.79 26.4898.42 13.88 7.55 15545 1.80 25.5693.43 10.75 3.99 9708 2.21 22.3095.16 10

8、.25 5.03 14590 1.87 25.012006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved第四节 Q型系统聚类法n系统聚类法(层次聚类法):在聚类分析的开 始,每个样本自成一类;然后 ,按照某种方法 度量所有样本之间的亲疏程度,并把最相似的 样本首先聚成一小类;接下来,度量剩余的样 本和小类间的亲疏程度,并将当前最接近的样 本或小类再聚成一类;再接下来,再度量剩余 的样本和小类间的亲疏程度,并将当前最接近 的样本或小类再聚成一类;如此反复,直到所 有样本聚成一类为止。2006-2007,wenjie, 福建师大福清分校 数

9、学与计算机科学系 All rights reserved步骤:n1、对数据进行变换处理,消除量纲n2、构造n个类,每个类只包含一个样本计算n3、n个样本两两间的距离dijn4、合并距离最近的两类为一新类n5、计算新类与当前各类的距离,重复(4)n6、画聚类图n7、决定类的个数和类2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved类与类间距离的确定n一、最短距离法n二、最长距离法n三、中间距离法n四、重心距离法n五、类平均法n六、离差平方和2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights

10、reserved最短距离法(Nearest Neighbor)n以当前某个样本与已经形成的小类中的各样本 距离中的最小值作为当前样本与该小类之间的 距离。省份x1x2x3x4x5x6x7x8 辽辽宁 浙江 河南 甘肃肃 青海7.907.689.42 9.16 10.0639.77 50.37 27.93 27.98 28.648.49 11.35 8.20 9.01 10.5212.94 13.30 8.14 9.32 10.0519.27 19.25 16.17 15.99 16.1811.05 14.59 9.42 9.108.392.04 2.75 1.55 1.82 1.9613.29

11、 14.87 9.76 11.35 10.81例1:为了研究辽宁省5省区某年城镇居民生活消费的分 布规律,根据调查资料做类型划分(spssex/ex501)2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reservedG1=辽宁,G2=浙江,G3=河南,G4=甘肃,G5=青海=(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)20.5=11.67d13=13.80 d14=1

12、3.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.211 2 3 4 5 D1=1 02 11.67 03 13.80 24.63 04 13.12 24.06 2.20 05 12.80 23.54 3.51 2.21 0河南与甘肃的距离最 近,先将二者(3和4 )合为一类G6=G2, G42006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reservedd61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24

13、.06d65=d(3,4)5=mind35,d45=2.216 1 2 5 6 0D2= 1 13.12 02 24.06 11.67 05 2.21 12.80 23.54 0d71=d(3,4,5)1=mind13,d14,d15=12.80;d72=d(3,4,5)2=mind23,d24,d25=23.547 1 2D3=7 01 12.80 02 23.54 11.67 0河南、甘肃与青海并为 一新类G7=G6, G5=G3,G4,G6G8=G1,G22006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reservedd78=mind71,

14、d72=12.807 8D4= 7 08 12.8 0河南3甘肃4青海5辽宁1浙江22006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved最长距离法(furthest neighbor)n以当前某个样本与已经形成的小类中的 各样本距离中的最大值作为当前样本与 该小类之间的距离。例2:对例1的数据以最长距离法聚类 。2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reservedd13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.

15、54 d34=2.2 d35=3.51 d45=2.211 2 3 4 5 D1= 1 02 11.67 03 13.80 24.63 04 13.12 24.06 2.20 05 12.80 23.54 3.51 2.21 0河南与甘肃的距离最近,先将二者(3和4 )合为一类G6=G2,G42006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reservedd61=d(3,4)1=maxd13,d14=13.80 d62=d(3,4)2=maxd23,d24=24.63 d65=d(3,4)5=maxd35,d45=3.516 1 2 5 6 0 D2=1 13.80 02 24.63 11.67 05 3.51 12.80 23.54 0河南、甘肃与青海并为一新类G7=G6

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号