案例 - 中国人民大学六西格玛质量管理研究中心

上传人:tian****1990 文档编号:81623987 上传时间:2019-02-21 格式:PPT 页数:40 大小:986.50KB
返回 下载 相关 举报
案例 - 中国人民大学六西格玛质量管理研究中心_第1页
第1页 / 共40页
案例 - 中国人民大学六西格玛质量管理研究中心_第2页
第2页 / 共40页
案例 - 中国人民大学六西格玛质量管理研究中心_第3页
第3页 / 共40页
案例 - 中国人民大学六西格玛质量管理研究中心_第4页
第4页 / 共40页
案例 - 中国人民大学六西格玛质量管理研究中心_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《案例 - 中国人民大学六西格玛质量管理研究中心》由会员分享,可在线阅读,更多相关《案例 - 中国人民大学六西格玛质量管理研究中心(40页珍藏版)》请在金锄头文库上搜索。

1、统计本科应用多元分析教学,Cluster Analysis,聚类分析(第1部分),第四军医大学卫生统计学教研室,2002年11月,一、 简介,第四军医大学卫生统计学教研室,2002年11月,聚类分析也是一种分类技术。与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。与回归分析、判别分析一起被称为多元分析的三大方法。,第四军医大学卫生统计学教研室,2002年11月,1. 聚类的目的,根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长距离法、中间距离法、重心法),使同一类内的差别较小,而类与类之间的差别较大,最

2、终将观察个体或变量分为若干类。,第四军医大学卫生统计学教研室,2002年11月,2. 聚类分析的应用例子,同一种疾病(如肝炎),根据临床表现等将病人分成若干类(甲、乙、丙、丁、戊型肝炎) 根据疾病的若干临床表现,将病人分成轻、中、重三型 在儿童生长发育研究中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类,第四军医大学卫生统计学教研室,2002年11月,3. 聚类的种类,根据分类的原理可将聚类分析分为: 系统聚类与快速聚类 根据分类的对象可将聚类分析分为: 系统Q型与R型(即样品聚类clustering for individuals 与指标聚类clustering for vari

3、ables),第四军医大学卫生统计学教研室,2002年11月,4. 聚类分析数据格式,k,第四军医大学卫生统计学教研室,2002年11月,5. 判别分析数据格式,第四军医大学卫生统计学教研室,2002年11月,6. 聚类分析与判别分析间的联系,先采用聚类分析获得各个个体的类别(classification );然后采用判别分析建立判别函数,对新个体进行类型识别((identification ),第四军医大学卫生统计学教研室,2002年11月,二、图示法聚类分析,第四军医大学卫生统计学教研室,2002年11月,1. 散点图(Scatter diagrams),第四军医大学卫生统计学教研室,20

4、02年11月,2. 轮廓图(Profile diagram),第四军医大学卫生统计学教研室,2002年11月,三、距离与相似系数,第四军医大学卫生统计学教研室,2002年11月,(一)距离,假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dij,第四军医大学卫生统计学教研室,2002年11月,1. 欧式(Euclidian )距离,第四军医大学卫生统计学教研室,2002年11月,1.1 二维空间欧式距离,第四军医大学卫生统计学教研室,2002年11月,1.2 欧式距离的平方,第四军医大学卫生统计学教研室,2002

5、年11月,2. 明氏(Minkowski )距离,SPSS称为BLOCK,第四军医大学卫生统计学教研室,2002年11月,实例计算,品,第四军医大学卫生统计学教研室,2002年11月,绝对值距离,品,第四军医大学卫生统计学教研室,2002年11月,Euclidian距离的平方,第四军医大学卫生统计学教研室,2002年11月,Euclidian距离,第四军医大学卫生统计学教研室,2002年11月,变量标准化,作用:消除量纲的影响,第四军医大学卫生统计学教研室,2002年11月,3. Mahalanobis 距离,第四军医大学卫生统计学教研室,2002年11月,Mahalanobis 距离,优点:

6、马氏距离既排除了各指标间的相关性干扰,又消除了各指标的量纲 缺点:样品协方差矩阵不变不合理。,第四军医大学卫生统计学教研室,2002年11月,Mahalanobis 距离实例,第四军医大学卫生统计学教研室,2002年11月,4. Lance和Williams 距离,第四军医大学卫生统计学教研室,2002年11月,5. 斜交空间距离,可考虑变量间相关性问题,第四军医大学卫生统计学教研室,2002年11月,6. 配合距离,适用于分类变量,尤其是名义尺度变量,第四军医大学卫生统计学教研室,2002年11月,(二)相似系数,研究样品间的关系常用距离,研究指标间的关系常用相似系数。 相似系数常用的有:夹

7、角余弦与相关系数,第四军医大学卫生统计学教研室,2002年11月,1. 夹角余弦(Cosine),第四军医大学卫生统计学教研室,2002年11月,2. Pearson相关系数,第四军医大学卫生统计学教研室,2002年11月,四、系统聚类法 (hierarchical clustering method),第四军医大学卫生统计学教研室,2002年11月,将n个样品各作为一类,系统聚类法是诸聚类分析方法中使用最多的一种,按下列步骤进行:,计算n个样品两两之间的距离,构成距离矩阵,合并距离最近的两类为一新类,计算新类与当前各类的距离。再合并、计算,直至只有一类为止,画聚类图,解释,第四军医大学卫生统

8、计学教研室,2002年11月,类与类之间的距离,1.最短距离法(single linkage) 2.最长距离法(complete linkage) 3.中间距离法(median method) 4.类平均法(average linkage) 5.可变类平均法(flexible-beta method) 6.重心法(centroid method) 7.Ward离差平方和法(Wards minimum-variance method),第四军医大学卫生统计学教研室,2002年11月,类与类之间的距离,8.Mcquitty的相似分析法(Mcquittys similarity analysis)

9、9.最大似然估计法(EML) 10.密度估计(density linkage) 11.两阶段密度估计法(two-stage density linkage)等。,第四军医大学卫生统计学教研室,2002年11月,(一)最短距离法 (single linkage,nearest neighbor),B2 A2 * * B1 A1 * * B3 *,样品间:欧氏距离类类间:两类间两两样品距离最短。即图中样品A2和B1之间的距离,第四军医大学卫生统计学教研室,2002年11月,6个民族的粗死亡率与期望寿命,第四军医大学卫生统计学教研室,2002年11月,第四军医大学卫生统计学教研室,2002年11月,待续!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号