聚类分析医学统计课件

上传人:bin****86 文档编号:55613067 上传时间:2018-10-03 格式:PPT 页数:67 大小:574KB
返回 下载 相关 举报
聚类分析医学统计课件_第1页
第1页 / 共67页
聚类分析医学统计课件_第2页
第2页 / 共67页
聚类分析医学统计课件_第3页
第3页 / 共67页
聚类分析医学统计课件_第4页
第4页 / 共67页
聚类分析医学统计课件_第5页
第5页 / 共67页
点击查看更多>>
资源描述

《聚类分析医学统计课件》由会员分享,可在线阅读,更多相关《聚类分析医学统计课件(67页珍藏版)》请在金锄头文库上搜索。

1、1,聚类分析 (Cluster Analysis),古语: “物以类聚”,找出特征相似的类别,研究其规律性。,第二军医大学卫生统计学教研室孟 虹,2,本章的内容,第一节 相似系数*第二节 系统聚类*第三节 动态样品聚类*第四节 有序样品聚类第五节 应用注意事项* 重点:掌握聚类分析用途、概念、方法的区别、注意问题。,3,概 述,聚类分析是将未知现象进行归类的多元统计方法 。 主要用途:对研究的事物分类或做探索性的研究。目的: 通过分类,找出同类的共性和不同类的差异,为决策提供参考.,4,聚类分析,聚类对象的类型:R型聚类:对n个指标(变量或variable )归类(index-cluster-

2、analysis)。Q型聚类:对n个观察对象(样品或case)归类(samples-cluster-analysis)。,5,例:中医证型研究 对临床症状分类(指标聚类),6,2002年中国部分省市国民经济数据,研究问题:对31省市分类,了解中国各省市地区居民生活水平的差异. (对样品聚类),经济学研究,7,聚类方法,根据分类样品(变量)的多少及特点。 方法: 系统(层次)聚类-(例数少)* 动态样品聚类-(例数多)* 有序聚类-(样品在时间和空间有自然顺序) 神经网络的聚类-(自动确定类别)* SPSS和SAS软件可得到.,8,聚类分析基本思想与步骤,思想: 根据指标和样品的相似性. 步骤:

3、 1.计算描述样品(变量)间相似性的指标:用距离系数或相关系数.2.根据相似性对样品(变量)归类.方法:有多种聚类方法,9,第一节 相似系数,意义:用相似系数度量指标和样品间的相似程度. 1.指标(变量)间的相似系数:变量为计量数据相关系数(r) (19-1),10,变量为计数数据(等级或两分类)列连系数(C) (19-2),11,2.个体(样品)间的相似系数,用个体间某变量(x)的距离(dij)表示:欧氏距离:(Euclidean distance)绝对距离:,距离越小,样品间相似程度越高.,i和j表示不同个体,12,第二节 系统聚类(层次聚类) (hierarchical clusteri

4、ng),步骤如下: 1.将每个变量(样品)各视为一类. 2.将相似系数最大(距离最小)的两类合并新类, 计算新类与其他类的类间相似系数. 3.重复第2步过程,直到全部合并为一类. 4.结果:得到聚类的树状图。,13,x1,x3,x4,x2,系统聚类结果的树状图,相似系数,14,系统聚类(对变量聚类),例: 19-1测量3454例成年女性的身高(x1)、下肢长(x2)、腰围(x3)、胸围(x4),问4个指标可以分为几类。 数据略.,15,1.计算变量间的两两相似系数(r) 并认为各变量各为一类,即G1,G2,G3,G4。,R0,找出最大相似系数值组成新类.,聚类步骤:,16,系统聚类类间相似系数

5、计算,当聚类的两类变量(样品)各只含一个变量时, 如G1,G2, 两类间的类间相似系数为 rij或dij。当聚类两类变量(样品)含有两个变量时,两类间的类间相似系数的计算有讲义5种。,17,类间相似系数的计算 (讲义401页),聚类的方法 最大相似系数法 最小距离法 重心法 类平均法 离差平方和法 统计软件有11种方法,但基本思想一致.,18,最大相似系数法(401页),rpq表示第p类和第q类的类间相似系数.Gp类中的n个变量与Gq类中的n个变量两两间共有npnq个相似系数,以其中最大者为Gp与Gq的类间相似系数。,19-7,19,最大相似系数法聚类方法,2.计算新类(G5)与G3、 G4的

6、类间相似系数,进行合并,得到R1距阵.,20,3.根据最大相似系数法, 组成合并后相似系数距阵(R1),R1,4.重复上面步骤,21,例19-1的聚类过程,步 合并类别 相关系数 新类命名 类内指标 1 G1G2 0.875 G5 1,2 2 G3G4 0.732 G6 3,4 3. G5G6 0.234 G7 1,2,3,4,22,身高,下肢长,腰围,胸围,相关系数,聚类结果:分为两类,x1=身高和x2=下肢长为长度指标,x3和x4为围度指标。,1,0,23,例19-2 样品聚类(表19-1),6个运动员4个运动项目的测定值(均数) 运动 能耗(x1) 糖耗(x2) x1 x2 项目 (单位

7、) (单位) 负重下蹲 27.892 61.42 1.315 0.688 引体向上 23.475 56.83 0.174 0.088 俯卧撑 18.924 45.13 -1.001 -1.441 仰卧起坐 20.913 61.25 -0.488 0.665,首先对数据进行标准化转换(x),消除数据单位的差别,24,1.计算4个样品的两两距离指标(欧氏距离),25,1.构建样品间距离(dij)距阵,2.将相似系数距离最小两类合并新类和其他类计算类间相似系数,26,类间相似系数-最小相似系数法,19-8,27,3.重复第2步,在距阵中合并新类,并计算与其他的类间系数,28,图19-2 4个运动项目

8、样品聚类图,最小相似系数法聚类,29,系统聚类步骤,1.根据研究目的,确定聚类的对象(样品或变量)。 2. 如样品聚类,先对数据进行标准化3.选择相似系数和聚类方法(常用多个方法) 4.分类的结果:结合专业和树状图得到分类结果。,30,三、系统聚类实例分析与应用,例1:讲义19-3 利用9个生物标志物检测指标数据对27名焦炉工进行样品聚类. 方法: 1.对数据进行标准化, 2.确定相似系数:选用欧氏距离3.聚类的方法:最小相似系数法、类平均法、离差平方和法。,31,讲义表19-3 27名焦炉工的生物标志物检测指标数据(SPSS软件操作),32,系统聚类菜单,统计方法菜单,对样品聚类,33,表1

9、9-3数据 变量的统计描述,应对变量进行标准化,选用z分,34,SPSS软件系统聚类,plots菜单框,method菜单框,选择欧氏距离和类平均法,标准化,35,SPSS软件提供聚类方法,Cluster method: Between-groups linkage,类平均法(d2/n)Ward method. 最小方差法 Nearest neighbor,最短距离法(最小相似) Furthest neighbor,最长距离法(最大相似) Median clustering,中间距离法 Centroid clustering, 重心法,36,讲义27名焦炉工的生物标志物类平均法聚类图,欧氏距离,

10、37,27名焦炉工的生物标志物最小相似系数法聚类图,欧氏距离,38,例2 研究目的:通过5指数对13个市进行分类,2005 年江苏省13 个城市社会发展指数,39,对13个市进行分类的聚类图,40,图1 结果的解释,一类:是无锡、苏州、南京、常州; 属于经济发达苏南, 区域优势明显,社会发展水平较高。二类:扬州、镇江、南通、泰州的苏中地区, 为经济发展处于一般水平。三类:徐州、淮安、盐城、连云港、宿迁是一类,社会经济发展低水平城市之列苏北地区。结论:促进苏南苏中苏北三大区域协调发展。,41,例3不同产地黄芪微量元素的聚类分析,42,不同产地黄芪的微量元素,43,不同产地黄芪微量元素的聚类分析,

11、44,系统聚类方法在应用时注意问题,方法和结果: 1) 用不同聚类方法,聚类结果(树状图)不同,一般计算多个方法尝试。2)结合专业和聚类图得到归类结果。3)主要用于样品(变量)较少的研究.,45,第三节 动态样品聚类 (k-means cluster),也称为快速聚类。 目前应用: 1.用于数量较大的样品聚类.2.数据挖掘分析生物信息技术的基因芯片功能研究,46,计算步骤,1.事先人为指定分类数(k类). 2.根据数据本身的结构确定k类的原始中心点(mean). 3.采用欧氏距离将样品自动归为距离最近(均数)的类。计算新的中心点(mean). 4.根据新中心点(mean),计算各样品的距离.

12、5.重复3-4步.达到规定要求结束.,47,动态样品聚类的原理,选k个凝聚点,初始分类,分类是否合理,最终分类,修改分类,是,否,48,动态样品聚类特点,优点:用于数量较大的样品聚类.计算速度快.提供统计检验比较类间的差异。 缺点: 不能自动确定类别数,根据经验确定或不断调整类别(k)得到结果。 不能输出树状图的信息,不直观.,49,讲义表19-3 27名焦炉工的生物标志物检测指标数据(SPSS软件操作,k-means法聚类),人为给出分类数,实例分析,50,51,结果1: 各变量均数在3类间的统计差别,表19-3 数据 k-means法聚类的部分结果,52,结果2: 各个体分类后的编号和例数

13、,53,结果3:了解各类在各指标上的特征,指标/类别,54,实例应用:研究移动电话客户手机使用情况 (数据来自telco 数据库),研究目的:分析客户特征,以便给予不同管理和促销工作。采用k-means cluster对数据聚类.,55,最终的类间均数,部分结果:,56,各类的例数和百分比,57,各类指标间方差分析,58,工作日上班时期电话(x1),工作日下班时期电话(x2),周末电话时间(x3),国际电话时间(x4),平均每次通话时间(x6),总通话时间(x5),根据5类各指标(x)均数情况做出总结,59,其他聚类方法,有序样品聚类,见讲义第四节 (略)两步聚类方法 模糊聚类 神经网络的聚类

14、(自动确定类别)可参考有关文献和教材,60,第五节 应用注意事项与小结,一、小结 聚类方法: 1.层次聚类: 可以对变量和记录聚类。用树状图反映聚类结果,直观、便于解释。 2. k-means 聚类:主要对记录(case)聚类。在样品量较大时,计算速度快。但结果展示不直观。,61,聚类分析注意问题,用于数据的探索性分析,结果解释应密切结合专业知识,同时尝试用多种聚类方法分类,获得结论。聚类前应对变量作预处理,剔除无效变量以及缺失值过多的变量。一般需对变量作标准化变换,以消除量纲和变异大幅波动的影响。,62,思考题: 判别分析与聚类分析的比较,相同点: 研究目的:都是对数据(个体)分类。 不同点

15、: 1.应用上:判别分析:主要对个体分类和预测。聚类分析:可以对个体分类同时可对变量分类,并常与其他方法结合使用。如先对个体聚类,再做判别或Logistic回归。,63,2.在方法上判别分析:用已知个体类别(训练样本)的指标建立判别方程,对新的个体分类。要求数据服从正态,同时可筛选变量和指出变量重要性。聚类分析:对未知类别个体,通过m个指标的接近程度(相似系数)做归类。不能筛选变量和指出变量的重要性。,64,3.在资料的设计和收集上:判别分析:要事先已知个体类别或结果(y=1或0),收集 个体的m个指标(x)建立分类模型。聚类分析:不需要个体的结果(y),只收集与分类有关的m个指标(x)。,65,选择题,例:有人测量了100名17岁男孩的8个形态指标:如身高、体重、胸围、大腿围、小腿长等,希望从形态学上了解8个指标的类别,可以用_方法.统计方法: 1.判别分析 2.聚类(样品) 3.聚类(指标) 4.多元线性回归 5.logistic回归 6.析因分析,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号