聚类分析医学统计课件

资源描述

《聚类分析医学统计课件》由会员分享，可在线阅读，更多相关《聚类分析医学统计课件（67页珍藏版）》请在金锄头文库上搜索。

1、1,聚类分析（Cluster Analysis）,古语: “物以类聚”，找出特征相似的类别，研究其规律性。,第二军医大学卫生统计学教研室孟虹,2,本章的内容,第一节相似系数*第二节系统聚类*第三节动态样品聚类*第四节有序样品聚类第五节应用注意事项* 重点:掌握聚类分析用途、概念、方法的区别、注意问题。,3,概述,聚类分析是将未知现象进行归类的多元统计方法。主要用途:对研究的事物分类或做探索性的研究。目的: 通过分类,找出同类的共性和不同类的差异,为决策提供参考.,4,聚类分析,聚类对象的类型：R型聚类：对n个指标（变量或variable ）归类(index-cluster-

2、analysis)。Q型聚类：对n个观察对象（样品或case）归类(samples-cluster-analysis)。,5,例:中医证型研究对临床症状分类(指标聚类),6,2002年中国部分省市国民经济数据,研究问题:对31省市分类,了解中国各省市地区居民生活水平的差异. (对样品聚类),经济学研究,7,聚类方法,根据分类样品(变量)的多少及特点。方法: 系统(层次)聚类-(例数少)* 动态样品聚类-(例数多)* 有序聚类-(样品在时间和空间有自然顺序) 神经网络的聚类-(自动确定类别)* SPSS和SAS软件可得到.,8,聚类分析基本思想与步骤,思想: 根据指标和样品的相似性. 步骤:

3、 1.计算描述样品(变量)间相似性的指标：用距离系数或相关系数.2.根据相似性对样品(变量)归类.方法:有多种聚类方法,9,第一节相似系数,意义:用相似系数度量指标和样品间的相似程度. 1.指标(变量)间的相似系数:变量为计量数据相关系数(r) (19-1),10,变量为计数数据(等级或两分类)列连系数(C) (19-2),11,2.个体(样品)间的相似系数,用个体间某变量(x)的距离(dij)表示:欧氏距离:（Euclidean distance）绝对距离:,距离越小,样品间相似程度越高.,i和j表示不同个体,12,第二节系统聚类(层次聚类) (hierarchical clusteri

4、ng),步骤如下: 1.将每个变量(样品)各视为一类. 2.将相似系数最大(距离最小)的两类合并新类, 计算新类与其他类的类间相似系数. 3.重复第2步过程,直到全部合并为一类. 4.结果：得到聚类的树状图。,13,x1,x3,x4,x2,系统聚类结果的树状图,相似系数,14,系统聚类（对变量聚类）,例: 19-1测量3454例成年女性的身高(x1)、下肢长（x2）、腰围（x3）、胸围（x4），问4个指标可以分为几类。数据略.,15,1.计算变量间的两两相似系数(r) 并认为各变量各为一类，即G1，G2，G3，G4。,R0,找出最大相似系数值组成新类.,聚类步骤:,16,系统聚类类间相似系数

5、计算,当聚类的两类变量(样品)各只含一个变量时, 如G1，G2, 两类间的类间相似系数为 rij或dij。当聚类两类变量(样品)含有两个变量时,两类间的类间相似系数的计算有讲义5种。,17,类间相似系数的计算（讲义401页）,聚类的方法最大相似系数法最小距离法重心法类平均法离差平方和法统计软件有11种方法,但基本思想一致.,18,最大相似系数法(401页),rpq表示第p类和第q类的类间相似系数.Gp类中的n个变量与Gq类中的n个变量两两间共有npnq个相似系数，以其中最大者为Gp与Gq的类间相似系数。,19-7,19,最大相似系数法聚类方法,2.计算新类（G5）与G3、 G4的

6、类间相似系数，进行合并,得到R1距阵.,20,3.根据最大相似系数法, 组成合并后相似系数距阵(R1),R1,4.重复上面步骤,21,例19-1的聚类过程,步合并类别相关系数新类命名类内指标 1 G1G2 0.875 G5 1，2 2 G3G4 0.732 G6 3，4 3. G5G6 0.234 G7 1，2，3，4,22,身高,下肢长,腰围,胸围,相关系数,聚类结果：分为两类,x1=身高和x2=下肢长为长度指标，x3和x4为围度指标。,1,0,23,例19-2 样品聚类（表19-1）,6个运动员4个运动项目的测定值（均数）运动能耗（x1）糖耗（x2） x1 x2 项目（单位

7、）（单位）负重下蹲 27.892 61.42 1.315 0.688 引体向上 23.475 56.83 0.174 0.088 俯卧撑 18.924 45.13 -1.001 -1.441 仰卧起坐 20.913 61.25 -0.488 0.665,首先对数据进行标准化转换(x),消除数据单位的差别,24,1.计算4个样品的两两距离指标(欧氏距离),25,1.构建样品间距离(dij)距阵,2.将相似系数距离最小两类合并新类和其他类计算类间相似系数,26,类间相似系数-最小相似系数法,19-8,27,3.重复第2步,在距阵中合并新类,并计算与其他的类间系数,28,图19-2 4个运动项目

8、样品聚类图,最小相似系数法聚类,29,系统聚类步骤,1.根据研究目的，确定聚类的对象（样品或变量）。 2. 如样品聚类，先对数据进行标准化3.选择相似系数和聚类方法（常用多个方法） 4.分类的结果:结合专业和树状图得到分类结果。,30,三、系统聚类实例分析与应用,例1：讲义19-3 利用9个生物标志物检测指标数据对27名焦炉工进行样品聚类. 方法: 1.对数据进行标准化， 2.确定相似系数：选用欧氏距离3.聚类的方法：最小相似系数法、类平均法、离差平方和法。,31,讲义表19-3 27名焦炉工的生物标志物检测指标数据(SPSS软件操作),32,系统聚类菜单,统计方法菜单,对样品聚类,33,表1

9、9-3数据变量的统计描述,应对变量进行标准化,选用z分,34,SPSS软件系统聚类,plots菜单框,method菜单框,选择欧氏距离和类平均法,标准化,35,SPSS软件提供聚类方法,Cluster method： Between-groups linkage,类平均法(d2/n）Ward method. 最小方差法 Nearest neighbor,最短距离法（最小相似） Furthest neighbor,最长距离法（最大相似） Median clustering,中间距离法 Centroid clustering, 重心法,36,讲义27名焦炉工的生物标志物类平均法聚类图,欧氏距离,

10、37,27名焦炉工的生物标志物最小相似系数法聚类图,欧氏距离,38,例2 研究目的：通过5指数对13个市进行分类，2005 年江苏省13 个城市社会发展指数,39,对13个市进行分类的聚类图,40,图1 结果的解释,一类:是无锡、苏州、南京、常州; 属于经济发达苏南, 区域优势明显,社会发展水平较高。二类：扬州、镇江、南通、泰州的苏中地区, 为经济发展处于一般水平。三类：徐州、淮安、盐城、连云港、宿迁是一类,社会经济发展低水平城市之列苏北地区。结论：促进苏南苏中苏北三大区域协调发展。,41,例3不同产地黄芪微量元素的聚类分析,42,不同产地黄芪的微量元素,43,不同产地黄芪微量元素的聚类分析,

11、44,系统聚类方法在应用时注意问题,方法和结果: 1) 用不同聚类方法,聚类结果(树状图)不同，一般计算多个方法尝试。2）结合专业和聚类图得到归类结果。3)主要用于样品(变量)较少的研究.,45,第三节动态样品聚类 (k-means cluster),也称为快速聚类。目前应用: 1.用于数量较大的样品聚类.2.数据挖掘分析生物信息技术的基因芯片功能研究,46,计算步骤,1.事先人为指定分类数(k类). 2.根据数据本身的结构确定k类的原始中心点(mean). 3.采用欧氏距离将样品自动归为距离最近(均数)的类。计算新的中心点(mean). 4.根据新中心点(mean),计算各样品的距离.

12、5.重复3-4步.达到规定要求结束.,47,动态样品聚类的原理,选k个凝聚点,初始分类,分类是否合理,最终分类,修改分类,是,否,48,动态样品聚类特点,优点：用于数量较大的样品聚类.计算速度快.提供统计检验比较类间的差异。缺点：不能自动确定类别数，根据经验确定或不断调整类别（k）得到结果。不能输出树状图的信息,不直观.,49,讲义表19-3 27名焦炉工的生物标志物检测指标数据(SPSS软件操作，k-means法聚类),人为给出分类数,实例分析,50,51,结果1: 各变量均数在3类间的统计差别,表19-3 数据 k-means法聚类的部分结果,52,结果2: 各个体分类后的编号和例数

13、,53,结果3:了解各类在各指标上的特征,指标/类别,54,实例应用:研究移动电话客户手机使用情况 (数据来自telco 数据库),研究目的：分析客户特征，以便给予不同管理和促销工作。采用k-means cluster对数据聚类.,55,最终的类间均数,部分结果:,56,各类的例数和百分比,57,各类指标间方差分析,58,工作日上班时期电话（x1）,工作日下班时期电话（x2）,周末电话时间（x3）,国际电话时间（x4）,平均每次通话时间（x6）,总通话时间（x5）,根据5类各指标（x）均数情况做出总结,59,其他聚类方法,有序样品聚类,见讲义第四节 (略)两步聚类方法模糊聚类神经网络的聚类

14、(自动确定类别)可参考有关文献和教材,60,第五节应用注意事项与小结,一、小结聚类方法： 1.层次聚类：可以对变量和记录聚类。用树状图反映聚类结果，直观、便于解释。 2. k-means 聚类：主要对记录（case）聚类。在样品量较大时，计算速度快。但结果展示不直观。,61,聚类分析注意问题,用于数据的探索性分析，结果解释应密切结合专业知识，同时尝试用多种聚类方法分类，获得结论。聚类前应对变量作预处理，剔除无效变量以及缺失值过多的变量。一般需对变量作标准化变换，以消除量纲和变异大幅波动的影响。,62,思考题: 判别分析与聚类分析的比较,相同点：研究目的：都是对数据（个体）分类。不同点

15、: 1.应用上：判别分析：主要对个体分类和预测。聚类分析：可以对个体分类同时可对变量分类，并常与其他方法结合使用。如先对个体聚类，再做判别或Logistic回归。,63,2.在方法上判别分析：用已知个体类别（训练样本）的指标建立判别方程，对新的个体分类。要求数据服从正态，同时可筛选变量和指出变量重要性。聚类分析：对未知类别个体，通过m个指标的接近程度（相似系数）做归类。不能筛选变量和指出变量的重要性。,64,3.在资料的设计和收集上：判别分析：要事先已知个体类别或结果（y=1或0），收集个体的m个指标（x）建立分类模型。聚类分析：不需要个体的结果（y），只收集与分类有关的m个指标（x）。,65,选择题,例:有人测量了100名17岁男孩的8个形态指标:如身高、体重、胸围、大腿围、小腿长等，希望从形态学上了解8个指标的类别,可以用_方法.统计方法： 1.判别分析 2.聚类（样品） 3.聚类（指标） 4.多元线性回归 5.logistic回归 6.析因分析,

展开阅读全文

聚类分析医学统计课件

最新文档