第三章聚类分析－金锄头文库

资源描述

《第三章聚类分析》由会员分享，可在线阅读，更多相关《第三章聚类分析（41页珍藏版）》请在金锄头文库上搜索。

1、第三章第三章聚类分析聚类分析第一节第一节3.1 3.1 聚类分析的基本思想聚类分析的基本思想 3.2 3.2 相似性度量相似性度量 3.2 3.2 类和类的特征类和类的特征zf3.1 聚类分析的基本思想v一、什么是聚类分析？一、什么是聚类分析？v聚类分析聚类分析是根据是根据“物以类聚物以类聚”的道理，对样品或指标进行分的道理，对样品或指标进行分类的一种多元统计分析方法。类的一种多元统计分析方法。将个体或对象分类，使得同一类中的对象之间的相将个体或对象分类，使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。似性比与其他类的对象的相似性更强。 v聚类分析的目的聚类分析的目的使使类

2、内类内对象的同质性最大化和对象的同质性最大化和类间类间对象的异质对象的异质性最大化。性最大化。zf2cxtv聚类分析的应用：无处不在聚类分析的应用：无处不在v早在孩提时代，人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗，动物和植物v谁经常光顾商店，谁买什么东西，买多少？n按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类n这样商店可以.n识别顾客购买模式（如喜欢一大早来买酸奶和鲜肉，习惯周末时一次性大采购）n刻画不同的客户群的特征（用变量来刻画，就象刻画猫和狗的特征一样）zf3cxtv为什么这样分类？（分类的好处）为什么这样分类？（分类的好处）n因为每一个类别

3、里面的人消费方式都不一样，需要针对不同的人群，制定不同的关系管理方式，以提高客户对公司商业活动的参与率。n挖掘有价值的客户，并制定相应的促销策略：如，对经常购买酸奶的客户对累计消费达到12个月的老客户n针对潜在客户派发广告，比在大街上乱发传单命中率更高，成本更低！zf4cxtv例例1 1 对10位应聘者做智能检验。3项指标X，Y和Z分别表示数学推理能力，空间想象能力和语言理解能力。其得分如下，选择合适的统计方法对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424zf5cx

4、tzf6cxtzf7cxtv例如当我们对企业的经济效益进行评价时，建立了一个由多个指标组成的指标体系，由于信息的重叠，一些指标之间存在很强的相关性，所以需要将相似的指标聚为一类，从而达到简化指标体系的目的。zf8cxtv二、聚类分析的基本思想基本思想：是根据一批样品的多个观测指标，具体地找出一些能够度量样品或指标之间相似程度的统计量，然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类，把不相似的归为其他类。直到把所有的样品（或指标）聚合完毕. v相似样本或指标的集合称为类类。v问题问题：如何来选择样品（或指标）间相似的测度指标，如何将有相似性的类连接起来？zf9cxtv三、聚类分

5、析类型及方法三、聚类分析类型及方法v1 1、聚类分析的类型有：、聚类分析的类型有：对样本分类，称为对样本分类，称为Q Q型聚类分析型聚类分析对变量分类，称为对变量分类，称为R R型聚类分析型聚类分析 Q Q型聚类是对样本进行聚类，它使具有相似性特征型聚类是对样本进行聚类，它使具有相似性特征的样本聚集在一起，使差异性大的样本分离开来。的样本聚集在一起，使差异性大的样本分离开来。 R R型聚类是对变量进行聚类，它使具有相似性的变型聚类是对变量进行聚类，它使具有相似性的变量聚集在一起，差异性大的变量分离开来，可在相量聚集在一起，差异性大的变量分离开来，可在相似变量中选择少数具有代表性的变量参与其

6、他分析，似变量中选择少数具有代表性的变量参与其他分析，实现减少变量个数，达到变量降维的目的。实现减少变量个数，达到变量降维的目的。 zf10cxtv2 2、聚类分析的方法：、聚类分析的方法：系统聚类（层次聚类）系统聚类（层次聚类）非系统聚类（非层次聚类）非系统聚类（非层次聚类）v系统聚类法包括：系统聚类法包括：凝聚方式聚类凝聚方式聚类、分解方式聚类、分解方式聚类v非系统聚类法包括：模糊聚类法、非系统聚类法包括：模糊聚类法、K K均值法均值法（快（快速聚类法）等等速聚类法）等等 zf11cxt凝聚式凝聚式分解式分解式以系统聚类法为例以系统聚类法为例zf12cxt3.2 相似性度量v1 1、样

7、本或变量的、样本或变量的相似性相似性程度的数量指标：程度的数量指标：（1）相似系数相似系数性质越接近的变量或样品，它们的相似系数越接近于1或一l，而彼此无关的变量或样品它们的相似系数则越接近于0，相似的为一类，不相似的为不同类；（2）距离距离它是将每一个样品看作p维空间的一个点，并用某种度量方法测量点与点之间的距离，距离较近的归为一类，距离较远的点应属于不同的类。v样本分类（Q型聚类）常以距离距离刻画相似性v指标分类(R型聚类)常以相似系数相似系数刻画相似性zf13cxtv距离和相似系数有着各种不同的定义，而这些定义距离和相似系数有着各种不同的定义，而这些定义与变量类型有着非常密切的关

8、系。与变量类型有着非常密切的关系。v变量可分为变量可分为定性变量和定量变量。定性变量和定量变量。若按测量尺度的若按测量尺度的不同可以分为不同可以分为：（1 1）间隔尺度变量：变量用连续的量来表示，如长）间隔尺度变量：变量用连续的量来表示，如长度、重量、速度、温度等。度、重量、速度、温度等。（2 2）有序尺度变量：变量度量时不用明确的数量表示，）有序尺度变量：变量度量时不用明确的数量表示，而是用等级来表示，如产品分为一等品、二等品、三等而是用等级来表示，如产品分为一等品、二等品、三等品等有次序关系。品等有次序关系。（3 3）名义尺度变量：变量用）名义尺度变量：变量用既没有既没有数量关系数量

9、关系也没有次也没有次序关系，只有一些特性状态，序关系，只有一些特性状态，如性别、职业、产品的型如性别、职业、产品的型号等。号等。zf14cxtv一、间隔尺度变量的相似性度量v1 1、距离、距离设有n个样本单位，每个样本测有p个指标（变量），原始资料阵为：zf15cxto每个样本都可以看成p维空间中的一点，n个样本就是p维空间中的n个点。o第i个样本与第j个样本之间的距离记为 o聚类过程中，相距较近的点归为一类，相距较远的点归为不同的类。 zf16cxtv常用距离常用距离：（1 1）、明考夫斯基距离）、明考夫斯基距离( (MinkowskiMinkowski distance)distanc

10、e) 明氏距离有三种特殊形式：明氏距离有三种特殊形式：（1 1a a）、绝对距离（）、绝对距离（BlockBlock距离）距离）: :当当q=1q=1时时zf17cxt （1 1b)b)欧氏距离欧氏距离( (Euclidean distance):Euclidean distance):当当q=2q=2时时（1 1c)c)切比雪夫距离切比雪夫距离: :当当时时zf18cxtv明考夫斯基距离主要有以下两个缺点：明明氏氏距距离离的的值值与与各各指指标标的的量量纲纲有有关关，而各指标计量单位的选择有一定的人为性和随意性，各变量计量单位的不同不仅使此距离的实际意义难以说清，而且，任何一个变量计量

11、单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。明明氏氏距距离离的的定定义义没没有有考考虑虑各各个个变变量量之之间间的的相相关关性性和和重重要要性性。实际上，明考夫斯基距离是把各个变量都同等看待，将两个样品在各个变量上的离差简单地进行了综合。zf19cxtv当各变量的单位不同或测量值范围相差很大时，不应直接采用明氏距离，而应先对各变量的数据作标准化处理，然后用标准化后的数据计算距离。常用的标准化处理：其中为第j个变量的样本均值；为第j个变量的样本方差。zf20cxt如何避免如何避免明氏距离的缺点：明氏距离的缺点：v（3 3）兰氏距离兰氏距离当当时：时：克服

12、量纲的影响克服量纲的影响未考虑指标间未考虑指标间相关性的影响相关性的影响适用于变量之间互不相关的情形适用于变量之间互不相关的情形这是一个自身标准化的量这是一个自身标准化的量zf21cxtv（4 4）马氏距离马氏距离克服量纲的影响克服量纲的影响克服指标间相克服指标间相关性的影响关性的影响缺点：缺点：协方差协方差矩阵难以确定矩阵难以确定zf22cxtv马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定如果假定各变量之间相互独立，即观测变量的协方差矩各变量之间相互独立，即观测变量的协方差矩阵是对角矩阵，则马氏距离就退化为用各个观阵是对角矩阵，则马氏距离就退化为用各个

13、观测指标的标准差的倒数作为权数进行加权的欧测指标的标准差的倒数作为权数进行加权的欧氏距离。氏距离。因此，马氏距离不仅考虑不仅考虑了观测变量之间的相关性，而且也考虑而且也考虑到了各个观测指标取值的差异程度，为了对马氏距离和欧氏距离进行一下比较，以便更清楚地看清二者的区别和联系，现考虑一个例子。zf23cxtv2 2、相似系数、相似系数相似系数（或其绝对值）越大，变量之间的相似性程度越高；反之，越低。聚类时，比较相似的变量归为一类，不太相似的变量归为不同的类。变量与的相似系数用表示，满足以下三个条件： zf24cxtv（1）、相关系数设和是第和个样品的观测值，则二者之间的相似测度为

14、:zf25cxtv（2 2）、夹角余弦）、夹角余弦从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量zf26cxtv3、类与类之间的相似相似性度量（1）、最短距离（Nearest Neighbor)x21x12x22x11类类G Gp p与类与类G Gq q之间的距离之间的距离D Dpqpq ( (d(xd(xi i,x,xj j) )表示点表示点x xi i G Gp p和和x xj j G Gq q之间的距离之间的距离) )zf27cxtv以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。例1：为了研究辽宁省5省区某年城镇

15、居民生活消费的分布规律，根据调查资料做类型划分省份x1x2x3x4x5x6x7x8辽宁浙江河南甘肃青海7.90 7.68 9.42 9.16 10.0639.7750.3727.9327.9828.648.49 11.358.209.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.10 8.392.042.751.551.821.9613.2914.879.7611.3510.81zf28cxtG1=G1=辽宁辽宁，G2=G2=浙江浙江，G3=G3=河南河南，G4=G4=甘肃甘肃，G5=G5=

16、青海青海采用欧氏距离：采用欧氏距离： d12 =(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94- 13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)20.5=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5D1= 1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5

17、12.80 23.54 3.51 2.21 0河南与甘肃的距离最近，先将二者河南与甘肃的距离最近，先将二者（3 3和和4 4）合为一类）合为一类G6=G2，G4zf29cxtd61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0D2= 1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0d71=d(3,4,5)1=mind13,d14,d15=12.80d72=d(3,4,5)2=mind23,d24,d25=23.5

18、4 7 1 2D3= 7 0 1 12.80 0 2 23.54 11.67 0河南、甘肃与青海并为一新类河南、甘肃与青海并为一新类G7=G6，G5=G3，G4，G6G8=G1,G2zf30cxtd78=mind71,d72=12.80 7 8D4= 7 0 8 12.8 0河南河南3 3甘肃甘肃4 4青海青海5 5辽宁辽宁1 1浙江浙江2 2zf31cxt（2）最长距离（Furthest Neighbor ）x11x21zf32cxtv以当前某个样本与已经形成的小类中的各样本距离中的最大值作为当前样本与该小类之间的距离。例例2 2：对例：对例1 1的数据以最长距离法聚类。的数据以最长距离法聚

19、类。zf33cxt d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5D1= 1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0d61=d(3,4)1=maxd13,d14=13.80 d62=d(3,4)2=maxd23,d24=24.63 d65=d(3,4)5=maxd35,d45=3.51 6 1 2 5 6 0D2= 1 13.80 0 2 24

20、.63 11.67 0 5 3.51 12.80 23.54 0河南与甘肃的距离最近，先将二者（河南与甘肃的距离最近，先将二者（3 3和和4 4）合为一类）合为一类G6=G2，G4河南、甘肃与青海并为一新类河南、甘肃与青海并为一新类G7=G6，G5=G3，G4，G6zf34cxtd71=d(3,4,5)1=maxd13,d14,d15=13.80d72=d(3,4,5)2=maxd23,d24,d25=24.63 7 1 2D3= 7 0 1 13.80 0 2 24.63 11.67 0d78=maxd71,d72=24.63 7 8D4= 7 0 8 24.63 0G8=G1,G2zf35

21、cxt（3）组间平均连接（Between-group Linkage)zf36cxtv为所有样本对间的平均距离。为所有样本对间的平均距离。v利用了所有样本对距离的信息利用了所有样本对距离的信息zf37cxt（4）组内平均连接（ Within-group Linkage) zf38cxtv对所有样本对的距离求平均值，包括小类之间对所有样本对的距离求平均值，包括小类之间的样本对、小类内的样本对的样本对、小类内的样本对. .zf39cxt（5）重心法（Centroid clustering):均值点的距离zf40cxtv用两类的重心间的距离作为两类的距离用两类的重心间的距离作为两类的距离GrGtzf41cxt

展开阅读全文

第三章聚类分析

最新文档