多元统计分析 第五章 聚类分析

举报
资源描述
第第5 5章章 聚类分析聚类分析cluster analysiscluster analysisl聚聚类类分分析析又又称称群群分分析析,它它是是研研究究对对样样品品或或指指标标进进行行分分类类问问题题的的一一种种多多元元统统计计方方法法。它它是是实实现现“物以类聚,人以群分物以类聚,人以群分”的一种统计分析方法的一种统计分析方法l所所谓谓“类类”,通通俗俗地地说说,就就是是指指具具有有相相似似性性的的个体(或元素)的集合。个体(或元素)的集合。5.1 5.1 什么是聚类分析什么是聚类分析1l聚聚类类分分析析起起源源于于分分类类学学,在在考考古古的的分分类类学学中中,人人们们主主要要依依靠靠经经验验和和专专业业知知识识来来实实现现分分类类。随随着着生生产产技技术术和和科科学学的的发发展展,人人类类的的认认识识不不断断加加深深,分分类类越越来来越越细细,要要求求也也越越来来越越高高,有有时时光光凭凭经经验验和和专专业业知知识识是是不不能能进进行行确确切切分分类类的的,往往往往需需要要定定性性和和定定量量分析结合起来去分类。分析结合起来去分类。l于于是是,数数学学工工具具逐逐渐渐被被引引进进分分类类学学中中,形形成成了了数数值值分分类类学学。后后来来随随着着多多元元分分析析的的引引进进,聚聚类类分分析析又又逐逐渐渐从从数数值值分分类类学学中中分分离离出出来来而而形形成成一一个个相相对对独独立立的分支。的分支。2l 与与多多元元分分析析的的其其他他方方法法相相比比,聚聚类类分分析析方方法法较较为为粗粗糙糙,理理论论上上还还不不够完善,正处于发展阶段。够完善,正处于发展阶段。l 但但是是,由由于于该该方方法法应应用用方方便便,分分类类效效果果较较好好,因因此此越越来来越越为为人人们们所所重重视视。近近些些年年来来聚聚类类分分析析的的方方法法发发展较快,内容越来越丰富。展较快,内容越来越丰富。3社会经济领域中存在着大量分类问题:社会经济领域中存在着大量分类问题:l例如:对我国例如:对我国3030个省市自治区独立核算工业企个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省市自治业经济效益进行分析,一般不是逐个省市自治区去分析,而较好地做法是选取能反映企业经区去分析,而较好地做法是选取能反映企业经济效益的代表性指标,如百元固定资产实现利济效益的代表性指标,如百元固定资产实现利税、资金利税率、产值利税率、百元销售收入税、资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指实现利润、全员劳动生产率等等,根据这些指标对标对3030个省市自治区进行分类,然后根据分类个省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得结果对企业经济效益进行综合评价,就易于得出科学的分析。出科学的分析。4l总总之之,需需要要分分类类的的问问题题很很多多,聚聚类类分分析析正正是是研研究究这这类类“物物以以类类聚聚”问问题题的的一一种种多多元元统统计计分分析析方方法法。因因此此聚聚类类分分析析这这个个有有用用的的数数学学工工具具越越来来越越受受到到人人们们的的重重视视,它它在在许许多多领领域域中中都都得得到到了了广泛的应用。广泛的应用。l要要提提出出的的是是,若若将将聚聚类类分分析析和和其其它它方方法法联联合合起起来来使使用用,如如判判别别分分析析、主主成成分分分分析析、回回归归分分析析等往往效果更好。等往往效果更好。5这里的聚类分析与其他分类方这里的聚类分析与其他分类方法不同的是法不同的是l在分类之前,并不知道分类的标准,甚在分类之前,并不知道分类的标准,甚至对类的个数、类的属性并不清楚,是至对类的个数、类的属性并不清楚,是在没有任何先验知识的情况下进行的,在没有任何先验知识的情况下进行的,只是希望通过样品或变量间的相似、相只是希望通过样品或变量间的相似、相近或关系密切程度等较为模糊的概念将近或关系密切程度等较为模糊的概念将它们加以适当的归类,客观地确定分类它们加以适当的归类,客观地确定分类标准。标准。6一个简单例子:对学生进行分类一个简单例子:对学生进行分类学号学号数学成绩数学成绩英语成绩英语成绩001736800266690038482004918800594907对这对这5名名学生的分类结果学生的分类结果l若若分成两类,则分成两类,则001号和号和002号学生应是同一类的,号学生应是同一类的,而而003、004、005号学生是另一类的。号学生是另一类的。l若分成三类,则若分成三类,则001号和号和002号学生应是一类的,号学生应是一类的,003号自成一类,而号自成一类,而004号与号与005号学生是一类的。号学生是一类的。l可见,对学生的分类是在没有指定任何分类标准的可见,对学生的分类是在没有指定任何分类标准的前提下进行的,分类的依据完全从数据本身出发,前提下进行的,分类的依据完全从数据本身出发,完全依据样品的相似程度来划分的。完全依据样品的相似程度来划分的。001号与号与002号号之所以在一类中,完全是由于他们的成绩非常接近,之所以在一类中,完全是由于他们的成绩非常接近,之所以没有与之所以没有与005号分在同一类中,也完全是由于他号分在同一类中,也完全是由于他们的成绩相差很远。们的成绩相差很远。l这一点与我们经常遇到的分类问题不同(如人类按这一点与我们经常遇到的分类问题不同(如人类按照性别标准划分,可分为男性与女性,等等,这里照性别标准划分,可分为男性与女性,等等,这里是有指定的分类标准的)是有指定的分类标准的)8l聚类分析正是基于这种出发点,实现对聚类分析正是基于这种出发点,实现对样本数据的自动分类的。样本数据的自动分类的。9 5.2 距离和相似系数距离和相似系数l为了将样品为了将样品(或指标或指标)进行分类,就需要研究进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:样品之间关系。目前用得最多的方法有两个:l一种方法是用一种方法是用相似系数相似系数,性质越接近的样品,性质越接近的样品,它们的相似系数的绝对值越接近它们的相似系数的绝对值越接近1 1,而彼此无,而彼此无关的样品,它们的相似系数的绝对值越接近关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。似的样品归为不同的类。l另一种方法是将一个样品看作另一种方法是将一个样品看作p p维空间的一个维空间的一个点,并在点,并在空间定义距离空间定义距离,距离越近的点归为,距离越近的点归为一类,距离较远的点归为不同的类。一类,距离较远的点归为不同的类。10变量的类型变量的类型l由由于于相相似似系系数数和和距距离离有有各各种种各各样样的的定定义义,而而这这些些定定义义与与变变量量的的类类型型关关系系极极大大,因因此,首先,介绍变量的类型。此,首先,介绍变量的类型。l 由由于于实实际际问问题题中中,遇遇到到的的变变量量有有的的是是定定量量变变量量(如如长长度度、重重量量等等),有有的的是是定定性性变量变量(如产品等级、性别、职业等如产品等级、性别、职业等)。l通通常常将将变变量量(指指标标)的的类类型型按按以以下下三三种种尺尺度划分:度划分:11变量的类型分为以下三类:变量的类型分为以下三类:l l间间间间隔隔隔隔尺尺尺尺度度度度scalescalescalescale:变变量量是是用用连连续续的的量量来来表表示示的的,如如长长度、重量、压力、速度等等。度、重量、压力、速度等等。l l有有有有序序序序尺尺尺尺度度度度ordinalordinalordinalordinal:变变量量度度量量时时没没有有明明确确的的数数量量表表示示,而而是是划划分分一一些些等等级级,等等级级之之间间有有次次序序关关系系,如如某某产产品品分分上上、中中、下下三三等等,此此三三等等有有次次序序关关系系,但但没没有有数数量量表示。表示。l l名名名名义义义义尺尺尺尺度度度度nominalnominalnominalnominal:变变量量度度量量时时既既没没有有数数量量表表示示,也也没没有有次次序序关关系系,如如某某物物体体有有红红、黄黄、白白三三种种颜颜色色,又又如如医医学学化化验验中中的的阴阴性性与与阳阳性性,市市场场供供求求中中的的“产产”和和“销销”,还有性别、职业、产品的型号等。,还有性别、职业、产品的型号等。12l不不同同类类型型的的变变量量,在在定定义义距距离离和和相相似似系系数数时时,其其方方法法有有很很大大差差异异,使使用用时时必必须须注意。注意。l通通常常研研究究比比较较多多的的是是间间隔隔尺尺度度的的变变量量,因因此此本本章章主主要要给给出出间间隔隔尺尺度度的的距距离离和和相相似系数的定义。似系数的定义。1314问题转变为矩阵的行与行、列问题转变为矩阵的行与行、列与列向量间的相似关系的讨论与列向量间的相似关系的讨论15问题转变为矩阵的行与行、列与问题转变为矩阵的行与行、列与列的向量间的相似关系的讨论列的向量间的相似关系的讨论l对样品分类对样品分类(研究行与研究行与行之间的相似关系,行之间的相似关系,称为称为Q-Q-型聚类分析型聚类分析)l对指标分类对指标分类(研究列与研究列与列之间的相似关系,列之间的相似关系,称为称为R-R-型聚类分析型聚类分析)16需要引入所谓的需要引入所谓的“距离距离”概念来度量概念来度量样品间的相似、相近或相关程度的量样品间的相似、相近或相关程度的量l这里的这里的“距离距离”是广义是广义的,只要能够度量样品的,只要能够度量样品间的相似、相近或相关间的相似、相近或相关程度的量都可以称为距程度的量都可以称为距离。因此有很多种定义离。因此有很多种定义距离的方法。但有三条距离的方法。但有三条原则是任何一种距离定原则是任何一种距离定义都应该满足的:义都应该满足的:l用用d(X,Y)表示样品表示样品X与与Y间间的距离,则它需要满足:的距离,则它需要满足:l1.非负性非负性:d(X,Y)0,且且d(X,Y)=0 的充分必的充分必 要要条件是条件是 X=Yl2.对称性对称性:d(X,Y)=d(Y,X)l3.三角不等式:三角不等式:d(X,Z)d(X,Y)+d(Y,Z)17 1、Q型聚类分析型聚类分析常用的距离和相似系数常用的距离和相似系数定义定义(1)距离距离l如如果果把把n个个样样品品(X中中的的n个个行行)看看成成p维维空空间间中中n个个点点,则则两两个个样样品品间间相相似似程程度度可可用用p维维空空间间中中两两点点的的距距离离来来度度量量。令令表表示示样样品品 与与 的的距距离离。常常用用的的距距离离有:有:i)明氏明氏(Minkowski)距离距离 ii)马氏马氏(Mahalanobis)距离距离 iii)兰氏兰氏(Canberra)距离距离 iv)斜交叉空间距离斜交叉空间距离18i)明氏明氏(Minkowski)距离距离19采采用用明明氏氏距距离离时时要要注注意意:l一一定定要要采采用用相相同同量量纲纲的的变变量量。如如果果各各变变量量的的量量纲纲不不同同,或或当当各各变变量量的的量量纲纲相相同同但但各各变变量量的的测测量量值值相相差差悬悬殊殊时时,不不能能直直接接采采用用明氏距离。明氏距离。l需需要要先先对对数数据据进进行行标标准准化化处处理理,然然后后再再用用标准化处理后的数据计算距离。标准化处理后的数据计算距离。l最常用的最常用的标准化处理方法标准化处理方法是:是:20l在明氏距离中,最常用的是欧氏距离。在明氏距离中,最常用的是欧氏距离。l主主要要优优点点:当当坐坐标标轴轴进进行行正正交交旋旋转转时时,欧欧氏氏距距离离是是保保持持不不变变的的。因因此此,如如果果对对原原坐坐标标系系进进行行平平移移和和旋旋转转变变换换,则则变变换换后后样样品品点点间间的的相相似似情情况况(即即它它们们间间的的距距离离)完完全全等等同同于于变变换换前的情形。前的情形。l不足之处:不足之处:第一、它与各指标的量纲有关第一、它与各指标的量纲有关第二、它没有考虑
展开阅读全文
温馨提示:
金锄头文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
相关搜索

当前位置:首页 > 高等教育 > 大学课件


电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号