应用多元统计分析-第五章聚类分析课件

资源描述

《应用多元统计分析-第五章聚类分析课件》由会员分享，可在线阅读，更多相关《应用多元统计分析-第五章聚类分析课件（68页珍藏版）》请在金锄头文库上搜索。

1、1,聚类分析,2,第五章把对象分类聚类分析,3,分类,俗语说，物以类聚、人以群分。当有一个分类指标时，分类比较容易。但是当有多个指标，要进行分类就不是很容易了。比如，要想把中国的县分成若干类，可以按照自然条件来分：考虑降水、土地、日照、湿度等各方面；也可以考虑收入、教育水准、医疗条件、基础设施等指标；,4,聚类分析,由于不同的指标项对重要程度或依赖关系是相互不同的，所以也不能用平均的方法，因为这样会忽视相对重要程度的问题。所以需要进行多元分类，即聚类分析。最早的聚类分析是由考古学家在对考古分类中研究中发展起来的，同时又应用于昆虫的分类中，此后又广泛地应用在天气、生物等方面。,5,

2、聚类分析,对于一个数据，人们既可以对变量（指标）进行分类(相当于对数据中的列分类)，也可以对观测值（事件，样品）来分类（相当于对数据中的行分类）。对变量的聚类称为R型聚类，而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的，没有什么不同。,6,聚类中选择变量的要求,和聚类分析的目标密切相关反映了要分类对象的特征变量之间不应该高度相关。,7,如何聚类？,聚类分析就是要找出具有相近程度的点或类聚为一类；如何衡量这个“相近程度”？一种方法是用相似系数，性质越接近的样品，它们的相似系数的绝对值越接近1，而彼此无关的样品，它们的相似系数的绝对值越接近于零。比较相似的样品归为一类，不怎么相似

3、的样品归为不同的类。另一种方法是将一个样品看作p维空间的一个点，并在空间定义距离，距离越近的点归为一类，距离较远的点归为不同的类。,8,距离和相似系数,9,距离,什么是距离？首先我们看样本数据：一般满足以下四个条件时，就称为聚例：,10,常用距离明氏距离,Minkowski距离：当q=1时：当q=2时：当q=时：,11,明氏距离的缺点,距离的大小与个指标的观测单位有关，具有一定的人为性。例如：对体重和身高进行测量，采用不同单位，其距离测量的结果不同。以欧氏距离为例。,12,当长度=cm时：,13,当长度=mm时：,改进的方法：对数据进行标准化，然后再计算距离。,14,采用明氏

4、距离需要注意的是：,一定要采用相同量纲的变量。如果各变量的量纲不同，或当各变量的量纲相同但各变量的测量值相差悬殊时，不能直接采用明氏距离。需要先对数据进行标准化处理，然后再用标准化处理后的数据计算距离。最常用的标准化处理方法是：,15,对指标标准化的方法,16,明氏距离的缺点,另一个缺点：它没有考虑到指标之间的相关性。改进的方法是：采用马氏距离马氏距离是1936年由印度数学家：马哈拉比斯由协方差矩阵计算构造的距离。,17,距离矩阵,18,相似系数,研究样品之间的关系，除了用距离表示外，还有相似系数，顾名思义，相似系数是描写样品之间相似程度的一个量，常用的相似系数有：夹角余弦相关系数

5、,19,相似系数,夹角余弦cosine 尽管图中AB和CD 长度不一样，但形状相似。当长度不是主要矛盾时，就可利用夹角余弦这样的相似系数。,20,夹角余弦cosine,21,相似矩阵,22,相关系数,23,相关系数矩阵,把两两样品的相关系数都计算出来，可形成样品相关系数矩阵。,24,25,聚类分析内容,系统聚类法有序样品聚类法动态聚类法模糊聚类法图论聚类法聚类预报法等。本章主要介绍常用的系统聚类法。,26,系统聚类法,27,系统聚类法的基本思想,先将每个研究对象(样品或指标)各自看成一类。然后根据对象间的相似度量，将h类中最相似的两类合并，组成一个新类，这样得到h-1类，

6、再在这h-1类中找出最相似的两类合并，得到h-2类，如此下去，直至将所有的对象并成一个大类为止。当然，真的合并成一个类就失去了聚类的意义，所以上面的聚类过程应该在某个类水平数（即未合并的类数）停下来，最终的类就取这些未合并的类。决定聚类个数是一个很复杂的问题。,28,系统聚类法的步骤,可选择适当的距离，计算距离,把每个样品看成一类，构造n个类,合并最近的两类为一新类,计算新类与当前各类的距离,判断,画聚类图,根据实际情况，确定类和类的个数,仅有一个类,不是仅有一个类,采用系统聚类法,29,系统聚类法,正如样品之间的距离可以有不同的定义方法一样，类与类之间的距离也有各种定义。例如可以定义类与

7、类之间的距离为两类之间最近样品的距离，或者定义为两类之间最远样品的距离，也可以定义为两类重心之间的距离等等。类与类之间用不同的方法定义距离，就产生了不同的系统聚类方法。,30,八种系统聚类方法,最短距离法最长距离法中间距离法重心法类平均法可变类平均法可变法离差平方和法,系统聚类分析尽管方法很多，但归类的步骤基本上是一样的，所不同的仅是类与类之间的距离有不同的定义方法，从而得到不同的计算距离的公式。这些公式在形式上不大一样，但最后可将它们统一为一个公式，对上机计算带来很大的方便。,31,系统聚类法,最短距离法Nearest Neighbor,32,系统聚类法,最长距离法Furth

8、est Neighbor,33,系统聚类法-中间法,34,系统聚类法-中间法,35,系统聚类法,重心法Centroid Clustering 重心法定义两类之间的距离就是两类重心的距离。设的重心（即该类样品的均值）分别是（注意一般他们是p维向量），则之间的距离是计算公式为：具体计算过程见参考书2p78-79 。,36,系统聚类法,类平均法Between-groups Linkage 重心法虽有很好的代表性，但并未充分利用个样品的信息，因此给出类平均法，它定义两类之间的距离平方为这两类元素两两之间距离平方的平均，即：设聚类到某一步将,37,系统聚类法,离差平方和法Words Meth

9、od Words法的基本思想是来自于方差分析，如果分类正确，同类样品的离差平方和应当较小，类与类的离差平方和应当较大。具体方法：先将n个样品各自成一类，然后每次缩小一类；每缩小一类离差平方和就要增大，选择使离差平方和增加最小的两类合并，直到所有的样品归为一类为止。,38,系统聚类法,中样品的离差平方和为：,39,系统聚类法,如有五个样品：1， 2， 3.5， 7， 9 第一步：将五个样品各自分成一类，显然这时的类内离差平方和S=0；第二步：将一切可能的任意两样品合并，计算所增加的离差平方和：如,40,此外，还有类内平均法等。,41,SPSS中的聚类分析与过程,42,例9.1 饮料数据

10、（drink.sav ）,16种饮料的热量、咖啡因、钠及价格四种变量,43,SPSS中的聚类分析,Spss中的聚类功能常用的有两种：快速聚类（迭代过程）： K-Means Cluster 分层聚类：Hierarchical,44,Hierarchical Cluster聚类,分层聚类由两种方法：分解法和凝聚法。分层聚类的功能：即可进行样品的聚类，也可进行变量的聚类。分层聚类的原理：即我们前面介绍过的系统聚类方法的原理和过程。,45,Hierarchical Cluster聚类,分层聚类的中要进行以下的选择：数据的标准化测度方法的选择：距离方法的选择或相似性、关联程度的选择。聚类方法

11、的选择：即以什么方法聚类，spss中提供了7中方法可进行选择。输出图形的选择：树形图或冰柱图。,46,47,欧氏平方距离、类平均法聚类,快速聚类法聚类,48,欧氏平方距离、最短距离法聚类,欧氏平方距离、最长距离法聚类,49,欧氏平方距离、重心法聚类,欧氏平方距离、Words法聚类,50,聚类分析在市场细分中的应用,要对消费者购物的态度进行分类，在前期研究的基础上，确定6个态度变量。每个消费者要对有关购物态度的6个观点进行评价：1表示非常不同意，7表示非常同意。,V1购物很有趣 V2购物不利于我的预算 V3购物总是与上饭店吃饭联系在一起 V4购物时我尽量买的最好 V5我对购物不感兴趣 V6购物

12、时多比较价格可以节省很多钱,（SPSS文件：购物态度聚类分析）,51,1类：1、3、6、7、8、12、15、17 2类：2、5、9、11、13、20 3类：4、10、14、16、18、19,52,第1类消费者对于V1和V3的评价相对较高，而对V5评价较低，因此可以称其为“热情的消费者”。,V1购物很有趣 V3购物总是与上饭店吃饭联系在一起 V5我对购物不感兴趣,53,第2类消费者正好与第1类相反,对于V1和V3的评价相对较低，而对V5评价较高，因此可以称其为“冷淡的消费者”。,V1购物很有趣 V3购物总是与上饭店吃饭联系在一起 V5我对购物不感兴趣,54,第3类消费者对于V2、V4和V6的评价

13、相对较高，因此可以称其为“经济型消费者”。,V2购物不利于我的预算 V4购物时我尽量买的最好 V6购物时多比较价格可以节省很多钱,55,K-Means Methods-快速聚类,56,K-Means Methods,57,K-Means Methods,58,K-Means Cluster原理,首先，选择n个数值型变量参与聚类分析，最后要求的聚类数为k个；其次，由系统选择k个(聚类的类数）观测量（也可由用户指定）作为聚类的种子。第三，按照距离这些类中心的距离最小的原则把所有观测量（样品）分派到各类重心所在的类中去。第四，这样每类中可能由若干个样品，计算每个类中各个变量的均值，以此作为第二

14、次迭代的中心；第五，然后根据这个中心重复第三、第四步，直到中心的迭代标准达到要求时，聚类过程结束。,59,K-Means Cluster聚类过程,由AnalyzeClassify K-Means Cluster 将个变量放入Variable ；输入最后聚类的个数；,60,61,62,63,聚类方法的优缺点,类平均法比较好因为与类平均法相比，最短和重心法是“空间浓缩”，即并类的距离范围小，区别类的灵敏度差；与类平均法相比，其他方法是“空间扩张”，即并类距离范围大，区别类的灵敏度强。,64,聚类方法的优缺点,最短距离比最长距离法好聚类结果中，如果孤类点太多，则说明该中聚类方法不好。如果

15、从减少孤类来看，一般情况下用Words方法最好。,65,快速聚类法与层次聚类法应用区别,层次聚类法的聚类过程是单方向的，一旦某个样品（case）进入某一类，就不可能从该类出来，再归入其他的类。而快速聚类法受奇异值、相似测度和不合使得聚类变量的影响较小，对于不合适的初始分类可以进行反复调整.,66,快速聚类法与层次聚类法应用区别,在聚类分析发展的早期，层次聚类法应用普遍，其中尤以组间类平均法和离差平方和法应用最广。后来快速聚类方法逐步被人们接受，应用日益增多。现在是两者相结合，取长补短。首先使用层次聚类法确定分类数，检查是否有奇异值，去除奇异值后，对剩下的案例重新进行分类，把用层次聚类法得到的各个类的重心，作为迭代法的初始分类中心，对样本进行重新调整。,67,练习一,各地区的不同类型的房屋销售情况聚类分析。数据文件：各省不同类型房屋销售情况.sav。变量为：别墅公寓经济适用房办公楼商业用房其他,68,练习二,数据文件：农民支出情况.SAV 是我国16个地区农民支出情况的抽样调查数据，每个地区反映每人平均生活消费支出的六个经济指标。请进行聚类分析，并比较何种方法与人们观察到的实际情况较接近。,

展开阅读全文

应用多元统计分析-第五章 聚类分析课件

应用多元统计分析-第五章聚类分析课件