第8章聚类分析与判别分析

资源描述

《第8章聚类分析与判别分析》由会员分享，可在线阅读，更多相关《第8章聚类分析与判别分析（73页珍藏版）》请在金锄头文库上搜索。

1、2011年8月,让混沌涌来吧！让云彩形成一片沼泽！我等待着成形。 Robert Frost,统计名言,日常生活中，人们总是喜欢用“不是一家人不进一家门”这样通俗的话语来表示具有某些相似特征的人（或物）理应“走到”一起。究其本质，人们是尝试用某一种标准把所有的对象进行分门别类在自然科学和社会科学的各个领域，存在着大量的分类问题。比如根据人均GDP、人均消费水平等多项指标把世界各国划分成不同的经济发展程度；在地质勘探中，根据岩石标本的多种特性来判别地层所属的地质年代等,怎样解决下面的问题？,这些分类问题中，有些是事先并不知道存在什么类别，完全按照反映对象特征的数据所揭示的规律把对象进行分类；有些则

2、是在事先有了某些可信的分类标准之后，判定一个新的研究对象应该归属到哪一类别这两种研究分类的基本方法分别就是多元分析中的聚类分析和判别分析，二者之间既有区别又有联系,怎样解决下面的问题？,第 8 聚类分析与判别分析,8.1 聚类分析8.2 判别分析,8.1 聚类分析 8.1.1 按什么来聚类？ 8.1.2 怎样度量距离远近？ 8.1.3 分层聚类法 8.1.4 K-均值聚类法,第 8 章聚类分析与判别分析,聚类分析是一种建立分类的多元统计方法，它能将一批样本（变量）数据根据其诸多特征，按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类，产生多个分类结果。类内部个体特征具有相似性，类间个体

3、特征的差异性较大。所谓“没有先验知识”是指没有事先设定分类标准；所谓“亲疏远近”是指在各变量（特征）取值上的总体差异程度。聚类分析正是基于此实现数据的自动分类。,什么是聚类分析？,聚类分析的目的就是把分类对象按照一定的规则分成合理的若干类别，这些类不是事先给定的，而是直接根据数据的特征确定的当面对一个数据时，人们既可以按照观测值对变量进行分类，也可以按照观测值对样本进行分类，这在聚类分析中被分别称为R型聚类和Q型聚类但在数学上和实现过程中，这两种聚类并没有什么本质区别，考虑到人们更感兴趣的往往是基于变量信息对样品进行分类，因此在此重点以Q型聚类为例来介绍该方法,什么是聚类分析？,8.1.1 按

4、什么来聚类？,8.1 聚类分析,2008年5月,【例8.1】下面的表8-1是20个不同品牌的啤酒的热量、纳含量、酒精以及价格数据。,按什么来聚类？,在古老的分类学中，人们只能依靠经验和专业知识进行定性的分类，但在我们有了上述数据之后，一个很自然的想法就是能不能按照这些指标取值进行定量分类如果我们只考虑有关这些品牌的某一项指标，分类就很简单了，只要把该指标取值相差不大的品牌归为一类即可。但现实中摆在我们面前的往往是包含多个变量的复杂信息，那么该如何同时根据例8.1中的四个变量来对啤酒品牌聚类呢？其实想法是一样的，就是把离得比较近的品牌归为一类，而离得比较远的品牌放在不同的类。在数学处理上就是用

5、“距离”来度量对象之间的相似性,按什么来聚类？,8.1.2 怎样度量距离远近？,8.1 聚类分析,对“亲疏远近”的测度一般有两个角度：一是个体间的相似程度；二是个体间的差异程度。衡量相似程度通常可采用简单相关系数或等级相关系数等；个体间的差异程度通常用某种距离来测度。为测度个体间距离首先将每个样本数据看p维空间中的一个点。一般点与点之间的距离越小，意味着它们越“亲密”，越可能聚为一类。度量点间距离的方法有很多种，如果涉及的p个变量是定距型变量，常用的距离定义包括欧氏距离、平方欧氏距离、切比雪夫距离、绝对值距离（black距离）、明考斯基距离、夹角余弦距离、用户自定义距离等。,怎样度量距离远近？

6、,1.欧氏距离：2.切比雪夫距离：3.绝对距离(black距离):4.明考斯基距离(q可以任意指定),怎样度量距离远近？,5.夹角余弦距离：,怎样度量距离远近？,如果涉及的k个变量是计数型变量，常用的距离定义包括卡方距离、Phi方距离等。1.卡方距离:2. Phi方距离：(n是总频数),怎样度量距离远近？,如果涉及的k个变量是二值变量，个体间的距离定义常用简单匹配系数、Jaccard系数。1.简单匹配系数:2. Jaccard系数,怎样度量距离远近？,1.所选择的变量应符合聚类的要求。2.各变量的变量值不应有数量级上的差异。为此常需对数据预先进行标准化处理后再进行聚类。3.各变量间不应该有较强

7、的线性相关关系。常见的聚类方法有层次聚类法和K-Means聚类法等。,聚类分析需注意以下几点：,8.1.3 层次聚类法,8.1 聚类分析,层次(分层)聚类法又称系统聚类法(hierarchical cluster)，是聚类分析诸方法中用得最多的一种，它的基本步骤是：开始将每一个样品各自单独作为一类，然后按照定义好的样品之间的距离(此时的类间距离等同于点间距离)进行计算，将距离最近的两个类合并成一个新类，这样类别相对于开始的时候就减少了一个再按照定义好的类间距离，计算这个新的类别与其他类之间的距离，结合开始剩下的其他类之间的距离，再找出距离最近的两个类合并成一个类如此重复，每次合并便减少一个类

8、，直至最后把所有的样品合并为一个大类,层次聚类法 (hierarchical cluster),用SPSS实现分层聚类,第1步：选择【Analyze】下拉菜单，并选择【Classify- Hierarchical Cluster 】(分层聚类)选项进入主对话框第2步：在主对话框中将原始数据中用于聚类的所有变量选入【Variable(s)】，把区分样品的标签变量选入【Label Cases by】，在【Cluster】下选择【Cases】(这是 Q型聚类，如果要对变量进行R型聚类，则选择【Variables】)第3步：点入【Display】选择输出内容：【Statistics】输出相关统计

9、量；【Plots】输出相关图形。,用SPSS实现分层聚类,第4步：点入【Plots】选中【Dendrogram】(树状图)，点击【Continue】回到主对话框.在【Icicle】中指定输出冰挂图，其中【All clusters】表示输出每个阶段的冰挂图；【Specified range of clusters】表示只输出某阶段的冰挂图，从第几步到第几步，中间间隔几步。在【Orientation】中指定如何显示冰挂图，其中【Vertical】表示纵向显示；【Horizontal】表示横向显示第5步：点入【Method】，可以在【Cluster Method】中选择类间距离的定义方法，在

10、【Measure】下选择点间距离的定义方法（其中【Interval】中的方法适合于定距型变量；【Counts】中的方法适合于计数型变量；【Binary】中的方法适合于二值变量）。【Cluster Method】给出是计算个体与小类、小类与小类间距离的方法。, 用SPSS对例8.1实现分层聚类,用SPSS实现分层聚类,第6步：在【Transform Values】或【Transform Measures】下选择是否对原始数据进行标准化处理或其他变换。【By variable】表示针对变量，适用于Q型聚类分析；【By case】表示针对样本，适用于R型聚类分析。点击【Continue】回

11、到主对话框第7步：点开【Statistics】选中【Agglomeration schedule】(聚类清单)点击【Continue】回到主对话框第8步：点入【Save】，可以在【Cluster Membership】(群成员数)下选择在原始数据中保留分成多少类别的分类结果，点击【Continue】回到主对话框，点击【OK】, 用SPSS对例8.1实现分层聚类,Nearest neighbor(最短距离法)用两个类别中各个数据点之间最短的那个距离来表示两个类别之间的距离Furthest neighbor(最长距离法)用两个类别中各个数据点之间最长的那个距离来表示两个类别之间的距离Centr

12、oid clustering(重心法)用两个类别的重心之间的距离来表示两个类别之间的距离between-groups linkage(组间平均距离法)SPSS的默认方法。是用两个类别中间各个数据点之间的距离的平均来表示两个类别之间的距离Wards method(离差平方和法)使各类别中的离差平方和较小，而不同类别之间的离差平方和较大,类间距离方法的选择(Cluster Method),Interval data(连续变量)可选方法有：Euclidean distance, squared Euclidean distance, cosine, Pearson correlation, Cheb

13、ychev, block, Minkowski, and customized. Count data(计数变量)可选方法有：chi-square measure and phi-square measure. Binary data(二分分类变量)可选方法有：Euclidean distance, squared Euclidean distance, size difference, pattern difference, variance, dispersion, shape, ,被聚类变量的类型(Measure),分层聚类,基本操作步骤1.基本操作A.菜单选项: analyze-cla

14、ssify-hierachical clusterB.选择参与聚类分析的变量入variables框C.选择一字符型变量作为个案的标记变量(label cases)D.选择个案聚类还是变量聚类,分层聚类,基本操作步骤2. 选择距离计算方法（method选项）cluster method:计算类间距离的方法measure:计算样本距离的方法transform values:对数据进行标准化处理by variable:以变量为单位标准化，适于个案聚类 by case:对个案为单位标准化，适于变量聚类,分层聚类,进一步的工作1.数据输出（statistics选项）agglomeration sched

15、ule:凝聚状态表（默认）distance matrix:样本的距离矩阵cluster membership:类成员none:不输出类成员（默认）single solution：聚成n类时各样本的归属range of solutions:聚成mn类时各样本的归属(mn总样本数),分层聚类,进一步的工作2. 图形输出（plot选项）dendrogram:树型图icicle:冰柱图all cluster:聚类的每一步均在冰柱图中体现specified range of clusters:将聚类的第n1类开始到第n2类结束，间隔n3类的聚类分析过程在冰柱图中体现orientation:冰柱图的方向vertical:纵向;horizontal:横向,分层聚类,进一步的工作3. 结果保存（save选项）single solution:生成一新变量存储在聚成n类时各样本属于哪一类(cluN_M: N为聚类数,M为第几次做的)range of solutions:生成若干个变量分别存放聚成nm类时各样本的归属情况,

展开阅读全文

第8章 聚类分析与判别分析

第8章聚类分析与判别分析