第8章聚类分析和判别分析

资源描述

《第8章聚类分析和判别分析》由会员分享，可在线阅读，更多相关《第8章聚类分析和判别分析（30页珍藏版）》请在金锄头文库上搜索。

1、第8章聚类分析和判别分析俗话说“物以类聚，人以群分”，在现实生活中，为了更好的认识事物，人们往往需要根据事物的属性对事物进行分类，分类是人类认识客观世界的一种重要方法。在社会生活的各个方面和科学研究的各个领域都存在着大量的分类问题。在实际生活中经常需要使用聚类分析对事物进行分类，在总体类别已知时需要使用判别分析对研究对象进行归类。在 SPSS中其菜单打开方式为：选择“分析”“分类”命令，打开如图所示的“分类”菜单。8.1 聚类分析基本原理聚类分析作为一种重要的分类方法，其实质在于通过研究对象之间的亲疏关系将相似的对象划分为一类，不相似的对象划分到不同的类别当中。在本节中将介绍

2、聚类分析的概念、计算方法和聚类结果的评价等。8.1.1 聚类分析简介聚类分析（Cluster Analysis）是根据事物本身的特征通过统计方法对事物进行分类的多元分析方法，可以通过数据建模达到简化数据的目的。聚类分析也称为分类分析、数值分类或集群分析等。根据分类对象的不同，聚类分析可分为样本聚类和变量聚类两种。8.1.2 聚类分析的计算在聚类分析过程中，需要区分为不同的类，事物是怎样划分到不同的类别当中的呢？判断不同事物是否归于一类依据的是事物之间的相似性。事物相似性的度量标准一般有两种：距离和相似性系数，距离一般用来度量样本之间的相似性，而相似性系数一般是用来度量变量之间

3、的相似性。1距离距离的计算根据观测指标数据类型的不同可以分为两种情况：如果观测指标是非连续数据，需要采用卡方分析等计算方法；如果观测值标是连续数据，则可以采用以下几种算法：（1）明氏距离（2）马氏距离（3）兰氏距离（4）自定义距离2相似性系数前面提到，聚类分析不仅可以对样本进行聚类，而且还可以对变量进行聚类，当对变量进行聚类时，考察变量之间关系的指标一般采用相似性系数来表示。相似性系数是描述测量指标之间相关程度的指标，取值范围为-1,1，相似系数越大，变量之间的相似性就越高。根据研究目的的不同，有时只需要考察相关系数绝对值的大小，有时还要考虑到相关的方向，即相关系

4、数的正负。聚类时，相似的变量归入一类，不相似的变量归到不同的类。相似性系数的计算方法常见的有积差相关系数和夹角余弦等。积差相关系数：8.1.3 聚类结果的评价聚类分析是一个探索性的过程，在使用聚类分析过程中，除了要根据不同的数据类型选择其最适合的聚类方法外，还往往需要结合数据结构和对聚类样本或变量的先验经验，并且不断探索和尝试才能得到比较好的聚类结果。这里简要介绍一些判断类别数量是否合理的标准和最终分类应该符合的要求作为参考。 1规定一个阈值T 2查看样本的散点图 3使用统计量8.2.1 二阶聚类的基本原理顾名思义，二阶聚类是指聚类过程是分为两步进行的，故又称为两步聚类。二阶

5、聚类发展较晚，但由于其能同时处理连续数据和离散数据，同时还可以自动确定最佳聚类个数，加上处理速度快等优点，使它从一经提出就在多个领域得到推广，并受到越来越多用户的青睐。二阶聚类主要分为以下两个步骤：（1）预分类（2）正式聚类8.2.2 二阶聚类的操作过程在SPSS中二阶聚类的操作过程如下：（1）打开或建立数据文件。（2）选择“分析”“分类”“两步聚类”命令，打开“ 二阶聚类分析”对话框，如图所示。（3）选择变量（4）选择距离度量标准（5）连续变量计数（6）设定聚类数量（7）选择聚类准则（8）选项设置（9）输出设置（10）设置完成后，单击“确定”按钮，执行操作，输出

6、结果。8.2.3 实例分析：普通高等学校（机构）教职工队伍构成（1 ）教师队伍的构成影响和制约着高等教育的质量和发展。现准备根据2008年中国部分省份普通高等学校（机构）教职工队伍构成情况对这些地区进行分类。收集到的资料包括：正高级职称人数（单位：人）、副高级职称人数、中级职称人数、初级职称人数和无职称人数。 1操作过程 2结果分析8.3 K-均值聚类分析K-均值聚类（K-Means-Cluster）是一种快速样本聚类方法，在聚类个数已知的情况下，特别适合于对大样本数据进行分析。在本节将介绍K-均值聚类的基本原理和操作过程。8.3.1 K-均值聚类的基本原理K-均值聚类（K-

7、Means-Cluster）又称快速样本聚类或逐步样本聚类，是先将样本数据进行初始分类，然后根据中心点逐步调整，直至得到最终分类。这种聚类方法具有计算量大、对系统要求低、占用内存少、处理速度快的特点，因此特别适合处理大样本数据。但是这种聚类方法只适于对样本的聚类，而不能对变量进行聚类。K-均值聚类分析的基本步骤如下：（1）确定聚类数量。（2）确定初始类中心坐标。（3）根据距离最近原则进行分类。（4）重新计算所形成的各个新类别的中心点坐标，并重新归类。（5）重复上一过程，直至达到收敛标准。8.3.2 K-均值聚类的操作过程前面介绍了K-均值聚类分析的基本原理和步骤，在SP

8、SS中 K-均值聚类的操作过程如下：（1）打开或建立数据文件。（2）选择“分析”“分类”“K-均值聚类”命令，打开 “K-均值聚类”对话框，如图所示。（3）选择变量（4）确定聚类数（5）选择聚类方法（6）设定聚类中心的读取与输出（7）设定迭代次数（8）设定输出结果（9）选择统计量指标和缺失值处理（10）单击“确定”按钮，执行操作，输出结果。8.3.3 实例分析：不同省份三次产业从业人数优化产业结构，转变经济增长方式对于国民经济平稳较快发展有着重要的意义。为了更好的了解全国不同省份的三次产业结构情况，国家统计局调查了全国31个省份2008的三次产业从业人数情况。这里摘选

9、了其中部分省份的数据，请问如何通过这些数据对各省份三次产业从业人数进行聚类分析？ 1操作过程 2结果分析8.4 层次聚类在前面两节的内容中介绍了二阶聚类和K-均值聚类，这两种聚类方法聚类速度快，较适合于样本量较大的数据，但它们也有一些不够完善之处。首先，它们只可以对样本进行聚类，但是无法对变量进行聚类；其次，由于聚类个数往往需要研究者事先指定（对于K-均值聚类必须指定聚类个数），这就需要研究者对研究对象要有一定的先验知识经验和预期，这对新手来说会有一定的困难；最后，在输出结果中它们对样本之间的关系和结构的描述也不够详细和直观。而本节的层次聚类方法能很好的克服上述两种聚类方

10、法的缺陷。8.4.1 层次聚类的基本原理层次聚类又称系统聚类或分层聚类，是一种常用的聚类方法。在层次聚类中，它既可以对样本进行聚类（即Q型聚类），也可以对变量进行聚类（即R型聚类）；聚类个数也无需事先指定（如果了解的话也可以指定或者只是指定类别数量范围）；在聚类过程中系统将所有观测指标纳入计算过程，在聚类结果中不仅可以显示不同样本（或变量）的距离、所属类别，而且还可以根据分类过程绘制出样本（或变量）的树状谱系关系图，对于确定类别个数有着重要的参考价值。根据聚类过程的不同，层次聚类又可以分为凝聚法和分解法两种方向相反的聚类方法。8.4.2层次聚类的操作过程在SPSS中层次聚类

11、的操作过程如下：（1）打开或建立数据文件。（2）选择“分析”“分类”“系统聚类”命令，打开“ 系统聚类分析”对话框，如图所示。（3）选择变量：从左边变量列表框中选择要进行聚类的变量将其移入右边“变量”列表框中，同时选择称名变量移入“ 标注个案”文本框中。（4）选择聚类类型：在“分群”选项组中可以选择聚类对象。（5）设定输出指标：在“输出”选项组中选择输出统计量和图形。（6）选择基本统计量（7）选择输出图形（8）选择聚类方法（9）聚类结果保存（10）设置完成后，单击 “确定”按钮，执行操作，输出结果。8.4.3 实例分析：普通高等学校（机构）教职工队伍构成（2 ）在此

12、仍采用二阶聚类中使用的“普通高等学校（机构）教职工队伍构成”案例。 1操作过程 2结果分析8.5 判别分析在前面几节中主要介绍的是聚类分析，在根据一定的指标对一组样本进行分类时就可以使用聚类分析。如果已知一组样本总体可以分为几类，但仍有一些样本需要明确其类别归属时就需要使用本节的判别分析。在实际生活中经常会遇到各种各样的类别归属的判断问题。如医生在给病人诊断时，就需要根据病人的各种症状、生化指标、持续时间等方面对病人的疾病类型及严重程度进行判断。同样，在生物学中对新发现物种的归类，在社会学、经济学中对社会发展状况、经济形势的判断也都要涉及到本节要学习的判别分析。8.5.1

13、判别分析简介判别分析（Discriminant Analysis）是多元统计分析中判断样品所属类别的一种重要的统计方法，它最早是由费希尔 (R. A. Fisher) 1936 年在生物学的植物分类问题中提出来的，但当初只是作为一种分类方法而缺少数学上的理论依据，后来出现的贝叶斯（Bayes）判别证明了费希尔判别的合理性，因此一般将这两种判别分析合称为 Fisher判别分析。1判别分析的基本原理判别分析是在类别数确定的情况下，根据某一研究对象的各种特征判断其类别归属的一种多变量统计分析方法。判别分析的方法很多，根据判别的组数来区分，有两组判别分析和多组判别分析；根据区分不同总

14、体所用数学模型的不同，有线性判别和非线性判别；根据判别时变量处理方法的不同，有逐步判别和序贯判别等。2判别分析的适用条件任何一种统计方法在满足其适用条件的前提下才可能得到理想的结果和解释。建立理想的判别分析模型需要满足以下前提假设：（1）自变量服从多元正态分布且彼此之间不存在多重共线性。（2）所有自变量在各组之间方差齐性，协方差矩阵也相等。（3）因变量的取值事先是确定的且独立。（4）自变量与因变量间关系符合线性假设。8.5.2 判别分析的操作过程在SPSS中判别分析的操作过程如下：（1）打开或建立数据文件。（2）选择“分析”“分类”“判别”命令，打开“判别分析”对话框，如图所示。（3）选择变量（4）选择判别分析方法（5）选择基本统计量（6）选择判别方法（7）选择分类（8）结果保存（9）设置完成后，单击 “确定”按钮，执行操作，输出结果。8.4.3 实例分析：地区职工平均工资水平不同地区工资水平会存在一定的差异，在2004年全国不同地区职工平均工资调查中选取国有单位、城镇集体单位及其他单位作为指标，通过对部分数据进行聚类分析总体上确立了两个类别，分别为第一、第二组。另外有4个地区属于待判别个案，请根据下面数据对这4个地区进行判别分析以确定其所属类别。 1操作过程 2结果分析8.5 习题

展开阅读全文

第8章 聚类分析和判别分析

第8章聚类分析和判别分析