第8章 聚类分析和判别分析

上传人:ldj****22 文档编号:48621007 上传时间:2018-07-18 格式:PPT 页数:30 大小:254KB
返回 下载 相关 举报
第8章  聚类分析和判别分析_第1页
第1页 / 共30页
第8章  聚类分析和判别分析_第2页
第2页 / 共30页
第8章  聚类分析和判别分析_第3页
第3页 / 共30页
第8章  聚类分析和判别分析_第4页
第4页 / 共30页
第8章  聚类分析和判别分析_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《第8章 聚类分析和判别分析》由会员分享,可在线阅读,更多相关《第8章 聚类分析和判别分析(30页珍藏版)》请在金锄头文库上搜索。

1、第8章 聚类分析和判别分析俗话说“物以类聚,人以群分”,在现实生活中,为了更 好的认识事物,人们往往需要根据事物的属性对事物进行 分类,分类是人类认识客观世界的一种重要方法。在社会 生活的各个方面和科学研究的各个领域都存在着大量的分 类问题。在实际生活中经常需要使用聚类分析对事物进行分类,在总 体类别已知时需要使用判别分析对研究对象进行归类。在 SPSS中其菜单打开方式为:选择“分析”“分类”命令,打 开如图所示的“分类”菜单。8.1 聚类分析基本原理聚类分析作为一种重要的分类方法,其实质在于通过研究 对象之间的亲疏关系将相似的对象划分为一类,不相似的 对象划分到不同的类别当中。在本节中将介绍

2、聚类分析的 概念、计算方法和聚类结果的评价等。8.1.1 聚类分析简介聚类分析(Cluster Analysis)是根据事物本身的特征通 过统计方法对事物进行分类的多元分析方法,可以通过数 据建模达到简化数据的目的。聚类分析也称为分类分析、 数值分类或集群分析等。根据分类对象的不同,聚类分析 可分为样本聚类和变量聚类两种。8.1.2 聚类分析的计算在聚类分析过程中,需要区分为不同的类,事物是怎样划 分到不同的类别当中的呢?判断不同事物是否归于一类依 据的是事物之间的相似性。事物相似性的度量标准一般有 两种:距离和相似性系数,距离一般用来度量样本之间的 相似性,而相似性系数一般是用来度量变量之间

3、的相似性 。1距离 距离的计算根据观测指标数据类型的不同可以分为两种情况 :如果观测指标是非连续数据,需要采用卡方分析等计算方 法;如果观测值标是连续数据,则可以采用以下几种算法: (1)明氏距离 (2)马氏距离 (3)兰氏距离 (4)自定义距离2相似性系数 前面提到,聚类分析不仅可以对样本进行聚类,而且还可以 对变量进行聚类,当对变量进行聚类时,考察变量之间关系 的指标一般采用相似性系数来表示。相似性系数是描述测量 指标之间相关程度的指标,取值范围为-1,1,相似系数越 大,变量之间的相似性就越高。根据研究目的的不同,有时 只需要考察相关系数绝对值的大小,有时还要考虑到相关的 方向,即相关系

4、数的正负。聚类时,相似的变量归入一类, 不相似的变量归到不同的类。相似性系数的计算方法常见的 有积差相关系数和夹角余弦等。 积差相关系数:8.1.3 聚类结果的评价聚类分析是一个探索性的过程,在使用聚类分析过程中, 除了要根据不同的数据类型选择其最适合的聚类方法外, 还往往需要结合数据结构和对聚类样本或变量的先验经验 ,并且不断探索和尝试才能得到比较好的聚类结果。这里 简要介绍一些判断类别数量是否合理的标准和最终分类应 该符合的要求作为参考。 1规定一个阈值T 2查看样本的散点图 3使用统计量8.2.1 二阶聚类的基本原理顾名思义,二阶聚类是指聚类过程是分为两步进行的,故 又称为两步聚类。二阶

5、聚类发展较晚,但由于其能同时处 理连续数据和离散数据,同时还可以自动确定最佳聚类个 数,加上处理速度快等优点,使它从一经提出就在多个领 域得到推广,并受到越来越多用户的青睐。 二阶聚类主要分为以下两个步骤: (1)预分类 (2)正式聚类8.2.2 二阶聚类的操作过程在SPSS中二阶聚类的操作过程如下: (1)打开或建立数据文件。 (2)选择“分析”“分类”“两步聚类”命令,打开“ 二阶聚类分析”对话框,如图所示。(3)选择变量 (4)选择距离度量标准 (5)连续变量计数 (6)设定聚类数量 (7)选择聚类准则 (8)选项设置 (9)输出设置 (10)设置完成后,单击“确定”按钮,执行操作,输出

6、结 果。8.2.3 实例分析:普通高等学 校(机构)教职工队伍构成(1 )教师队伍的构成影响和制约着高等教育的质量和发展。现 准备根据2008年中国部分省份普通高等学校(机构)教职 工队伍构成情况对这些地区进行分类。收集到的资料包括 :正高级职称人数(单位:人)、副高级职称人数、中级 职称人数、初级职称人数和无职称人数。 1操作过程 2结果分析8.3 K-均值聚类分析K-均值聚类(K-Means-Cluster)是一种快速样本聚类方 法,在聚类个数已知的情况下,特别适合于对大样本数据 进行分析。在本节将介绍K-均值聚类的基本原理和操作过 程。8.3.1 K-均值聚类的基本原理K-均值聚类(K-

7、Means-Cluster)又称快速样本聚类或逐 步样本聚类,是先将样本数据进行初始分类,然后根据中 心点逐步调整,直至得到最终分类。这种聚类方法具有计 算量大、对系统要求低、占用内存少、处理速度快的特点 ,因此特别适合处理大样本数据。但是这种聚类方法只适 于对样本的聚类,而不能对变量进行聚类。K-均值聚类分 析的基本步骤如下: (1)确定聚类数量。 (2)确定初始类中心坐标。 (3)根据距离最近原则进行分类。 (4)重新计算所形成的各个新类别的中心点坐标,并重 新归类。 (5)重复上一过程,直至达到收敛标准。8.3.2 K-均值聚类的操作过程前面介绍了K-均值聚类分析的基本原理和步骤,在SP

8、SS中 K-均值聚类的操作过程如下: (1)打开或建立数据文件。 (2)选择“分析”“分类”“K-均值聚类”命令,打开 “K-均值聚类”对话框,如图所示。(3)选择变量 (4)确定聚类数 (5)选择聚类方法 (6)设定聚类中心的读取与输出 (7)设定迭代次数 (8)设定输出结果 (9)选择统计量指标和缺失值处理 (10)单击“确定”按钮,执行操作,输出结果。8.3.3 实例分析:不同省份三 次产业从业人数优化产业结构,转变经济增长方式对于国民经济平稳较快 发展有着重要的意义。为了更好的了解全国不同省份的三 次产业结构情况,国家统计局调查了全国31个省份2008的 三次产业从业人数情况。这里摘选

9、了其中部分省份的数据 ,请问如何通过这些数据对各省份三次产业从业人数进行 聚类分析? 1操作过程 2结果分析8.4 层次聚类在前面两节的内容中介绍了二阶聚类和K-均值聚类,这两 种聚类方法聚类速度快,较适合于样本量较大的数据,但 它们也有一些不够完善之处。首先,它们只可以对样本进 行聚类,但是无法对变量进行聚类;其次,由于聚类个数 往往需要研究者事先指定(对于K-均值聚类必须指定聚类 个数),这就需要研究者对研究对象要有一定的先验知识 经验和预期,这对新手来说会有一定的困难;最后,在输 出结果中它们对样本之间的关系和结构的描述也不够详细 和直观。而本节的层次聚类方法能很好的克服上述两种聚 类方

10、法的缺陷。8.4.1 层次聚类的基本原理层次聚类又称系统聚类或分层聚类,是一种常用的聚类方 法。在层次聚类中,它既可以对样本进行聚类(即Q型聚 类),也可以对变量进行聚类(即R型聚类);聚类个数 也无需事先指定(如果了解的话也可以指定或者只是指定 类别数量范围);在聚类过程中系统将所有观测指标纳入 计算过程,在聚类结果中不仅可以显示不同样本(或变量 )的距离、所属类别,而且还可以根据分类过程绘制出样 本(或变量)的树状谱系关系图,对于确定类别个数有着 重要的参考价值。 根据聚类过程的不同,层次聚类又可以分为凝聚法和分解 法两种方向相反的聚类方法。8.4.2层次聚类的操作过程在SPSS中层次聚类

11、的操作过程如下: (1)打开或建立数据文件。 (2)选择“分析”“分类”“系统聚类”命令,打开“ 系统聚类分析”对话框,如图所示。(3)选择变量:从左边变量列表框中选择要进行聚类的变量 将其移入右边“变量”列表框中,同时选择称名变量移入“ 标注个案”文本框中。 (4)选择聚类类型:在“分群”选项组中可以选择聚类对象 。 (5)设定输出指标:在“输出”选项组中选择输出统计量和 图形。 (6)选择基本统计量 (7)选择输出图形 (8)选择聚类方法 (9)聚类结果保存 (10)设置完成后,单击 “确定”按钮,执行操作,输出结 果。8.4.3 实例分析:普通高等学 校(机构)教职工队伍构成(2 )在此

12、仍采用二阶聚类中使用的“普通高等学校(机构)教 职工队伍构成”案例。 1操作过程 2结果分析8.5 判别分析在前面几节中主要介绍的是聚类分析,在根据一定的指标 对一组样本进行分类时就可以使用聚类分析。如果已知一 组样本总体可以分为几类,但仍有一些样本需要明确其类 别归属时就需要使用本节的判别分析。 在实际生活中经常会遇到各种各样的类别归属的判断问题 。如医生在给病人诊断时,就需要根据病人的各种症状、 生化指标、持续时间等方面对病人的疾病类型及严重程度 进行判断。同样,在生物学中对新发现物种的归类,在社 会学、经济学中对社会发展状况、经济形势的判断也都要 涉及到本节要学习的判别分析。8.5.1

13、判别分析简介判别分析(Discriminant Analysis)是多元统计分析中 判断样品所属类别的一种重要的统计方法,它最早是由费 希尔 (R. A. Fisher) 1936 年在生物学的植物分类问题 中提出来的,但当初只是作为一种分类方法而缺少数学上 的理论依据,后来出现的贝叶斯(Bayes)判别证明了费 希尔判别的合理性,因此一般将这两种判别分析合称为 Fisher判别分析。1判别分析的基本原理 判别分析是在类别数确定的情况下,根据某一研究对象的 各种特征判断其类别归属的一种多变量统计分析方法。判 别分析的方法很多,根据判别的组数来区分,有两组判别 分析和多组判别分析;根据区分不同总

14、体所用数学模型的 不同,有线性判别和非线性判别;根据判别时变量处理方 法的不同,有逐步判别和序贯判别等。2判别分析的适用条件 任何一种统计方法在满足其适用条件的前提下才可能得到理 想的结果和解释。建立理想的判别分析模型需要满足以下前 提假设: (1)自变量服从多元正态分布且彼此之间不存在多重共线性 。 (2)所有自变量在各组之间方差齐性,协方差矩阵也相等。 (3)因变量的取值事先是确定的且独立。 (4)自变量与因变量间关系符合线性假设。8.5.2 判别分析的操作过程在SPSS中判别分析的操作过程如下: (1)打开或建立数据文件。 (2)选择“分析”“分类”“判别”命令,打开“判别 分析”对话框,如图所示。(3)选择变量 (4)选择判别分析方法 (5)选择基本统计量 (6)选择判别方法 (7)选择分类 (8)结果保存 (9)设置完成后,单击 “确定”按钮,执行操作,输出结 果。8.4.3 实例分析:地区职工平 均工资水平不同地区工资水平会存在一定的差异,在2004年全国不同 地区职工平均工资调查中选取国有单位、城镇集体单位及 其他单位作为指标,通过对部分数据进行聚类分析总体上 确立了两个类别,分别为第一、第二组。另外有4个地区 属于待判别个案,请根据下面数据对这4个地区进行判别 分析以确定其所属类别。 1操作过程 2结果分析8.5 习题

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号