SPSS聚类分析与判别分析

上传人:油条 文档编号:48419583 上传时间:2018-07-15 格式:PPT 页数:185 大小:3.19MB
返回 下载 相关 举报
SPSS聚类分析与判别分析_第1页
第1页 / 共185页
SPSS聚类分析与判别分析_第2页
第2页 / 共185页
SPSS聚类分析与判别分析_第3页
第3页 / 共185页
SPSS聚类分析与判别分析_第4页
第4页 / 共185页
SPSS聚类分析与判别分析_第5页
第5页 / 共185页
点击查看更多>>
资源描述

《SPSS聚类分析与判别分析》由会员分享,可在线阅读,更多相关《SPSS聚类分析与判别分析(185页珍藏版)》请在金锄头文库上搜索。

1、SPSS 16实用教程第8章 聚类分析与判别分析聚类分析与判别分析的基本概念8.1层次聚类分析中的Q型聚类8.2层次聚类分析中的R型聚类8.3快速聚类分析8.4判 别 分 析8.5本章介绍统计学中经常使用的分类统计分 析方法聚类分析与判别分析。主要内容有 层次聚类分析、快速聚类分析和判别分析。其 中层次聚类分析根据聚类的对象不同分成Q型 聚类和R型聚类。8.1 8.1 聚类分析与判别分析的基本概念聚类分析与判别分析的基本概念统计学研究这类问题的常用分类统计方法 主要有聚类分析(cluster analysis)与判别 分析(discriminant analysis)。其中聚类 分析是统计学中

2、研究这种“物以类聚”问题的 一种有效方法,它属于统计分析的范畴。聚类 分析的实质是建立一种分类方法,它能够将一 批样本数据按照他们在性质上的亲密程度在没 有先验知识的情况下自动进行分类。这里所说 的类就是一个具有相似性的个体的集合,不同 类之间具有明显的区别。聚类分析是一种探索性的分析,在分类的 过程中,人们不必事先给出一个分类的标准, 聚类分析能够从样本数据出发,自动进行分类 。聚类分析所使用方法的不同,常常会得到不 同的结论。不同研究者对于同一组数据进行聚 类分析,所得到的聚类数未必一致。因此我们 说聚类分析是一种探索性的分析方法。对个案的聚类分析类似于判别分析,都是 将一些观察个案进行分

3、类。聚类分析时,个案 所属的群组特点还未知。也就是说,在聚类分 析之前,研究者还不知道独立观察组可以分成 多少个类,类的特点也无所得知。变量的聚类分析类似于因素分析。两者都 可用于辨别变量的相关组别。不同在于,因素 分析在合并变量的时候,是同时考虑所有变量 之间的关系;而变量的聚类分析,则采用层次 式的判别方式,根据个别变量之间的亲疏程度 逐次进行聚类。聚类分析的方法,主要有两种,一种是“ 快速聚类分析方法”(KMeans Cluster Analy- sis),另一种是“层次聚类分析方法 ”(Hierarchical Cluster Analysis)。如 果观察值的个数多或文件非常庞大(通

4、常观察 值在200个以上),则宜采用快速聚类分析方 法。因为观察值数目巨大,层次聚类分析的两 种判别图形会过于分散,不易解释。判别分析是一种有效的对个案进行分类分 析的方法。和聚类分析不同的是,判别分析时 ,组别的特征已知。如银行为了对贷款进行管 理,需要预测哪些类型的客户可能不会按时归 还贷款。已知过去几年中,900个客户的贷款 归还信誉度,据此可以将客户分成两组:可靠 客户和不可靠客户。 再通过收集客户的一些资料,如年龄、工 资收入、教育程度、存款等,将这些资料作为 自变量。通过判别分析,建立判别函数。那么 ,如果有150个新的客户提交贷款请求,就可 以利用创建好的判别函数,对新的客户进行

5、分 析,从而判断新的客户是属于可靠客户类,还 是不可靠客户类。8.2 8.2 层次聚类分析中的层次聚类分析中的QQ型聚类型聚类层次聚类分析是根据观察值或变量之间的 亲疏程度,将最相似的对象结合在一起,以逐 次聚合的方式(Agglomerative Clustering) ,它将观察值分类,直到最后所有样本都聚成 一类。层次聚类分析有两种形式,一种是对样 本(个案)进行分类,称为Q型聚类,它使具 有共同特点的样本聚齐在一起,以便对不同类 的样本进行分析;另一种是对研究对象的观察 变量进行分类,称为R型聚类。它使具有共同 特征的变量聚在一起,以便从不同类中分别选 出具有代表性的变量作分析,从而减少

6、分析变 量的个数。 本节讲述Q型聚类的原理和SPSS的实现过 程,下一节将讲述R型聚类的实现过程。定义:层次聚类分析中的Q型聚类,它使 具有共同特点的样本聚齐在一起,以便对不同 类的样本进行分析。8.2.1 统计学上的定义和计算公式层次聚类分析中,测量样本之间的亲疏程 度是关键。聚类的时候会涉及到两种类型亲疏 程度的计算:一种是样本数据之间的亲疏程度 ,一种是样本数据与小类、小类与小类之间的 亲疏程度。下面讲述这两种类型亲疏程度的计 算方法和公式。计算公式如下。样本数据之间的亲疏程度主要通过样本之 间的距离、样本间的相关系数来度量。SPSS根 据变量数据类型的不同,采用不同的测定亲疏 程度的方

7、法。样本若有k个变量,则可以将样本看成是 一个k维的空间的一个点,样本和样本之间的 距离就是k维空间点和点之间的距离,这反映 了样本之间的亲疏程度。聚类时,距离相近的 样本属于一个类,距离远的样本属于不同类。1连续变量的样本距离测量方法(1)欧氏距离(Euclidean Distance) 两个样本之间的欧氏距离是样本各个变量值之 差的平方和的平方根,计算公式为(2)欧氏距离平方(Squared Euclidean Distance)两个样本之间的欧氏距离平方是各样本每 个变量值之差的平方和,计算公式为(3)Chebychev距离两个样本之间的Chebychev距离是各样本 所有变量值之差绝对

8、值中的最大值,计算公式 为(4)Block距离两个样本之间的Block距离是各样本所有 变量值之差绝对值的总和,计算公式为(5)Minkowski距离两个样本之间的Minkowski距离是各样本 所有变量值之差绝对值的p次方的总和,再求p 次方根。计算公式为(6)Customized距离(用户自定义距离)两个样本之间的Customized距离是各样本 所有变量值之差绝对值的p次方的总和,再求q 次方根。计算公式为连续变量亲疏程度的度量,除了上面的各 种距离外,还可以计算其他统计指标。如 Pearson相关系数、Sosine相似度等。2连续变量的样本亲疏程度的其他测量方法3顺序或名义变量的样本亲

9、疏程度测量 方法对于此类变量,可以计算一些有关相似性 的统计指标来测定样本间的亲疏程度。也可以 通过下面两个计算公式来得到。4样本数据与小类、小类与小类之间的 亲疏程度测量方法SPSS默认的变量为Var00001、Var00002等 ,用户也可以根据自己的需要来命名变量。 SPSS变量的命名和一般的编程语言一样,有一 定的命名规则,具体内容如下。所谓小类,是在聚类过程中根据样本之间 亲疏程度形成的中间类,小类和样本、小类与 小类继续聚合,最终将所有样本都包括在一个 大类中。在SPSS聚类运算过程中,需要计算样本与 小类、小类与小类之间的亲疏程度。SPSS提供 了多种计算方法(计算规则)。 (1

10、)最短距离法(Nearest Neighbor)以当前某个样本与已经形成小类中的各样 本距离的最小值作为当前样本与该小类之间的 距离。(2)最长距离法(Furthest Neighbor)以当前某个样本与已经形成小类中的各样 本距离的最大值作为当前样本与该小类之间的 距离。(3)类间平均链锁法(Between-groups Linkage)两个小类之间的距离为两个小类内所有样 本间的平均距离。(4)类内平均链锁法(Within-groups Linkage)与小类间平均链锁法类似,这里的平均距 离是对所有样本对的距离求平均值,包括小类 之间的样本对、小类内的样本对。(5)重心法(Centroi

11、d Clustering)将两小类间的距离定义成两小类重心间的 距离。每一小类的重心就是该类中所有样本在 各个变量上的均值代表点。(6)离差平方和法(Wards Method)小类合并的方法:在聚类过程中,使小类 内各个样本的欧氏距离总平方和增加最小的两 小类合并成一类。 研究问题对一个班同学的数学水平进行聚类。聚类 的依据是第一次数学考试的成绩和入学考试的 成绩。数据如表8-1所示。8.2.2 SPSS中实现过程表表8-18-1学生的数学成学生的数学成绩绩绩绩姓 名数 学入 学 成 绩 hxh99.0098.00 yaju88.0089.00 yu79.0080.00 shizg89.007

12、8.00 hah75.0078.00 john60.0065.00 watet79.0087.00 jess75.0076.00 wish60.0056.00 Iiakii100.00100.00 实现步骤图图图图8-1 8-1 在菜在菜单单单单中中选择选择选择选择 “ “Hierarchical Cluster”Hierarchical Cluster”命令命令图图图图8-2 “Hierarchical Cluster Analysis”8-2 “Hierarchical Cluster Analysis”对话对话对话对话 框(一)框(一) 图图图图8-3 “Hierarchical Clu

13、ster Analysis8-3 “Hierarchical Cluster Analysis:Method”Method”对话对话对话对话 框(一)框(一) 图图图图8-4 “Hierarchical Cluster Analysis8-4 “Hierarchical Cluster Analysis:Plots” Plots” 对话对话对话对话 框(一)框(一) 图图图图8-5 “Hierarchical Cluster Analysis8-5 “Hierarchical Cluster Analysis:Statistics”Statistics”对话对话对话对话 框(一)框(一)图图图

14、图8-6 “Hierarchical Cluster Analysis8-6 “Hierarchical Cluster Analysis:Save New Save New VarVar” ”对话对话对话对话 框框由于本例中选中的选项较多,这里按照各 个结果分别解释。(1)首先是层次聚类分析的概要结果, 该结果是SPSS输出结果文件中的第一个表格, 如下表所示。8.2.3 结果和讨论(2)输出的结果文件中第二个表格如下表 所示。(3)输出的结果文件中第三个表格为层 次聚类分析的凝聚状态表,包括:(4)输出的结果文件中第四个表格如下 表所示。(5)输出的结果文件中第五个表格如下 表所示。(6)

15、输出的结果文件中第六部分如图8-7 所示。(7)由于对图8-6“Hierarchical Cluster Analysis: Save New Var”对话框进 行了设置,将聚类成三类时,各个样本的类归 属情况保存为一个变量,因此在SPSS数据编辑 窗口中就新增了一个变量的值,如图8-8所示 。图图图图8-8 8-8 层层层层次聚次聚类类类类分析分析结结结结果保存果保存8.3 8.3 层次聚类分析中的层次聚类分析中的R R型聚类型聚类8.3.1 统计学上的定义和计算公式定义:层次聚类分析中的R型聚类是对研 究对象的观察变量进行分类,它使具有共同特 征的变量聚在一起。以便可以从不同类中分别 选出

16、具有代表性的变量作分析,从而减少分析 变量的个数。计算公式:R型聚类的计算公式和Q型聚类 的计算公式是类似的,不同的是R型聚类是对 变量间进行距离的计算,Q型聚类则是对样本 间进行距离的计算。 研究问题对一个班同学的各科成绩进行聚类,分析 哪些课程是属于一个类的。聚类的依据是4门 功课的考试成绩,数据如表8-2所示。8.3.2 SPSS中实现过程表表8-28-2学生的四学生的四门课门课门课门课 程的成程的成绩绩绩绩姓 名数 学物 理语 文政 治 hxh99.0098.0078.0080.00 yaju88.0089.0089.0090.00 yu79.0080.0095.0097.00 shizg89.0078.0081.0082.00 hah75.0078.0095.0096.00 john60.0065.0085.0088.00 watet79.0087.0050.0051.00 jess75.0076.0088.0089.00

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号