spss聚类分析加具体案例

上传人:suns****4568 文档编号:60805482 上传时间:2018-11-18 格式:PDF 页数:7 大小:535.54KB
返回 下载 相关 举报
spss聚类分析加具体案例_第1页
第1页 / 共7页
spss聚类分析加具体案例_第2页
第2页 / 共7页
spss聚类分析加具体案例_第3页
第3页 / 共7页
spss聚类分析加具体案例_第4页
第4页 / 共7页
spss聚类分析加具体案例_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《spss聚类分析加具体案例》由会员分享,可在线阅读,更多相关《spss聚类分析加具体案例(7页珍藏版)》请在金锄头文库上搜索。

1、六、六、聚类聚类分析分析 (一)概述一)概述 1.聚类聚类分析分析的目的的目的 根据已知数据,计算样本或者变量之间亲疏关系的统计量(距离或相关系数) 。 根据某种准则(最短距离法、最长距离法、中间距离法、重心法) ,使同一类内 的差别较小,而类与类之间的差别较大,最初达到的就是将样本或变量分成若干 类。 2.聚类分析聚类分析的分类的分类 划分标准 名称 概述 优缺点 分类的对象 Q-型聚类 对样本进行分类 R-型聚类 对变量进行分类 分类的原理 系统聚类 将一定数量的样本或指标看 成一类,根据亲疏程度,将 亲疏程度最高的合并,然后 考虑合并后的类与其它类的 亲疏程度,再合并,不断重 复这个过程

2、,直到将所有样 本合成一类。 优点:限制少,不需要 预先给出聚类数目;可 发现层次关系 缺点:复杂度高,异常 值也会产生影响; 快速聚类 要求给出需要聚成多少类, 再让样本凝聚,形成初始分 类,然后再按照最近距离原 则修改不合理的分类,直到 合理为止 优点:快速高效;复杂 度低 缺点:需要积累一定的 实践经验(给出聚类的 数目) ;较大的异常值 会产生很大影响(对异 常值敏感) 3.距离距离与相似性与相似性 为了对样本或者变量进行分类,就需要研究样本之间的关系,最常用的方法有两 个。 方法 分类 分类概述 相似系数 (性质越接近的 样本, 相似系数的绝对值 越接近于 1,而无关的样 本相似系数

3、的绝对值越 接近 0) 夹角余弦 等于 1 说明两个样本完 全相似; 接近 1 说明相似 密切; 等于 0 说明完全不 一样; 接近 0 说明差别大 相关系数 变量间的相关系数 距离 (将样本看作空间的 一个点, 并在空间定义距 离,距离近的归为一类, 距离远的归为不同类) 明氏距离 马氏距离 排除了变量间相关性的 干扰 兰氏距离 使用于一切情况, 但没有 考虑变量之间的相关性 (二(二)系统系统聚类聚类 1.系统系统聚类的步骤聚类的步骤 距离的具体定义及计算方式 计算 n 各样本两两之间的距离 将距离接近的数据依次合并为一类,再计算,再合并 画聚类图,解释类与类之间的关系 2.亲疏程度亲疏程

4、度度量度量方法方法 名称 描述 最短距离法 个体与小类中每个个体距离的最小值 最长距离法 个体与小类中每个个体距离的最大值 中间距离法 两类样本的中位数之间的距离 类平均法 个体与小类中每个个体距离的平均值 可变类平均法 重心法 个体与小类的中心点的距离 Ward 离差平方和法 聚类过程中使小类内离差平方和增加最小的两小 类应该首先合并 3.系统系统聚类的分类聚类的分类 标准 名称 概述 分类的对象 Q-型聚类 对样本进行分类 R-型聚类 对变量进行分类 聚类的过程 分解法 开始把所有个体或者变 量都归属为一类,然后 根据距离和相似性逐层 分解,直到参与聚类的 每个个体自成一类为止 凝聚法 开

5、始把所有参与聚类的 个体或者变量都归属为 一类,然后根据距离和 相似性逐步合并,直到 合并为一个大类为止 4.SPSS 操作操作及及实例实例 SPSS 采用的是凝聚法。 案例: 根据 30 个省的 23 个主要行业的平均工资情况, 通过聚类分析来判断哪些 地区平均工资水平高。 SPSS 操作及结果: 打开 SPSS 上方菜单栏中的分析-分类-系统聚类 选择变量-勾选统计量-在绘制里选择树状图和冰柱图 勾选方法(通常使用组间联接)-度量区间-选择标准化方式(全距从 0 到 1) 下图为近似矩阵表,标注了相关系数,数值越大,距离越接近 下图为聚类分析结果表,第一类表示这是聚类分析的第几步,第二三列

6、表 示该步中那几个样本或者小类聚成一类,第四列表示距离,第五六列表示 本步骤中参与的是个体还是小类(0 表示样本,非 0 表示第 n 步生成的小 类) ,第七列表示本步骤的聚类结果将在以下第几步中用到。 下面是冰柱图和树状图的结果,根据树状图可以看出,如果分为三类的话, 第一类包括北京上海,第二类包括天津、广东、浙江、江苏、西藏,剩下的 归为一类。 (三(三)快速快速聚类聚类(适合适合大样本聚类大样本聚类) 1.快速快速聚类的步骤聚类的步骤 指定聚类数目 K 确定 K 个初始类的中心(自定义或者根据数据中心初步确定) 根据距离最近的原则进行分类 根据新的中心位置, 重新计算每一记录距离新的类别中心的的距离 , 并重新 分类 重复步骤 4,直到达到标准 2.SPSS 操作操作及及实例实例 打开 SPSS 上方菜单栏中的分析-分类-K-均值聚类 选择变量-勾选统计量-定义变量值 选择迭代次数-选项(勾选初始聚类中心、每个个案的聚类信息)-定义变 量值 -保存(勾选聚类成员、聚类中心距离) 下图为输出的初始聚类中心 下图为最终距离中心,第一类平均工资最高,第二类次之,第三类最低 下图为每个聚类中的案例数和聚类成员

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号