聚类分析和回归分析SPSS综述

资源描述

《聚类分析和回归分析SPSS综述》由会员分享，可在线阅读，更多相关《聚类分析和回归分析SPSS综述（27页珍藏版）》请在金锄头文库上搜索。

1、* 中国人民大学六西格玛质量管理研究中心 1 聚类分析SPSS上机实践目录上页下页返回结束系统聚类法用SPSS软件自带的数据文件World95.sav来做一个实例分析。为了研究亚洲国家的经济发展水平和文化教育水平，以便于对亚洲国家进行分类研究，这里我们进行聚类分析（在World95.sav数据中筛选出亚洲国家，使用DataSelect CasesIf condition is satisfied中选入region=3）。详细步骤如下： (1) 打开数据。使用菜单中FileOpen命令，然后选中要分析的数据World95.sav。 * 中国人民大学六西格玛质量管理研究

2、中心 2 目录上页下页返回结束 (2)在菜单中的选项中选择AnalyzeClassify命令，Classify命令下有两个聚类分析命令，一是K- means cluster（K -均值聚类），二是Hierarchical cluster（系统聚类法）。这里我们选择系统聚类法。 (3) 在系统聚类法中，我们看到Cluster下有两个选项，Cases（样品聚类或Q型聚类）和Variables (变量聚类或R型聚类)。这里我们选择对样品进行聚类。 (4) Display下面有两个选项，分别是Statistics (统计量)、Plots（输出图形），我们可以选择所需要输出的统计量和图

3、形。 * 中国人民大学六西格玛质量管理研究中心 3 目录上页下页返回结束 (5) 在系统聚类法中底下有四个按纽，分别是Statistics、Plots、 Method、Save。（a）在Statistics中，有Agglomeration schedule（每一阶段聚类的结果），Proximity matrix（样品间的相似性矩阵）。由Cluster membership可以指定聚类的个数，none选项不指定聚类个数，Single solution指定一个确定类的个数，Range of solution指定类的个数的范围（如从分3类到分5类）。 (b)在Plots中，有Dendr

4、ogram（谱系聚类图，也称树状聚类图）、 Icicle(冰柱图)、Orientation指冰柱图的方向（Horizontal 水平方向、Vertical垂直方向）。 (c)在Method中， Cluster可以选择聚类方法，Measure中可以选择计算的距离。 (d)在Save中，可以选择保存聚类结果。选好每个选项后，点“OK”就可以执行了。 * 中国人民大学六西格玛质量管理研究中心 4 社会经济案例研究目录上页下页返回结束例城镇居民消费水平通常用表3.15中的八项指标来描述，八项指标间存在一定的线性相关。为研究城镇居民的消费结构，需将相关性强的指标归并到一起，这实

5、际就是对指标聚类。原始数据列于表3.15。将原始数据录入SPSS，并依次点击“Analyze” “Correlate” “Bivariate”，打开Bivariate Correlations对话框，把八个变量选入Variables 栏中，单击“OK”，得到这八个指标对应的相关系数，列于表3.16。 * 中国人民大学六西格玛质量管理研究中心 5 目录上页下页返回结束 * 中国人民大学六西格玛质量管理研究中心 6 目录上页下页返回结束表3.16中最大的相关系数为r4，80.837，将G4和G8并成一新类G9，然后计算G9与各类的相关系数，再找最大的相关系数，每次缩小一类

6、得图3 17。我们可以看出全国城镇居民得消费结构大致可以分为三个方面，一类是各种副食、日用品及交通通信、文化教育和住房等支出，这是在消费结构中起主导作用的方面；其次是居民购买烟、酒、饮料及着装支出；粮食和水电燃料是两项很重要的消费指标，但目前在城镇居民的消费中占的比例较小，可将它们归并为同一类。 * 中国人民大学六西格玛质量管理研究中心 7 目录上页下页返回结束上面介绍的几种系统聚类方法，并类的原则和步骤基本一致，所不同的是类与类的距离有不同的定义。其实可以把这几种方法统一起来，有利于在计算机上灵活地选择更有意义的谱系图。 * 中国人民大学六西格玛质量管理研究中心 8

7、目录上页下页返回结束对例，我们采用欧氏距离分别用类平均法、最短距离法、最长距离法把31个省市分类。类平均法聚类在SPSS中的操作为：点选 “Analyze”“Classify” “Hierarchical Cluster”，打开Hierarchical Cluster Analysis对话框，将八个聚类指标选入 Variables栏中，将表示地区的变量选入 Label Cases By栏中，按“Plots”按钮，在弹出的窗口中选中Dendrogram（谱系图）选项，按“Continue”返回主对话框，在按 “Method”按钮，在Cluster Method下拉菜单中选

8、择Between-groups linkage（组间连接法，即类平均法）选项，返回主对话框后按“OK”即可得到聚类结果。 * 中国人民大学六西格玛质量管理研究中心 9 目录上页下页返回结束最短距离法和最长距离法操作步骤与类平均法一样，只不过要在Cluster Method下拉菜单中分别选择Nearest Neighbor 和Furthest Neighbor选项。图3.18、图3.19、图3.20分别显示了三种方法的分类结果。为便于对照，将三种方法分类的结果综合列于表3.18。直观看出，类平均法分为三类：1，9，11，19为第一类，13，2，22，10为第二类，其他为第

9、三类；最短距离法分为两类，1，9，11，19为一类，其余的省市归为一大类；最长距离法也分为三类：1，9，11，19为第一类，10，22，2，13，26为第二类，其余的省市为第三类。很显然，这三种方法的分类效果是有差异的。 * 中国人民大学六西格玛质量管理研究中心 10 目录上页下页返回结束那么究竟采用哪一种分类为好呢？一种方法是根据分类问题本身的知识来决定取舍。另一种方法是将几种方法的共性取出来，有争议的样品根据其实际情况再划分。综合考虑这两点，笔者认为从全国各省、市、区的消费情况来看，分为三类较为合适。由分类结果可以看出，类平均法和最长距离法的分类结果基本上一致

10、，只是在西藏应该划入第二类还是第三类上存在差异，从表3.15的实际情来看，西藏的经济发展和消费水平与始终处在第二类的福建、天津、重庆和江苏有较大差距，因此划入第三类较为合适，即这个聚类分析用类平均法较为合适。 * 中国人民大学六西格玛质量管理研究中心 11 目录上页下页返回结束 * 中国人民大学六西格玛质量管理研究中心 12 目录上页下页返回结束 * 中国人民大学六西格玛质量管理研究中心 13 回归分析SPSS上机实践一元基本操作步骤 (1)菜单选项: Analyze-regression-linear (2)选择一个变量为因变量进入dependent框 (3)选择一

11、个变量为自变量进入independent框 (4)enter:所选变量全部进入回归方程(默认方法) (5)对样本进行筛选(selection variable) 利用满足一定条件的样本数据进行回归分析 (6)指定作图时各数据点的标志变量(case labels) * 中国人民大学六西格玛质量管理研究中心 14 (二) statistics选项 (1)基本统计量输出 Estimates:默认.显示回归系数相关统计量. confidence intervals:每个非标准化的回归系数95% 的置信区间. Descriptive:各变量均值、标准差和相关系数单侧检验概率. Model fit:默认

12、.判定系数、估计标准误差、方差分析表、容忍度 (2)Residual框中的残差分析 Durbin-waston:D-W值 casewise diagnostic:异常值(奇异值)检测 (输出预测值及残差和标准化残差) * 中国人民大学六西格玛质量管理研究中心 15 (三)plot选项:图形分析. Standardize residual plots:绘制残差序列直方图和累计概率图,检测残差的正态性绘制指定序列的散点图,检测残差的随机性、异方差性 ZPRED:标准化预测值 ZRESID:标准化残差 SRESID:学生化残差 produce all partial plot:绘制因变量和

13、所有自变量之间的散点图 * 中国人民大学六西格玛质量管理研究中心 16 多元回归基本操作步骤 (1)菜单选项: analyze-regression-linear (2)选择一个变量为因变量进入dependent框 (3)选择一个或多个变量为自变量进入independent 框 (4)选择多元回归分析的自变量筛选方法: enter:所选变量全部进入回归方程(默认方法) remove:从回归方程中剔除变量 stepwise:逐步筛选；backward:向后筛选； forward:向前筛选 (5)对样本进行筛选(selection variable) 利用满足一定条件的样本数据进行回归分析 (6

14、)指定作图时各数据点的标志变量(case labels) * 中国人民大学六西格玛质量管理研究中心 17 (二) statistics选项 (1)基本统计量输出 Part and partial correlation:与Y的简单相关、偏相关和部分相关 R square change:每个自变量进入方程后 R2及F值的变化量 Collinearity dignostics:共线性诊断. * 中国人民大学六西格玛质量管理研究中心 18 (三)options选项: stepping method criteria:逐步筛选法参数设置. use probability of F:以F值相伴概率作为

15、变量进入和剔除方程的标准.一个变量的F值显著性水平小于 entry(0.05)则进入方程;大于removal(0.1)则剔除出方程 .因此:Entryregression-curve estimation (3) 选择因变量到dependent框 (4) 选择自变量到independent框或选time以时间作自变量 (5)选择模型 (R2最高拟和效果最好) * 中国人民大学六西格玛质量管理研究中心 20 其他选项 (1)display ANOVA table:方差分析表 (2)plot models:绘制观察值和预测值的对比图. (3)save选项: predicted values:保

16、存预测值. Residual:保存残差值. prediction interval:保存预测值的默认95%的可置信区间. Predict case:以time作自变量进行预测. Predict from estimation period through last case:计算保存所有预测值. Predict through :如果预测周期超过了数据文件的最后一个观测期, 选择此项,并输入预测期数. * 中国人民大学六西格玛质量管理研究中心 21 例研究各省的课题总数与投入人年数，投入高级职称的人年数，投入科研事业经费，专著数。论文数，获奖数之间的关系 * 中国人民大学六西格玛质量管理研究中心 22 * 中国人民大学六西格玛质量管理研究中心 23 * 中国人民大学六西格玛质量管理研究中心 24 * 中国人民大学六西格玛质量管理研究中心 25 * 中国人民大学六西格玛质量管理研究中心 26 * 中国人民大学六西格

展开阅读全文

聚类分析和回归分析SPSS综述

最新文档