SPSS文档资料

上传人:大米 文档编号:568632626 上传时间:2024-07-25 格式:PPT 页数:124 大小:1.12MB
返回 下载 相关 举报
SPSS文档资料_第1页
第1页 / 共124页
SPSS文档资料_第2页
第2页 / 共124页
SPSS文档资料_第3页
第3页 / 共124页
SPSS文档资料_第4页
第4页 / 共124页
SPSS文档资料_第5页
第5页 / 共124页
点击查看更多>>
资源描述

《SPSS文档资料》由会员分享,可在线阅读,更多相关《SPSS文档资料(124页珍藏版)》请在金锄头文库上搜索。

1、 第第9章章 SPSS的多元统计分析的多元统计分析19.1 SPSS在因子分析中的应用在因子分析中的应用9.1.1 因子分析的基本原理因子分析的基本原理1、方法概述、方法概述 人们在研究实际问题时,往往希望尽可能多的收集相关变量,以期望对问题有比较全面、完整的把握和认识 。 为解决这些问题,最简单和最直接的解决方案是减少变量数目,但这必然又会导致信息丢失或不完整等问题。为此,人们希望探索一种有效的解决方法,它既能减少参与数据分析的变量个数,同时也不会造成统计信息的大量浪费和丢失。 因子分析就是在尽可能不损失信息或者少损失信息的情况下,将多个 变量减少为少数几个因子的方法。这几个因子可以高度概括

2、大量数据中的信息,这样,既减少了变量个数,又同样能再现变量之间的内在联系。29.1 SPSS在因子分析中的应用在因子分析中的应用2、基本原理、基本原理通常针对变量作因子分析,称为R型因子分析;另一种对样品作因子分析,称为Q型因子分析,这两种分析方法有许多相似之处。R型因子分析数学模型是:设原有p个变量 且每个变量(或经标准化处理后)的均值为0,标准差为1。现将每个原有变量用k( )个因子 的线性组合来表示,即有:上式就是因子分析的的数学模型,也可以用矩阵的形式表示为 39.1 SPSS在因子分析中的应用在因子分析中的应用其中,X是可实测的随机向量。F称为因子,由于它们出现在每个原有变量的线性表

3、达式中,因此又称为公共因子。A称为因子载荷矩阵, 称为因子载荷。 称为特殊因子,表示了原有变量不能被因子解释的部分,其均值为0 因子分析的基本思想是通过对变量的相关系数矩阵内部结构的分析,从中找出少数几个能控制原始变量的随机变量 选取公共因子的原则是使其尽可能多的包含原始变量中的信息,建立模型 ,忽略 , 以F代替X,用它再现原始变量X的信息,达到简化变量降低维数的目的。49.1 SPSS在因子分析中的应用在因子分析中的应用3、基本步骤、基本步骤 由于实际中数据背景、特点均不相同,故采用因子分析步骤上可能略有差异,但是一个较完整的因子分析主要包括如下几个过程:(1) 确认待分析的原变量是否适合

4、作因子分析 因子分析的主要任务是将原有变量的信息重叠部分提取和综合成因子,进而最终实现减少变量个数的目的。故它要求原始变量之间应存在较强的相关关系。进行因子分析前,通常可以采取计算相关系数矩阵、巴特利特球度检验和KMO检验等方法来检验候选数据是否适合采用因子分析。(2)构造因子变量 将原有变量综合成少数几个因子是因子分析的核心内容。它的关键是根据样本数据求解因子载荷阵。因子载荷阵的求解方法有基于主成分模型的主成分分析法、基于因子分析模型的主轴因子法、极大似然法等。59.1 SPSS在因子分析中的应用在因子分析中的应用(3)利用旋转方法使因子变量更具有可解释性 将原有变量综合为少数几个因子后,如

5、果因子的实际含义不清,则不利于后续分析。为解决这个问题,可通过因子旋转的方式使一个变量只在尽可能少的因子上有比较高的载荷,这样使提取出的因子具有更好的解释性。(4)计算因子变量得分 实际中,当因子确定以后,便可计算各因子在每个样本上的具体数值,这些数值称为因子得分。于是,在以后的分析中就可以利用因子得分对样本进行分类或评价等研究,进而实现了降维和简化问题的目标。69.1 SPSS在因子分析中的应用在因子分析中的应用 根据上述步骤,可以得到进行因子分析的详细计算过程如下。将原始数据标准化,以消除变量间在数量级和量纲上的不同。求标准化数据的相关矩阵。求相关矩阵的特征值和特征向量。计算方差贡献率与累

6、积方差贡献率。确定因子:设F1,F2, Fp为p个因子,其中前m个因子包含的 数据信息总量(即其累积贡献率)不低于85%时,可取前m个因子来反映原评价指标。因子旋转:若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。用原指标的线性组合来求各因子得分。综合得分:通常以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。79.1 SPSS在因子分析中的应用在因子分析中的应用9.1.2 因子分析的因子分析的SPSS操作详解操作详解Step01:打开对话框选择菜单栏中的【Analyze(分析)】【Data Reduction(降维)】【Facto

7、r(因子)】命令,弹出【Factor Analysis(因子分析)】对话框,这是因子分析的主操作窗口。89.1 SPSS在因子分析中的应用在因子分析中的应用 Step02:选择因子分析变量 在【Factor Analysis(因子分析)】对话框左侧的候选变量列表框中选择进行因子分析的变量,将其添加至【Variables(变量)】列表框中。如果要选择参与因子分析的样本,则需要将条件变量添加至【Selection Variable(选择变量)】列表框中,并单击【Value】按钮输入变量值,只有满足条件的样本数据才能进行后续的因子分析。Step03:选择描述性统计量 单击【Descriptives】

8、按钮,在弹出的对话框中可以选择输出描述性统计量及相关矩阵等内容 。99.1 SPSS在因子分析中的应用在因子分析中的应用具体选项含义如下: 【Statistics(统计量)】选项组 Univariate descriptives:单变量描述统计量,即输出参与分析的各原始变量的均值、标推差等。 Initial solution:初始分析结果,系统默认项。输出各个分析变量的初始共同度、特征值以及解释方差的百分比等。 【Correlation Matrix(相关矩阵)】选项组 Coefficients:原始分析变量间的相关系数矩阵。 Significance levels:显著性水平。输出每个相关系

9、数相对于相关系数为0 的单尾假设检验的概率水平。 Determinant:相关系数矩阵的行列式。 Inverse:相关系数矩阵的逆矩阵。 Reproduced:再生相关矩阵。输出因子分析后的相关矩阵以及残差阵。 Anti-image:象相关阵。包括偏相关系数的负数以及偏协方差的负数。在一个好的因子模型中,除对角线上的系数较大外,远离对角线的元素应该比较小。109.1 SPSS在因子分析中的应用在因子分析中的应用 KMO and Bartletts test of sphericity:KMO 和Bartlett 检验。前者输出抽样充足度的Kaisex-Meyer-Olkin 测度,用于检验变量

10、间的偏相关是否很小。后者Bartlett 球度方法检验相关系数阵是否是单位阵。如果是单位阵,则表明因子模型不合适采用因子模型。119.1 SPSS在因子分析中的应用在因子分析中的应用Step04:选择因子提取方法 单击【 Extract(抽取)】按钮,在弹出的对话框中可以选择提取因子的方法及相关选项。 在【Method(方法)】框下拉列表框中可以选择因子提取方法。 Principal components:主成份分析法。该方法假设变量是因子的纯线性组合。第一成分有最大的方差,后续的成分其可解释的方差逐个递减。 Unweighted least square :不加权最小二乘法。 General

11、ized least squares :加权最小二乘法。 Maximum likelihood :极大似然法。 Principal axis factoring :主轴因子提取法。 Alphafa ctoring:因子提取法。 Image factoring:映象因子提取法。129.1 SPSS在因子分析中的应用在因子分析中的应用 【Analyze(分析)】选项组 Correlation matrix:相关系数矩阵,系统默认项。 Covariance matrix:协方差矩阵。 【Display(输出)】选项组:输出与因子提取有关的选项。 Unrotated factor solution:输

12、出未经旋转的因子提取结果。此项为系统默认的输出方式。 Scree plot:输出因子的碎石图。它显示了按特征值大小排列的因子序号。它有助于确定保留多少个因子。典型的碎石图会有一个明显的拐点,在该点之前是与大因子连接的陡峭的折线,之后是与小因子相连的缓坡折线。139.1 SPSS在因子分析中的应用在因子分析中的应用 【Extract(抽取)】 选项组:输出与提取结果有关的选择项。由于理论上因子数目与原始变量数目相等,但因子分析的目的是用少量因子代替多个原始变量,选择提取多少个因子是由本栏来决定。 Eigenvalues over:指定提取的因子的特征值数目。在此项后面的矩形框中给出输入数值(系统

13、默认值为1),即要求提取那些特征值大于1 的因子。 Number of f actors:指定提取公因子的数目。用鼠标单击选择此项后,将指定其数目。 Maximum iterations for Convergence:在对应的文本框中指定因子分析收敛的最大迭代次数。系统默认的最大迭代次数为25。149.1 SPSS在因子分析中的应用在因子分析中的应用Step05:选择因子旋转方法 单击【Rotation】按钮,在弹出的对话框可以选择因子旋转方法及相关选项。159.1 SPSS在因子分析中的应用在因子分析中的应用【Method(方法)】选项组选择旋转方法。None:不进行旋转,此为系统默认的选

14、择项。Varimax:方差最大旋转法。这是一种正交旋转方法。它使每个因子具有最高载荷的变量数最小,因此可以简化对因子的解释。 Direct Oblimin:直接斜交旋转法。指定此项可以在下面的“Delta”矩形框中键入值,该值应该在01 之间。系统默认的值为0。Quartma:四次方最大正变旋转法。该旋转方法使每个变量中需要解释的因子数最少。Equamax:平均正交旋转法。Promax:斜交旋转方法。允许因子彼此相关。它比直接斜交旋转更快,因此适用于大数据集的因子分析。指定此项可以在下面的“Kappa”矩形框中键入“”值,默认为4(此值最适合于分析)。【Display(输出)】选项组:选择有关

15、输出显示。 Rotated solution:旋转解。在Method栏中指定旋转方法才能选择此项。 Lodingp lot(s):因子载荷散点图。指定此项将给出以前两因子为坐标轴的各变量的载荷散点图。 Maximum iterations for Convergence:可以指定旋转收敛的最大迭代次数。系统默认值为25。可以在此项后面的文本框中输入指定值。169.1 SPSS在因子分析中的应用在因子分析中的应用Step06:选择因子得分单击【Scores】按钮,在弹出的对话框中可以选择因子得分方法及相关选项。具体选项含义如下。179.1 SPSS在因子分析中的应用在因子分析中的应用【Save

16、as variables(保存为变量)】选项组:将因子得分作为新变量保存在数据文件中。 Save as variables:将因子得分作为新变量保存在工作数据文件。中。程序运行结束后,在数据窗中显示出新变量。【Method(方法)】选项组:指定计算因子得分的方法。Regression:回归法。选择此项,其因子得分的均值为0。方差等于估计的因子得分与实际因子得分值之间的复相关系数的平方。 Bartlett:巴特利特法。选择此项,因子得分均值为0。超出变量范围的各因子平方和被最小化。Anderson-Rubin:安德森一鲁宾法。选择此项,是为了保证因子的正交性。本例选中“Regression”项。

17、 在输出窗中显示因子得分。 Display factor score coefficient matrix:输出因子得分系数矩阵。189.1 SPSS在因子分析中的应用在因子分析中的应用Step07:其他选项输出单击【Options】按钮,在弹出的对话框中可以选择一些附加输出项。具体选项含义如下。199.1 SPSS在因子分析中的应用在因子分析中的应用【MissingValues(缺失值)】选项组:选择处理缺失值方法。 Exclude cases listwise:分析变量中带有缺失值的观测量都不参与后续分析。 Exclude cases pairwise:成对剔除带有缺失值的观测量。 Rep

18、lace with mean:用该变量的均值代替工作变量的所有缺失值。【Coefficient Display Format(系数显示格式)】选项组:选择载荷系数的显示格式。 Sorted by size:将载荷系数按其大小排列构成矩阵,使在同一因子上具有较高载荷的变量排在一起。便于得出结论。 Suppress absolute values less than:不显示那些绝对值小于指定值的载荷系数。选择此项后还需要在该项的参数框中键入01之间的数作为临界值。系统默认的临界值为0.10。Step08:单击【OK】按钮,结束操作,SPSS软件自动输出结果。209.1 SPSS在因子分析中的应用在

19、因子分析中的应用9.1.3 9.1.3 实例分析:居民消费结构的变动实例分析:居民消费结构的变动1. 1. 实例内容实例内容 消费结构是指在消费过程中各项消费支出占居民总支出的比重。它是反映居民生活消费水平、生活质量变化状况以及内在过程合理化程度的重要标志。而消费结构的变动不仅是消费领域的重要问题, 而且也关系到整个国民经济的发展。因为合理的消费结构及消费结构的升级和优化不仅反映了消费的层次和质量的提高, 而且也为建立合理的产业结构和产品结构提供了重要的依据。 表9-1是某市居民生活费支出费用,具体分为食品、衣着、家庭设备用品及服务、医疗保健、交通通讯、文教娱乐及服务、居住和杂项商品与服务等8

20、个部分。请利用因子分析探讨该市居民消费结构,为产业政策的制定和宏观经济的调控提供参考。219.1 SPSS在因子分析中的应用在因子分析中的应用2. 实例操作实例操作 数据文件9-1.sav是某市居民在食品、衣着、医疗保健等八个方面的消费数据,这些指标之间存在着不同强弱的相关性。如果单独分析这些指标,无法能够分析居民消费结构的特点。因此,可以考虑采用因子分析,将这八个指标综合为少数几个因子,通过这些公共因子来反映居民消费结构的变动情况。229.1 SPSS在因子分析中的应用在因子分析中的应用3. 实例结果及分析实例结果及分析(1)描述性统计表 下表显示了食品、衣着等这八个消费支出指标的描述统计量

21、,例如均值、标准差等。这为后续的因子分析提供了一个直观的分析结果。可以看到,食品支出消费所占的比重最大,其均值等于39.4750%,其次是文化娱乐服务支出消费和交通通信支出消费。所有的消费支出中,医疗保健消费支出占的比重最低。239.1 SPSS在因子分析中的应用在因子分析中的应用Mean Std. Deviation Analysis N 食品 39.4750 2.29705 8衣着 6.4875 .86592 8家庭设备用品及服务 7.9125 2.87772 8医疗保健 6.3625 1.54729 8交通和通信 8.1750 2.61302 8文化娱乐服务 14.4750 2.3001

22、6 8居住 12.1625 2.91545 8杂项商品与服务 2.9125 .52491 8249.1 SPSS在因子分析中的应用在因子分析中的应用(2)因子分析共同度 下表是因子分析的共同度,显示了所有变量的共同度数据。第一列是因子分析初始解下的变量共同度。它表明,对原有八个变量如果采用主成分分析法提取所有八个特征根,那么原有变量的所有方差都可被解释,变量的共同度均为1(原有变量标准化后的方差为1)。 事实上,因子个数小于原有变量的个数才是因子分析的目的,所以不可能提取全部特征根。于是,第二列列出了按指定提取条件(这里为特征根大于1)提取特征根时的共同度。可以看到,所有变量的绝大部分信息(全

23、部都大于83)可被因子解释,这些变量信息丢失较少。因此本次因子提取的总体效果理想。259.1 SPSS在因子分析中的应用在因子分析中的应用Initial Extraction食品 1.000 .842 衣着 1.000 .842家庭设备用品及服务 1.000 .976医疗保健 1.000 .954交通和通信 1.000 .925文化娱乐服务 1.000 .953居住 1.000.978杂项商品与服务 1.000.947269.1 SPSS在因子分析中的应用在因子分析中的应用 (3)因子分析的总方差解释 接着Spss软件计算得到相关系数矩阵的特征值、方差贡献率及累计方差贡献率结果如表9-4所示。

24、在下页表中,第一列是因子编号,以后三列组成一组,组中数据项的含义依次是特征根、方差贡献率和累计贡献率。 第一组数据项(第二至第四列)描述了初始因子解的情况。可以看到,第一个因子的特征根值为4.316,解释了原有8个变量总方差的53.947。前三个因子的累计方差贡献率为94.196,并且只有它们的取值大于1。说明前3个公因子基本包含了全部变量的主要信息,因此选前3个因子为主因子即可。 同时,Extraction Sums of Squared Loadings和Rotation Sums of Squared Loadings部分列出了因子提取后和旋转后的因子方差解释情况。从表中看到,它们都支持

25、选择3个公共因子。279.1 SPSS在因子分析中的应用在因子分析中的应用因子分析的总方差解释 289.1 SPSS在因子分析中的应用在因子分析中的应用(4)因子碎石图 下图为因子分析的碎石图。横坐标为因子数目,纵坐标为特征根。可以看到,第一个因子的特征值很高,对解释原有变量的贡献最大;第三个以后的因子特征根都较小,取值都小于1,说明它们对解释原有变量的贡献很小,称为可被忽略的“高山脚下的碎石”,因此提取前三个因子是合适的。299.1 SPSS在因子分析中的应用在因子分析中的应用309.1 SPSS在因子分析中的应用在因子分析中的应用 (5)旋转前的因子载荷矩阵 下表中显示了因子载荷矩阵,它是

26、因子分析的核心内容。通过载荷系数大小可以分析不同公共因子所反映的主要指标的区别。从结果看,大部分因子解释性较好,但是仍有少部分指标解释能力较差,例如“食品”指标在三个因子的载荷系数区别不大。因此接着采用因子旋转方法使得因子载荷系数向0或1两极分化,使大的载荷更大,小的载荷更小。这样结果更具可解释性。319.1 SPSS在因子分析中的应用在因子分析中的应用旋转前的因子载荷矩阵 329.1 SPSS在因子分析中的应用在因子分析中的应用(6)旋转后的因子载荷矩阵 下表中显示了实施因子旋转后的载荷矩阵。可以看到,第一主因子在“交通和通信”和“医疗保健”等五个指标上具有较大的载荷系数,第二主因子在“居住

27、”和“衣着”指标上系数较大,而第三主因子在“杂项商品与服务”上的系数最大。此时,各个因子的含义更加突出。339.1 SPSS在因子分析中的应用在因子分析中的应用实施因子旋转后的载荷矩阵 349.1 SPSS在因子分析中的应用在因子分析中的应用 可以看出第一个公因子主要反映了交通和通信、医疗保健、文化娱乐服务、家庭设备用品及服务和食品上有较大载荷,说明第一个公因子综合反映这几个方面的变动情况,可以将其命名为第一基本生活消费因子,即享受性消费因子。 第二个公因子在居住、衣着上的载荷系数较大,代表了这两个方面的变动趋势,可以将其命名为第二基本生活消费因子,即发展性消费因子。 第三个公因子在杂项商品与

28、服务上的消费变动较大,因此可以将第三个公因子命名为第三基本生活消费因子,即其他类型消费因子。 359.1 SPSS在因子分析中的应用在因子分析中的应用(7)因子得分系数 下表中列出了采用回归法估计的因子得分系数。根据表中内容可写出以下因子得分函数: 因子F1=-0.198X1+0.058X2-0.226X3+0.212X4+0.221X5+0.211X6+0.079X7+0.015X8; 因子F2=0.123X1+0.425X2+0.200X3+0.094X4+0.008X5+0.096X6-0.498X7+0.015X8; 因子F3=0.365X1-0.059X2-0.174X3+0.069

29、X4+0.119X5-0.077X6-0.088X7+0.779X8;369.1 SPSS在因子分析中的应用在因子分析中的应用因子得分系数 379.1 SPSS在因子分析中的应用在因子分析中的应用 不仅如此,原数据文件中增加了FAC1_1、FAC2_1和FAC3_1三个变量,它们表示了三个因子在不同年份的得分值。为了进一步揭示因子的变动情况,绘制了如下图所示的因子变动趋势图。389.2 SPSS在聚类分析中的应用在聚类分析中的应用9.2.1 9.2.1 聚类分析的基本原理聚类分析的基本原理1 1、方法概述、方法概述 聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,

30、通俗地说,就是指相似元素的集合。 2 2、聚类分析的分类、聚类分析的分类根据分类对象的不同可分为样品聚类和变量聚类。(1)样品聚类 样品聚类在统计学中又称为Q 型聚类。用SPSS 的术语来说就是对事件(Cases)进行聚类,或是说对观测量进行聚类。它是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分类。39由上图可以看出,在20002007年期间,第一公因子除了在开始阶段有些下降外,此后每年都在逐步回升,并于2006年达到最高点。这主要是由于前几年国企改革和中国经济的软着陆,下岗职工大量增加,因此这段时间人们在享受性消费上的支出是减少的,而在其他基本生活消费上的支出增加。而随

31、着经济的发展和收入的增加,享受性消费逐步增加,其他生活消费由于享受性消费的突然增加而减少后也会逐渐增加。第二公因子得分的起伏波动主要是由市民住房比重有升有降的变动引起的,根本原因还是和国家执行住房改革的力度密切相关,但由于住房改革政策的推行相对于其他政策而言较为缓慢,所以市民对住房消费存在一定的不确定性,这就造成了住房比重在总消费中的升降变化。第三公因子一直波动不已,这说明市民在杂项上的消费仍有较大的发展空间。409.2 SPSS在聚类分析中的应用在聚类分析中的应用(2)变量聚类 变量聚类在统计学又称为R 型聚类。反映同一事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方

32、面进行研究。由于人类对客观事物的认识是有限的,往往难以找出彼此独立的有代表性的变量,而影响对问题的进一步认识和研究。例如在回归分析中,由于自变量的共线性导致偏回归系数不能真正反映自变量对因变量的影响等。因此往往先要进行变量聚类,找出彼此独立且有代表性的自变量,而又不丢失大部分信息。 值得提出的是将聚类分析和其它方法联合起来使用,如判别分析、主成分分析、回归分析等往往效果更好。419.2 SPSS在聚类分析中的应用在聚类分析中的应用3 3、距离和相似系数、距离和相似系数 为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的

33、相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个样品看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。但相似系数和距离有各种各样的定义,而这些定义与变量的类型关系极大。429.2 SPSS在聚类分析中的应用在聚类分析中的应用常用的距离和相似系数定义如下:(1)距离如果把n个样品(X中的n个行)看成p维空间中n个点,则两个样品间相似程度可用p维空间中两点的距离来度量。令dij表示样品Xi与Xj的距离。常用的距离有:明氏(Minkowski)距离当q=1时 即

34、绝对距离当q=2时 即欧氏距离当 时 即切比雪夫距离439.2 SPSS在聚类分析中的应用在聚类分析中的应用马氏(Mahalanobis)距离 其中 表示指标的协差阵,即: 马氏距离既排除了各指标之间相关性的干扰,而且还不受各指标量纲的影响。除此之外,它还有一些优点,如可以证明,将原数据作一线性交换后,马氏距离仍不变等等。449.2 SPSS在聚类分析中的应用在聚类分析中的应用 兰氏(Canberra)距离 它是由Lance和Williams最早提出的,故称兰氏距离。 此距离仅适用于一切的情况,这个距离有助于克服各指标之间量纲的影响,但没有考虑指标之间的相关性。 459.2 SPSS在聚类分析

35、中的应用在聚类分析中的应用(2)相似系数研究样品之间的关系,除了用距离表示外,还有相似系数,顾名思义,相似系数是描写样品之间相似程度的一个量,常用的相似系数有: 夹角余弦将任何两个样品 与 看成p维空间的两个向量,这两个向量的夹角余弦用 表示。则当 ,说明两个样品 与 完全相似; 接近1,说明 与 相似密切; ,说明 与 完全不一样; 接近0,说明 与 差别大。469.2 SPSS在聚类分析中的应用在聚类分析中的应用 相关系数 通常所说相关系数,一般指变量间的相关系数,作为刻划样品间的相似关系也可类似给出定义,即第i个样品与第j个样品之间的相关系数定义为:其中 聚类分析内容非常丰富,有系统聚类

36、法、有序样品聚类法、动态聚类法、模糊聚类法等。本节主要介绍使用较多的快速聚类法和系统聚类法。479.2 SPSS在聚类分析中的应用在聚类分析中的应用9.2.2 快速聚类法的快速聚类法的SPSS操作详解操作详解 K-均值聚类法又叫快速聚类法,可以用于大量数据进行聚类分析的情形。它是一种非分层的聚类方法。这种方法占用内存少、计算量、处理速度快,特别适合大样本的聚类分析。它的基本操作步骤如下: 1、指定聚类数目k,应由用户指定需要聚成多少类,最终也只能输出关于它的唯一解。这点不同于层次聚类。 2、确定k个初始类的中心。两种方式:一种是用户指定方式,二是根据数据本身结构的中心初步确定每个类别的原始中心

37、点。 3、根据距离最近原则进行分类。逐一计算每一记录到各个中心点的距离,把各个记录按照距离最近的原则归入各个类别,并计算新形成类别的中心点 4、按照新的中心位置,重新计算每一记录距离新的类别中心点的距离,并重新进行归类。 5、重复步骤4,直到达到一定的收敛标准。 这种方法也常称为逐步聚类分析,即先把被聚对象进行初始分类,然后逐步调整,得到最终分类。489.2 SPSS在聚类分析中的应用在聚类分析中的应用Step01:打开对话框 选择菜单栏中的【Analyze(分析)】【Classify(分类)】【K-Means Cluster(K均值聚类)】命令,弹出【K-Means Cluster Anal

38、ysis(K均值聚类分析)】对话框,这是快速聚类分析的主操作窗口。499.2 SPSS在聚类分析中的应用在聚类分析中的应用 Step02:选择聚类分析变量 在【K-Means Cluster Analysis(K均值聚类分析)】对话框左侧的候选变量列表框中选择进行聚类分析的变量,将其添加至【Variables(变量)】列表框中。同时可以选择一个标识变量移入【Label Cases by(个案标记依据)】列表框中。Step03:确定分类个数 在【Number of Clusters(聚类数)】列表框中,可以输入确定的聚类分析数目,用户可以根据需要自行修改调整。系统默认的聚类数为2.Step04:

39、选择聚类方法 在【Method(方法)】下拉列表框中可以选择聚类方法。系统默认值选择【Iterative and classify(迭代与分类)】项。 Iterate and classify:选择初始类中心,在迭代过程中不断更新聚类中心。把观测量分派到与之最近的以类中心为标志的类中去。 Classify only:只使用初始类中心对观测量进行分类,聚类中心始终不变。509.2 SPSS在聚类分析中的应用在聚类分析中的应用Step05:聚类中心的输入与输出 在主对话框中,【Cluster Centers(聚类中心)】选项组表示输入和输出聚类中心。用户可以指定外部文件或数据集作为初始聚类中心点,

40、也可以将聚类分析的聚类中心结果输出到指定文件或数据集中。 Read initial:要求使用指定数据文件中的观测量或建立数据集作为初始类中心。 Write final as File:要求把聚类结果中的各类中心数据保存到指定的文件或数据集中。519.2 SPSS在聚类分析中的应用在聚类分析中的应用 在主对话框中单击Iterate(迭代)按钮,打开设置迭代参数的对话框图,这里可以进一步选择迭代参数。 Maximum Iterations:输入K-Means 算法中的迭代次数。改变后面参数框中的数字,则改变迭代次数。当达到限定的迭代次数上限时,即使没有满足收敛判据,迭代也停止。系统默认值为10。选

41、择范围为1-999。 Convergence Criterion:指定K-Means 算法中的收敛标准,输入一个不超过1的正数作为判定迭代收敛的标准。系统缺省的收敛标准是0.02,表示当两次迭代计算的最小的类中心的变化距离小于初始类中心距离的百分之2%时迭代停止。提示:如果设置了以上两个参数,只要在迭代过程中满足了一个参数,迭代就停止。 Use running means:使用移动平均。选中该复选框,限定在每个观测量被分配到一类后立刻计算新的类中心。如果不选择此项,则在完成了所有观测量的一次分配后再计算各类的类中心,这样可以节省迭代时间。529.2 SPSS在聚类分析中的应用在聚类分析中的应用

42、Step07:输出聚类结果在主对话框中单击【Save(保存)】按钮,弹出【Save New Variables(保存新变量)】对话框,它用于选择保存新变量。 Cluster membership:在当前数据文件中建立一个名为“qcl_1”新变量。其值表示聚类结果,即各观测量被分配到哪一类。它的取值为1、2、3的序号。 Distance from cluster center:在当前数据文件中建立一个名为“qcl_2”新变量。其值为各观测量与所属类中心之间的欧氏距离。539.2 SPSS在聚类分析中的应用在聚类分析中的应用Step08:其他选项输出在主对话框中单击【Option(选项)】按钮,弹

43、出【Option(选项)】对话框,它用于指定要计算的统计量和对带有缺失值的观测量的处理方式。具体见图 :【Statistics(统计量)】选项组:选择输出统计量。 Initial cluster centers:初始聚类中心。 ANOVA table:方差分析表。Cluster information for each case:显示每个观测量的聚类信息。【Missing Values(缺失值)】选项组:选择处理缺失值方法。 Exclude cases listwise:分析变量中带有缺失值的观测量都不参与后续分析。 Exclude cases pairwise:成对剔除带有缺失值的观测量。S

44、tep09:单击【OK】按钮,结束操作,SPSS软件自动输出结果。549.2 SPSS在聚类分析中的应用在聚类分析中的应用9.2.3 实例分析:实例分析:全国环境污染程度分析 为了更深入了解我国环境的污染程度状况,现利用2009年数据对全国31个省、自治区、直辖市进行聚类分析。 559.2 SPSS在聚类分析中的应用在聚类分析中的应用 现在要分析我国各个地区的环境污染程度,案例中选择了各地区“工业废气排放总量”、“工业废水排放总量”和“二氧化硫排放总量”三个指标来反映不同污染程度的环境状况,同时选择了北京等省市的数据加以研究。这个问题属于典型的多元分析问题,需要利用多个指标来分析各省市之间环境

45、污染程度的差异。因此,可以考虑利用快速聚类分析来研究各省市之间的差异性,具体操作步骤如下。56 打随书光盘中的数据文件9-2.sav,选择菜单栏中的【Analyze(分析)】【Classify(分类)】【K-Means Cluster(K均值聚类)】命令,弹出【K-Means Cluster Analysis(K均值聚类分析)】对话框。 在左侧的候选变量列表框中将X1、X2和X3变量设定为聚类分析变量,将其添加至【Variables(变量)】列表框中;同时选择Y作为标识变量,将其移入【Label Cases by(个案标记依据)】列表框中。 在【Number of Clusters(聚类数)】

46、文本框中输入数值“3”,表示将样品利用聚类分析分为三类,如下图所示。5758 单击【Save(保存)】按钮,弹出【K-Means Cluster Analysis:Save(K均值聚类分析:保存)】对话框;勾选【Cluster membership(聚类新成员)】和【Distance from cluster center(与聚类中心的距离)】复选框,表示输出样品的聚类类别及距离,其他选项保持系统默认设置,如下图所示,单击【Continue(继续)】按钮返回主对话框。 59单击【Options(选项)】按钮,弹出【K-Means Cluster Analysis:Options(K均值聚类分析

47、:选项】对话框;勾选【Statistics(统计量)】选项组中的复选框,其他选项保持系统默认设置,如下图所示,单击【Continue(继续)】按钮返回主对话框,单击【OK(确定)】按钮完成操作。609.2 SPSS在聚类分析中的应用在聚类分析中的应用实例结果及分析实例结果及分析(1)快速聚类分析的初始中心 SPSS软件首先给出了进行快速聚类分析的初始中心数据。由于这里是要求将样品分为三类,因此软件给出了三个中心位置。但是,这些中心位置可能在后续的迭代计算中出现调整。 快速聚类分析的初始中心619.2 SPSS在聚类分析中的应用在聚类分析中的应用(2)迭代历史表 下表显示了快速聚类分析的迭代过程

48、。可以看到,第一次迭代的变化值最大,其后随之减少。最后第三次迭代时,聚类中心就不再变化了。这说明,本次快速聚类的迭代过程速度很快。迭代历史表 629.2 SPSS在聚类分析中的应用在聚类分析中的应用(3)聚类分析结果列表 通过快速聚类分析的最终结果列表可以看到整个样品被分为以下三大类。第一类:北京、天津、山西、内蒙古等20个地区。这些地区工业废水、废气及二氧化硫的排放总量相对最低。第二类:河北、福建、河南、湖北、湖南、广西和四川。它们的污染程度在所有省份中位居中等水平。第三类:江苏、浙江、山东和广东。这些地区的工业废水、废气及二氧化硫排放总量是最高的,因此环境污染也最为严重。 表中最后一列显示

49、了样品和所属类别中心的聚类,此表中的最后两列分别作为新变量保存于当前的工作文件中。639.2 SPSS在聚类分析中的应用在聚类分析中的应用(4)最终聚类分析中心表 如下表所示列出了最终聚类分析中心。可以看到,最后的中心位置较初始中心位置发生了较大的变化。最终聚类分析中心 649.2 SPSS在聚类分析中的应用在聚类分析中的应用 (5)最终聚类中心位置之间的距离 如下表所示为快速聚类分析最终确定的各类中心位置的距离表。从结果来看,第一类和第三类之间的距离最大,而第二类和第三类之间的距离最短,这些结果和实际情况是相符合的。最终聚类中心位置之间的距离 659.2 SPSS在聚类分析中的应用在聚类分析

50、中的应用(6)方差分析表 如下表所示为方差分析表,显示了各个指标在不同类的均值比较情况。各数据项的含义依次是:组间均方、组间自由度、组内均方、组内自由度。可以看到,各个指标在不同类之间的差异是非常明显的,这进一步验证了聚类分析结果的有效性。 方差分析表 669.2 SPSS在聚类分析中的应用在聚类分析中的应用(7)聚类数目汇总 如下表所示是聚类数据汇总表,显示了聚类分析最终结果中各个类别的数目。其中第一类的数目最多,等于20;而第三类的数目最少,只有4个。聚类数目汇总表 679.2 SPSS在聚类分析中的应用在聚类分析中的应用9.2.4 系统聚类法的系统聚类法的SPSS操作详解操作详解 系统聚

51、类法常称为层次聚类法、分层聚类法,也是聚类分析中使用广泛的一种方法。它有两种类型,一是对研究对象本身进行分类,称为Q型聚类;另一是对研究对象的观察指标进行分类,称为R型聚类。同时根据聚类过程不同,又分为分解法和凝聚法。 分解法:开始把所有个体(观测量或变量)都视为同属一大类,然后根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止。 凝聚法:开始把参与聚类的每个个体(观测量或变量)视为一类,根据两类之间的距离或相似性逐步合并,直到合并为一个大类为止。689.2 SPSS在聚类分析中的应用在聚类分析中的应用SPSS中的系统聚类法采用的凝聚法,它的算法步骤具体如下。 1、首先将数据各自作为

52、一类(这时有n类),按照所定义的距离计算各数据点之间的距离,形成一个距离阵; 2、将距离最近的两条数据并为一个类别,从而成为n-1个类别,计算新产生的类别与其他各个类别之间的距离或相似度,形成新的距离阵; 3、按照和第二步相同的原则,再将距离最接近的两个类别合并,这时如果类的个数仍然大于1,则继续重复这一步骤,直到所有的数据都被合并成一个类别为止。699.2 SPSS在聚类分析中的应用在聚类分析中的应用 在系统聚类中,当每个类别有多于一个的数据点构成时,就会涉及如何定义两个类间的距离问题。根据距离公式不同,可能会得到不同的结果,这也就进一步构成了不同的系统聚类方法。常用的方法有如下几种。 Be

53、tween-groups linkage:组间平均距离法。 Within-groups linkage:组内平均距离法。 Nearest neighbor:最短距离法。 Furthest neighbor:最远距离法。 Centroid clustering:重心法。 Median clustering:中间距离法。 Wards method:离差平方和法。709.2 SPSS在聚类分析中的应用在聚类分析中的应用 SPSS具体操作步骤如下:Step01:打开对话框 选择菜单栏中的【Analyze(分析)】【Classify(分类)】【Hierarchical Cluster(系统聚类)】命令,

54、弹出【Hierarchical Cluster Cluster Analysis(系统聚类分析)】对话框,这是系统聚类分析的主操作窗口。719.2 SPSS在聚类分析中的应用在聚类分析中的应用 Step02:选择聚类分析变量在【Hierarchical Cluster Cluster Analysis(系统聚类分析)】对话框左侧的候选变量列表框中选择进行系统聚类分析的变量,将其添加至【Variable(s) (变量)】列表框中。同时可以选择一个标识变量移入【Label Cases by(标注个案)】列表框中。Step03:选择聚类类型 在【Cluster(分群)】选项组中可以选择聚类类型。系统

55、默认值是【Cases(个案0】选项。 Cases:对观测量(样品)进行聚类,即Q型聚类。 Variable:对变量进行聚类,即R型聚类。Step04:选择输出类型 在【Display(输出)】选项组中可以选择输出类型。系统默认值是【Statistics(统计量)】欧诺供给量和【Plots(图)】选项。 Statistic:输出主对话框【Statistics】按钮中设置的的统计量。 Plots:输出主对话框中【Plots(图)】按钮中聚类图形。729.2 SPSS在聚类分析中的应用在聚类分析中的应用Step05:基本统计量输出选择 单击【Statistics】按钮,在弹出的对话中可以选择进行系统

56、聚类分析的基本统计量。具体选项含义如下。739.2 SPSS在聚类分析中的应用在聚类分析中的应用【Agglomeration schedule(合并进程表)】:输出聚类过程表,系统默认选项。显示聚类过程中每一步合并的类或观测量,反映聚类过程中每一步样品或类的合并过程。【Proximity matrix(相似性矩阵)】:输出各类之间的距离矩阵。以矩阵形式给出各项之间的距离或相似性测度值。产生什么类型的矩阵(相似性矩阵或不相似性矩阵)取决于在【Method(方法)】菜单中【Measure(度量标准)】栏中的选择。【Cluster Membership(聚类成员)】栏可以选择聚类数目相关的输出项:

57、【None(无)】:不显示类成员表,它是系统默认选项。 【Single solution(单一方案)】:选择此项并在对应的【Number of clusters(聚类数)】参数框中指定分类数,这里要求分类数是一个大于1的整数。例如指输入数字“4”,则会在输出窗中显示聚为4类的分析结果。 【Range of solutions(方案范围)】:选择此选项并在下边的【Minimum number of clusters(最小聚类数)】和【Maxmum number of clusters(最大聚类数)】参数框中输入最小聚类数目和最大聚类数目。它表示分别输出样品或变量的分类数从最小值到最大值的各种分类

58、聚类表。输入的两个数值必须是不等于l 的正整数,最大类数值不能大于参与聚类的样品数或变量总数。749.2 SPSS在聚类分析中的应用在聚类分析中的应用Step06:聚类统计图形输出选择 单击【Plots】按钮,弹出的对话框如下图所示。这里可以选择进行系统聚类分析的统计图形。可选择输出的统计图表有两种,一个是树形图,一个是冰柱图。具体选项含义如下。759.2 SPSS在聚类分析中的应用在聚类分析中的应用【Dendrogram(树状图)】:显示树形图。【Icicle(冰柱)】:显示冰柱图形。对于冰柱图的具体选项还可以进一步用以下选择项来确定。 All clusters:显示全部聚类结果的冰柱图。可

59、用此种图查看聚类的全过程。但如果参与聚类的个体很多会造成图形过大。 Specified range clusters:限定显示的聚类范围。当选择此项时,在下面的【Start cluster(开始聚类)】、【Stop cluster(停止聚类)】和【By(排序标准)】后的参数框中输入要求显示聚类过程的开始聚类数、终止聚类数及步长。输入到参数框中的数字必须是正整数。例如,输入的结果是:3,9,2,生成的冰柱图从第三步开始,显示第三、五、七、九步聚类的情况。 None:不输出冰校图。同时,冰柱图显示方向可以在【Orientation(方向)】选项组中确定。 Vertical:纵向显示的冰柱图。 Ho

60、rizontal:横向显示的冰柱图。769.2 SPSS在聚类分析中的应用在聚类分析中的应用Step07:聚类方法选择单击【Method(方法)】按钮,弹出的对话框如下图所示。在对话框中可以设定聚类方法、距离测度的方法、数值变换方法等内容。具体选项含义如下。779.2 SPSS在聚类分析中的应用在聚类分析中的应用 【Cluster Method(聚类方法)】下拉列表框:可以选择聚类方法,具体如下。 Between-groups linkage:组间平均距离法。系统默认选项。合并两类的结果使所有的两类的平均距离最小。 Within-groups linkage:组内平均距离法。当两类合并为一类后

61、,合并后的类中的所有项之间的平均距离最小。 Nearest neighbor:最近距离法。采用两类间最近点间的距离代表两类间的距离。 Furthest Neighbor:最远距离法。用两类之间最远点的距离代表两类之间的距离。 Centroid clustering:重心法。定义类与类之间的距离为两类中各样品的重心之间的距离。 Median clustering:中位数法。定义类与类之间的距离为两类中各样品的中位数之间的距离。 Wards method:最小离差平方和法。聚类中使类内各样品的离差平方和最小,类间的离差平方和尽可能大。789.2 SPSS在聚类分析中的应用在聚类分析中的应用【Mea

62、sure(度量标准)】选项组:可以选择距离测度方法,具体如下。 【Interval(区间)】参数框适合于等间隔测度的连续性变量。单击它的右侧框边向下箭头展开下拉菜单,在菜单中选择距离测度方法,具体如下。 Euclidean distance:欧氏距离。 Squared Euclidean distance:欧氏距离平方。两项之间的距离是每个变量值之差的平方和。系统默认项。 Cosline:余弦相似性测度,计算两个向量间夹角的余弦。 Pearson conelation:皮尔逊相关系数。它是线性关系的测度,范围是-1+1。 Chebychev:切比雪夫距离。 Block:曼哈顿(Manhatta

63、n)距离,两项之间的距离是每个变量值之差的绝对值总和。 Minkowski:闵科夫斯基距离。 Customized:自定义距离。【Counts(计数)】参数框适合于计数变量(离散变量)。单击它右侧的向下箭头,展开下拉菜单的方法选择以下不相似性测度的方法。具体如下: Chi-square measure:卡方测度。用卡方值测度不相似性。系统默认选项。 Phi-square measure:两组频数之间的2 测度。799.2 SPSS在聚类分析中的应用在聚类分析中的应用【Binary(二分数)】参数框适合于二值变量。首先应该明确,对二值变量,系统默认用l 表示某特性出现(或发生),用0 表示某特性

64、不出现(或不发生)。单击它的右侧框边向下箭头展开下拉菜单,在菜单中选择侧度方法。具体如下: Euclidean distance:二元变量欧氏距离。 Squared Euclidean distance:二元变量欧氏距离的平方。 Size difference:不对称指数。其值范围在0 1 之间。 Pattern difference:不相似性测度,范围为0 1。 Variance:方差不相似性测度。 Dispersion:离散测度,其范围为-1 1。 Shape:距离测度。范围无上下限。 Simple matching:简单匹配测度。 Phi 4-point correlation:皮尔逊相

65、关系数二元变量模拟,其值范围为-1 l。 Lambda:其值是Goodman and Kruskal 的值,它是一种相似性测度。 AnderbergD:安德伯格D系数。 Dice:戴斯匹配系数。 Hamann:哈曼匹配系数。809.2 SPSS在聚类分析中的应用在聚类分析中的应用 Jaccard:杰卡得相似比。 Kulczynski 1:库尔津斯基匹配系数。 Kulczynski 2:库尔津斯基条件概率测度。 Lance and Williams:兰斯-威廉斯测度。 Ochiai:该指数是余弦相似性测度的二元形式。范围为0 l。 Rogers and Tanimoto:罗杰斯-谷本匹配系数。

66、Russel and Rao:它是内积(点积)的二元形式。对匹配与不匹配都给予相等的权重。 Sokal and Sneath l 5:第一种第五种索克尔-思尼斯匹配系数。 Yules Y:尤利Y综合系数。 Yules Q:尤利Q综合系数。从上述选项中可以选择一种测度方法。同时,还可以改变表示某事件发生与不发生的值。在【Present(存在)】和【Absent(不存在)】的参数框中键入用户自己定义的值。定义后,系统将忽略其他值。如果不进行自定义,那么,1 代表某事件发生“Present”,0 代表某事件不发生“Absent”。819.2 SPSS在聚类分析中的应用在聚类分析中的应用【Transf

67、orm Values(转换数)】选项组:可以选择数据标准化的方法。注意只有等间隔测度的数据(选择了Interval)或计数数据(选择了Counts)才可以进行标准化。具体如下: None:不进行标准化。系统默认值。 Z scores:数据标准化到Z 分数。标准化后变量均值为0,标准差为1。 Range -1 to 1:把数据标准化到-1 到+1 范围内。 Range 0 to 1:把数据标准化到0 到+1 范围内。 Maximum magnitude of 1:把数据标淮化到最大值为1。表示各变量除以最大值。 Mean of 1:把数据标准化到均值为1。表示各变量除以均值。 Standard

68、deviation of 1:把数据标准化到标准差为1。表示各变量除以标准差。在选择了上述标准化方法后,要在选项组中点选【By variable(对变量)】或【By case(对样品)】单选钮实施标准化。829.2 SPSS在聚类分析中的应用在聚类分析中的应用【Transform Measure】选项组:可以选择测度的转换方法,具体如下。 Absolute Values:把距离值取绝对值。 Change sign:把相似性值变为不相似性值或相反。 Rescale bo 01 range:重新调整测度值到范围0l。 对于已经计算了相似性或不相似性测度的数据,一般不再使用此方法进行转换。如果使用的

69、是已经存在的矩阵,可以选择此类选择项,对输入矩阵进行必要的转换。839.2 SPSS在聚类分析中的应用在聚类分析中的应用Step08:聚类结果保存选择 单击【Save】按钮,在弹出的对话框中可以将聚类结果用新变量保存在当前工作数据文件中。具体选项含义如下。849.2 SPSS在聚类分析中的应用在聚类分析中的应用 None:不建立新变量。 Single solution:单个结果输出。生成一个新变量,表明每个样品在聚类之后所属的类。在【Number of clusters(聚类数)】的矩形框中指定类数。 Range of solutions:选择此选项并在下边的【Minimum number o

70、f clusters(最小聚类数)】和【Maxmum number of clusters(最大聚类数)】文本框中输入最小聚类数目和最大聚类数目。它表示分别生成样品或变量的分类数从最小值到最大值的各种分类聚类变量。例如输入结果是“4”和“6”时,它表示在聚类结束后在原变量后面增加了3 个新变量分别表明分为4 类时、分为5 类时和分为6 类时的聚类结果。即聚为4、5、6 类时各样品分别属于哪一类。Step09:单击【OK】按钮,结束操作,SPSS软件自动输出结果。859.2 SPSS在聚类分析中的应用在聚类分析中的应用9.2.5 实例分析:不同地区信息基础设施发展状况的评价实例分析:不同地区信息

71、基础设施发展状况的评价1. 实例内容实例内容 要研究世界不同地区信息基础设施的发展状况,这里选取了发达地区、新兴工业化地区、拉美地区、亚洲地区中国家、转型地区等不同类型的20个国家的数据。描述信息基础设施的变量主要有六个。(1)Call每千人拥有电话线数。(2)movecall每千房居民蜂窝移动电话数。(3)fee高峰时期每三分钟国际电话的成本。(4)Computer每千人拥有的计算机数。(5)mips每千人中计算机功率(每秒百万指令)。(6)net每千人互联网络户主数。869.2 SPSS在聚类分析中的应用在聚类分析中的应用2. 实例操作实例操作 现在要分析世界各个地区的信息基础设施的发展状

72、况,案例中选择了“每千人拥有电话线数”、“ 每千房居民蜂窝移动电话数”等六个指标来反映不同国家信息设施的发展情况,同时选择了近二十个地区的数据加以研究。这个问题也属于典型的多元分析问题,需要利用多个指标来分析地区之间信息基础设施发展的差异。因此,可以利用系统聚类法。879.2 SPSS在聚类分析中的应用在聚类分析中的应用3 实例结果及分析实例结果及分析(1)聚类过程表 SPSS软件首先给出了进行系统聚类分析的过程表。下表中的的第一列“Stage”列出了聚类过程的步骤号,第二列“Cluster 1”和第三列“Cluster 2”列出了某一步骤中哪些国家参与了合并。例如从结果中看出,在第一步中,第

73、十个样品(Brazil)和第十二个样品(Mexico)首先被合并在一起。第四列“Coefficients”列出了每一步骤的聚类系数,这一数值表示被合并的两个类别之间的距离大小。第五列“Cluster 1”和第六列“Cluster 2”表示参与合并的国家(类别)是在第几步中第一次出现,0代表该记录是第一次出现在聚类过程中。第七列“Next Stage”表示在这一步骤中合并的类别,下一次将在第几步中与其他类再进行合并。889.2 SPSS在聚类分析中的应用在聚类分析中的应用899.2 SPSS在聚类分析中的应用在聚类分析中的应用(2)聚类分析结果表 在系统聚类法的聚类结果中可以看到,聚类结果分为三

74、大类。第类:美国、瑞典、丹麦。第类:日本、德国、瑞士、新加坡、中国台湾、韩国、法国、英国。第类:巴西、墨西哥、波兰、匈牙利、智利、俄罗斯、泰国、印度、马来西亚。909.2 SPSS在聚类分析中的应用在聚类分析中的应用 (3)树形图 上述已给出了相关聚类结果,最后用树形图(Dendrogram)直观反映整个聚类过程和结果,如图9-37所示。从图中,可以明显看到每个样品从单独一类,逐次合并,一直到全部合并成一大类。919.3 SPSS在判别分析中的应用在判别分析中的应用9.3.1 判别分析的基本原理判别分析的基本原理1、方法概述、方法概述 判别分析是判别样品所属类型的一种统计方法,其应用之广可与回

75、归分析媲美。 判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。2、基本原理、基本原理 判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。 其中,距离判别分析是一种常见的判别分析方法。它的基本思想是:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,

76、就认为它来自第i类。929.3 SPSS在判别分析中的应用在判别分析中的应用例如两个总体的距离判别法中,设有两个总体(或称两类)G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品测量p个指标如下页表。今任取一个样品,实测指标值为 ,问X应判归为哪一类?首先计算X到G1、G2总体的距离,分别记为 和 ,按距离最近准则判别归类,则可写成:然后比较 和 大小,按距离最近准则判别归类。 939.3 SPSS在判别分析中的应用在判别分析中的应用9.3.2 判别分析的判别分析的SPSS操作详解操作详解Step01:打开对话框选择菜单栏中的【Analyze(分析)】【Class

77、ify(分类)】【Discriminant(辨别)】命令,弹出【Discriminant Analysis(辨别分析)】对话框,这是判别分析的主操作窗口。949.3 SPSS在判别分析中的应用在判别分析中的应用 Step02:选择判别分析变量 在【Discriminant Analysis(辨别分析)】对话框左侧的候选变量中选择进行判别分析的变量,将其添加至【Independents(自变量)】列表框中,将其作为自变量。Step03:指定分类变量及范围在主对话框的候选变量中选择分类变量(离散型变量)移入【Grouping Variable(分组变量)】框中。此时它下面的【Define Rang

78、e(定义范围)】按钮加亮,单击该按钮,屏幕弹出一个小对话框,提供指定该分类变量的数值范围。 Minimum:输入最小值。 Maximum:输入最大值。959.3 SPSS在判别分析中的应用在判别分析中的应用Step04:选择判别分析方法 在主对话框的【Independents(自变量)】列表框下面有两个按钮,它们提供了判别分析方法选择。 Enter independent together:建立所选择的所有变量的判别式。当认为所有自变量都能对观测量特性提供丰富的信息时使用该选择项。系统默认设置。 Use stepwise method:采用逐步判别法作判别分析。点选该项后,主菜单中的【Meth

79、od(方法)】按钮加亮。可以进一步选择判别分析方法(见第 步)。如果希望使用一部分观测量进行判别函数的推导,选择一个能够标记需选择的这部分观测量的变量将其移入【Selection Variables(选择变量)】框中;再单击其右侧的Valve按钮,展开【Set Value(设置值)】对话框,键入能标记的变量值,如图所示。969.3 SPSS在判别分析中的应用在判别分析中的应用Step05:基本统计量输出选择 单击【Statistics】按钮,在弹出的对话框中可以选择进行判别分析的基本统计量输出。具体选项含义如下。979.3 SPSS在判别分析中的应用在判别分析中的应用【Descriptives

80、(描述性)】选项组:选择输出描述统计量。 Means:输出各类中各自变量的均值、标准差和各自变量总样本的均值、标准差。 Univariate ANOVAs:单因素方差分析。对各类中同一自变量进行均值检验,输出单因素方差分析结果。 Boxs M:对各类协方差矩阵相等的假设进行检验。【Function coefficients(函数系数)】选项组:选择输出判别函数的系数。Fishers:输出Fisher函数系数。对每一类给出一组系数,并给出该组中判别分数最大的观测量。Unstandardized:未经标准化处理的判别函数系数。【Matrices(矩阵)】选项组:选择输出自变量的系数矩阵。Withi

81、n-groups correlation matrix:类内相关矩阵。 Within-groups covariance matrix:类内协方差矩阵 Separate-groups covariance matrices:对每一类分别输出协方差矩阵。Total covariance matrix:总样本的协方差矩阵。989.3 SPSS在判别分析中的应用在判别分析中的应用Step06:设置逐步判别分析选项 点选【Use stepwise method(使用步进式方法)】单选钮后,就表示采用逐步判别法进行分析。接着单击主菜单中的【Statistics】按钮,在弹出的对话框图中可以选择逐步判别分

82、析的选项。具体选项含义如下。999.3 SPSS在判别分析中的应用在判别分析中的应用【Method(方法)】选项组:选择变量进入判别函数的方式。 Wilks lambda:每步都选择Wilk 的统计量最小的变量进入判别函数。 Unexplained variance:每步都选择使类间不可解释的方差和最小的变量进入判别函数。 Mahalanobis distance:每步都选择使靠得最近的两类间的Mahalanobis 距离最大的变量进入判别函数。 Smallest F ratio:每步都选择使任何两类间的“最小F 值”达到最大的变量进入判别函数。 Raos V:每步都选择使Raos V 统计量

83、产生最大增量的变量进入判别函数。选择此种方法后,应该在该项下面的【V-to-enter】文本框中输入这个增量的指定值。当某变量导致的V 值增量大于指定值的变量时,该变量进入判别函数。1009.3 SPSS在判别分析中的应用在判别分析中的应用【Criteria(标准)】选项组:选择逐步判别停止的条件。Use F value:使用F值,系统默认选项,当加入一个变量(或剔除一个变量)后,对在判别函数中的变量进行方差分析。当计算的F 值大于指定的Entry 值时,该变量保留在函数中。默认值是Entry 为3.84。当该变量使计算的F 值小于指定的Removal 值时,该变量从函数中剔除。默认值是Rem

84、oval 为2.71。设置这两个值时应该要求Entry 值大于Removal 值。Use probability of F:使用F 检验的概率决定变量是否加入函数或被剔除。当计算的F 检验的概率小于指定的Entry 值时,该变量加入函数中。当该变量使计算的F 值的概率大于指定的Removal 值时,该变量从函数中剔除。【Display(输出)】栏选择逐步选择变量的过程和最后结果的显示:Summary of steps:显示每步选择变量之后各变量的统计量结果。 F for Pairwise distances:显示两类之间的F比值矩阵。1019.3 SPSS在判别分析中的应用在判别分析中的应用S

85、tep07:设置分类参数与判别结果 单击【Classify】按钮,在弹出的对话框中可以设置判别分析的分类参数及结果。具体选项含义如下。1029.3 SPSS在判别分析中的应用在判别分析中的应用【Prior Probabilities(先验概率)】选项组:选择先验概率。 All groups equal:各类先验概率相等,系统默认选项。若分为m 类,则各类先验概率均为lm。 Compute from grous sizes:基于各类样本量占总样本量的比例计算先验概率。【Use Covariance Matrix(使用协方差矩阵)】栏选择分类使用的协方差矩阵:Within-groups:使用合并组

86、内协方差矩阵进行分类。Separate-groups:使用各组协方差矩阵进行分类。【Display(输出)】选项组:选择输出分类结果。Casewise results:输出每个观测量的判别分数、实际类、预测类(根据判别函数求得的分类结果)和后验概率等。选择此项后,下面的【Limits cases to(将个案限制在前)】项被激活,可以在它后面的文本框中输入观测量数n。选择此项则仅输出前n 个观测量。Summary table:输出分类的小结表。Leave-one-out classification:输出对每一个观测量进行分类的结果,所依据的判别函数是由除该观测量以外的其他观测量导出的。103

87、9.3 SPSS在判别分析中的应用在判别分析中的应用【Plots(图)】选项组:选择输出统计图。Combined-groups:生成全部类的散点图。该图是根据前两个判别函数值作的散点图。如果只有一个判别函数,就输出直方图。Separate-groups:对每一类生成一张散点图。如果只有一个判别函数,就输出直方图。Territorial map:生成根据判别函数值将观测量分到各类去的边界图。每一类占据一个区域。各类均值在各区中用星号标出。如果仅有一个判别函数,则不作此图。 缺失值处理方式。 Replace missing value with mean:用该变量的均值代替缺失值。1049.3 S

88、PSS在判别分析中的应用在判别分析中的应用Step08:结果保存设置 单击【Save】按钮,在弹出的对话框中可以设置判别分析的结果输出,具体选项含义如下。1059.3 SPSS在判别分析中的应用在判别分析中的应用 Predicted group membership:建立新变量(系统默认变量名是dis_1)保存预测观测量所属类的值。 Discriminant score:建立新变量保持判别分数。 Probabilities of group membership:建立新变量保存各个观测量属于各类的概率值。有m 类,对一个观测量就会给出m 个概率值,因此建立m 个新变量。1069.3 SPSS在

89、判别分析中的应用在判别分析中的应用Step09 相关统计量的Bootstrap估计 单击【Bootstrap】按钮,在弹出的对话框中可以进行如下统计量的Bootstrap估计。 标准化典则判别函数系数表支持标准化系数的Bootstrap 估计。 典则判别函数系数表支持非标准化系数的Bootstrap 估计。 分类函数系数表支持系数的Bootstrap 估计。Step10:单击【OK】按钮,结束操作,SPSS软件自动输出结果。1079.3 SPSS在判别分析中的应用在判别分析中的应用9.3.3 9.3.3 实例分析:全国实例分析:全国3030个省市经济增长差异研究个省市经济增长差异研究1. 1.

90、 实例内容实例内容 现要研究全国30个省市地区经济增长差异性,收集相关数据见数据文件9-3.sav。表中相关变量的含义分别是:x1经济增长率(%)、x2非国有化水平(%)、x3开放度(%)、x4市场化程度(%)。其中,辽宁、河北等省市归为一类,而黑龙江、吉林等省市归为另一类。请分析江苏、安徽和浙江的类别。 1089.3 SPSS在判别分析中的应用在判别分析中的应用2. 2. 实例操作实例操作 由于案例中已经将北京、上海、四川等省市按照经济增长特点分类,现在需要将另外三个待估省市:江苏、安徽和陕西分类。因此,可以利用判别分析来判别它们的归属。1099.3 SPSS在判别分析中的应用在判别分析中的

91、应用3 3 实例结果及分析实例结果及分析(1)判别分析概述表SPSS软件首先给出了进行判别分析的概述表9-20。可以看到,参加分析的变量总数为30,有效观测量数为27,占90%;包含缺失值或分类变量范围之外的观测量数为3,占10%。1109.3 SPSS在判别分析中的应用在判别分析中的应用 (2)分组统计表 下表给出了观测量按照类别不同进行的基本描述性统计量输出,其中包括均值(Mean)、均方差(Std. Deviation)和有效观测量的个数等。可以从结果初步看到,不同类之间省市经济指标的差异比较明显,例如第一类省份的“非国有化水平”指标均值等于65.0282,而第二类却只有40.1081。

92、1119.3 SPSS在判别分析中的应用在判别分析中的应用(3)类均值相等检验表 接着给出了不同类之间“经济增长率”等四个指标均值相等的检验结果如下表所示。从结果看到,它们的相伴概率P值都远小于显著性水平0.05,因此,可以认为两个类指标之间的均值存在显著差异,可以进行判别分析。1129.3 SPSS在判别分析中的应用在判别分析中的应用 (4)判别分析特征值表 下表为判别函数的特征值表。从表可见,本案例仅有一个判别函数用于分析,特征值(Eigenvalue)为1.479,方差百分比(% of Variance)为100%,方差累计百分比(Cumulative %)为100%,典型相关系数(Ca

93、nonical Correlation)为0.771。1139.3 SPSS在判别分析中的应用在判别分析中的应用(5)Wilks 表 下表是对判别函数的显著性检验表。其中Wilks 值等于0.403,卡方统计量(Chi-square)等于20.878,自由度(df)等于4,相伴概率P值(Sig.)远小于显著性水平0.05,因此认为判别函数有效。 1149.3 SPSS在判别分析中的应用在判别分析中的应用(6)标准化判别函数系数 下表给出了标准化判别函数的系数,于是得到标准化判别函数如下:Function=0.190*经济增长率+0.242*非国有化水平+0.360*开放度+0.648*市场化程

94、度 根据判别系数看到,“市场化程度”变量对判别结果的影响是最大的,这是因为它的系数值最大,等于0.648;相反的,“经济增长率”变量对判别结果的影响最小。1159.3 SPSS在判别分析中的应用在判别分析中的应用 (7)结构矩阵表 结构矩阵表如下表所示,是判别变量与标准化函数之间的合并类内相关系数,变量按照相关系数的绝对值大小排列,表面判别变量与判别函数之间的相关性,如变量“市场化程度”与判别函数关系最密切。1169.3 SPSS在判别分析中的应用在判别分析中的应用 (8)非标准化判别函数系数 下表给出了非标准化判别函数系数,非标准判别函数为:Function=-7.263+0.060*经济增

95、长率+0.017*非国有化水平+ 0.028*开放度+0.081*市场化程度 根据这个判别函数代入各变量数值可以计算出判别值。1179.3 SPSS在判别分析中的应用在判别分析中的应用 (9)判别函数类心表 下表给出的是按照非标准判别函数计算的函数类心,即判别函数在各类均值处的判别分数值。可以看到,在两个类心处,判别分数值差异较大。1189.3 SPSS在判别分析中的应用在判别分析中的应用(10)分类过程概述表 下表给出了分类过程概述情况。可以看到,共有30个观测量参与了分类过程,没有缺失变量存在。1199.3 SPSS在判别分析中的应用在判别分析中的应用(11)类先验概率表 下表给出了类先验

96、概率表,按照先前的判别分析设置,先验概率都等于0.5。1209.3 SPSS在判别分析中的应用在判别分析中的应用(12)分类函数系数表 下表给出了Fisher线性判别函数的系数,因此可以建立各类线性判别模型。 类型一:F1=-54.567+1.812*经济增长率-0.337*非国有化水平-0.058*开放度+1.380*市场化程度 类型二:F2=-36.746+1.669*经济增长率-0.377*非国有化水平-0.119*开放度+1.188*市场化程度 将代判别的省市的各类经济指标代入上述两个判别函数进行计算,二者比较大小,如果F1F2,对应的省市归入1类;否则,当F1F2,对应的省市归入2类。1219.3 SPSS在判别分析中的应用在判别分析中的应用1229.3 SPSS在判别分析中的应用在判别分析中的应用 (13)判别分析分类结果表 下表列出了最后判别分析的分类结果。可以看到,第一类的11个省市中,只有一个省市(广西省)判别错误,判别方法指出它应该归于第二类;同时,第二类中的16个省市全部判对。同时,数据文件中新增加变量“Dis_1”列出了所有省市的判别结果。对于待判别省市来说,江苏和安徽被判属第一组,陕西被判属第二组,这与实际情况较吻合。1239.3 SPSS在判别分析中的应用在判别分析中的应用124

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号