spss基础入门－金锄头文库

资源描述

《spss基础入门》由会员分享，可在线阅读，更多相关《spss基础入门（85页珍藏版）》请在金锄头文库上搜索。

1、,SPSS基础入门,基于spss16.0,报告人：张淑洁,目录,CONTENTS,2,SPSS软件概述,3,4,SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称，有Windows和Mac OS X等版本。,最初软件全称为“ 社会科学统计软件包”（SolutionsStatistical Package for the Social Sciences）但是随着SPSS产品服务领域的扩大和服务深度的增加正式将英文全称更改为“统计产品与服务解决方案” （Statistical Product and Service Solutions

2、）,5,SPSS是世界上最早的统计分析软件，由美国斯坦福大学的三位研究生Norman H. Nie、C. Hadlai (Tex) Hull 和 Dale H. Bent于1968年研究开发成功，同时成立了SPSS公司，并于1975年成立法人组织、在芝加哥组建了SPSS总部。 2009年7月28日，IBM公司宣布将用12亿美元现金收购统计分析软件提供商SPSS公司。如今SPSS已出至版本22.0，而且更名为IBM SPSS。迄今，SPSS公司已有40余年的成长历史。,数据录入,统计分析,SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分

3、析、数据简化、生存分析、时间序列分析、多重响应等几大类。,结果呈现,SPSS操作入门,8,数据编辑窗口 SPSS Data Editor,结果管理窗口 SPSS Output Viewer,数据录入,11,12,数据录入,1,2,3,姓名、性别、成绩. 地区、时间、营业额. 身高、体重、智力.,定义变量名,变量名、变量标签值、变量的储存类型、缺失值、变量的测量尺度,指定每个变量的各种属性,变量名不能与SPSS保留字相同。 SPSS的保留字有ALL、END、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH。,录入数据,13,01,第一,02,第二,“一个观测

4、占一行，一个变量占一列”,Name：变量名。变量名必须以字母、汉字及开头，总长度不超过8个字符，共容纳4个汉字或8个英文字母，英文字母不区别大小写，最后一个字符不能是句号。 Type：变量类型。变量类型有8 种，最常用的是Numeric数值型变量。其它常用的类型有：String字符型，Date日期型，Comma逗号型（隔3位数加一个逗号）等。 Width：变量所占的宽度。 Decimals：小数点后位数。 Label：变量标签。关于变量涵义的详细说明。 Values：变量值标签。关于变量各个取值的涵义说明。 Missing：缺失值的处理方式。 Columns：变量在Date View 中所显示

5、的列宽（默认列宽为8）。 Align：数据对齐格式（默认为右对齐）。 Measure：数据的测度方式。名义尺度、定序尺度和等间距尺度三种（默认为等间距尺度）。,示例1，将下面的数据按要求录入到SPSS中,要求：姓名：字符型；宽度8；小数点0；列宽8；左对齐；称名变量性别：数字型；宽度8；小数点0；1代表男，2代表女；列宽8；左对齐；称名变量期末成绩：数字型；宽度10；小数点1；列宽8；右对齐；等比变量,SPSS中可以直接读入许多常用格式的数据文件，选择菜单FileOpen Data或直接单击快捷键工具栏上的快捷按钮，系统就会弹出Open File 对话框，单击“文件类型”列表框，在里面

6、能够看到可以直接打开的数据文件格式。,示例2,数据分析及结果解读,17,18,Frequencies：频数分布,Descriptives：一般性描述,Explore：探索性分析,Crosstabs：交叉列表,调用此过程可对变量进行描述性统计分析，计算并列出一系列相应的统计指标，且可将原始数据转换成标准Z分值并存入数据库，所谓Z分值是指某原始数值比其均值高或低多少个标准差单位，高的为正值，低的为负值，相等的为零。,调用此过程可对变量进行更为深入详尽的描述性统计分析，故称之为探索性统计。它在一般描述性统计指标的基础上，增加有关数据其它特征的文字与图形描述，显得更加细致与全面，有助于用户思考对数据进

7、行进一步分析的方案。,调用此过程可进行计数资料和某些等级资料的交叉表分析，在分析中，可对二维至多维交叉表资料进行统计描述和x2检验，并计算相应的百分数。,调用此过程可进行频数分布表的分析。频数分布表是描述性统计中最常用的方法之一，此外还可对数据的分布趋势进行初步分析。,19,示例2,待分析的变量,是否显示频数表,定义需要计算的统计量,定义需要绘制的统计图,频数分布表(Frequencies),定义表格,百分位数,分布特征描述,离散趋势,集中趋势,Frequencies：定义统计量,统计图类型,直方图加上正态曲线,以频数绘制条图或饼图,Frequencies：定义统计图,无图形,条图,饼图,直方

8、图,以构成比绘制条图或饼图,频数表排列次序,Frequencies：定义表格,按数值升序,按数值降序,按频数升序,按频数降序,Frequencies：结果解释,Frequencies：结果解释,Frequencies：结果解释,是否保存标准变换后的数据,一般性描述(Descriptives),Descriptives：定义统计量,Descriptives：结果解释,Descriptives：结果解释,此外，系统以z成绩为变量名将原始数据转换成标准z分值，存放在原数据库中。新变量具有均值为0、标准差为1的特征，亦即变量的标准化过程。,探索性分析(Explore),两者均有,统计量,图,分组变量列

9、表,待分析变量列表,Explore：定义统计量,Descriptives：输出均数、均数的95%可信区间、去掉5%极端值的均数、中位数、方差、标准差、最小值、最大值、全距、四分位数间距、偏度系数、峰度系数。,M-estimators：作中心趋势的粗略最大似然确定，输出四个不同权重的最大似然确定数。 Outliers：输出五个最大值与五个最小值。 Percentiles：输出第5%、10%、25%、50%、75%、90%、95%位数。,箱图绘制方式,茎叶图,正态性检验/正态分布图,Explore：定义统计图,直方图,Exclude case listwise:不分析有任一缺失值的记录 Exclu

10、de case pairwise:不分析计算某统计量时有缺失值的记录 Report values:报告缺失值,缺失值的处理方式,Explore：缺失值的处理,Explore：结果解释,原始数据的基本情况：男性有效数据4，缺失0，合计4；女性有效数据6，缺失0，合计6。,Explore：结果解释,Explore：结果解释,左面为箱图，图中方箱为四分位数，中心粗线为中位数，两端线为最大值与最小值。,交叉列表(Crosstabs),行,列,Crosstabs：定义统计量,X2检验,Crosstabs：定义交叉表内容,实际观察数,理论数,行百分数,列百分数,合计百分数,残差,Crosstabs：结果解

11、释,Crosstabs：结果解释,红底数字为实际观察值；黄底数字为列百分数。,Crosstabs：结果解释,单因素方差分析,单因变量的单因素方差分析主要解决多于两个总体样本或变量间均值的比较问题。是一种对多个（大于两个）总体样本的均值是否存在显著差异的检验方法。其目的也是对不同的总体的数据的均值之间的差异是否显著进行检验。单因素方差分析的应用条件：在不同的水平（因素变量取不同值）下，各总体应当服从方差相等的正态分布。,示例3，某企业需要一种零件，现有三个不同的地区的企业生产的同种零件可供选择，为了比较这三个零件的强度是否相同，每个地区的企业抽出6件产品进行强度测试，其值如表所示。假设每个

12、企业零件的强度值服从正态分布，试检验这三个地区企业的零件强度是否存在显著差异。,解：首先建立假设 H0：三个地区的零件强度无显著差异； H1：三个地区的零件强度有显著差异。,1、单击Analyze Compare Means One-Way ANOVA，打开 One-Way ANOVA对话框。 2、从左框中选择因变量“零件强度”进入Dependent list框内，选择因素变量地区”进入Factor框内。点击OK就可以得到方差分析下表。,3、单击Option按纽，打开Option对话框如图所示：在Option选项中选择输出项。主要有不同水平下样本方差的齐性检验，缺失值的处理方式及均值的图形。

13、,本例中选择Homogeneity of variance test 进行不同水平间方差齐性的检验以及Descriptive 基本统计描述。在Missing Value栏中选择系统默认项。,完成所有选择后返回主对话框，然后单击OK，就可以得到三个地区零件强度分析表。,方差齐性检验，Sig值大于0.05，符合方差齐性假设,由于F统计量值的P值明显小于显著性水平0.05，故拒绝假设H0，认为这三个地区的零件强度有显著差异。,4、如果需要将水平间两两比较，可以单击Post Hoc 按纽，打开多重比较对话框。在该对话框中列出了许多多重比较检验，涉及到许多的数理统计方法，在实际中只选用其中常用的方法

14、即可。对话框下部的Significance level表示显著性水平，默认值是0.05，也可以根据需要重新输入其它值。,如果满足在水平间方差相等的条件，常用LSD（least-significant difference最小显著性差异法）,表示用 t 检验完成各组均值间的配对比较。当方差不等的情况下，可以选择Tamhanes T2, 用t检验进行各组均值间的配对比较。,从表可以看出，地区2与地区3之间的差异是非常显著的，p 0.05。,双因素方差分析,单因变量的双因素方差分析是对观察的现象（因变量）受两个因素或变量的影响进行分析，检验不同水平组合之间对因变量的影响是否显著。双因素方差分析

15、应用条件：因变量和协变量必须是数值型变量，且因变量来自或近似来自正态总体。因素变量是分类变量，变量可以是数值型或字符型的。各水平下的总体假设服从正态分布，而且假设各水平下的方差是相等的。双因素方差分析过程可以分析出每一个因素的作用；各因素之间的交互作用；检验各总体间方差是否相等；还能够对因素的各水平间均值差异进行比较等。,示例4：右表是某商品S在不同地区和不同时期的销售量表。已知数据服从正态分布，则要检验地区因素及时间因素对销售量的影响是否显著。,由于销售量受地区和时间两个因素的影响，这是一个双因素方差分析的问题。,1、单击Analyze General linear Model Univa

16、riate，打开Univariate主对话框。,2、选择要分析的变量”销售量”进入Dependent Variable 框中，选择因素变量”地区”和”时期”进入Fixed Factor框中。 3、单击Model按纽选择分析模型，得到Model对话框。如图所示：在Specify框中，指定模型类型。,Custom选项为自定义模型，本例选择此项并激活下面的各项操作。先从左边框中选择因素变量进入Model框中，然后选择效应类型。一般不考虑交互作用时，选择主效应Main，考虑交互作用时，选择交互作用Interaction。可以通过单击Build Term下面的小菜单完成，本例中选择主效应。,4、从表中数据可以看出，F值对应概率P值都小于显著性水平0.05，这说明地区和时期对销售量的影响都是显著的。,5、如果需要进行图形展示，可单击Plots按纽，打开图形对话框如图所示。（1）在Factor框中选择因素变量进入横坐标Horizontal Axis框内，然后单击add按纽，可以得到该因素不同水平的因变量均值的分布。（2）如果要了解两个因素变量的交互作用，将一个因素变量送入横坐标后，将另一个因素变量送入Separate Lines分线框中，然后单击add按纽。就可以输出反映两个因素变量的交互图。本例中选择“地区”为横坐标。,

展开阅读全文