SPSS统计分析数据转换与整理课件

上传人:工**** 文档编号:567495470 上传时间:2024-07-20 格式:PPT 页数:266 大小:2.98MB
返回 下载 相关 举报
SPSS统计分析数据转换与整理课件_第1页
第1页 / 共266页
SPSS统计分析数据转换与整理课件_第2页
第2页 / 共266页
SPSS统计分析数据转换与整理课件_第3页
第3页 / 共266页
SPSS统计分析数据转换与整理课件_第4页
第4页 / 共266页
SPSS统计分析数据转换与整理课件_第5页
第5页 / 共266页
点击查看更多>>
资源描述

《SPSS统计分析数据转换与整理课件》由会员分享,可在线阅读,更多相关《SPSS统计分析数据转换与整理课件(266页珍藏版)》请在金锄头文库上搜索。

1、SPSS统计分析数据转换与整理本章主要内容本章主要内容第一节第一节 数据的排序数据的排序第二节第二节 变量计算变量计算第三节第三节 数据选取数据选取第四节第四节 计数计数第五节第五节 分类汇总分类汇总第六节第六节 数据分组数据分组第七节第七节 数据处理的其他功能数据处理的其他功能第八节第八节 统计图统计图7/20/20242 SPSS数据排序的基本操作步骤 (1)选择菜单DataSort Cases (2)将主排序变量从左边的列表中选到Sort by框中,并在Sort Order框中选择按该变量的升序还是降序排序。 (3)如果是多重排序,还要一次指定第二、第三排序变量及相应的排序规则。2.数据

2、排序的基本操作7/20/20245在左边的源变量框源变量框中选择排序变量进入Sort by框。如果选择2个以上的变量,观测量的排序结果与排序变量在Sort by框中的顺序有关。列于首位的为第一排序变量。在Sort Order 栏栏内选择排序方式升序与降序7/20/20246 1、数据排序是整行数据排序,而不是只对某列变量排序; 2、多重排序中指定排序变量的次序很关键。先指定的变量优先于后指定的变量。多重排序可以在按某个变量值升序(或降序)排序的同时再按其他变量值降序(或升序)排序; 3、数据排序后,原有数据的排序次序必然被打乱。说明7/20/20247031 数据排序应用举例n利用居民存款调查

3、数据,通过数据排序功能分别找到城镇户口和农村户口储户一次存款金额的最大值和最小值。7/20/20248第二节 变量计算n数据的转换处理是在原有数据的基础上,计算产生一些含有更丰富信息的新数据。例如根据职工的基本工资、失业保险、奖金等数据,计算实际月收入,这些新变量具有更直观更有效的特点。7/20/202491. 变量计算的目的nSPSS变量计算是在原有数据的基础上,根据用户给出的SPSS算术表达式以及函数,对所有个案或满足条件的部分个案,计算产生一系列新变量。 (1)变量计算是针对所有个案或指定的部分个案的,每个个案都有自己的计算结果。 (2)变量计算的结果应保存到一个指定变量中,该变量的数据

4、类型应与计算结果的数据类型相一致。 在变量计算过程中涉及到几个概念:SPSS算术表达式、SPSS条件表达式和SPSS函数。7/20/202410n指出按照什么方法计算变量;nSPSS算术表达式算术表达式(Numeric Expression)是由常量、变量、算术运算符、圆括号、函数等组成的式子。字符型常量应当用引号括起来变量是指那些已存在于数据编辑窗口中的原有变量算术运算符主要包括、*、/、*(乘方)在同一算术表达式中的常量及变量,数据类型应该一致,否则无法计算 2.SPSS算术表达式7/20/202411n在变量计算中通常要求对不同的个案分别按照不同的方法进行计算,于是就需要通过一定的方式来

5、指定个案;nSPSS条件表达式条件表达式是一个对条件进行判断的式子。其结果有两种取值:如果判断条件成立,则结果为真;如果判断条件不成立,则结果为假。条件表达式包括简单条件表达式简单条件表达式和复合条件表达式复合条件表达式。3.SPSS条件表达式7/20/202412(1)简单条件表达式 由关系运算符、常量、变量以及算术表达式等组成的式子。其中关系运算符包括、。(nl35)(2)复合条件表达式 又称逻辑表达式,是由逻辑运算符号、圆括号和简单条件表达式等组成的式子。其中,逻辑运算符号包括&或或AND(并且)、(并且)、|或或OR(或者)、或(或者)、或NOT(非)(非)。NOT的运算优先级最高,其

6、次是AND,最低是OR。可以通过圆括号改变运算的优先级。(nl=35)and not (zc3)7/20/202413nSPSS函数函数是事先编好并存储在SPSS软件中,能够实现某些特定计算任务的一段计算机程序。这些程序都有各自的名字称为函数名函数名。执行这些程序段得到的计算结果称为函数值函数值。 函数书写的具体形式为:函数名(参数)函数名(参数)4.SPSS函数7/20/202414 其中,函数名是SPSS已经规定好的,参数可以是常量(字符型常量应用引号括起来),也可以是变量或算术表达式。参数可能是一个,也可能是多个,各参数之间用逗号逗号分隔。 SPSS函数大致可以分成八大类:算术函数、算术

7、函数、统计函数、分布函数、逻辑函数、字符串函数、统计函数、分布函数、逻辑函数、字符串函数、缺失值函数、日期函数和其他函数缺失值函数、日期函数和其他函数。7/20/202415n(1)选择菜单TransformCompute,弹出Compute Variable对话框如下:5.变量计算的基本操作7/20/202416(2)在Target框中输入存放计算结果的变量名。该变量可以是一个新变量,也可以是已经存在的变量。如果指定存放计算结果的变量为新变量,SPSS会自动创建它;如果指定产生的变量已经存在,SPSS会提问是否以计算结果覆盖原有值。新的变量默认为数值型,用户可以根据需要单击Type&Labe

8、l按钮修改,还可以对新变量加变量名标签。(3)在Numeric Expression框给出SPSS算术表达式。可以手工输入,也可以按窗口的按钮以及函数下拉菜单输入。7/20/202417(4)如果希望对符合一定条件的个案进行变量计算,则单击If按钮,出现下面的窗口,选择Include if case satisfies condition选项,然后输入条件表达式。对不满足条件的个案,将不进行变量值计算,对新变量取值为系统缺失值。7/20/202418 利用职工基本情况数据,依据职称级别计算实发工资,再按职称1至4将实发工资分别上调50,30,20,10。03-2 变量计算的应用举例7/20/2

9、02419第三节 数据选取n数据选取就是根据分析的需要,从已收集到的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析的过程,通常也称为抽样抽样。 SPSS可根据指定的抽样方法从数据编辑窗口中选出部分样本以实现数据选取,这样后面的分析操作就只针对选出的数据,直到用户取消这种选取为止。7/20/202420(1)选取全部数据(All cases)(2)按指定条件选取( If condition is satisfied ) SPSS要求用户以条件表达式给出数据选取的条件,SPSS将自动对数据编辑窗口中的所有个案进行条件判断。那些满足条件的个案,即条件判断为真的个案将被自动选取出来,而

10、那些条件判断为假的个案则不被选中。1. 数据选取的基本方式7/20/202421(3)随机抽样( Random sample of cases ),即对数据编辑窗口中的所有个案进行随机筛选,包括如下两种方式: 第一,近似抽样(Approximately) 近似抽样要求用户给出一个百分比数值,SPSS将按照这个比例自动从数据编辑窗口中随机抽取相应百分比数目的个案。 注:由于SPSS在样本抽样方面的技术特点,抽取出的个案总数不一定恰好精确地等于用户指定的百分比数目,会有小的偏差,因而称为近似抽样。7/20/202422 第二,精确抽样(Exactly) 精确抽样要求用户给出两个参数。第一个参数是希

11、望选取的个案数,第二个参数是指定在前几个个案中选取。SPSS自动在数据编辑窗口的前若干个个案中随机精确地抽出相应个数的个案来。7/20/202423(4)选取某一区域内的样本( Based on time or case range ),即选取数据编辑窗口中样本号在指定范围内的所有个案,要求给出这个范围的上、下界个案号码。这种抽样方法适用这种抽样方法适用于时间序列数据。于时间序列数据。(5)通过过滤变量选取样本( Use filter variable ),即依据过滤变量的取值进行样本选取。要求指定一个变量作为过滤变量,变量值为非0或非系统缺失值的个案将被选中。这种方法通常用于排除包含系统缺失

12、值的个案。这种方法通常用于排除包含系统缺失值的个案。7/20/202424说明:说明: (1)完成数据选取后, SPSS以后的分析操作仅针对那些被选中的个案,直到用户再次改变数据的选取为止。 (2)采用指定条件选取和随机抽样方法进行数据选取后,SPSS将在数据编辑窗口中自动生成一个名为filter_$的新变量,取值为1或0。1表示本个案被选中,0表示未被选中。该变量是SPSS产生的中间变量,如果删除它则自动取消样本抽样。7/20/202425(1)选择菜单DataSelect cases(2)根据分析需要选择数据选取方法(3)Unselected cases are指定对未选中个案的处理方式F

13、iltered表示在未被选中的个案号码上打一个“/”标记;Deleted表示将未被选中的个案从数据编辑窗口中删除。 2. 数据选取的基本操作7/20/202426Select Cases对话框7/20/202427 利用021居民储蓄调查数据,根据不同的分析要求采用不同的数据选取方法抽样:(1)如果只希望分析城镇储户的情况,可以通过数据选择功能采用指定条件的抽样方法进行抽样;(2)如果只希望对其中的70的数据进行分析,可通过数据选择功能采用随机抽样中的近似抽样方法进行抽样。数据选取的应用举例7/20/202428第四节 计数n1. 计数目的 SPSS实现的计数是对所有个案或满足某条件的部分个案

14、,计算若干变量中有几个变量的值落在指定的区间内,并将计数结果存入一个新变量中的过程。例如对大学毕业班学生的成绩进行综合测评时,可以依次计算每个学生的若干门课程中有几门课程得了优,有几门课程得了良,有几门课程不及格。 SPSS实现计数的关键步骤是:指定哪些变量参与计数,计数的结果存入哪个新变量中指定计数区间(尤为关键) 7/20/202429 SPSS中的计数区间可以有以下几种描述形式:v单个变量值(单个变量值(Value)v系统缺失值(系统缺失值(System-missing)v系统缺失值或用户缺失值(系统缺失值或用户缺失值( System or user-missing)v给定最大值和最小值

15、的区间(给定最大值和最小值的区间(n through m)v小于等于某指定值的区间(小于等于某指定值的区间(Lowest through n)v大于等于某指定值的区间(大于等于某指定值的区间(n through highest)2. 计数区间7/20/202430 上述后三个计数区间很容易理解。例如例如评价学生成绩,成绩为优的计数区间可以指定为90 through highest,成绩为良的计数区间指定为80 through 89,不及格的计数区间指定为Lowest through 59。 前三个计数区间实际上是一些离散的数据点,严格讲并不是区间,但SPSS仍将其归在广义区间的范畴内,目的是方

16、便一些其他的应用。7/20/202431(1)选择菜单TransformCount,出现如下窗口:3. 计数的基本操作7/20/202432(2)将参与计数的变量选到Variables框中(3)在Target Variable框中输入存放计数结果的变量名,并在Target Label框中输入相应的变量名标签(4)单击Define Values按钮定义计数区间,出现如下图窗口:7/20/202433 通过单击Add、Change、Remove按钮完成计数区间的增加、修改和删除。7/20/202434(5)如果仅希望对满足某条件的个案进行计数,则单击If按钮并输入相应的SPSS条件表达式。否则,本

17、步可略去。7/20/202435n利用02-1居民储蓄调查数据分析储户收入的总体状况。我们认为如果储户收入今年比去年增加了,且认为今后收入仍会增加,则认为收入状况较好。试分析有多少个储户的收入状况较好。计数的应用举例7/20/202436第五节 分类汇总n1. 分类汇总的目的 分类汇总分类汇总是按照某分类变量进行分类汇总计算。 例如:某企业希望了解本企业不同学历职工的基本工资上是否存在较大差距。最简单的做法就是分类汇总,即将职工按学历进行分类,分别计算不同学历职工的平均工资,然后可对平均工资进行比较。7/20/202437 再例如,某商厦希望分析假日周内不同职业和不同年龄段的顾客对某商品的“打

18、折促销”反应是否存在较大差异,用以分析不同消费群体的消费心理。最初步的分析可以是分别计算不同职业中不同年龄段顾客的平均消费金额和平均消费金额差异程度(标准差),并对它们进行比较。这个过程也可以通过分类汇总过程完成。7/20/202438 SPSS实现分类汇总涉及两个主要方面:v按照哪个变量(如上例中的学历、职业和年龄段)进行分类v对哪个变量(如上例中的基本工资、消费金额)进行汇总,并指定对汇总变量计算哪些统计量(如上例中的平均工资、平均消费金额和标准差)7/20/202439(1)选择菜单DataAggregate,出现如下所示的窗口:2. 分类汇总的基本操作7/20/202440(2)将分类

19、变量选到Break Variable(s)框中(3)将汇总变量选到Summaries of Variable(s)框中(4)单击Function按钮,指定对汇总变量计算哪些统计量。SPSS默认计算均值。7/20/202441(5)指定将分类汇总结果保存到何处。有三种选择: 第一,Add Aggregated Variables to working data file,表示将结果存放到当前数据编辑窗口中。 第二,Create new data file,表示将结果存放到一个新建立的SPSS数据文件中,可以单击File按钮,重新指定文件名; 第三,Replace working data fil

20、e,表示用分类汇总结果覆盖数据编辑窗口中的数据。 一般选择第二种方式,结果比较清晰。7/20/202442(6)单击Name&Label按钮,重新指定结果文件中的变量名或添加变量名标签。SPSS默认的变量名为原变量名后加_统计量统计量名称(如名称(如a_mean)。(7)如果希望在结果文件中保存各分类组的个案数,则选择Number of case选项。于是,SPSS会在结果文件中自动生成一个默认名为N_Break的变量,可以修改该变量名。7/20/202443说明:说明:分类汇总中的分类变量可以是多个,此时的分类汇总称为多重分类汇总多重分类汇总。如上述不同职业和不同年龄段顾客消费的例子即是多重

21、分类汇总的应用。类似于数据的排序,在多重分类汇总中,指定多个分类变量的前后次序是很关键的。第一个指定的分类变量为主分类变量主分类变量(如职业),其他的依次为第二(如年龄段)、第三分类变量等,它们决定了分类汇总的先后次序。7/20/202444 例:利用02-1居民储蓄调查数据,分析城镇储户和农村储户的一次平均存(取)款金额是否有显著的差异。可进行的最初步的分析是按照户口类型对存(取)款金额进行分类汇总。其中分类变量是户口,汇总变量是存(取)款金额,且计算其均值。分类汇总的应用举例7/20/202445第六节 数据分组n1. 数据分组的方法 数据分组就是根据统计研究的需要,将数据按照某种标准重新

22、划分为不同的组别。在数据分组的基础上进行的频数分析更能够概括和体现数据的分布特征。 为适用于不同的统计分析需要,SPSS提供了以下几种数据分组方法: 单项式分组(单变量值分组)单项式分组(单变量值分组) 组距分组组距分组7/20/202446 居民家庭按人口数居民家庭按人口数单项式分式分组 按家庭人口数分按家庭人口数分组(人)(人)居民居民户数数(户)12345人及以上人及以上合合计 离散型变量如果离散型变量如果变量值的变动范围不变量值的变动范围不大,可以将一个变量大,可以将一个变量值作为一组,称值作为一组,称单项单项式分组式分组或单变量值分或单变量值分组。如右表:组。如右表:单项式分组7/2

23、0/202447 在连续型变量或离散在连续型变量或离散型变量值较多的情况型变量值较多的情况下,可采用组距式分下,可采用组距式分组形式。组形式。n 组距式分组组距式分组就是把全就是把全部变量值划分为几个部变量值划分为几个区间,每一区间的变区间,每一区间的变量值作为一组。如右量值作为一组。如右表:表:按日产零件数分组按日产零件数分组(个)(个)工人数工人数(人)(人)506060707080809090以上以上合计合计组距式分组7/20/202448na.组距组距:区间的距离即为组距。:区间的距离即为组距。nb.组数组数:组数的多少以分组后能恰当反映总体内部的分布:组数的多少以分组后能恰当反映总体

24、内部的分布特征和规律为好。特征和规律为好。nc.确定组距的方法确定组距的方法:(最大值:(最大值-最小值)最小值)组数。组数。 nd.根据组距各组的组距是否相等,又可以分为等距分组和根据组距各组的组距是否相等,又可以分为等距分组和不等距分组两种方式。不等距分组两种方式。 ne.组限组限:组距两端的数值称为组限,每组的最大值称为上:组距两端的数值称为组限,每组的最大值称为上限,用限,用U(Upper limit)表示,每组的最小值称为下限,)表示,每组的最小值称为下限,用用L(Lower limit)表示。)表示。 统计数据时,注意统计数据时,注意“上组限上组限不在内不在内”法则。另外,极端组可

25、采用开放式组距。法则。另外,极端组可采用开放式组距。nf.组中值组中值:每组上、下限之间的中点数值。即:组中值:每组上、下限之间的中点数值。即:组中值=(上限十下限)(上限十下限)2。在组距式分组中涉及到了几个在组距式分组中涉及到了几个关键点关键点:7/20/202449SPSS单项式分组的基本操作步骤:(1)选择菜单TransformAutomatic Recode(2)将分组变量选择到VariableNew Name框中(3)在New Name框后输入存放分组结果的变量名,并单击Add New Name按钮(4)在Recode Starting from框中选择单变量值分组按升序还是按降序

26、进行。Lowest value表示升序;Highest value表示降序。2. SPSS的单项式分组7/20/2024507/20/202451单项式分组应用举例: 1、利用03-2职工数据按职工的基本工资升序进行分组。 2、按职工的职称升序进行分组。7/20/202452 组数和组距确定后,便可实施分组操作了,在分组操作时应:v指定分组变量v定义分组区间(注意遵循“不重不漏不重不漏”原则)v指定存放结果的变量 SPSS对分组结果有两种存放策略,一种是用分组变量值覆盖原变量(Into Same Variables),另一种是将分组结果存到一个新变量中(Into Different Varia

27、bles)。相应的操作也略有差异。通常采用第二种策略。3. SPSS的组距式分组7/20/2024531、 Into Same Variables分组操作(1)选择菜单TransformRecode Into Same Variables。(2)在出现的窗口中将分组变量选择到Variables框中。(3)单击Old and New Values按钮进行分组区间定义。(4)在分组区间定义窗口中指定分组区间的下限和上限,并在New Value框中给出该区间对应的分组值。单击Add按钮确认分组区间并加到Old New框中。单击Change和Remove按钮来修改和删除分组区间。(5)如果仅对符合一定

28、条件的个案分组,则单击If按钮并输入SPSS条件表达式。否则,本步可略去。7/20/2024542、 Into Different Variables分组操作(1)选择菜单TransformRecode Into Different Variables。(2)在出现的窗口中将分组变量选择到Input Variable Output Variable框中。(3)在Output Variable后输入存放分组结果的变量名,并单击Change按钮确认。可以在Label后输入相应的变量名标签。(4)单击Old and New Values按钮进行分组区间定义(方法与前面相似)。(5)如果仅对符合一定条

29、件的个案分组,则单击If按钮并输入SPSS条件表达式。否则,本步可略去。7/20/2024557/20/2024567/20/202457n 利用03-2职工数据按职工基本工资分别采用Into Same Variables和Into Different Variables两种方式进行如下分组:按工资分组(元)频数(人)频率()850以下531.3850900531.390095016.39501000212.51000以上318.6组距式分组的应用举例7/20/202458第七节 数据处理的其他功能n1. 数据转置 SPSS的数据转置转置就是将数据编辑窗口中数据的行列互换行列互换。基本操作步骤

30、如下: (1)选择菜单DataTranspose。 (2)指定数据转置后应保留哪些变量,将它们选入Variables框中,未被选中的变量将在新文件中缺失。 (3)指定转置后数据文件中各变量如何取名。7/20/202459 应选择一个取值唯一的变量(如职工号)作为标记变量并放到Name Variable框中。转置后数据各变量取名为K_标记变量值标记变量值(如K_001、K_002、K_003等)。如果略去本步,则转置后数据各变量名默认为VAR001,VAR002,VAR003等。 同时,SPSS还会自动产生一个名为CASE_LBL的新变量,用来存放原数据文件中的各变量名。7/20/202460例

31、:对03-2职工数据进行转置操作。7/20/2024612. 加权处理n 统计分析中的加权处理是极为常见的,如计算加权平均数等。 例如,希望掌握菜市场某天蔬菜销售的平均价格。如果仅用各种蔬菜销售单价的平均数作为平均价格就很不合理,还应考虑到销售量对平均价格的影响。因此,以蔬菜的销售量为权数计算各种蔬菜销售单价的加权平均数,就能够较准确地反映平均价格水平。7/20/202462 (1)选择菜单DataWeight Cases。 (2)选择Weight Cases by选项,并将某变量作为加权变量选到Weight Cases by框中。 注意的是一旦指定了加权变量,那么以后的分析处理中加权是一直有

32、效的,直到取消加权为止。取消加权应选择Do not weight cases选项。 SPSS中指定加权变量的操作步骤是:7/20/202463例:根据03-3蔬菜数据对各蔬菜价格进行加权计算。7/20/202464 SPSS的数据拆分与数据排序很相似,但有一个重要的不同点,即数据拆分不仅是按指定变量进行简单排序,更重要的是根据变量对数据进行分组,为以后的分组统计分析提供便利。3. 数据拆分7/20/202465uSPSS数据拆分的基本操作步骤:1)选择菜单DataSplit File,出现窗口7/20/2024662)将拆分变量选到Groups Based on框中3)拆分会使后面的分组统计产

33、生两种不同格式的结果。其中,Compare groups表示将分组统计结果输出在同一表格中,以便于不同组之间的比较;Organize output by groups表示将分组统计结果分别输出在不同的表格中。通常选择第一种输出方式。4)如果数据编辑窗口中的数据已经事先按所指定的拆分变量进行了排序,则可以选择File is already sorted项,可以提高拆分执行的速度;否则,选择Sort the file by grouping variables项。 7/20/202467u说明:1)数据拆分将对后面的分析一直起作用,即无论进行哪种统计分析,都将按拆分变量的不同组别分别分析计算。如果

34、希望对所有数据进行整体分析,则需要重新执行数据拆分,在数据拆分窗口中选择Analyze all cases项。2)对数据可以进行多重拆分,类似于数据的多重排序。多重拆分的次序决定于选择拆分变量的前后次序。7/20/202468数据拆分应用举例: 利用03-2职工数据选择职称和(或)性别变量进行数据拆分并计算各组的基本工资。7/20/202469n 大量的缺失值会给数据分析带来极大的影响,这就需要采用科学的方法对缺失值进行插补。操作步骤如下: (1)选择菜单Transformreplace missing values (2)将需要插补的变量单击按钮送到New Variables框中,该变量自动

35、会生成一个新的变量,变量名为原变量名_1 (3)在Method中选择插补方法。 4. SPSS缺失值处理7/20/202470 Series mean :该变量所有非缺失值的均值 Mean of nearby points:该变量相邻非缺失值的均值 Median of nearby points:该变量相邻非缺失值的中位数 Linear interpolation:线性内插法(用缺失值前后两点的中点值做替代,如果前后值有一个是缺失值,则得不到替换值 ) Linear trend at point:用线性拟合方式确定替代值,自变量为1-n的数值。 7/20/202471n 数据排秩是根据某变量观

36、测值的大小,按一定的顺序排秩,生成一个代表其秩次的新变量,但原始观测值本身顺序不发生改变。操作步骤如下: (1)选择菜单Transformrank cases (2)将需要排秩的变量单击按钮送到 Variables框中,该变量自动会生成一个新的变量,变量名为R+原变量名;可选择分类变量到By框中,如果选择,系统将按照此变量的不同组别分别进行排秩。 (3)选择Assign Rank 1 to下面的复选框选择排秩的顺序。 (4)在Rank Types 对话框中选择排秩方式;在Ties对话框中选择相同观测值排秩方式。5. 数据排秩7/20/202472求变量的秩求变量的秩7/20/202473SPS

37、S变量集是存放许多SPSS变量名的集合。SPSS变量集包括: 系统变量集系统变量集和用户变量集用户变量集两大类。q系统变量集系统变量集 SPSS事先定义好的变量集,它包括两个集合:ALLVARIABLES和NEWVARIABLES。其中ALLVARIABLES变量集中存放数据编辑窗口中的所有变量名, NEWVARIABLES变量集中存放数据编辑窗口中所有尚未存盘的新定义的变量名。这两个系统变量集有时包含的变量名是完全相同的。6. SPSS变量集7/20/202474q用户变量集用户变量集 是用户根据实际需要自己定义的变量集,可以有若干个。如果用户仅希望对SPSS众多变量中的某几个变量进行相同的

38、处理及分析,则可以先将这几个变量定义到一个用户变量集中,然后再指定使用这个变量集。于是,在数据处理或分析时,SPSS仅显示指定变量集中的变量名,进而大大减少了显示变量的个数,加快了变量选择的操作速度。7/20/202475(1)定义用户变量集定义用户变量集 SPSS定义用户变量集的操作步骤如下: 1)选择菜单UtilitiesDefine Variable Sets 2)在Set Name框中输入用户变量集的名称。 3)选择若干变量单击小箭头按钮将它们送到Variables in Set框中,表示用户变量集将包含这些变量。 4)单击Add Set按钮将定义的用户变量集加到SPSS变量集中。Ch

39、ange Set按钮可对已定义的用户变量集做修改。Remove Set按钮可从SPSS变量集中删去某个用户变量集。7/20/202476(2)变量集的使用变量集的使用 SPSS有许多变量集,用户应告知将使用哪个变量集。系统默认使用的变量集是系统变量集。使用SPSS变量集的基本操作步骤如下: 1)选择菜单UtilitiesUse Variable Sets 2)单击小箭头按钮将需使用的变量集选到Set in Use框中。还可将不需使用的变量集从Set in Use框中剔出。需要说明的是,在SPSS运行过程中应至少有一个变量集正在被使用,因此在Set in Use框中应至少有一个变量集。7/20/

40、202477 我们往往很难从一大堆离散数据中体会到它们的含义,而用数据画出图形却能使我们用视觉器官直接感受到数据的许多内在本质。SPSS可以绘制一般的科技绘图软件所能绘制的几乎所有图形。 在SPSS中,各种统计图既可由相应的统计过程产生,也可直接用“Graphs”菜单项绘制。第八节 统计图7/20/2024781. 条形图 条形图的绘制步骤1)单击Graphs Bar菜单,打开条形图窗口。对话框的上半部分用于选择条形图类型,下半部分用于定义条形图中数据的类型。 7/20/202479 Simple:简单条形图,用于表现单个指标的大小; Clustered:分组条形图,用于表现两个或多个指标,比

41、如同时比较男、女生身高和体重; Stacked:分段条形图,用于表现每个指标各取值的构成情况。 在以上三种样式中,用鼠标单击相应的图标,则选中了相应的样式。 “Data in Chart Are”框用于选择条形图中数据的类型:oSummaries for groups of cases按同一变量取值不同做分组汇总,条形图中每一直条代表变量的一个分类;oSummaries of separate variables按不同变量汇总,条形图中每一直条代表一个变量,至少需要两个或两个以上变量生成相应的条形图;oValues of individual cases 反映个体观测值,条形图中每一直条代表一

42、个观测值。7/20/2024802)通过选择三个图标和条形图中数据的类型,可以生成9种条形图,选中Simple和Summaries for groups of cases项时,单击“Define”按钮,将打开如下页所示窗口,该窗口用于定义图形参数。7/20/2024817/20/202482该窗口的设置可以分为以下几步: 第1步,“Bars Represent”框用于选择条形图中的条代表的统计量:oN of cases:按照分类变量分类后各类的观测量数(频数)o of cases:按照分类变量分类后各类的观测量数占总观测量数的比例(频率)oCum. N of cases:累计频数oCum. o

43、f cases:累计百分比7/20/202483oOther summary function:当要绘制的统计量不在前面四项中时,选择该项。从左边的源变量框中选择分析变量进入该页下边的“Variable”框中,单击“Change Statistics”按钮,打开如下窗口,该窗口用于选择统计量:7/20/202484 在“Change Statistics”框中共有17个选项,各项的意义分别为:Mean of values:均值Median of values:中位数Mode of values:众数Number of cases:不含缺失值的观测量数Sum of values:变量值的和Sta

44、ndard deviation:标准差Variance:方差Minimum value:最小值Maximum value:最大值Cumulative sum:累积变量值的和7/20/202485Percentage above:观测量中大于设定值的百分比Percentage below:观测量中小于设定值的百分比Percentile:百分位数Number above:大于设定值的观测量数Number below:小于设定值的观测量数Percentage inside:变量值在设置区间内的观测量的比例,High和Low框分别用于输入设置区间的上下限Number inside:变量值在设置区间内的

45、观测量数 7/20/202486 第2步,“Category Axis”框用于选择分类变量。绘制条形图以前会按照分类变量的值把所有观测量分组,条形图中条形的长度代表各组统计量的值。 第3步,“Template”框用于选择特定的图形模板文件。该项为可选项,利用该项选定某图形模板文件后,绘制的条形图将按照模板文件的格式形成。7/20/202487 第4步,单击“Titles”按钮,打开如下窗口,该窗口用于输入图形的标题和脚注。7/20/202488 第5步,单击“Option”按钮,出现如下窗口,该窗口用于定义与缺失值有关的选项。7/20/202489 1.missing value单选框组:定义

46、对缺失值的处理方法,只有在要汇总的变量有两个或两个以上时才可用,提供了两种处理缺失值的方法:vExclude cases listwise:如果汇总变量中任何一个含有缺失值则排除整个纪录。vExclude cases variable by variable:对哪个变量计算统计量则排除该变量有缺失值得记录。 2.Display groups defined by missing values:是否把分组变量的缺失值作为一个组显示出来,只有分组变量是分类变量时才可用。 3.Display chart with case labels:显示有观测值标签的图,只有主对话框中为变量指定了标签时才可用。

47、7/20/2024903)当选择simple和Summaries of separate variables 时,单击Define按钮,打开如下窗口:7/20/202491 Bars Represent框用于选择要绘制的变量,默认状态是对各变量求均值,单击该对话框下面的change statistics按钮,可以改变其统计函数。 Bars Represent框中至少应选入两个以上的变量,所选的变量可以是不同变量,也可以是同一变量的不同统计函数。 7/20/2024924)选中simple和Values of individual cases选项,单击Define按钮,出现如下窗口:7/20/2

48、02493 Bars Represent框用于选择要绘制的变量。 Category Labels框用于选择分类轴显示的内容。其中各项分别为: Case number:显示观测量序号来标注观测量; Variable:指定相应的变量标注观测量。7/20/202494分组条形图和分段条形图n分组条形图是指两条或两条以上小直条组成条组的条形图,各条组之间有间隙,组内小条之间无间隙。n分段条形图是以条形的全长代表某个变量的整体,各分段的长短代表各组成部分在整体中所占比例的统计图,每一段之间没有间隙,并用不同线条或颜色表示。n与简单条形图相比,这两种条图多了一个分组因素或分段因素,定义对话框中就相应多了一

49、个变量选项框。7/20/2024952. 线图 线图是采用曲线的升降说明现象的变动情况。n线图绘制的步骤 打开数据文件,选择菜单GraphsLine,出现绘制线图的窗口:oSimple:单线图oMultiple:多线图oDrop-line:垂线图7/20/202496 用鼠标单击相应的图标,则选中了相应的样式。Data in Chart Are框用于选择统计量描述模式oSummaries for groups of cases:线图中每个数据点代表观测量的一个分类(观测量分类模式)o Summaries of separate variables:线图中每个数据点代表一个变量(变量模式)oVa

50、lues of individual cases:线图中每个数据点代表一个观测值(观测值模式)7/20/202497 通过选择三个图标和统计量的描述模式,可以生成9种线图。 绘制线图的其他步骤和条形图类似,在此不再赘述。下面举例说明。7/20/2024983. 面积图 面积图用线段下面的阴影表示现象的变化。n面积图绘制的步骤 面积图的绘制步骤和线图、条形图相似。单击GraphsArea项,出现窗口:7/20/202499 用鼠标单击相应的图标,则选中了相应的样式。oSimple:简单面积图oStacked:累积面积图Data in Chart Are框用于选择统计量描述模式:oSummarie

51、s for groups of cases:每一个面积图代表观测量的一个分类oSummaries of separate variables:每一个面积图代表一个变量oValues of individual cases:每一个面积图代表一个观测值7/20/2024100 通过选择两个图标和三个统计量的描述模式,可以生成六种面积图。由于面积图和线图的操作步骤类似,在此也不再赘述,现举例说明。7/20/20241014.饼图 饼图采用扇面的大小表示数值的大小。n操作步骤 1)选择菜单GraphsPie项,将打开窗口:7/20/2024102 上面的窗口用于选择和当前数据文件相符的数据组织方式,其

52、中,oSummaries for groups of cases:观测量分类模式oSummaries of separate variable:变量模式oValues of individual cases:观测值模式 2)单击Define按钮,将打开设置对话框,Define Slices项用于选择分类变量 3)提交各项设置,饼图将绘制在输出窗口中。7/20/20241035. 箱图 箱图是一种描述数据分布情况的统计图。从箱图上可以看到数据的中位数、四分位数以及极值等。 单击GraphsBoxplot项,出现窗口:uSimple:简单箱图uCluster:分组箱图7/20/2024104 Da

53、ta in Chart Are框用于选择数据组织方式:uSummaries for groups of cases:观测量分:观测量分类模式类模式uSummaries of separate variables:变量模:变量模式式 通过选择两个图标和两种数据组织方式,共有四种情况。7/20/20241056. 散点图 散点图又称相关图。根据散点图中数据的分布走向和密集程度,可以大致判断变量之间的相关关系。 单击GraphsScatter项,打开窗口7/20/2024106nSimple Scatter:简单散点图,只能在图:简单散点图,只能在图上显示一对相关变量上显示一对相关变量nMatrix

54、 Scatter:矩阵散点图,在矩阵中显:矩阵散点图,在矩阵中显示多个相关变量示多个相关变量nOverlay Scatter:重叠散点图,在图上显:重叠散点图,在图上显示多对相关变量示多对相关变量n3-D Scatter:三维散点图,显示三个相关:三维散点图,显示三个相关变量变量 下面分别介绍各种散点图。7/20/20241071)简单散点图 单击Define按钮,打开窗口7/20/2024108lY Axis:选择Y轴要绘制的变量lX Axis:选择X轴要绘制的变量lSet Markers by:选择分组变量,SPSS根据该变量的值将观测量分成几组,每组采用不同的符号标注lLabel Cas

55、es by:观测量标签变量 仍以学生成绩为例,分别选择中文、英语和性别进入Y Axis、 X Axis、 Set Markers by框中。7/20/20241092)矩阵散点图 在矩阵散点图中,将图形分成多个方格,在每个方格中单独绘制某两个变量的数据。 在散点图窗口中选择矩阵散点图,单击Define,在出现的窗口中,依次选择英语、中文、铁饼和标枪进入Matrix框中,选择性别进入Set Markers框中。7/20/20241103)重叠散点图 在重叠散点图中,在一个坐标系中绘制多个不同的变量对。 在散点图窗口中选择重叠散点图,单击Define,在出现的窗口中,选择变量中文、英语对和铁饼、标

56、枪对进入Y-X Pairs框中。7/20/20241114)三维散点图 三维散点图在三维坐标系中绘制三个变量的数据。 在散点图窗口中选择三维散点图,单击Define,在出现的窗口中,分别选择中文、英语和标枪为Y轴变量、X轴变量、Z轴变量。7/20/20241127. 直方图 相比而言,在SPSS中直方图最简单。单击GraphsHistogram项,出现窗口7/20/2024113 Variable框用于选择要分析的变量。选中Display normal curve项可绘制正态曲线,以便比较。 仍以学生成绩为例,选择中文为分析变量,选中Display normal curve项。7/20/202

57、41148. p-p图和Q-Q图 正态分布在许多统计分析中起着重要的作用,这也是我们为什么常要检查数据服从正态分布的原因。 p-p图和Q-Q图可用于直观表示数据分布是否符合正态分布。n(1)p-p概率图 p-p概率图是根据变量的累积概率对应于所指定的理论分布累计概率绘制的散点图,它可以直观的检测数据是否与某个概率分布的统计图形一致。如果被检验的数据符合所指定的分布,数据的点应当成对角线分布。 打开数据文件,选择菜单AnalyzeDescriptive Statistics P-P Plots,出现绘制p-p图的窗口: 将被检测的数值型变量选入variable框中,可以依次选入多个。其他采用默认

58、选项即可。 如果数据呈正态分布,则图中数据点应和理论直线重合。去势p-p图是按照正态分布计算的理论值和实际值之差的分布情况,即分布的残差图。如果数据分布为正态分布,则数据点应较均匀的分布在y=0这条直线上下。 7/20/2024115 (2) Q-Q概率图 Q-Q图和p-p图的原理基本一致,所不同的是它采用的是变量数据分布的分位数与所指定分布的分位数之间的曲线来进行检验。7/20/20241169. 交互式创建图表 SPSS提供了交互式作图的快捷方式,能够根据数据信息,绘制初步图形,用户可以根据自己的需要,再做精细修改。通过这种方式创建的图表包括:条形图、线形图、饼图、直方图、箱图、散点图等。

59、 交互式作图在GraphsLegacy Dialogs Interactive菜单中。7/20/2024117优点优点:交互式作图产生的图形比传统方式产生的图形容易修改,并且可以随时修改目标变量,而不再是传统方式只是图形本身的修改。缺点缺点:只能作一些简单的图形,如条形图、线形图、饼图等,而对于其他一些比较复杂的图形,这种方式难以胜任。7/20/2024118n(1)条形图的交互式创建条形图是利用宽度相同的条形的高度表示数值大小的统计图。基本步骤:1)单击Graphs InteractiveBar菜单,在出现的窗口中主要是定义坐标轴,以及图形的形状(二维或三维)。 2-D Coordinate

60、选项定义图表的类型,即2-D Coordinate(平面二维图)、3-D Effect(立体二维图)、3-D Coordinate(三维图)。7/20/2024119内置变量定距变量分类变量分配变量设置直条形状误差条选项标题和脚注改善图形输出效果7/20/2024120 “Legend”选项是指定图形的样式。Color子选项,定义方框中所选变量的颜色;Style子选项,定义方框中所选变量的风格类型; Color和Style选项都有分组(Cluster)和分段(Stack)模式可供选择;Panel子选项,定义统计图面板中统计图的分类变量。 。 “Bars Represent”选项是定义Y轴变量的

61、哪种统计结果,如果Y轴用了定距变量则会出现下拉列表用于指明所代表的指标类型。 “Display Key”选项指是否在结果中指明Y轴所代表的汇总指标名称。7/20/20241217/20/20241222)单击“Bar Chart Options”选项卡打开的窗口中,主要用于设置直条的形状等指标。 “Bar Shape”子选项是定义图形的形状; “Bar Labels”子选项是定义图形的标签; “Bar”子选项是图形的起始位置,按照设定的数值,大于它的直条向上,小于它的直条向下。通常采用“Automatic”模式。7/20/20241233)单击“Error Bars”选项卡,打开的窗口主要是定

62、义误差图的基本属性。当Y轴是定距变量并且均值作为汇总变量时,可以在条上添加误差线,在这里可以指定置信区间的大小、误差线的方向、形状和外观。 “Display Error Bar”是否显示误差图,默认为置信度为95%的置信区间。可以更改为标准差或标准误的倍数,下方的滑块和框用于指定区间范围或倍数; “Confidence Interval”置信区间; “Shape”选择误差条的形状,CAP指的是误差线上面的短线的长度占直条宽度的百分数; “Direction”选择误差条的方向,在正负两个方向、只在正向、只在负向和只在外侧四个选项中选择。7/20/20241247/20/20241254)单击“T

63、itles”选项卡,打开的窗口主要是定义图形的标题、脚注等。 “Chart Title”统计图的标题 “Chart Subtitle”统计图的描述,即副标题 “Caption”统计图的脚注5)单击“Options”选项卡,打开的窗口主要是定义SPSS进行绘图运算的一些参数,比如改变分类轴的排序、Y轴的范围、选择喜欢的图形模板、坐标轴的长短等。7/20/20241267/20/2024127 “Categorical Order”:定类变量的排序方式。“Variable”指定变量,“Order”指定排序标准,“Sort”指定排序的方向,“Exclude empty categories”指定是否

64、排除没有数据的空类。 “Scale Range”:定距变量的范围。 “Chart Look”:统计图的外观,相当于图形模板,保存有图形颜色、符号的设置。 “Axes”:定义三个坐标轴的长度,默认为三英寸。6)最后,单击“确定”按钮,在输出窗口产生统计图。7/20/2024128n应用举例应用举例: 利用03-2职工数据分析不同职称不同性别的平均基本工资的交互式条形图。 分析:单击GraphsInteractiveBar。选择职称职称作为X轴变量,选择基本基本工资工资作为Y轴变量,选择性别作为颜色图例,选择平均值(Mean)为显示值,其他采用SPSS默认选项。7/20/2024129n(2)点图

65、、线图、条带图、垂线图和面积图的交互式创建 这几种交互图的用途相近,做法也非常类似。线图:对一个或多个分类变量做汇总,但它比较强调发展变化,而不是单个数值的比较,所以常用于数据本身或数据的变化速度随着时间的变化趋势,当数据点比较多时,绘图尤其有效。点图:如果把各数据点连接起来就是线图,换言之,如果把线图断开就是点图。带图:其实就是把线变成了带子。垂线图:对于多重线图或点图,可以绘出其垂线图。面积图:将线图下方或者各曲线之间的区域用色块填充,就成了面积图。7/20/2024130基本步骤:1)单击Graphs InteractiveDots (line、 ribbon、 drop line、ar

66、ea)菜单,出现的窗口主要是定义坐标轴,以及图形的形状(二维或三维)。 所不同的是在legend框组中多了size框,可以用点/线的大小或粗细来区别不同的亚组。7/20/20241317/20/20241322)单击“dots and lines”选项卡,在出现的窗口中主要是设置点图的点和连接方式。 display复选框组:选择lines,则显示点之间的连线,其实就变成了线图;选择drop lines,就成了垂线图,但同一分类中必须有多个点,也就是说多线图。 point labels复选框组:选择是否显示数据个数、百分比或代表的实际值。 line labels复选框组:选择每条线的标签,可以是

67、代表的分类,百分比或个数。 interpolation框组:点的连接方式。可以是直接连接、阶梯形连接、跳跃连接和平滑连接。 break line at missing values 缺失值的地方将线条中断,以反映实际情况。7/20/20241333)单击“Title”选项卡,在窗口中主要是定义图形的标题、名称等。4)单击“Option”选项卡,在窗口中主要是定义SPSS进行绘图运算的一些参数。最后,单击“确定”按钮,在输出窗口产生统计图。7/20/2024134n(3)直方图的交互式创建 直方图是描述一组变量频数分布的图形,其纵轴一般是频数或百分比,可以显示数据分布是否对称和是否符合正态分布,

68、可以显示数据的极端值和变异程度。基本步骤:1)单击Graphs InteractiveHistogram菜单,出现的窗口是定义坐标轴,以及图形的形状(二维或三维)。 Y轴只能选入Count或百分比,X轴只能选入定距变量,panel框可以选入分类变量,下面的cumulative histogram单选框用于绘出累积直方图,每个直条都是它前面直条的累积累积频数或累积百分比(频率)。7/20/20241357/20/20241362)单击“histogram”选项卡,在出现的窗口中主要用于增强直方图功能的选项。 “normal curve”要求使用该数据的均值和方差在直方图上绘出正态性曲线,但只能在

69、二维直方图上实现。3) “Set interval and start point for the variable”下拉列表:下拉式菜单中有x1和x2轴,与下面的interval size 和start point选项相结合,确定所选轴的起始点和间隔大小。 “interval size”:选择组段的数目和宽度; “start point ”:设置第一组段的起始点,可定义为最小值到最小值+组距的任意值。7/20/20241377/20/20241384)单击“Title”选项卡,在窗口中主要是定义图形的标题、脚注等。5)单击“Option”选项卡,在窗口中主要是定义SPSS进行绘图运算的一些参

70、数。6)最后,单击“确定”按钮,在输出窗口产生统计图。7/20/2024139n(4)饼图的交互式创建 交互式饼图可以绘制三种不同类型的图式: simple:生成简单交互式饼图 clustered :生成复合交互式饼图 plotted:生成散点交互式饼图简单饼图:1)单击Graphs Interactivepiesimple菜单,出现的窗口是定义坐标轴,以及图形的形状(二维或三维)。 在pie框中至少需要定义两个变量,上面是slice by框,需要选入一个分类变量用于切饼,下面的slice summary框,表示饼图的不同饼块代表的是什么指标,默认状态是count变量,也可选入定距变量,则可在

71、最下面的slice represent框中选择汇总函数。 Color 和style单选框用于定义是用不同颜色还是填充方式来区分饼块,panel框中可以选入一个或几个分类变量,将按照他们的取值不同分别输出饼图。7/20/20241407/20/20241412)单击“pie”选项卡,主要用于定义饼标签和饼的位置、方向和起始点。 “slice labels”有四种选项,分类变量的值、实际值的大小、例数和百分数。3) “location”用来改变标签的位置,饼的位置可以有direction 和start起始点两种选择,方向指的是各饼块的排列顺序,有顺时针和逆时针两种。 7/20/20241427/2

72、0/20241434)单击“Title”选项卡,在窗口中主要是定义图形的标题、脚注等。5)单击“Option”选项卡,在窗口中主要是定义SPSS进行绘图运算的一些参数。6)最后,单击“确定”按钮,在输出窗口产生统计图。7/20/2024144复式饼图:复式饼图是简单饼图的堆积。 单击Graphs Interactivepiecluster菜单,出现的窗口是定义坐标轴,以及图形的形状(二维或三维)。 同简单饼图相比复式饼图只是多了一个cluster变量框,此框选入一个分类变量。 在pies选项卡中添加了cluster labels的有关显示标签选项。7/20/20241457/20/202414

73、67/20/2024147散点饼图:散点饼图实际上包含了一系列饼图,这些饼图排列在坐标系中,就像一个个饼图构成的散点图。 单击Graphs Interactivepieplotted菜单,出现的窗口是定义坐标轴,以及图形的形状(二维或三维)。 同复合饼图相比散点饼图需要定义坐标系,可以选择二维、三维或三维效果图,定义变量时需要首先定义坐标轴变量。7/20/20241487/20/2024149n(5)箱式图的交互式创建交互式箱式图有助于直观描述分布与离散状况,显示数据的中位数、分位数、离群值和极值:单击Graphs Interactiveboxplot菜单,出现的窗口是定义坐标轴,以及图形的形

74、状(二维或三维)。同其他图形不同的是boxes选项卡。Boxes display复选框组:共有outliers 、extremes 、median line三个选项框,分别用于定义是否显示离群值、极值和中位数线;Whisker caps框组:定义触须线的形状;Box base :如果选择了三维图形此项可用,可以设定作出的是圆柱还是方柱。Display count label:是否显示数据标签。7/20/2024150n框图中间的的黑粗线为中位数,方框为四分位间距的范围,上下两条细线与相应的方框线之间的距离是1.5倍四分位数间距,之外的数据点称为离群值或极值,其中离方框上下界的距离超过1.5倍四

75、分位间距为离群值,以“o”表示,超过三倍的称为极值,用“*”表示。7/20/20241517/20/20241527/20/2024153n(6)散点图的交互式创建散点图用于发现两个或两个以上数值型变量的关系,也可以用于发现异常值。基本步骤:1)单击 Graphs Interactive Scatterplot菜单,出现的窗口主要是定义坐标轴,以及图形的形状(二维或三维)。 “Label Cases”选项定义散点图的不同点的标签。7/20/20241547/20/20241552)单击“Fit”选项卡,在出现的窗口中主要是散点图的计算方法。 “Method”选项用于定义散点的计算方法。SPSS

76、提供了三种方式:回归、均值、平滑。3)单击“Spikes”选项卡,在窗口中主要是选择连线的方式。 “Spike”:是否显示散点的连线; “Color spikes by color legend”:连线采用图例的颜色是否用color legend 变量确定; “Style spikes by style legend”:连线采用图例的类型是否用style legend 变量确定。7/20/20241564)单击“Title”选项卡,在窗口中主要是定义图形的标题、名称等。5)单击“Option”选项卡,在窗口中主要是定义SPSS进行绘图运算的一些参数。6)最后,单击“确定”按钮,在输出窗口产生统

77、计图。7/20/2024157上机作业上机作业 要求在建立一个数据文件的基要求在建立一个数据文件的基础上,能对数据进行各种处理。础上,能对数据进行各种处理。n1、熟练掌握数据的排序;、熟练掌握数据的排序;n2、熟练进行变量计算与计数;、熟练进行变量计算与计数;n3、熟练掌握数据抽样方法;、熟练掌握数据抽样方法;n4、熟练掌握数据分类汇总与数、熟练掌握数据分类汇总与数据分组方法;据分组方法;n5、掌握数据处理的其他方法。、掌握数据处理的其他方法。7/20/2024158第四章 数据特征的描述统计分析7/20/2024159SPSS的主要分析工具的主要分析工具Analyze菜单菜单n报告Repor

78、tsn描述性统计分析Descriptive Statistics菜单n表格Tablesn均数间的比较Compare Means菜单n一般线性模型General Linear Model菜单n相关分析Correlate菜单n多元线性回归与曲线拟合 Regression菜单n对数线性模型Loglinear菜单n聚类分析与判别分析Classify菜单n因子分析与对应分析Data Reduction菜单n信度分析与多维尺度分析Scale菜单n非参数检验Nonparametric Tests菜单n时间序列分析Time series 7/20/2024160 描述性统计分析是统计分析的第一步,做好这第一步

79、是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,包括:Frequencies:频数分析过程,特色是产生频数表(主要针对分类变量)Descriptives:数据描述过程,进行一般性的统计描述(主要针对数值型变量)Explore:数据探察过程,用于对数据概况不清时的探索性分析Crosstabs:多维频数分布交叉表分析(列联表分析)Ratio statistics:比率分析7/20/2024161n第一节 报告分析(Report)n第二节 描述性统计分析n第三节 比率分析n第四节 Mea

80、ns过程n第五节 多选项分析主要内容主要内容7/20/2024162第一节 报告分析(Report)n1、OLAP 在线分析处理过程n2、Case Summaries 观测值摘要分析过程n3、摘要报告分析过程nReport Summaries in Rows 行形式摘要报告行形式摘要报告nReport Summaries in Column 列形式摘要报告列形式摘要报告7/20/2024163按AnalyzeReportsOLAP Cubes顺序单击打开如下对话框:摘要变摘要变量框:量框:进入此进入此框变量框变量为数值为数值型变量型变量分层变分层变量框:量框:进入此进入此框变量框变量为数值为数

81、值型或字型或字符型变符型变量量1、OLAP(在线分析处理过程)7/20/2024164可选择的统计量可选择的统计量:Sum 总和总和Number of Cases 观测量数目观测量数目Mean 均值均值 Standard Deviation 标准差标准差Percent of Total Sum 占总和的占总和的百分比百分比Percent of Total N 占观察量总占观察量总数的百分比数的百分比Median 中位数中位数Grouping Median 分组中位数分组中位数Std.Error of Mean 均值标准误均值标准误Minimum 最小值最小值Maximum 最大值最大值Rang

82、e 范围范围First 首值首值Last 尾值尾值Variance 方差方差 Skewness 偏度偏度Std.Error of Skewness 偏度的偏度的标准误标准误Kurtosis 峰度峰度Std.Error of Kurtosis 峰度的标峰度的标准误准误Harmonic Mean 调和均数调和均数Geometric Mean 几何均数几何均数7/20/2024165标题对话框标题对话框输入统输入统计量的计量的标题标题 输入注解输入注解,这些注解将这些注解将显示在统计显示在统计量输出栏的量输出栏的下面下面04-1 下面举例说明下面举例说明7/20/202416630名少儿身高数据名少

83、儿身高数据 表4-17/20/2024167(1)操作步骤:)操作步骤:1)按AnalyzeReportsOLAP Cubes顺序单击打开OLAP Cubes对话框2)打开数据文件“少儿身高少儿身高.sav”,将height变量选入Summary Variable框中,将sex变量作为分组变量选入Grouping Variable 框中;3)单击Statistics按钮,在 Statistics框中选择Sum、Mean、Median项作为要输出的统计量;4)单击Title按钮,在Title框中输入“少儿身高分层报告”,单击Continue返回;单击OK7/20/20241687/20/2024

84、169表4-3 观测量摘要观测量摘要 表4-2说明观测量的一些基本情况,包括总个数、有效值个数和缺省值个数。表4-3是分层报告,输出了总和、均值和中位数。 表4-2(2)输出结果及分析)输出结果及分析7/20/20241702 、观测值摘要分析过程、主要功能、主要功能 计算指定变量的分组统计量,分组变量可能是一个,也可以有多个。如是多个,则将所有水平进行交叉分组交叉分组。每个组中,变量值可以显示或不显示。、观察值摘要分析、观察值摘要分析 按AnalyzeReportsCase Summaries顺序单击打开Case Summaries 对话框。7/20/2024171可在参数框中输可在参数框中

85、输入数值,该数值表入数值,该数值表示分析过程只对前示分析过程只对前几个观测值进行几个观测值进行带有缺省值的观带有缺省值的观测值不被显示测值不被显示在列出观测值的在列出观测值的同时,显示观测值同时,显示观测值的序号的序号分组变量:可选分组变量:可选择一个或多个择一个或多个待分析变量:数值待分析变量:数值型或字符型变量。型或字符型变量。Summarize Cases 对话框对话框见下图见下图2 、观测值摘要分析过程7/20/2024172输入脚注输入脚注在输出结果中显示各分组统计量的标题在输出结果中显示各分组统计量的标题在分析过程中剔除带有缺失值的观测量在分析过程中剔除带有缺失值的观测量键入一个字

86、符以便在输出结果中标记缺失值键入一个字符以便在输出结果中标记缺失值输入标题输入标题、例题分析、例题分析: 对表4-1资料(数据文件为“04-1少儿身少儿身高高.sav”)进行观测值摘要分析。Options 对话框7/20/2024173 1)打开数据文件)打开数据文件“少儿身高少儿身高.sav” 2)打开)打开Case Summaries对话框对话框,将将height选入选入 Variables框中,作为摘要分析的变量,框中,作为摘要分析的变量,将将sex和和grade选入选入Grouping Variables框中作框中作为分组变量。为分组变量。 3)清除)清除Display cases复选

87、框。复选框。 4)单击)单击Statistics按钮,在按钮,在 Statistics框中选框中选择择Number of cases、Mean、Median项作为要项作为要输出的统计量;单击输出的统计量;单击Continue返回。返回。 5)单击)单击OK(1)操作步骤7/20/20241747/20/2024175表表4-4 观测量处理摘要观测量处理摘要 表4-4说明观测量的总个数、有效值个数和缺省值个数以及各占的百分比。(2)输出结果及分析7/20/2024176分组统计量分组统计量 表表4-5分三部分,分三部分,1、男生的基本统计量,、男生的基本统计量,2、女、女生的基本统计量,生的基本

88、统计量,3、男女生的基本统计量。每部、男女生的基本统计量。每部分包括分年级进行的统计和总的统计,这就是交分包括分年级进行的统计和总的统计,这就是交叉分组。叉分组。 表4-57/20/2024177、主要功能、主要功能 把观测量的统计结果用一种简单扼要的表格输出,有助于更好地把握数据特征。、行形式摘要报告、行形式摘要报告按AnalyzeReportsReport Summaries in Rows顺序,打开 Summaries in Rows 对话框。3、摘要报告分析过程7/20/20241787/20/2024179输入变量的列标题,不输入则将输出变量的标签或名称选择列选择列标题对标题对齐的方

89、齐的方式式选择变量值所处的位置以缩进的形式输出,可输入缩进数值;变量值位于列中央键入列宽数值,如不设列宽,则:键入列宽数值,如不设列宽,则:如输出数值标签,则列宽为数值标签中的最长者;如输出数值标签,则列宽为数值标签中的最长者;如输出变量值,则列宽为变量所定义的宽度;如输出变量值,则列宽为变量所定义的宽度;如设置了列标题,则列宽为标题的最长者;如设置了列标题,则列宽为标题的最长者;如未设置列标题,则列宽为输出的变量标签的最长者;如未设置列标题,则列宽为输出的变量标签的最长者;选择输出的内容:选择输出的内容:将输出变量值将输出变量值将输出变量标签将输出变量标签Format 对话框7/20/202

90、4180输出列变量之和。输出列变量的均值。输出列变量中的最小值。输出列变量中的最大值。输出列变量中观测量的数目。输出列变量中高于Value框中设定值的观测量占总数的百分比输出列变量中低于Value框中设定值的观测量占总数的百分比输出列变量中位于Low和Hight框中设定值之间的观测量占总数的百分比输出标准差。输出输出峰度。输出方差。输出偏度。Summary对话框7/20/2024181Report栏的栏的Option 对话框对话框进行缺失值和输出页码的设置:进行缺失值和输出页码的设置:剔除带有缺失值的观测量剔除带有缺失值的观测量输入一个代表系统的和用户的输入一个代表系统的和用户的缺失值字符缺失

91、值字符设置报告的起始页码设置报告的起始页码可进行页面设置:可进行页面设置:可输入分组变量间的间距行数可输入分组变量间的间距行数(不超过(不超过20)每个分组变量都在新的一页输出每个分组变量都在新的一页输出在新的一页输出下一个分组变量,在新的一页输出下一个分组变量,并接着上一页的页码输出下一页的并接着上一页的页码输出下一页的页码页码输入设置分组标题和报告内容之输入设置分组标题和报告内容之间的间距,最多可插入间的间距,最多可插入20行空白行空白Break Column 中的中的Options对话框对话框7/20/2024182所输数值表示报告的每一页输所输数值表示报告的每一页输出从第几行开始出从第

92、几行开始所输数值表示报告的每一页输所输数值表示报告的每一页输出在第几行结束出在第几行结束规定每一页输出的左边间距规定每一页输出的左边间距规定每一页输出的右边间距规定每一页输出的右边间距选择报告输出内容的对齐方式选择报告输出内容的对齐方式设置页面的标题、脚注和页面的距离:设置标题与报告的距离设置注脚与报告的距离决定分组变量显示的位置:所有的分组变量值均位于第一列,激活Indent an each break参数框在此框中设置分类变量值缩进的位置。默认为2空格设置列标题的输出格式:在标题下添加下划线设置列标题下的空白行(默认为2)选择列标题的对齐方式设置分组变量的显示位置:显示在统计量的上一行显示

93、于统计量的同一行,并覆盖统计量标题设置分组变量与统计量之间的空白行数Report栏的Layout对话框7/20/2024183按Next进入下一行的设置,按 Previous返回上一行对齐方式选择特殊变量的值作为标题与注脚在此对话框可规定标题与注脚的输出内容和格式,最多可设置10行Report栏的Titles 对话框7/20/2024184、列形式摘要报告列形式与行形式摘要报告不同在于,行列形式与行形式摘要报告不同在于,行变量为分组变量值,列变量为进行分析变量为分组变量值,列变量为进行分析的变量。的变量。按按AnalyzeReportsReport Summaries in Columns 顺

94、序,打开顺序,打开Summaries in Columns 对话框对话框。7/20/2024185 Summaries in Columns对话框 将要分析的变量选入此框,每选一个变量进入框内,则需单击Format按钮,打开Format(见下图)对话框,设置该变量输入格式。7/20/20241861、Data Columns栏栏 1)Summary 对话框与行形式基本同,不同是只能选择一个对话框与行形式基本同,不同是只能选择一个统计量统计量 2) Format 对话框与行形式同对话框与行形式同 3) Insert Total按钮按钮按Summary按钮,出现Summary对话框Insert T

95、otal按钮的按钮的Summary 对话框对话框选择要计算和的变量将其移入右边变量框,至少挑选2个变量。在Summaries in Columns 对话框中单击Insert Total按钮,新增Total变量7/20/2024187 1)Options对话框(见下图)对话框(见下图) 2)Format对话框与对话框与“行形式行形式”同同 3)Sort Sequence栏:确定分组变量升降排序规则栏:确定分组变量升降排序规则 4)Data are already sorted复选框,已将分组变量复选框,已将分组变量排序排序2、Break Columns栏栏显示每一类分组变量小计结果,在Label

96、框中键入分组变量的标签在此栏中设置页面:输入不超过20分组变量间的间距行数每个分组变量都在新的一页输出在新的一页输出下一个分组变量,并接着上一页顺序编写页码在此栏中设置小计前的空白行数7/20/20241883、Preview复选框复选框:只输出报告的第一页,便于用户预览只输出报告的第一页,便于用户预览4、Report栏栏 Options如下图如下图 Layout对话框与对话框与“行形式行形式”同同 Titles对话框与对话框与“行形式行形式”同同 Options对话框对话框在每一页的底部显示该列的总和,在在每一页的底部显示该列的总和,在Label框中键入标签框中键入标签剔除带有缺失值的观测量

97、剔除带有缺失值的观测量输入一个代表系统和用户的缺失值的字符输入一个代表系统和用户的缺失值的字符设置报告的起始页设置报告的起始页7/20/2024189将表将表4-1资料(数据文件资料(数据文件“04-1少儿身高少儿身高.sav”)进)进行分析:先做行形式报告输出,再做列形式报告输出。行分析:先做行形式报告输出,再做列形式报告输出。(1)单个分组变量的行形式报告)单个分组变量的行形式报告按按AnalyzeReportsReport Summaries in Rows顺序,打顺序,打开开Summaries in Rows 对话框。对话框。挑挑height变量进入变量进入Data框,框,grade变

98、量进入变量进入Break框。框。单击单击Break Columns栏的栏的 Summary按钮,打开按钮,打开 Summary Lines for grade对话框,选中对话框,选中Mean of Values、Number of Cases复选框,再按复选框,再按Continue返回返回 Summaries in Rows对话框。对话框。选中选中Display cases复选框。单击复选框。单击Titles 按钮,打开按钮,打开Titles对话对话框,在标题栏的框,在标题栏的Center 框中输入标题框中输入标题“少儿身高分组统计少儿身高分组统计”,再按返回。单击,再按返回。单击“OK”完成

99、,完成, 输出结果见表输出结果见表46。、例题分析7/20/20241907/20/2024191观测量分组报告 少儿身高分组统计 年级 身高- -四年级 121.40 134.10 135.80 135.50 133.40 140.30 120.90 141.40Mean 132.85N 8五年级 131.50 132.60 140.40 137.40 128.20 129.00 129.30 132.70 130.10 139.70 133.00 124.00 138.80 138.60MEAN 133.24N 14六年级 129.20 136.00 132.20 140.90 136.7

100、0 137.50 125.40 137.50Mean 134.42N 8列出了按年级分组后的观测量表 表4-67/20/2024192打开Summaries in Rows 对话框,挑height变量进入Data框,sex、grade变量进入Break框。选中Break 栏中的sex变量,单击 Summary按钮,打开 Summary Lines for sex 对话框,选中Mean of Values、 Number of Cases、Minimum Value和 Maximum Value 复选框,再按Continue返回 。选中Break 栏中的grade 变量,单击 Summary按钮

101、,选中Mean of Values、 Number of Cases复选框,再按Continue返回 。单击“OK”完成, 输出结果见表4-7。(2)两个分组变量的行形式报告7/20/20241937/20/2024194 少儿身高分组统计性别 年级 身高- - -男 四年级 Mean 131.70 N 4 五年级 Mean 132.63 N 7 六年级 Mean 134.57 N 4Mean 132.90Minimum 121.40Maximum 140.90N 15女 四年级 Mean 134.00 N 4 五年级 Mean 133.84 N 7 六年级 Mean 134.27 N 4Me

102、an 134.00Minimum 129.90 Maximum 141.40N 15Grand Total Std.Dev 5.70Kurtosis -.29Skewness -.63表分为3部分:1.男生统计量表:各年级的均值和个数,全体男生的均值、个数、最大值和最小值;2.女生统计量表:各年级的均值和个数,全体女生的均值、个数、最大值和最小值;3.全体的统计量:标准差、偏度和峰度。 两两个个分分组组变变量量的的行行形形式式报报告告 表4-77/20/2024195(3)两个分组变量的列形式报告打开Summaries in Columns 对话框,挑height变量进入Data框;单击Rep

103、ort 栏中的Options对话框,选中Display grand total复选框,再按Continue返回;单击 Summary按钮,选中Mean of Values,再按Continue返回。 先后挑选sex、grade变量进入Break框。单击Titles 按钮,打开Titles对话框,在标题栏的Center 框中输入标题“少儿身高分组统计”,再按Continue返回。单击“OK”完成, 输出结果见表48。7/20/20241967/20/2024197 少儿身高分组统计少儿身高分组统计 身高身高性别性别 年级年级 Mean Mean_ _ _ _ _男男 4 133.4 4 133.

104、4 5 131.3 5 131.3 6 134.6 6 134.6女女 5 134.0 5 134.0Grand Total 133.5Grand Total 133.5表分为表分为3部分:部分:1.男生的均值表,按男生的均值表,按各年级算出均值;各年级算出均值;2.女生的均值表,按女生的均值表,按各年级算出均值;各年级算出均值;3.全体的均值。全体的均值。两个分组变量的列形式报告 表4-87/20/2024198第二节 描述性统计分析(Descriptive Statistics)n1、 Frequencies 频数分析表频数分析表n2、 Descriptive 描述性统计分析过程描述性统计

105、分析过程n3、 Explore 探索分析过程探索分析过程n4、 Crosstabs 列联表分析过程列联表分析过程7/20/20241991、频数分析表、主要功能、主要功能 可对数据按组进行归类整理,形成变量不同水平的频数分布表和图形,对数据的分布趋势进行初步分析。、频数分析、频数分析 按AnalyzeDescriptive StatisticFrequencies顺序,打开Frequencies对话框。7/20/2024200选择一个或多个变量右移入Variable(s)框。按Statistics按钮,打开Statistics对话框显示频数分布表按Chart按钮,打开Chart 对话框按For

106、mat按钮,打开Format 对话框 Frequences主对话框7/20/2024201 输出百分位数:输出四分位数,显示25%、50%、75%的百分位数;将数据平均分为所设定的相等等份,可输入2100 的整数,如键入4则输出第25、50、75百分位数自定义百分位数,可输入0100 的整数。输入值后: 按Add:输入值后按此键,可反复操作键入多个百分位数; 按Remove:删除已键入的数值 按Change:重新输入新数离散趋势栏分布形状栏在计算百分位数值和中位数时,假设数据已分组,且用各组的组中值代替各组数据集中趋势栏输出统计量对话框7/20/2024202Chart 对话框对话框不输出任何

107、图形,为默认 输出条形图,各条高度代表变量各分类的频数输出圆图,圆图中各块的数值表示各分类变量的频数输出直方图,此图仅适用于区间型数值变量。选择此项后,还可选择With normal curve,画出的直方图带有正态曲线只有选择了条形图只有选择了条形图和圆图项才有效,和圆图项才有效,决定纵轴表示的统决定纵轴表示的统计量计量纵轴表示频数纵轴表示频数纵轴表示百分比纵轴表示百分比7/20/2024203Format 对话框对话框控制频数表输出的分类数量。默认为10多变量框中可设定多变量表格输出的格式设置频数表输出的格式设置频数表输出的格式选择频数表中排列顺序按变量升序排列,此为默认按变量降序排列按变

108、量各种取值发生的频数的升序排列按变量各种取值发生的频数的降序排列7/20/2024204表表49 100名大学生血清蛋白含量(名大学生血清蛋白含量(%)、例题分析、例题分析04-2对某高校100名大学生血清蛋白含量(g%)做频数分析,数据如表49 7/20/2024205(1)具体步骤)具体步骤打开数据文件“大学生血清大学生血清.sav”,按AnalyzeDescriptive StatisticFrequencies 顺序,打开Frequencies对话框。挑xdh变量进入Variable(s)框,选中Display frequency tables复选框,要求输出频数分布表。单击Stati

109、stics按钮,选择要输出的统计量。单击Chart 按钮,选择Histogram项,输出直方图,并选择With normal curve复选框,输出正态曲线。单击Format 按钮,选Ascending项。单击“OK”完成。7/20/2024206血清蛋白含量的直方图血清蛋白含量的直方图 血清蛋白含量的统计表血清蛋白含量的统计表(2)输出结果及分析)输出结果及分析7/20/2024207血清蛋白含量的频数分布表7/20/2024208、主要功能、主要功能调用此过程对变量进行描述性统计分析,计算均值、标准差、调用此过程对变量进行描述性统计分析,计算均值、标准差、全距和标准误差等,并可将原始数据转

110、换成全距和标准误差等,并可将原始数据转换成Z分数分数。、描述统计量分析、描述统计量分析按按Analyze / Descriptive Statistics / Descriptives顺序单击,打开顺序单击,打开 Descriptives主对话框。如图主对话框。如图在左边框中选一个或多个变量移入如选中此框,将对Variables框中选择的变量进行标准化, 产生相应的Z分数,并作为新变量保存到数据窗口,其变量名在原变量名前加z。Descriptives 对话框对话框 2、描述性统计分析过程7/20/2024209Options 对话框对话框 基本统计量当Variables框中有多个变量时,此框确

111、定其输出顺序:按Variables框中的排列顺序输出按各变量的字母顺序输出按均值的升序排列按均值的降序排列分布、例题分析、例题分析 04-3已知20个初生婴儿的体重数据如下表,对其进行描述统计分析。7/20/20242102770291527952995286029703087312631254654227235034218341839212669370723102573388120个初生婴儿的体重(个初生婴儿的体重(g)(1)操作步骤:打开数据文件“婴儿体重.sav”。打开 Descriptives主对话框,选定变量t进入Variable(s)栏中。选中Save standardized v

112、alues as variables 复选框,要求计算变量的z值,并保存结果到当前数据集中。单击Options 按钮,选中Mean、Std.Deviation、Minimum、Maximum 、Variance 项。(2)输出结果及分析7/20/2024211婴儿体重的描述统计量婴儿体重的描述统计量这时打开原数据集,可看到多了一列zt,这是t 的z 分数,如下图所示:保存了保存了z 分数的数据集分数的数据集7/20/2024212、主要功能、主要功能 调用此过程可检查数据是否有错误、考察样本分布特征及对样本分布规律作初步考察。剔除奇异值和错误数据。探索分析过程将提供在分组和不分组的情况下常用的

113、统计量与图形。、探索分析、探索分析 按Analyze-Descriptive Statistics-Explore 顺序单击,打开 Explore 主对话框,如下图:3、 探索分析过程7/20/2024213选择一个或多个变量选择一个或多个变量进入进入Dependent框作为框作为因变量,单击因变量,单击OK可获可获得因变量的一系列基得因变量的一系列基本统计量和图形。本统计量和图形。此作为分组变量,可以是字符变量,对此作为分组变量,可以是字符变量,对因变量的分析将按该变量的观测值进行因变量的分析将按该变量的观测值进行分组分析。可有多个分组变量,这时会分组分析。可有多个分组变量,这时会按多个变量

114、的交叉组合进行分组。按多个变量的交叉组合进行分组。该框中的变量作为标识该框中的变量作为标识符符, 在输出诸如异常值在输出诸如异常值时时,用该变量进行标识,用该变量进行标识,只允许有一个标识符。只允许有一个标识符。可同时输出基本统可同时输出基本统计量和图形计量和图形只输出基本统计量只输出基本统计量只输出图形只输出图形Explore 主对话框7/20/2024214输出基本统计量输出基本统计量 均值的置信区间,可键入均值的置信区间,可键入199%的任的任意值,根据该值算出置信区间的上下限。意值,根据该值算出置信区间的上下限。给出中心趋势的给出中心趋势的最大似然比的稳最大似然比的稳健估计量,当数健估

115、计量,当数据分布均匀,且据分布均匀,且两尾较长,或当两尾较长,或当数据中存在极端数据中存在极端值时,可给出比值时,可给出比均值或中位数更均值或中位数更合理的估计。合理的估计。输出最大和输出最大和最小的最小的5个个数,且在输数,且在输出窗口中加出窗口中加以标明。以标明。输出输出5%、10%、25%、50%、75%、90%和和95%的百分位数。的百分位数。Statistics对话框7/20/2024215只有指定分组变量才有效,可输出分布只有指定分组变量才有效,可输出分布水平图,同时输出回归直线水平图,同时输出回归直线斜率以及对方差的斜率以及对方差的Levenes检验检验不输出分布不输出分布水平图

116、水平图对每组数据产生一个中位数与四分位数范围的自然对数散点图,同对每组数据产生一个中位数与四分位数范围的自然对数散点图,同时在满足每组数据方差相等的条件下对数据进行幂变换的估计。时在满足每组数据方差相等的条件下对数据进行幂变换的估计。根据在根据在Power参数框中指定的变换对原始数据进行变换。参数框中指定的变换对原始数据进行变换。不对数据进行转换不对数据进行转换 Explore 栏中栏中Plots对话框对话框在此对话框中可选择要输出的在此对话框中可选择要输出的统计图形及其参数。统计图形及其参数。Boxplots栏只有栏只有在主对话框中指在主对话框中指定了一个以上变定了一个以上变量时,才有效。量

117、时,才有效。在该栏选择箱线在该栏选择箱线图的输出方式:图的输出方式:每一个因变量生每一个因变量生成一个箱线图成一个箱线图所有因变量生成所有因变量生成一个箱线图一个箱线图不显示任何箱线不显示任何箱线图图生成茎叶图生成茎叶图(默认)(默认)生成直方图生成直方图输出正态概率和离输出正态概率和离散正态概率图,同散正态概率图,同时输出时输出K-S统计量统计量中的中的Lilliefors显著显著水平检验,如果观水平检验,如果观测数不超过测数不超过20,将,将用用W-S统计量代替统计量代替K-S。7/20/2024216确定缺失值的处置:确定缺失值的处置:因变量或分组变量中带有缺失值的观因变量或分组变量中带

118、有缺失值的观测量都将在分析过程中被剔除。测量都将在分析过程中被剔除。在分析过程中根据分组变量产生的组在分析过程中根据分组变量产生的组中带缺失值的观测量都将被剔除。中带缺失值的观测量都将被剔除。分组变量的缺失值被单独分为一组,分组变量的缺失值被单独分为一组,输出频数时将标出缺失组。输出频数时将标出缺失组。Explore 栏中栏中Options对话框对话框、例:、例:04-4下表为下表为30名名10岁少儿的身高(岁少儿的身高(cm)数据,)数据,对其进行探索分析对其进行探索分析编号身高编号身高编号身高男女男女男女1131.5132.76135.5137.511132.2124.02137.4133

119、.07121.4141.412129.0140.33128.2139.78129.2138.813132.6130.14136.0125.49135.4120.914140.9133.45140.4138.610135.8137.515129.3136.77/20/2024217(1)操作步骤)操作步骤打开数据文件“Explore分析分析.sav”,打开 Explore主对话框,选变量height进入Dependent List栏中,选sex变量进入Factor List栏中;在Display栏中选择 Both项;打开Statistics对话框,选中Descriptives 、M-estima

120、tion、 Outliers复选项,单击Continue返回;打开Plots对话框,选择Boxplots栏中的Factor levels together项,选择Descriptives栏内的 Stem-and-leaf复选项,选择Spread vs level with levene Test栏中的 Power estimation项,单击 Continue 返回。单击OK。(2)输出结果及分析)输出结果及分析 7/20/2024218观测量摘要表观测量摘要表M估计量表估计量表表4-13表4-147/20/2024219少儿身高的分组描述统计量少儿身高的分组描述统计量表4-157/20/20

121、24220少儿身高的极端值少儿身高的极端值方差一致性检验方差一致性检验表4-16表4-177/20/2024221HIGHT Stem-and-Leaf Plot forSEX= 1 Frequency Stem & Leaf 1.00 12 . 1 4.00 12 . 8999 3.00 13 . 122 5.00 13 . 55567 2.00 14 . 00 Stem width: 10.00 Each leaf: 1 case(s)少儿身高的茎叶图少儿身高的茎叶图少儿身高的箱线图少儿身高的箱线图7/20/2024222 结果分析表4-13摘要性地说明了数据的基本情况,包括总数、有效值数

122、目和缺失值数。 表4-14是按性别分组后的统计量表,上半部分是男生,下半部分是女生的。 表4-15下面的a、b、c、d分别表示四种加权常数,此表的结果是使用四种不同的方法计算出的M估计量的结果。 表4-16显示分组后少儿身高的极端值分布,最大值和最小值各取5个。 表4-17是方差的一致性检验,零假设是分组后的方差为相等的。表中四行是依据不同的统计量得到的检验,分别是基于均值、基于中位数、基于中位数与调整后的自由度和基于调整后的均值。由于其P值均大于0.05,不能否定零假设,即可以认为男生和女生的身高的方差是无差异的。7/20/2024223茎叶图从左到右分为三部分:频数、茎和叶、茎是整数部分,

123、叶是小数部分,Stem width表示茎宽。每行的茎和叶组成的数字再乘以茎宽,即得到实际数据的近似值,实际数据中与该近似值靠近的值的个数即为频数表示的个数。箱线图各部分的含义:方箱是箱线图的主体,上下边为四分位数,中间粗线为中位数,变量的50%的观测值落在这一区域中。方箱上下两条纵向直线是触须线,触须线外的两端线为本体的最大值和最小值。本体指除奇异值外的变量值。奇异值用“o”表出,本例中无奇异值。7/20/2024224 4、列联表分析过程 、主要功能、主要功能 调用列联表分析过程可进行计数资料和某些等级资料的列联表分析,一个行变量和一个列变量可组成一个二维列联表,如再加一个控制变量则可组成一

124、个三维列联表。而多个行、列、控制变量就可组成一个复杂的多维列联表。在分析中可对二维和多维列联表资料进行统计描述和2检验,并计算相应的百分数指标。此外,还可计算四格表确切概率(Fishers Exact Test),且有单双侧(One-Tail、Two-Tail)、对数似然比检验( Likelihood Ratio)以及线性关系的Mantel-Haenszel 2检验。7/20/20242254、列联表分析过程、列联表分析程序、列联表分析程序 按Analyze-Descriptive Statistics-Crosstabs 顺序打开 Crosstabs 主对话框。如图7/20/2024226该

125、框中的变量该框中的变量作为分布表中作为分布表中的行的行(列列)变量,变量,必须是数值型必须是数值型或字符型分类或字符型分类变量。变量。该框中的变量作该框中的变量作为控制变量,决为控制变量,决定频数分布表中定频数分布表中的层,可有多个的层,可有多个控制变量,如要控制变量,如要增加新的控制变增加新的控制变量,按量,按Next 键,键,要修改以前的变要修改以前的变量按量按Previous 键键显示每显示每一组中一组中各变量各变量的分类的分类条形图。条形图。只输出只输出统计量统计量,不输出不输出多维列多维列联表。联表。Crosstabs 对话框对话框7/20/2024227行和列变量相互独立的假设检行

126、和列变量相互独立的假设检验,有多种检验法。验,有多种检验法。进行相关系数的检验,有两项结果显示:Pearson相关系数和 Spearman相关系数适用于定类变量的统计量:适用于定类变量的统计量:基于卡方检验基础上对相关性基于卡方检验基础上对相关性的检验的检验用来描述相关性用来描述相关性当用自变量预测因变量时,此当用自变量预测因变量时,此系数反映这种预测降低错误的比系数反映这种预测降低错误的比率。率。显示不确定系数,表示用一个显示不确定系数,表示用一个变量来预测其他变量时降低错误变量来预测其他变量时降低错误的比率的比率适用于定序变量:适用于定序变量:Gamma系数反映两个有序变量系数反映两个有序

127、变量间的对称相关性。间的对称相关性。是是Gamma检验的非对称推广。检验的非对称推广。对有序变量和秩变量相关性的对有序变量和秩变量相关性的非参数检验。非参数检验。与与Kendalls tau-c相似相似适用于定序变量:适用于定序变量:用于检验相关性用于检验相关性用于检验两个评估人对同一对象的评估用于检验两个评估人对同一对象的评估是否具有一致系。是否具有一致系。检验某事件发生和某因子之间的关系检验某事件发生和某因子之间的关系进行两个相关的二值变量的非参数检验进行两个相关的二值变量的非参数检验进行一个二值因素变量和一个二值响应进行一个二值因素变量和一个二值响应变量的独立性检验。变量的独立性检验。C

128、rosstabs的Statistics 对话框7/20/2024228Crosstabs的的Cell Display 对话框对话框选择在列联表中输出的统计量,选择在列联表中输出的统计量,包括观测量数、百分比、残差包括观测量数、百分比、残差输出观测量的实际数量输出观测量的实际数量如果行和列变量在统计如果行和列变量在统计上是独立的或不相关的,上是独立的或不相关的,那么会在单元格中输出期那么会在单元格中输出期望的观测值的数量。望的观测值的数量。输出单元格中观测量的数目占输出单元格中观测量的数目占整行全部观测量数目的百分比整行全部观测量数目的百分比输出单元格中观测值的数目占输出单元格中观测值的数目占整

129、列全部观测量数目的百分比整列全部观测量数目的百分比输出单元格中观测量的数目占输出单元格中观测量的数目占全部观测量数目的百分比全部观测量数目的百分比计算非标准化残差计算非标准化残差计算标准化残差计算标准化残差计算调整后残差计算调整后残差7/20/2024229Table Format 对话框对话框决定各行的排列顺序:决定各行的排列顺序:各行的排列按升序各行的排列按升序各行的排列按降序各行的排列按降序、例题、例题 04-5为了探讨吸烟与慢性支气管炎有无关系,调查了339人,情况如下:吸烟和慢性支气管炎调查表吸烟和慢性支气管炎调查表患慢性支气管炎未患慢性支气管炎吸烟43162不吸烟131217/20

130、/2024230输入数据:变量n为采得的数据;变量x为是否吸烟:1为吸烟,2为不吸烟;变量h为是否患病:1为患病,2为不患病。数据文件名为“Crosstab.sav”。在Data菜单中选Weight Cases项,打开Weight Cases对话框。 Weight Cases by,再将变量n选入Frequence Variable 框,单击OK完成加权。按Analyze-Descriptive Statistics-Crosstabs 顺序打开 Crosstabs 主对话框。将x 变量选入Row框作为行变量,将h变量选入Column 框作为列变量。打开Statistics对话框,选中 Chi

131、-square Contingency coefficient和Phi and CramersV复选框,单击Continue返回。单击Cell按钮,打开Cell display对话框,选中observed和Expected 复选框,单击Continue返回;单击OK。(1)操作步骤7/20/2024231统计摘要表,列出观测量有效值个数、缺失值个数和总的个数。 从列联表中可看出,吸烟人中患病者有43人,比期望值33.9大,不吸烟人中患病者只有13人,比期望值22.1小。 (2)输出结果及分析)输出结果及分析 输出结果如表:吸烟与患病统计摘要表吸烟与患病统计摘要表7/20/2024232吸烟与患

132、病列联表吸烟与患病列联表卡方检验卡方检验7/20/2024233卡方检验表,从表中可看出,Chi-Square值为7.469,P值为0.0060.05,应否定零假设,即认为吸烟与患慢性支气管炎是不独立的。由于使用卡方检验要求每个单元格频数不少于5,当条件不满足时,还可用Fisher精确检验,其双侧检验P值为0.007。对称性检验表,通过度量对称性来得到有效的观测个数,本例为339。 对称性检验表7/20/2024234第三节 比率分析n1. 比率分析的目的和主要指标 比率分析用于对两变量间变量值比率变化的描述分析,适用于数值型变量。 例如根据04-6各地区保险业务保费收入的数据,分析各地区财产

133、保险业务的保费收入占全部业务保费收入的比例情况。7/20/2024235 通常的分析可以生成各个地区财产保险业务的保费收入占全部业务保费收入的比率变量,然后对该比率变量计算基本描述统计量(如均值、中位数、标准差、全距等),进而刻画比率变量的集中趋势和离散程度。 SPSS的比率分析除能够完成上述分析外,还提供了其他相对比描述指标,大致也属于集中趋势描述指标和离散程度描述指标的范畴,具体包括:7/20/2024236(1)加权比率均值(加权比率均值(Weighted mean):两变量均值的比,属集中趋势描述指标。(2)AAD(Average Absolute Deviation)平均绝对离差)平

134、均绝对离差:是对比率变量离散程度的描述,计算公式为: 其中, 是比率数,M是比率变量的中位数,N为样本数7/20/2024237(3)COD(Coefficient of Dispersion)离散系数)离散系数:也是对比率变量离散程度的描述,计算公式为:(4)PRD(Price-related Differential)相关价格微分)相关价格微分:是比率均值与加权比率均值的比,也是比率变量离散程度的描述。7/20/2024238(5)COV变异系数变异系数:用于对比率变量离散程度的描述,分为基于均值的变异系数均值的变异系数(Mean centered COV)和中位数的中位数的变异系数(变异

135、系数(Median centered COV )。前者是通常意义下的变异系数,是标准差除以均值;后者定义为:7/20/2024239n2. 比率分析的基本步骤(1)选择菜单AnalyzeDescriptive StatisticsRadio,出现窗口7/20/2024240(2)将比率变量的分子选择到Numerator框中,将比率变量的分母选到Denominator框中。(3)如果做不同组间的比率比较,则将分组变量选择到Group Variable框中。(4)单击Statistics按钮指定输出哪些关于比率的描述统计量,出现如下窗口:至此,至此,SPSS将自动计算比率变量,并将相关指标输出到输

136、出窗口中。将自动计算比率变量,并将相关指标输出到输出窗口中。7/20/2024241第四节第四节 Means过程过程一、一、 Means过程过程 该过程实际上更倾向于对样本进行描述,可以对需要比较的各组数据计算描述指标,包括均值、标准差、总和、观测量数、方差等一系列单变量统计量。二、完全窗口分析二、完全窗口分析 按AnalyzeCompare MeansMeans顺序,打开Means主对话框(如图4-1)。7/20/2024242图图41 Means主对话框主对话框该框的变量为因变量,即用于分析的变量。该框的变量为自变量,必须至少有一个变量单击此按钮,进入下一层,返回则按Previous按钮。

137、见图427/20/2024243Statistics框:供选择的统计量Statistics for First Layer复选框:Anova table and eta: 进行分组变量的单因素方差分析并计算eta 统计量。Test for linearity:产生因变量与第一层自变量的R和R2。 图图42 Options 对话框对话框Cell Statistics框: 选入的描述统计量,默认为均值、样本数、标准差。7/20/2024244三、三、04-7例题分析例题分析 某医生测得如下血红蛋白值(g%),用Means过程对其做基本的描述性统计分析。表表5-1血红蛋白值血红蛋白值(g%)编编号号

138、性性别别年年龄龄血红蛋血红蛋白值白值hb编编号号性性别别年年龄龄血红蛋血红蛋白值白值hb编编号号性性别别年年龄龄血红蛋血红蛋白值白值hb111813.661511610.88291167.88211810.57161189.653011812.35311612.56172168.363111613.6542179.871811811.66322169.8752178.99192188.543321810.09621711.35202177.783421812.55711714.562121611.363511816.04811612.402211612.783611813.7892168.05

139、2311815.093711711.671011814.03242188.673811710.981121812.83252178.56392168.781211615.502621812.564011611.351321812.252721711.561421710.062811614.677/20/20242451、操作步骤、操作步骤 n1) 打开数据文件“血红蛋白血红蛋白.sav” 。n2)按顺序Analyze Compare Means Means打开主对话框(设置见图4-3)。n3)单击Option, 打开Options对话框,选择统计量(设置见图4-5)。n4)单击OK完成。7/2

140、0/2024246选hb选sex按Next,进入layer 2of 2,选age图图43 在主对话框选送变量在主对话框选送变量图图44 第二层变量框第二层变量框7/20/2024247选择统计项目按此按钮复选此2项,对第一层次分组数据进行方差分析和线性检验图图45 Options对话框对话框7/20/2024248表表418 观测量摘要表观测量摘要表 表418 是观测量摘要表,观测量总个数为40,其中有效值为40个、无效值0。2. 结果及分析结果及分析7/20/2024249表表419 分组描述统计量分组描述统计量 表419 分三部分:第一、二部分先按性别分组,再按年龄分组计算观测值合计、均数

141、、标准差、方差和个数;第三部分只按年龄分组,最后一行为合计。7/20/2024250表表421 按年龄分组的描述统计量按年龄分组的描述统计量表表420 按性别分组的描述性统计量按性别分组的描述性统计量 血红蛋白血红蛋白* 性别性别 血红蛋白血红蛋白* 年龄年龄 表420、21是将sex和age一起放在layer 1of 1中,分别计算男、女(不作年龄分组)。年龄分三组(不作性别分组)的观测值合计、均数、标准差、方差和个数。7/20/2024251表表422 方差分析表方差分析表 表422是方差分析表,共6列:第一列方差来源:组间的、组内的、总的方差;第二列为平方和;第三列为自由度;第四列为均方

142、;第五列为F值;第六列为 F 统计量的P值,P值小于0.05,所以性别对血红蛋白值有显著影响。7/20/2024252表表423 eta统计量统计量 表423是eta统计量表,统计量表明因变量和自变量之间联系的强度,0.567的值处于中等水平,2是因变量中不同组间差异所解释的方差比,是组间平方和与总平方和之比,即由64.5256除以 200.787得到。7/20/2024253表表424 按年龄分组的方差分析表按年龄分组的方差分析表 表424是将年龄作为第一层自变量得到的方差分析表,Linearity是假设因变量均值是第一层自变量值的线性函数,Deviation from Linearity是

143、不能由线性模型解释的部分。7/20/2024254表表425 按年龄分组的按年龄分组的eta统计量统计量表425是将年龄作为第一层自变量得到的eta统计量表,R和R2测度线性拟合优度,R是观测值与预测值之间的相关系数。7/20/2024255第五节第五节 多选项分析多选项分析(频数分析(频数分析和交叉分析)和交叉分析)n多选项问题的概念:多选项问题是根据实际调查的需要,要求被调查者从问卷给出的若干个可选答案中选择一个以上的答案。目前,市场研究或许多领域对某事物评价的研究中常常遇到这样的问题。n可以选多个,分为限选和不限选:n限选:如在限选:如在1111种工作种类中,选你喜欢种工作种类中,选你喜

144、欢的,最多可选的,最多可选4 4种(种(Var1-Var4)Var1-Var4);求所求所有人喜欢各种工作的频数或频率。有人喜欢各种工作的频数或频率。n不限选:如在所列的不限选:如在所列的2020种电器中,你家种电器中,你家所拥有的电器,不限选(所拥有的电器,不限选(Var1-Var20Var1-Var20),),求所有被调查家庭拥有各种电器的频数求所有被调查家庭拥有各种电器的频数或频率。或频率。7/20/20242561. 多选项问题的分解n多选项二分法及其编码(multiple dichotomies method):):n多选项二分法是将多选项问题中的每一个答案设为一个是将多选项问题中的

145、每一个答案设为一个SPSS变量,每个变量值有变量,每个变量值有0或或1两个取值,分别表示选择该两个取值,分别表示选择该答案和不选择该答案。如对下面问题有答案和不选择该答案。如对下面问题有9个可能的答案,每个可能的答案,每个可选择的答案由一个变量表示,每个变量的值只有表明个可选择的答案由一个变量表示,每个变量的值只有表明“是是”和和“否否”的两个代码的两个代码0或或1。编号 调查内容 选 项 1 您喜欢红色吗 是 否 2 您喜欢橙色吗 是 否 3 您喜欢黄色吗 是 否 4 您喜欢绿色吗 是 否 5 您喜欢青色吗 是 否 6 您喜欢蓝色吗 是 否 7 您喜欢紫色吗 是 否 8 您喜欢黑色吗 是 否

146、 9 您喜欢白色吗 是 否 左边的表格为向顾客发放的颜色左边的表格为向顾客发放的颜色调查,在选择服装时,您喜欢什么颜调查,在选择服装时,您喜欢什么颜色作为主体颜色,在答案的色作为主体颜色,在答案的“”中中打打“ ” (可多选)(可多选) 这是一组问题,每个问题均有两这是一组问题,每个问题均有两个答案,回答者只能选择其中一种。个答案,回答者只能选择其中一种。在建立数据文件时,变量名使用相同在建立数据文件时,变量名使用相同的变量主名,后面加以不同序号组成,的变量主名,后面加以不同序号组成,本组问题的本组问题的9 9个变量名可以是个变量名可以是color1-color1-color9color9。而

147、答案的编码规则为:回答。而答案的编码规则为:回答“是是”变量值为变量值为1 1,回答,回答“否否”变量值变量值为为0 0,其他值为缺失值。,其他值为缺失值。7/20/2024257n多选项分类法及其编码多选项分类法及其编码(multiple multiple category method category method ):多选项分类法中,首先应):多选项分类法中,首先应估计多选项问题最多可能出现的答案个数;然后估计多选项问题最多可能出现的答案个数;然后为每个答案设置一个为每个答案设置一个SPSSSPSS变量,变量取值为多选变量,变量取值为多选项问题中的所有可选答案。项问题中的所有可选答案。

148、n如上面有关选择服装的主体颜色,您可以在提供如上面有关选择服装的主体颜色,您可以在提供的的1010种答案中选择喜欢的三种。种答案中选择喜欢的三种。1、红 2、橙 3、黄 4、绿 5、青6、蓝 7、紫 8、黑 9、白 10、说不清 这是一个问题,可以有三个答案。在建立数据文件时,要建立三个变量color1-color3表示回答者选择的三个颜色。如选择结果为1、红、6、蓝、8、黑,则变量color1的值为1,变量color2的值为6,变量color3的值为8。7/20/2024258 如果采用多选二分法则有6个选项,故应设6个变量,运用0-1编码方法编码,即:1,0,1,0,1,1。 如果采用多选

149、分类法,则编码为1,3,5,6,0,0。1 3 5 67/20/2024259问题问题2:择业中考虑的主要因素:择业中考虑的主要因素(多选)(多选)1经济收入 2专业对口 3发展前途 4地理区位5个人爱好 6风险大小7劳动强度 8社会福利9其他编码应为:1,0,1,1,1,0,1,1,0。或1,3,4,5,7,8,0,0,0。7/20/20242601 3 6问题问题3 3:您择业中考虑的主要因素有(限:您择业中考虑的主要因素有(限选三项)选三项)1经济收入 2 专业对口 3发展前途 4地理区位5个人爱好 6风险大小7劳动强度 8社会福利9社会地位 10其他 因为限选三项,故应设三个变量,编码

150、依次因为限选三项,故应设三个变量,编码依次为为1, 3,6。7/20/20242612. 多选项分析的基本操作 首先将每个题的若干答案组成一个综合变量即变量集(Set),然后对综合变量的各种取值进行分析。只有通过定义多选项变量集,spss才能确定应对哪些变量取相同值的个案数进行累加。n多选项分析在SPSS中是通过Analyze - Multiple Analyze - Multiple ResponseResponse中的各项功能实现的。(1)Define Variable Sets:1)从左边的变量中将多选变量集的变量选择到Variables in Set框中,建立多选二分变量集或多选分类变

151、量集。2)在Variables Are Coded As框中指定多选变量集中的变量是按照哪种方法编码的。Dichotomies表示以多选二分法编码,并在Counted Value中输入用哪个数值来表示选中该选项。Categories表示以多选分类法编码,并在Range框中输入变量取值的最小值和最大值。7/20/20242623)Name:为变量集命名,系统自动在该名字前加字符$。4)单击Add按钮将定义好的多选项变量集加到Multiple Response sets 框中。Spss可以定义多个多选项变量集。(2 2)FrequenciesFrequencies:对多选变量集进行频数分对多选变量

152、集进行频数分析。从析。从Multiple Response SetsMultiple Response Sets中把待分析中把待分析的多选项变量集选择到的多选项变量集选择到Table(s) forTable(s) for框中;框中;(3 3)CrosstabsCrosstabs:对多选变量集与其他变量集对多选变量集与其他变量集或与原基本变量进行交叉表分析。或与原基本变量进行交叉表分析。7/20/2024263 1 1)选择列联表的行变量并定义取值范围;)选择列联表的行变量并定义取值范围; 2 2)选择列联表的列变量并定义取值范围;)选择列联表的列变量并定义取值范围; 3 3)选择列联表的控制变

153、量并定义取值范围;)选择列联表的控制变量并定义取值范围; 4 4)单击)单击OptionOption按钮选择列联表的输出内容和按钮选择列联表的输出内容和计算方法。计算方法。Match variable across Match variable across response setsresponse sets选项表示,如果列联表的行列选项表示,如果列联表的行列变量均为多选项变量集时,第一个变量集的变量均为多选项变量集时,第一个变量集的第一个变量与第二个变量集的第一个变量作第一个变量与第二个变量集的第一个变量作交叉分组,依次类推。交叉分组,依次类推。 结果中注意:结果中注意:Pct of Re

154、sponsesPct of Responses(占总(占总回回答数的)和答数的)和Pct of CasesPct of Cases(占总个案数的(占总个案数的)的区别。)的区别。7/20/20242643. 多选项分析的应用举例多选项分析的应用举例n利用02-1居民储蓄调查数据进行分析,实现以下两个分析目标: 1.分析储户的储蓄目的; 2.分析不同年龄段储户的储蓄目的。分析:分析:1.为进行多选项分析,首先定义名为为进行多选项分析,首先定义名为cxmd的多的多选项变量集,其中包括选项变量集,其中包括a7_1、a7_2、a7_3三个三个变量,然后对多选项变量集进行频数分析;变量,然后对多选项变量集进行频数分析;2.对不同年龄段储户储蓄目的进行分析,采用对不同年龄段储户储蓄目的进行分析,采用多选项交叉分组下的频数分析。多选项交叉分组下的频数分析。7/20/2024265 Thank you!7/20/2024266

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号