第三章_SPSS数据的预处理

上传人:飞*** 文档编号:48889987 上传时间:2018-07-21 格式:PPT 页数:79 大小:667KB
返回 下载 相关 举报
第三章_SPSS数据的预处理_第1页
第1页 / 共79页
第三章_SPSS数据的预处理_第2页
第2页 / 共79页
第三章_SPSS数据的预处理_第3页
第3页 / 共79页
第三章_SPSS数据的预处理_第4页
第4页 / 共79页
第三章_SPSS数据的预处理_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《第三章_SPSS数据的预处理》由会员分享,可在线阅读,更多相关《第三章_SPSS数据的预处理(79页珍藏版)》请在金锄头文库上搜索。

1、第三章 SPSS数据的预处理为什么要进行数据的预处理n在数据文件建立之后,通常还需要对分 析的数据进行必要的预加工处理,这是 数据分析过程中必不可少的一个关键步 骤。n数据的预加工处理服务于数据分析和建 模,主要包括以下几个问题: 数据的排序 变量计算 数据选取 计数 分类汇总 数据分组 数据预处理的其他功能:转置、加权、数据 拆分、缺失值处理、数据排秩、定义变量集 。预处理的内容3.1 数据的排序nSPSS的数据排序是将数据编辑窗口中 的数据按照某个或多个指定变量的变量 值升序或降序重新排列。这里的变量也 称为排序变量。排序变量只有一个时, 排序称为单值排序。排序变量有多个时 ,排序称为多重

2、排序。多重排序中,第 一个指定的排序变量称为主排序变量, 其他依次指定的变量分别称为第二排序 变量、第三排序变量等。数据排序便于数据的浏览,有助于了解数 据的取值状况、缺失值数量的多少等;通过数据排序能够快捷的找到数据的最大 值和最小值,进而可以计算出数据的全距 ,初步把握和比较数据的离散程度;通过数据排序能够快捷地发现数据的异常 值,为进一步明确它们是否会对分析产生 重要影响提供帮助。3.1.1数据排序的作用SPSS数据排序的基本操作步骤(1)选择菜单DataSort Cases(2)将主排序变量从左边的列表中选 到Sort by框中,并在Sort Order框中 选择按该变量的升序还是降序

3、排序。(3)如果是多重排序,还要一次指定 第二、第三排序变量及相应的排序规则 。3.1.2 数据排序的基本操作在左边的源变量框中 选择排序变量进入Sort by框。如果选择2个以 上的变量,观测量的 排序结果与排序变量 在Sort by框中的顺序 有关。列于首位的为 第一排序变量。在Sort Order 栏内选择排序 方式升序 与降序1、数据排序是整行数据排序,而不是只对某 列变量排序;2、多重排序中指定排序变量的次序很关键。 先指定的变量优先于后指定的变量。多重排 序可以在按某个变量值升序(或降序)排序 的同时再按其他变量值降序(或升序)排序 ;3、数据排序后,原有数据的排序次序必然被 打乱

4、。说明数据排序应用举例n利用居民储蓄调查数据,通过数据排序 功能分别找到城镇户口和农村户口储户 一次存款金额的最大值和最小值3.2 变量计算n数据的转换处理是在原有数据的基础上,计 算产生一些含有更丰富信息的新数据。例如 根据职工的基本工资、失业保险、奖金等数 据,计算实际月收入,这些新变量具有更直 观更有效的特点。3.2.1 变量计算的目的nSPSS变量计算是在原有数据的基础上,根据用 户给出的SPSS算术表达式以及函数,对所有个 案或满足条件的部分个案,计算产生一系列新 变量。(1)变量计算是针对所有个案(或指定的部 分个案)的,每个个案都有自己的计算结果。(2)变量计算的结果应保存到一个

5、指定变量 中,该变量的数据类型应与计算结果的数据类 型相一致。在变量计算过程中涉及到几个概念:SPSS 算数表达式、SPSS条件表达式和SPSS函数。n指出按照什么方法计算变量;nSPSS算术表达式(Numeric Expression) 是由常量、变量、算术运算符、圆括号、函 数等组成的式子。字符型常量应当用引号括起来变量是指那些已存在于数据编辑窗口中的原有变 量算术运算符主要包括、*、/、*(乘方)在同一算术表达式中的常量及变量,数据类型应 该一致,否则无法计算 3.2.2 SPSS算术表达式n在变量计算中通常要求对不同的个案分 别按照不同的方法进行计算,于是就需 要通过一定的方式来指定个

6、案;nSPSS条件表达式是一个对条件进行判 断的式子。其结果有两种取值:如果判 断条件成立,则结果为真;如果判断条 件不成立,则结果为假。条件表达式包 括简单条件表达式和复合条件表达式。3.2.3 SPSS条件表达式(1)简单条件表达式由关系运算符、常量、变量以及算术表达 式等组成的式子。其中关系运算符包括、 、80的学 生语文和外语的平均分。3.2.6 变量计算的应用举例3.3 数据选取(抽样)n数据选取就是根据分析的需要,从已收集到 的大批量数据(总体)中按照一定的规则抽 取部分数据(样本)参与分析的过程,通常 也称为抽样。n目的:方便对符合条件的case行分析。nSPSS可根据指定的抽样

7、方法从数据编辑窗口 中选出部分样本以实现数据选取,这样后面 的分析操作就只针对选出的数据,直到用户 取消这种选取为止。(1)选取全部数据(All cases) (2)按指定条件选取( If condition is satisfied )SPSS要求用户以条件表达式给出数据选 取的条件,SPSS将自动对数据编辑窗口中 的所有个案进行条件判断。那些满足条件的 个案,即条件判断为真的个案将被自动选取 出来,而那些条件判断为假的个案则不被选 中。3.3.1 数据选取的基本方式(3)随机抽样( Random sample of cases ) ,即对数据编辑窗口中的所有个案进行随机筛选 ,包括如下两种

8、方式:第一,近似抽样(Approximately)近似抽样要求用户给出一个百分比数值, SPSS将按照这个比例自动从数据编辑窗口中随 机抽取相应百分比数目的个案。注:由于SPSS在样本抽样方面的技术特点,抽取出 的个案总数不一定恰好精确地等于用户指定的百分比数目 ,会有小的偏差,因而称为近似抽样。第二,精确抽样(Exactly)精确抽样要求用户给出两个参数。 第一个参数是希望选取的个案数,第二 个参数是指定在前几个个案中选取。 SPSS自动在数据编辑窗口的前若干个 个案中随机精确地抽出相应个数的个案 来。(4)选取某一区域内的样本( Based on time or case range ),

9、即选取数据编辑 窗口中样本号在指定范围内的所有个案,要 求给出这个范围的上、下界个案号码。这种 抽样方法适用于时间序列数据。 (5)通过过滤变量选取样本( Use filter variable ),即依据过滤变量的取值进行样 本选取。要求指定一个变量作为过滤变量, 变量值为非0或非系统缺失值的个案将被选 中。这种方法通常用于排除包含系统缺失值 的个案。说明:(1)完成数据选取后,以后的SPSS分析操 作仅针对那些被选中的个案直到用户再次改 变数据的选取为止。(2)采用指定条件选取和随机抽样方法进 行数据选取后,SPSS将在数据编辑窗口中自 动生成一个名为filter_$的新变量,取值为1 或

10、0。1表示本个案被选中,0表示未被选中 。该变量是SPSS产生的中间变量,如果删除 它则自动取消样本抽样。(1)选择菜单DataSelect cases (2)根据分析需要选择数据选取方法 (3)Unselected cases are指定对未 选中个案的处理方式Filtered表示在未被选中的个案号码上打 一个“/”标记;Deleted表示将未被选中的个案从数据编 辑窗口中删除。 3.3.2 数据选取的基本操作Select Cases对话框利用居民储蓄调查数据,根据不同的分 析要求采用不同的数据选取方法抽样: (1)如果只希望分析城镇储户的情况,可以 通过数据选择功能采用指定条件的抽样方法

11、进行抽样; (2)如果只希望对其中的70的数据进行分 析,可通过数据选择功能采用随机抽样中的 近似抽样方法进行抽样。3.3.4 数据选取的应用举例3.4 计数n3.4.1 计数目的SPSS实现的计数是对所有个案或满足某 条件的部分个案,计算若干变量中有几个变 量的值落在指定的区间内,并将计数结果存 入一个新变量中的过程。例如对学生的成绩 进行综合测评时,可以依次计算每个学生的 若干门课程中有几门课程得了优,有几门课 程得了良,有几门课程不及格。SPSS实现计数的关键步骤是:指定哪些变量参与计数,计数的结果存入哪个新 变量中指定计数区间(尤为关键) SPSS中的计数区间可以有以下几种描述形式 :

12、v单个变量值(Value)v系统缺失值(System-missing)v系统缺失值或用户缺失值( System or user- missing)v给定最大值和最小值的区间(n through m)v小于等于某指定值的区间(Lowest through n )v大于等于某指定值的区间(n through highest )3.4.2 计数区间上述后三个计数区间很容易理解。例如 评价学生成绩,成绩为优的计数区间可以指 定为90 through highest,成绩为良的计数区 间指定为80 through 89,不及格的计数区间 指定为Lowest through 59。前三个计数区间实际上是一

13、些离散的数 据点,严格讲并不是区间,但SPSS仍将其归 在广义区间的范畴内,目的是方便一些其他 的应用。(1)选择菜单TransformCount,出现如下 窗口:3.4.3 计数的基本操作(2)将参与计数的变量选到 Numeric Variables框中 (3)在Target Variable框中输入存放 计数结果的变量名,并在Target Label框中输入相应的变量名标签。 (4)单击Define Values按钮定义计数 区间,出现如下图窗口:通过单击Add、Change、Remove按钮 完成计数区间的增加、修改和删除。(5)如果仅希望对满足某条件的个案进 行计数,则单击If按钮并输

14、入相应的 SPSS条件表达式。否则,本步可略去 。n利用居民储蓄调查数据分析近些年储户收入 的总体状况。我们认为如果储户收入今年比 去年增加了,且认为今后收入仍会增加则认 为收入状况较好。试分析有多少个储户的收 入状况较好。n对学生的成绩进行综合测评时,可以依次计 算每个学生的3门课程中有几门课程得了优 ,有几门课程得了良,有几门课程不及格。3.4.4 计数的应用举例3.5 分类汇总n3.5.1 分类汇总的目的分类汇总是按照某分类变量进行分类汇总计 算。例如:某企业希望了解本企业不同学历职 工的基本工资上是否存在较大差距。最简单 的做法就是分类汇总,即将职工按学历进行 分类,分别计算不同学历职

15、工的平均工资, 然后可对平均工资进行比较。例如:某商厦希望分析假日周内不同职业和不 同年龄段的顾客对某商品的“打折促销”反应 是否存在较大差异,用以分析不同消费群体 的消费心理。最初步的分析可以是分别计算 不同职业中不同年龄段顾客的平均消费金额 和平均消费金额差异程度(标准差),并对 它们进行比较。这个过程也可以通过分类汇 总过程完成。 例如:分析男生和女生学习成绩是否存在差距 。SPSS实现分类汇总涉及两个主要方 面:v按照哪个变量(如上例中的学历、职业和年龄 段)进行分类v对哪个变量(如上例中的基本工资、消费金额 )进行汇总,并指定对汇总变量计算哪些统计 量(如上例中的平均工资、平均消费金

16、额和标 准差)(1)选择菜单DataAggregate,出现如下所示的 窗口:3.5.2 分类汇总的基本操作(2)将分类变量选到Break Variable(s)框中 (3)将汇总变量选到Summaries of Variable(s)框中 (4)单击Function按钮,指定对汇总 变量计算哪些统计量。SPSS默认计算 均值。(5)指定将分类汇总结果保存到何处。有三种选择:第一,Add Aggregated Variables to working data file,表示将结果存放到当前数据编 辑窗口中。第二,Create new data file,表示将结果存放 到系统默认的名为aggr.sav的SPSS数据文件中,可 以单击File按钮,重新指定文件名;第三,Replace working data file,表示用分 类汇总结果覆盖数据编辑窗口中的数据。一般选择第二种方式,结果比较清晰。(6)单击Name&Label按钮,重新指定结 果文件中的变量名或添加变量名标签。 SPSS默认的变量名

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号