第三章spss数据的预处理

资源描述

《第三章spss数据的预处理》由会员分享，可在线阅读，更多相关《第三章spss数据的预处理（42页珍藏版）》请在金锄头文库上搜索。

1、第三章,SPSS数据的预处理,在数据文件建立好后，通常还要对待分析的数据进行必要的预加工处理，这是数据分析过程中不可缺少的一个关键环节。而且，随着数据分析的不断深入，对数据的加工处理还会多次反复，实现数据加工和数据分析的螺旋上升。数据的预加工处理是服务于数据分析和建模的。,1、缺失值和异常数据的处理,2、数据的转换处理,3、数据抽样,4、选取变量,3-1 数据排序,一、数据排序的目的,通常数据编辑窗口中个案的前后次序是由数据录入的先后顺序决定的。数据预处理中，有时需要将数据按照一定的顺序重新排列。,数据排序在数据分析过程中的作用：, 数据排序便于数据的浏览，有助于了解数据的取值状况、缺失值数量

2、的多少等。通过数据排序能够快捷地找到数据的最大值和最小值，进而可以计算出数据的全矩，初步把握和比较数据的离散程度。通过数据排序能够快捷地发现数据的异常值，为进一步明确它们是否对分析产生重要影响提供帮助。,单值排序：排序变量只有一个,多重排序：第一个指定的排序变量称为主排序变量，其他依次指定的变量分别称为第二排序变量、第三排序变量等。,SPSS数据排序的基本操作步骤：,（1）选择菜单：,（2）指定主排序变量，并选择是按升序还是降序排列,数据 - 排序个案,（3）如果是多重排序，还要依次指定第二、第三排序变量及相应的排序规则。否则，本步可略。,例利用租房状况问卷调查和数据，通过数据排序功能分

3、析本市户口和外地户口家庭的住房面积情况。,3-2 变量计算,一、变量计算的目的,变量计算是数据分析过程中应用最广泛也是最重要的一环。通过变量计算可以处理许多问题。,1、数据的转换处理,2、对数据的原有分布状态进行转换,（1）变量计算是针对所有个案（或指定的部分个案）的，每条个案（或指定的部分个案）都有自己的计算结果。（2）变量计算的结果应保存到一个指定变量中，该变量的数据类型应与计算结果的数据类型相一致。,注意,SPSS算术表达式（Numeric Expression）是由常量、变量、算术运算符、圆括号、函数等组成的式子。字符型常量应当用引号括起来变量是那些已存在于数据编辑窗口中的原有变

4、量算术运算符主要包括、*、/、*（乘方）。操作对象的数据类型为数值型。运算的先后次序是：先计算乘方，再计算乘除，最后计算加减。在同级运算中，按照从左往右的顺序进行计算。通过圆括号改变原有的计算顺序。在同一算术表达式中的常量及变量，数据类型应该一致，否则无法计算。,二、SPSS算术表达式,三、SPSS条件表达式,SPSS条件表达式是一个对条件进行判断的式子。其结果有两种取值：如果判断条件成立，则结果为真；如果判断条件不成立，则结果为假。,1、简单条件表达式由关系运算符、常量、变量以及算术表达式等组成的式子。其中关系运算符包括、。,2、复合条件表达式,又称逻辑表达式，是由逻辑运算符号、圆括号

5、和简单条件表达式等组成的式子。其中，逻辑运算符号包括&或AND（并且）、|或OR（或者）、或NOT（非）。NOT的运算优先级最高，其次是AND，最低是OR。可以通过圆括号改变运算的优先级。,四、SPSS函数,函数书写的具体形式为：函数名（参数）,其中函数名是SPSS已经规定好的，参数可以是常量（字符型常量应用引号括起来），也可以是变量或算术表达式。参数可能是一个，也可能是多个，各参数之间用逗号分隔。,SPSS函数大致可以分成八大类：,1、算术函数 2、统计函数、 3、分布函数 4、逻辑函数、 5、字符串函数 6、缺失值函数、 7、日期函数 8、其他函数。,五、变量计算的应用举例,利用“职工数据

6、.sav”，依据职称级别计算实发工资，计算规则是：实发工资等于基本工资减去失业保险，之后，依据14等级分别将以上计算结果上浮5%，3%，2%，1%。,SPSS变量计算的基本操作步骤如下,（1）选择菜单：,转换计算变量,（2）在数字表达式框给出SPSS算术表达式和函数。,（3）在目标变量框中输入存放计算结果的变量名。,（4）如果用户仅希望对符合一定提交的个案计算产生变量，则按“如果”按钮，选择“如果个案满足条件则包括”选项，然后输入条件表达式。,五、变量计算的应用举例,3-3 数据选取,一、数据选取的目的,数据选取就是根据分析的需要，从已收集到的大批量数据（总体）中按照一定的规则抽取部分数据（样

7、本）参与分析的过程，通常也称为抽样。,1、提高数据分析效率,如果数据量较大，会在一定程度上影响计算和建模的效率，因此，通常可以根据一定的抽样方法从总体中抽取少量样本，后面的分析只针对样本进行，这样会大大提高分析的效率。当然，抽取出的样本应具有总体代表性，否则分析的结论可能会有偏差。,2、检验模型的需要,依据一定的抽样方法只选择部分样本参与数据建模，剩余的数据用于模型检验。,二、数据选取方法,1、按指定条件选取（If condition is satisfiled）,用户以条件表达式的形式给出数据选取的条件。SPSS将自动对数据编辑窗口中的所有个案进行条件判断。那些满足条件的个案，即条件判断为真

8、的个案将被自动选取出来，而那些条件判断为假的个案则不被选中。,2、随机选取（Random sample of cases）,第一，近似选取（Approximately）,要求用户给出一个百分比数值。SPSS将按照这个比例自动从数据编辑窗口中随机抽取出相应百分比数目的个案。,随机是根据SPSS随机数种子发生器设计和实现的。,转换 - 随机数字生成器,设置的菜单是：,兼容版本 12. 版本 12 和早期版本中所使用的随机数字生成器。如果您要重新生成在早期版本中根据指定的种子值生成的随机结果，可使用此随机数字生成器。,较新的随机数生成器，可实现更可靠的模拟。如果从 SPSS 12 或早期版本再现随机

9、结果是问题，那么可使用此随机数生成器。,表示随机数种子每次自动取一个新的值，是SPSS默认的选项，这样随机化结果不会重复出现。,表示随机数种子为一个具体的正整数（该整数应小于等于2000000），一般用于随机化结果需要重复出现的情况,第二，精确抽样（Exactly）,精确抽样要求用户给出两个参数。第一个参数是希望选取的个案数，第二个参数是指定在前几个个案中选取。SPSS自动在数据编辑窗口的前若干个个案中随机精确地抽出相应个数的个案来。,3、选取某一区域内的样本（Based on time or case range）,选取数据编辑窗口中样本号在指定范围内的所有个案，要求给出这个范围的上、下界个

10、案号码。这种抽样方法适用于时间序列数据。,4、通过过滤变量选取样本（ Use filter variable ），,依据过滤变量的取值进行样本选取。要求指定一个变量作为过滤变量，变量值为非0或非系统缺失值的个案将被选中。这种方法通常用于排除包含系统缺失值的个案。,选取结果说明：,（1）完成数据选取后，以后的SPSS分析操作仅针对那些被选中的个案直到用户再次改变数据的选取为止。,（2）采用指定条件选取和随机抽样方法进行数据选取后，SPSS将在数据编辑窗口中自动生成名为filter_$的新变量，取值为1或0。1表示本个案被选中，0表示未被选中。该变量是SPSS产生的中间变量，若删除它则自动取消样本

11、抽样。,三、数据选取的应用举例,利用住房状况调查.sav，采用以下两种样本选取方案： 1、希望仅对具有本市户口的家庭住房状况进行分析，因此应只选择本市户口的住户样本。 2、希望对全部样本的70的数据进行分析，因此应采用随机选取中的近似选取方法进行抽样。,SPSS数据选取的基本操作步骤如下：,（1）选择菜单：,数据- 选择个案,（2）在选择个案框中选择抽样方法。,（3）指定对未选中个案的处理方式。一般采用过滤掉为选中的个案。,三、数据选取的应用举例,第1种抽样方案应选择指定条件选取；,三、数据选取的应用举例,第2种抽样方案选择随机选取下的近似选取。,3-4 计数,一、计数目的,计数在实际工作中是

12、非常普遍的应用之一，它虽然简单，但却对把握个案各方面的特征很有效。,例如，对大学某毕业班同学的学习成绩进行综合评价时，可以依次计算每个学生的若干门专业课中有几门课程得了优，有几门课程得了良，有几门得了中，等等，并以门次为权重做进一步的分析。计算门次数据的过程就是一个计数过程。,SPSS实现的计数是对所有个案或满足某条件的部分个案，计算若干变量中有几个变量的值落在指定的区间内，并将计数结果存入一个新变量中的过程。,SPSS实现计数的关键步骤是：指定哪些变量参与计数，计数的结果存入哪个新变量中。指定计数区间。（骤尤为关键）,二、计数区间,单个变量值（Value）系统缺失值（System-mi

13、ssing）系统缺失值或用户缺失值（ System or user-missing）给定最大值和最小值的区间（n through m）小于等于某指定值的区间（Lowest through n）大于等于某指定值的区间（n through highest）,三、计数的应用举例,利用住房状况调查.sav，分析被调查家庭中有多少比例的家庭对目前的住房满意且近几年不准备购买住房。,SPSS计数的基本操作步骤如下：,（1）选择菜单：,转换 - 对个案内的值计数,（2）选择参与计数的变量到变量框中。,（3）在目标标签框中输入存放计数结果的变量名，并在目标变量框中输入相应的变量名标签。,（4）按定义按

14、钮定义计数区间，通过添加、更改、删除按钮完成计数区间的增加、修改和删除。,（5）如果仅希望对满足某条件的个案进行计数，则按如果按钮并输入相应的SPSS条件表达式。否则，本步略。,三、计数的应用举例,3-5 分类汇总,一、分类汇总的目的,分类汇总是按照某分类变量进行分类汇总计算。,例如：某企业希望了解本企业不同学历职工的基本工资上是否存在较大差距。最简单的做法就是分类汇总，即将职工按学历进行分类，分别计算不同学历职工的平均工资，然后可对平均工资进行比较,SPSS实现分类汇总涉及两个主要方面：,按照哪个变量进行分类,对哪个变量进行汇总，并指定对汇总变量计算哪些统计量。,二、分类汇总的应用举例,利用

15、住房状况调查.sav，分析本市户口家庭和外地户口家庭目前人均住房面积的平均值是否有较大差距，未来打算购买住房的平均面积是否有较大差距。,SPSS分类汇总的基本操作步骤如下：,（1）选择菜单：,数据- 分类汇总,（2）指定变量到分组变量框，汇总变量到汇总变量框。,（3）按函数按钮指定对汇总变量计算哪些统计量。SPSS默认计算均值。,（4）指定将分类汇总结果保存到何处。,（5）按变量名与标签按钮重新指定结果文件中的变量名或加变量名标签。默认变量名为原变量名后加_mean,（6）如果希望在结果文件中保存各分类组的个案数，则选择个案数选项，生成一个默认名为N_BREAK的变量。,二、分类汇总的应用举例

16、,表示将分类结果覆盖数据编辑窗口中的数据。,表示将结果生成到用户自己确定名称的数据集。,表示将结果生成到系统默认的名为aggr.sav数据文件中,由上表可以见，本市户口和外地户口目前人均住房面积的均值存在一些差异，而计划买房面积的均值差异并不大。但值得注意的是本市户口的样本量远多余外地户口的样本量。另外，调查数据中，未来不打算买房子的家庭在“计划面积”等变量上取值为系统缺失值，在分类汇总计算“计划面积”的均值时，SPSS会自动剔除那些系统缺失值的样本，因而平均值的计算将不受缺失样本的影响。,（1）分类汇总中的分类变量可以是多个，此时的分类汇总称为多重分类汇总。（2）类似于数据的排序，在多重分类汇总中，指定多个分类变量的前后次序是很关键的。第一个指定的分类变量为主分类变量，其他的依次为第二、第三分类变量等，它们决定了分类汇总的先后次序。,分类汇总说明：,3-6 数据分组,一、数据分组的目的,数据分组就是根据统计研究的需要，将数据按照某种标准重新划分为不同的组别。,数据分组是对定

展开阅读全文

第三章spss数据的预处理

最新文档