《第问卷数据的录入与清理》由会员分享,可在线阅读,更多相关《第问卷数据的录入与清理(30页珍藏版)》请在金锄头文库上搜索。
1、第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理统计数据分析基础教程统计数据分析基础教程基于基于SPSSSPSS和和ExcelExcel的调查数据分析的调查数据分析第第3 3章章问卷数据的录入与清理问卷数据的录入与清理第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理本章内容本章内容3.1 问卷数据的录入问卷数据的录入3.2 在在Excel中录入数据中录入数据3.3 核对和清理数据核对和清理数据3.4 在在Excel中核对数据中核对数据3.5 在在SPSS中录入数据中录入数据3.6 在在SPSS中核对数据中核对数据附录附录 Excel数据分析工具数据分析工具附录附录 在在Exce
2、l中生成随机数中生成随机数第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理问卷数据的录入与清理问卷数据的录入与清理进进行行数数据据统统计计分分析析之之前前,必必须须先先将将问卷数据录入计算机问卷数据录入计算机。为为了了保保证证不不“GIGO,Garbage In Garbage Out”(垃垃圾圾进进垃垃圾圾出出),在在统统计计分分析析之之前前,需需要要对对录录入入的的数据进行核对和清理数据进行核对和清理。第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.13.1 问卷数据的录入问卷数据的录入数数据据输输入入就就是是将将问问卷卷数数据据所所对对应应的的编编码码通通过过扫扫描描
3、或或用用键键盘盘输输入入计计算算机机,建建立立数据文件数据文件的过程的过程。目前,数据输入的方式主要有三种目前,数据输入的方式主要有三种:人工输入人工输入计算机辅助系统转换计算机辅助系统转换光电输入光电输入第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.13.1 问卷数据的录入问卷数据的录入(人工输入人工输入)人工输入人工输入的注意事项:的注意事项:要要规定定统一一的的输入内容和入内容和输入格式。入格式。挑挑选和培和培训数据数据输入人入人员。数据数据输入入过程中需要注意:程中需要注意:u第一,第一,统一一规定定数据文件名数据文件名。u第第二二,数数据据输入入时要要为每每一一个个输入
4、入人人员提提供供一一份份有有关关输入入内内容容和格式的和格式的手册手册。u第第三三,要要为每每个个输入入人人员提提供供足足够的的空空间摆放放问卷卷,避避免免不不同同输入入人人员的的问卷卷或或者者同同一一输入入人人员已已输入入和和未未输入入的的问卷卷发生生混淆,造成漏混淆,造成漏输或重复或重复输入,影响入,影响问卷的卷的质量。量。u第第四四,每每个个输入入人人员在在完完成成各各自自负责的的问卷卷的的输入入任任务后后,由由研研究究者者把把他他们的的数数据据合合并并成成一一个个总的的数数据据文文件件,以以供供统计分分析析使使用用。为了了避避免免数数据据丢失失,要要把把每每个个输入入人人员输入入的的数
5、数据据单独独存档,以存档,以备查找。找。第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.2 3.2 在在ExcelExcel中录入数据中录入数据(单选题单选题)1 1确定取得确定取得单一单一答案答案2 2尽可能使用尽可能使用单选题单选题3 3单选题如何单选题如何编码编码和和输入输入Q1.Q1.请问您现在是否拥有手机?请问您现在是否拥有手机?1.1.有有 2.2.没有(跳至没有(跳至Q12Q12题)题)例例3-1 3-1 在在ExcelExcel中录入单选题中录入单选题Q1Q1的数据的数据单选题的编码和输入(用单选题的编码和输入(用文字文字当列名,图当列名,图3-13-1)单选题的编
6、码和输入(用单选题的编码和输入(用题号题号当列名,图当列名,图3-23-2)第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.2 3.2 在在ExcelExcel中录入数据中录入数据(单选题单选题)例例3-1 在在Excel中录入单选题中录入单选题Q1的数据的数据单选题的编码和输入(用单选题的编码和输入(用文字文字当列名,图当列名,图3-1)单选题的编码和输入(用单选题的编码和输入(用题号题号当列名,图当列名,图3-2)第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.2 3.2 在在ExcelExcel中录入数据中录入数据(多选题多选题)多选题分为多选题分为多项限选题多项
7、限选题、多项排序题多项排序题、多项任选题多项任选题。Q2.请问您当初购买手机的原因是什么?(可多选,最多请问您当初购买手机的原因是什么?(可多选,最多3项)项)1.方便与家人联络方便与家人联络 2.方便与朋友同学联络方便与朋友同学联络 3.追求流行追求流行4.工作需要工作需要 5.同学间比较的心理同学间比较的心理 6. 别人赠送别人赠送7.手机价格下降手机价格下降 8.厂商推出的促销方案厂商推出的促销方案 9.网内互打较便宜网内互打较便宜 10.其他其他例例3-2 在在Excel中录入多选题中录入多选题Q2的数据的数据多多选题选题的编码有的编码有2种:种:分类法分类法和和二分法二分法。“分类法
8、分类法”编码和输入(图编码和输入(图3-3)“二分法二分法”编码和输入编码和输入有关有关“分类法分类法”和和“二分法二分法”编码,请参见编码,请参见P7274冻结窗格冻结窗格(比较图(比较图3-4和图和图3-5)第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.2 3.2 在在ExcelExcel中录入数据中录入数据(多选题多选题)例例3-2 在在Excel中录入多选题中录入多选题Q2的数据的数据“分类法分类法”编码和输入(图编码和输入(图3-3)第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.2 3.2 在在ExcelExcel中录入数据中录入数据(多选题多选题)例例3
9、-2 在在Excel中录入多选题中录入多选题Q2的数据的数据冻结窗格冻结窗格(比较图(比较图3-4和图和图3-5)第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.23.2 在在ExcelExcel中录入数据中录入数据(填空题填空题)填空题填空题也称也称开放题开放题,不提示任何答案,要求使用者直接填写,不提示任何答案,要求使用者直接填写。对对数数值值型型的的数数据据,为为了了取取得得其其真真正正的的数数字字(如如:55),而而非非只只取取得得区区间间(如如:4160),会会采采用用填填空空题题的的方方式式取取得得数数据据(定定量量数据,数值型数据数据,数值型数据),例如:),例如:
10、请问您平均每个月手机的话费约请问您平均每个月手机的话费约 元?元? 定定量量数数据据可可不不经经任任何何转转换换,即即可可计计算算各各种种统统计计量量:均均值值、标标准准差差、最最大大值值、最最小小值值等等,而而且且也也可可以以直直接接进进行行均均值值比比较较与与检检验验,甚甚至至可以作为回归分析的因变量或自变量。可以作为回归分析的因变量或自变量。如果为了取得数据的方便,就设计成选择题(如果为了取得数据的方便,就设计成选择题(单选题单选题):):请问您平均每个月手机的话费约多少钱?请问您平均每个月手机的话费约多少钱?1.201.20元及以下元及以下 2.212.214040元元3.413.41
11、6060元元 4.614.618080元元5.815.81100100元元6.1016.101元及以上元及以上例例3-3 在在Excel中录入填空题的数据中录入填空题的数据(图(图3-6)第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.23.2 在在ExcelExcel中录入数据中录入数据(填空题填空题)例例3-3 在在Excel中录入填空题的数据中录入填空题的数据( (图图3-6)3-6)第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.23.2 在在ExcelExcel中录入数据中录入数据(量表量表)量量表表其其实实是是一一种种顺顺序序尺尺度度(有有序序变变量量),只
12、只有有大大小小先先后后的的关系,无倍数关系。关系,无倍数关系。量量表表有有多多种种编编码码方方式式,如如P60的的表表3-2是是量量表表常常用用的的三三种种编编码方式。码方式。例例3-4 在在Excel中录入量表的数据中录入量表的数据(图(图3-7)产品属性产品属性非常重要非常重要重要重要普通普通不重要不重要非常不重要非常不重要(1)大小适中)大小适中54321(2)重量轻巧)重量轻巧54321(3)颜色炫丽)颜色炫丽54321(4)外型大方)外型大方54321(5)符合人体工学)符合人体工学54321(6)附属功能多)附属功能多54321补充:输入数据时,对于补充:输入数据时,对于量表编码,
13、要取得同向,量表编码,要取得同向,如如P34的例的例2-26,反向题,反向题要正向编码后再输入要正向编码后再输入第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.23.2 在在ExcelExcel中录入数据中录入数据(量表量表)例例3-4 在在Excel中录入量表的数据中录入量表的数据(图(图3-7)第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.2 3.2 在在ExcelExcel中录入数据中录入数据(排名题排名题)排名(多项排序)是一种衡量的方式。如排名(多项排序)是一种衡量的方式。如:下列几种手机的入网方式,请问您认为哪一种的收费最便宜?下列几种手机的入网方式,请问
14、您认为哪一种的收费最便宜?请依排名顺序,填入请依排名顺序,填入1 1、2 2、3 3、4 4、5 5:全球通全球通 神州行神州行 如意通如意通 动感地带动感地带 新时空新时空 分分此此种种类类型型的的问问卷卷,作作为为被被排排名名的的对对象象也也不不宜宜太太多多。否否则则,受受访访者者也也无无法法排排列列好好。排排个个5、6项基本就是上限了。项基本就是上限了。例例3-5 在在Excel中录入排名题的数据中录入排名题的数据(图(图3-8)可将可将排名题排名题改为改为单选题单选题第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.2 3.2 在在ExcelExcel中录入数据中录入数据(排
15、名题排名题)例例3-5 在在Excel中录入排名题的数据中录入排名题的数据(图(图3-8)第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.33.3 核对和清理数据核对和清理数据数据数据有效范围有效范围的清理的清理对数据中的对数据中的奇异值奇异值进行清理。进行清理。数据数据逻辑一致性逻辑一致性的清理的清理依依据据问问卷卷中中的的问问题题相相互互之之间间所所存存在在的的某某种种内内在在的的逻逻辑辑联联系系,来来检检查查前前后后数数据据之之间间的的合合理理性,主要针对的是性,主要针对的是相倚问题相倚问题和和多项限选题多项限选题。数据数据质量质量的抽查的抽查个案(个案(个案(个案(Case
16、Case):一份):一份):一份):一份问卷的数据在计算机中问卷的数据在计算机中问卷的数据在计算机中问卷的数据在计算机中的编码值,占一行的编码值,占一行的编码值,占一行的编码值,占一行第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.4 3.4 在在ExcelExcel中核对数据中核对数据筛选出筛选出范围不合理范围不合理的单列的单列例例3-6 在在Excel中核对中核对“大小适中大小适中”的数据的数据用自动筛选找出用自动筛选找出不合理的关联题不合理的关联题例例3-7 在在Excel中中核核对对关关联联题题“是是否否有有手手机机”与与“平均月费平均月费”的数据的数据用高级筛选找出用高级
17、筛选找出重复的重复的记录记录例例3-8 用用Excel处理重复的记录处理重复的记录第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.4 3.4 在在ExcelExcel中核对数据中核对数据筛选出筛选出范围不合理范围不合理的单列的单列例例3-6 在在Excel中核对中核对“大小适中大小适中”的数据的数据第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.4 3.4 在在ExcelExcel中核对数据中核对数据用自动筛选找出用自动筛选找出不合理的关联题不合理的关联题例例3-7 在在Excel中中核核对对关关联联题题“是是否否有有手手机机”与与“平均月费平均月费”的数据的数据没有没
18、有手机手机但有但有手机手机话费话费有手有手机但机但没有没有手机手机话费话费第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.4 3.4 在在ExcelExcel中核对数据中核对数据用高级筛选找出用高级筛选找出重复的重复的记录记录例例3-8 用用Excel处理重复的记录处理重复的记录第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.5 3.5 在在SPSSSPSS中录入数据中录入数据手工建立数据文件手工建立数据文件例例3-9 在在SPSS中,手工建立调查问卷的数据文件中,手工建立调查问卷的数据文件1.调查问卷(调查问卷(P6869)2.确定变量的个数确定变量的个数3.在在SP
19、SS中定义变量中定义变量4.单选题的变量定义单选题的变量定义5.多选题的变量定义:多选题的变量定义:二分法二分法和和分类法分类法 从从Excel获取数据文件获取数据文件例例3-10 将将Excel中的数据导入到中的数据导入到SPSS数据文件中数据文件中方方法法一一:先先在在SPSS中中定定义义好好变变量量,然然后后通通过过“复复制制粘粘贴贴”方式将数据从方式将数据从Excel复制到复制到SPSS中。中。方方法法二二:利利用用打打开开数数据据文文件件的的方方法法直直接接把把Excel中中的的数数据据导导入到入到SPSS中,然后再定义变量属性。中,然后再定义变量属性。第第3 3章章 问卷数据问卷数
20、据的录入与清理的录入与清理3.5 3.5 在在SPSSSPSS中录入数据中录入数据多选题的变量定义:多选题的变量定义:二分法二分法和和分类法分类法 二二分分法法(Multiple Dichotomies Method):将将每每个个可可能能的的答答案案设设为为一一个个变变量量,变变量量的的取取值值最最多多有有两两个个(1和和0),分分别别表表示示“选选”或或“不不选选”(在在实实际际应应用用中中,经经常常只只有有一一个个取取值值1,表表示示“选选”,而而用用空空值值表表示示“不不选选”)。这这种种方方法法的的缺缺点点是是需需要要的的变变量量个个数数比比较较多多;优优点点是是比比较较简简单单。二
21、二分分法法常常用用于于“不不限限选选” 和和 “限限选选不不排排名名” 。 分分类类法法(Multiple Category Method):分分类类法法常常用用于于“限限选选”(很很少少用用于于“不不限限选选”),包包括括“限限选选不不排排名名” 和和“限限选选排排名名” 。按按照照限限选选的的最最多多答答案案设设置置变变量量个个数数,每每个个变变量量的的取取值值为为选选项项值值。比比如如,一一个个多多选选题题,如如果果最最多多可可选选3个个答答案案,那那就就设设置置3个个变变量量,分分别别用用来来存存放放3个个可可能能的的答答案案。如如果果某某受受访访者者只只填填答答两两个个,那那么么第第
22、3个个变变量量的的取取值值为为缺缺失失值值;如如果果某某受受访访者者只只填填答答一一个个,那那么么第第2、3个个变变量量的的取取值值均均为为缺缺失失值值。分分类类法法的的优优点点是是需需要要的变量个数比较少的变量个数比较少。第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理补充补充: :限选不排序多选题的两种编码三种组合方式限选不排序多选题的两种编码三种组合方式以问题以问题5 5(Q5Q5)限选不排序多选题限选不排序多选题为例为例方式方式1 1:二分法二分法编码:编码:P73P73的表的表3-53-5(4 4个变量,编码为个变量,编码为1 1) 方式方式2 2:分类法分类法编码:编码:P
23、73P73的表的表3-63-6(2 2个变量,编码为个变量,编码为1 1、2 2、3 3、4 4)补补充充方方式式3 3:变变量量个个数数采采用用二二分分法法(4 4个个变变量量),编编码码采采用用分分类类法法(1 1、2 2、3 3、4 4),具体如下:),具体如下: NameNameTypeTypeLabelLabelValuesValues例子的取例子的取值Q5_1Q5_1N N家庭就家庭就业人数增加人数增加1=家庭就业人数增加,家庭就业人数增加,2=工资工资增加,增加,3=奖金和津贴增加,奖金和津贴增加,4=其他收入来源增加其他收入来源增加Q5_2Q5_2N N工工资增加增加同上同上2
24、 2Q5_3Q5_3N N奖金和津金和津贴增加增加同上同上 3 3Q5_4Q5_4N N其他收入其他收入来源增加来源增加同上同上 建议建议:应用案例实验:应用案例实验1 1,如果,如果限选不排序多选题限选不排序多选题的选项的选项超过超过了了2 2项(如:可多选,最多项(如:可多选,最多3 3项),建议采用项),建议采用方式方式3 3,这样的好处是这样的好处是核对核对容易。请参见容易。请参见“补充:多选题两种编码和核对补充:多选题两种编码和核对. .xlsxls”实际应用中,实际应用中,建议建议采用采用方方式式2 2。因为因为一般一般只只核对核对单列数单列数据据有效范围有效范围,很少核对很少核对
25、逻逻辑一致性辑一致性第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理改错:改错:P74P74的表的表3 39 9改为改为由由于于采采用用“分分类类法法”编编码码,所所以以在在SPSSSPSS中中的的ValuesValues也也应应该该是是分类法分类法编码,而不是简单的编码,而不是简单的“选选”或空白。或空白。修修改改的的目目的的:在在用用SPSSSPSS进进行行多多选选变变量量的的频频率率分分析析时时(具具体体见见第六章),第六章),SPSSSPSS的输出结果的输出结果可读性好可读性好。NameName变量名量名TypeType类型型LabelLabel变量名量名标签ValuesVal
26、ues变量量值标签例子的取例子的取值Q7_1Q7_1N N银行理行理财1=1=银行理行理财,2=2=股票,股票,3=3=债券,券, 4=4=股票型基金,股票型基金,5=5=货币基金,基金,6=6=外外汇,7=7=其他其他Q7_2Q7_2N N股票股票同上同上2 2Q7_3Q7_3N N债券券同上同上3 3Q7_4Q7_4N N股票型基金股票型基金同上同上Q7_5Q7_5N N货币基金基金同上同上Q7_6Q7_6N N外外汇同上同上6 6Q7_7Q7_7N N其他其他同上同上第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.5 3.5 在在SPSSSPSS中录入数据中录入数据从从Exc
27、el获取数据文件获取数据文件例例3-10 将将Excel中的数据导入到中的数据导入到SPSS数据文件中数据文件中方方法法一一:先先在在SPSS中中定定义义好好变变量量,然然后后通通过过“复复制制粘贴粘贴”方式将方式将数据数据从从Excel复制到复制到SPSS中。中。方方法法二二:利利用用打打开开数数据据文文件件的的方方法法直直接接把把Excel中中的的数数据据导导入入到到SPSS中中,然然后后再再定定义义变变量量属属性性。具具体体如如下下 : 在在 SPSS中中 , 单单 击击 菜菜 单单 “File”-“Open”-“Data”,进进入入“Open File”对对话话框框,在在最最下下面面的
28、的“文文件件类类型型”框框中中选选择择“Excel(*.xls)”,然然后后选选择择录录入入好好数数据据的的Excel文文件件(要要求求该该文文件件暂暂时时没没有有被被Excel打打开开),单单击击“打打开开”,进进入入“Opening Excel Data Source”对对话话框框,单单击击“OK”。 定定义义变变量量属属性性:对对每每个个变变量量进进行行进进一一步步的的定定义义(如如变变量量名名标标签签、变变量量值值标签等),以期达到标签等),以期达到SPSS分析所要求的目的分析所要求的目的第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.6 3.6 在在SPSSSPSS中核对
29、数据中核对数据利利 用用 SPSS的的 一一 维维 频频 率率 分分 析析Frequencies命命令令可可以以发发现现单单变变量量范范围不合理的数据。围不合理的数据。利利用用SPSS的的交交叉叉表表分分析析Crosstabs命命令令可可以以发发现现两两个个变变量量之之间间的的逻逻辑辑一一致性问题。致性问题。第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理实践题实践题19991999年关于外商投资企业雇员调查问卷(年关于外商投资企业雇员调查问卷(P80P808181)要求要求: :(1 1)确定问卷中每个问题应该设置的变量的个)确定问卷中每个问题应该设置的变量的个数数,并区分是定性(分
30、类)变量还是定量(数,并区分是定性(分类)变量还是定量(数值型)变量值型)变量。(2 2)给每个变量定义变量名、数据类型、变量)给每个变量定义变量名、数据类型、变量名标签。名标签。(3 3)对于定性(分类)变量,定义相应的变量)对于定性(分类)变量,定义相应的变量值标签(类别编码含义)。值标签(类别编码含义)。(4 4)自己填写一份问卷,并把有关信息输入数)自己填写一份问卷,并把有关信息输入数据文件中。据文件中。(5 5)利用)利用ExcelExcel随机数发生器,按照问题的编随机数发生器,按照问题的编码,随机生成码,随机生成900900份问卷数据,并对生成的数据份问卷数据,并对生成的数据进行
31、核对。进行核对。(6 6)保存这)保存这901901份问卷的数据。份问卷的数据。请参见请参见实验实验3.4随机数随机数生成方法生成方法请参见请参见实验实验3.1实验实验3.2第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理附录附录 Excel Excel数据分析工具数据分析工具 1. Excel1. Excel数据分析工具及其安装数据分析工具及其安装(1 1)工作表函数与数据分析工具的区别)工作表函数与数据分析工具的区别(2 2)数据分析工具的安装(两种方法)数据分析工具的安装(两种方法)u方法二有方法二有2 2个要求个要求ExcelExcel软件的菜单软件的菜单“工具工具” “宏宏”
32、 “安全性安全性”为为“中中”;AnalysisAnalysis文件夹下的文件夹下的5 5个文件都要有个文件都要有2. 2. 统计分析工具的内容统计分析工具的内容3. 3. 统计分析工具的使用统计分析工具的使用更详细的安装步更详细的安装步骤请参见骤请参见AnalysisAnalysis文件夹文件夹下的下的“ExcelExcel数据数据分析工具的安装分析工具的安装说明说明.doc.doc”第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理附录附录 在在ExcelExcel中生成随机数中生成随机数1 1在在ExcelExcel中生成中生成序号序号2 2在在ExcelExcel中生成中生成随机数随机数利用利用“数据分析数据分析”工具工具“离散离散”分布分布“柏(伯)努利柏(伯)努利”分布分布 利用利用RANDBETWEENRANDBETWEEN随机随机整数函数整数函数由于每次计算工作表时都将返回一个新的由于每次计算工作表时都将返回一个新的数值,所以最好能够将其产生的随机整数数值,所以最好能够将其产生的随机整数保存不变,具体做法是先保存不变,具体做法是先“复制复制”再在原再在原处处“粘贴粘贴”为为“值值”。变量个数变量个数(m):表示要产生):表示要产生m列列随机数个数随机数个数(n):表示要产生):表示要产生n行行一共产生一共产生n行行m列列的随机数的随机数