数据的编码录入与整理.PPT

上传人:cl****1 文档编号:567692992 上传时间:2024-07-22 格式:PPT 页数:48 大小:1.39MB
返回 下载 相关 举报
数据的编码录入与整理.PPT_第1页
第1页 / 共48页
数据的编码录入与整理.PPT_第2页
第2页 / 共48页
数据的编码录入与整理.PPT_第3页
第3页 / 共48页
数据的编码录入与整理.PPT_第4页
第4页 / 共48页
数据的编码录入与整理.PPT_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《数据的编码录入与整理.PPT》由会员分享,可在线阅读,更多相关《数据的编码录入与整理.PPT(48页珍藏版)》请在金锄头文库上搜索。

1、Shanghai University of International Business and Ecnomics第第7 7讲讲数据的编码、录入与整理数据的编码、录入与整理1Shanghai University of International Business and Ecnomics获取数据-建立数据文件 数据清洗-数据转换、加工整理 选择合适方法进行统计分析解释分析结果、辅助决策数据从哪来?2Shanghai University of International Business and Ecnomics数据从哪里来?数据从哪里来?1.1.企业内部数据库企业内部数据库2.2.问卷调

2、查问卷调查(网络问卷、街头问卷)(网络问卷、街头问卷)3.3.访谈访谈4.4.网络搜索网络搜索5.5.专业的数据机构提供(如:辛迪加数据)专业的数据机构提供(如:辛迪加数据)6.6.文献资料文献资料7.7.实验实验3Shanghai University of International Business and Ecnomics一、数据的编码概念一、数据的编码概念1.1.原理原理 就是把通过问卷调查获得的资料转变为SPSS能够识别的数据文件,为各种统计分析做好准备。2.2.数据编码概念数据编码概念 数据编码是指把需要加工处理的数据库信息,用特定的数字来表示的一种技术。 根据一定数据结构和目标

3、的定性特征,将数据转换为代码或编码字符,在数据传输中表示数据的组成,并作为传送、接受和处理的一组规则和约定。4Shanghai University of International Business and Ecnomics二、数据问卷与编码二、数据问卷与编码(举例)(举例)问卷量表问卷量表序号序号调查内容调查内容选项选项1您的性别:(1)男 (2)女2你的文化程度:(1)没上过学 (2)小学 (3)初中 (4)高中 (5)大专以上3您想选择下列哪些择偶条件(最多选三项):(1)相貌 (2)文化水准 (3)气质风度 (4)志同道合 (5)人品 (6)家庭条件 (7)个人收入 (8)其他4您购

4、买房屋时,会考虑哪些因素(任选):(1)离工作地点的远近 (2)小孩所就读的学校 (3)居家附近的环境5您对心理学感兴趣:(A)不感兴趣 (B)感兴趣 (C)非常感兴趣6您对学英语感到厌恶:(A)不厌恶 (B)厌恶 (C)非常厌恶5Shanghai University of International Business and Ecnomics二、数据问卷与编码二、数据问卷与编码(举例)(举例)变量名变量名编码编码样例样例第1题1-男 ;2-女男1第2题1-没上过学;2-小学;3-初中;4-高中;5-大专以上小学2第3题-11-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家

5、庭条件;7-个人收入;8-其他文化水准2第3题-21-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条件;7-个人收入;8-其他志同道合4第3题-31-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条件;7-个人收入;8-其他人品5第4题-工作1-选;0-不选选1第4题-学校1-选;0-不选不选0第4题-环境1-选;0-不选选1第5题A B C(A-1,B-2,C-3)A1第6题A B C(A-3,B-2,C-1)A3问卷编码方案问卷编码方案6Shanghai University of International Business and Ecnomi

6、cs三、编码类型三、编码类型1.1.非数值型数据非数值型数据的编码的编码 非数值型数据的编码,首先要确定编码规则,然后根据规则对变量赋予分值。 双值型双值型变量的编码变量的编码多采用“0、1”或“1、2”来赋值;如编码示例中的第1题 多值型多值型变量的编码变量的编码采用 “1、2、3、”来赋值;如编码示例中的第2题 通常对非数值型数据编码,主要起到分组的作用,不能进行各种算术运算变量名变量名编码编码样例样例第1题1-男 ;0-女男1第2题1-没上过学;2-小学;3-初中;4-高中;5-大专以上小学27Shanghai University of International Business a

7、nd Ecnomics三、编码类型三、编码类型2.2.数值型数据数值型数据的编码的编码 数值型数据的编码就是根据调查问卷的评分标准对变量赋予分值。 通常采用三点计分、四点计分和五点计分等方式进行评分 如选项A、B、C计分为1、2、3 如选项A、B、C、D计分为1、2、3、4 编码示例中的第编码示例中的第5 5、6 6题就是属于数值型编码题就是属于数值型编码第5题是正向数值型(被选项的程度越高,分值越大)第6题是反向数值型(被选项的程度越高,分值越小)变量名变量名编码编码样例样例第5题A B C(A-1,B-2,C-3)A1第6题A B C(A-3,B-2,C-1)A38Shanghai Uni

8、versity of International Business and Ecnomics三、编码类型三、编码类型3.3.多项选择题多项选择题 多项选择题就是题目答案的选项是多选项,标准定义有两种:二分法和多重分类法任意任意多项二分法多项二分法 表示每一次可以任选几个选项; 编码方法把每一个被选项作为一个变量来定义, 每个变量只能选择“1或0”; 如编码示例中的第4题变量名变量名编码编码样例样例第3题-11-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条件;7-个人收入;8-其他文化水准2第3题-21-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条

9、件;7-个人收入;8-其他志同道合4第3题-31-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条件;7-个人收入;8-其他人品5第4题-工作1-选;0-不选选1第4题-学校1-选;0-不选不选0第4题-环境1-选;0-不选选14您购买房屋时,会考虑哪些因素(任选):(1)离工作地点的远近 (2)小孩所就读的学校 (3)居家附近的环境9Shanghai University of International Business and Ecnomics三、编码类型三、编码类型3.3.多项选择题多项选择题多选项多选项多重多重分类法分类法 限定了一次最多可以选择项目的个数; 不能

10、直接对题目进行编码,必须先确定最多选择, 并给每个选项建立一个变量; 如编码示例中的第3题变量名变量名编码编码样例样例第3题-11-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条件;7-个人收入;8-其他文化水准2第3题-21-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条件;7-个人收入;8-其他志同道合4第3题-31-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条件;7-个人收入;8-其他人品5第4题-工作1-选;0-不选选1第4题-学校1-选;0-不选不选0第4题-环境1-选;0-不选选13您想选择下列哪些择偶条件(最多选

11、三项):(1)相貌 (2)文化水准 (3)气质风度 (4)志同道合 (5)人品 (6)家庭条件 (7)个人收入 (8)其他10Shanghai University of International Business and Ecnomics四、缺失值的处理(数据清洗)四、缺失值的处理(数据清洗)1.1.概念概念 缺失值是指在数据采集与整理过程中丢失的内容,往往会给统计分析带来一些麻烦和误差。2.2.类型类型 用户用户缺失值缺失值在问卷调查中把不回答的选项当作缺失值来处理缺失值可用研究者能识别的数字来表示如“0、9、99”系统系统缺失值缺失值指计算机默认的缺失方式,如输入数据空缺、输入非法字符

12、等通常把缺失值标记为“.”11Shanghai University of International Business and Ecnomics四、缺失值的处理四、缺失值的处理3.3.缺失值处理方法缺失值处理方法 替代法:采用统计命令或在相关统计功能中利用参数替代 Transform Replace Missing Values 剔除法:剔除有缺失值的题目或剔除有缺失值的整份问卷12Shanghai University of International Business and Ecnomics五、数据处理中的操作术语五、数据处理中的操作术语个案个案(Cases)(Cases) 一个研究对

13、象就是一个个案;一个个案就是一条记录;在数据表格中表示为“一行”样本样本(Sample)(Sample) 是指具有共同属性的所有研究对象,如学生的所有信息 样本包含多个个案,在数据表格中表示为“n行”变量变量(Variable)(Variable) 是指问卷中每一个问题,数据库里字段,数据表格中表示为“一列”量值量值(Value)(Value) 是指问卷中的答案,也称为观测值,在SPSS系统里,单元格中的数值就是变量值13Shanghai University of International Business and Ecnomics六、六、SPSSSPSS窗口与定义变量窗口与定义变量启动S

14、PSS后进入数据编辑窗口,显示为一个空文件,输入数据前首先要定义变量。建立数据文件 数据加工整理 建模分析解释分析结果定义数据文件结构录入、修改、保存数据14Shanghai University of International Business and Ecnomics六、六、 SPSS SPSS窗口窗口数据窗口输出窗口代码窗口脚本窗口15Shanghai University of International Business and Ecnomics七、定义变量七、定义变量定义变量所包含的内容:变量名(Name):变量的名称变量类型(Type):变量的类型宽度(Width):存储变量值

15、的最大值(1可存储1个字节的字符,2可存储1个汉字)小数位数(Decimals):变量为数值类型时,小数后的位数变量标签(Label):对变量名的注释。光标在变量名上时,会显示该标签变量值标签(Values):变量标签的取值缺失值(Missing Values):定义缺失的值,例如,当定义99为缺失值时,当该变量的值为99时,把它认为是缺失值显示数据的列宽(Colums):与上面“宽度”不同,它只管显示对齐方式 (Align):左对齐、右对齐、居中量度类型(Measure):定比变量(Scale)、定序变量(Ordinal)、定类变量(Nominal)。只用于统计制图时坐标轴变量的区分和SPS

16、S决策树模块的变量定义。16Shanghai University of International Business and Ecnomics七、定义变量七、定义变量 单击数据编辑窗口左下方的“Variable View”标签或双击列的题头(Var),打开变量定义窗口,进行变量定义。17Shanghai University of International Business and Ecnomics七、定义变量七、定义变量1.1.定义变量名定义变量名 在定义变量窗口中Name下的单元格中输入变量名 变量名必须以字母开头,长度不超过8个 SPSS保留的关键词不能作为变量名 AND、OR、NO

17、T、WITH、TO、BY、GT、GE、LT、LE、EQ、NE、ALL等 SPSS中允许使用中文变量名,但尽量不要使用,以免出现兼容性问题18Shanghai University of International Business and Ecnomics七、定义变量七、定义变量2.2.定义变量类型、宽度及小数位数定义变量类型、宽度及小数位数 在Type下单击单元格,打开变量类型窗口,选择变量类型常用变量类型有:数值型(Numeric)日期型(Date)货币型(Dollar)字符型(String) 在Width、Decimal下单元格,选择宽度和小数位数,系统默认为“8”和“2”;或者在变量类

18、型窗口中设置19Shanghai University of International Business and Ecnomics七、定义变量七、定义变量3.3.定义定义变量标签变量标签 在Label下单击单元格,输入变量标签 SPSS允许变量标签长度为255字节4.4.定义定义变量值标签变量值标签 变量值标签是对变量的每一可能取值进一步描述,当变量是定类或定序变量时,非常有用。变量值标签系统默认为None 在Values下单击单元格,打开变量值标签窗口,输入变量值标签:“1”代表男,“2”代表女。选中显示值标签按钮 , ,可以通过下拉框录入性别。 20Shanghai University

19、 of International Business and Ecnomics七、定义变量七、定义变量5.5.定义缺失值定义缺失值 在在MissingMissing下单击单元格,打开缺失值窗口,输入缺失值下单击单元格,打开缺失值窗口,输入缺失值 No missing values:没有缺失值 Discrete missing values:定义13个单一数为缺失值 Range plus one optional discrete missing values:定义指定范围为缺失值,同时指定另外一个不在这一范围的单一数为缺失值21Shanghai University of Internatio

20、nal Business and Ecnomics七、定义变量七、定义变量6.6.变量定义的信息复制变量定义的信息复制 如果有多个变量的类型相同,可以先定义一个变量,然后把该变量定义的信息复制给新变量 操作步骤:操作步骤: 先定义一个变量 在该变量行号上单击右键,在快捷菜单中选择“Copy” 选择同类型新变量所在行,单击右键,在快捷菜单中选择“Paste” 22Shanghai University of International Business and Ecnomics八、数据的录入与导入八、数据的录入与导入SPSSSPSS作为一款数据分析软件,其实并作为一款数据分析软件,其实并不善于不

21、善于作数据录入。作数据录入。目前,多数市场调研公司都使用目前,多数市场调研公司都使用EpiDataEpiData软件作问卷录入,然后再将录入软件作问卷录入,然后再将录入结果导入结果导入SPSSSPSS中,而对于互联网公司而言,更多的是使用数据库或中,而对于互联网公司而言,更多的是使用数据库或.CSV.CSV格式文件。格式文件。SPSSSPSS具有强大的与其他软件共享数据文件的功能,能导入多种格式的数:具有强大的与其他软件共享数据文件的功能,能导入多种格式的数:23Shanghai University of International Business and Ecnomics八、数据的导入八

22、、数据的导入-Excel-Excel文件文件例一例一(1):(1):数据的导入数据的导入将EXCEL文件2-recode.xls导入到SPSS中启动启动SPSS;SPSS;步骤:步骤:FileFileOpenData.OpenData. 数据导入后,查看“Variable View”标签中的字段名、类型、宽度等。把导入后的数据文件保存为把导入后的数据文件保存为2-recode.sav2-recode.sav24Shanghai University of International Business and Ecnomics八、数据的导入八、数据的导入例一例一(2):(2):把把AccessA

23、ccess中中shift-MIS.accdbshift-MIS.accdb中的中的“学生表学生表”信息导入到信息导入到SPSSSPSS中中. .直接打开数据源直接打开数据源步骤:文件步骤:文件 打开数据库打开数据库 新查询新查询 (按照向导完成)(按照向导完成)25Shanghai University of International Business and Ecnomics26Shanghai University of International Business and Ecnomics九、数据的整理九、数据的整理1.1.概念概念 数据整理是对录入的数据进行转换、检测、量表统分、个案

24、选择、文件拆分与合并等操作,使原始数据生成后续研究所需要的数据。包含:文件级数据整理变量级数据整理其他 数据整理27Shanghai University of International Business and Ecnomics九、数据的整理九、数据的整理2.2.操作操作 SPSS实现数据整理的功能主要集中在“Data”和“Transform”两个菜单28Shanghai University of International Business and Ecnomics九、数据的整理(部分操作)九、数据的整理(部分操作)RecodeComputeSortSelect casesWeight

25、 casesCount29Shanghai University of International Business and Ecnomics九、数据的整理九、数据的整理-Recode-Recode数据分值的转换数据分值的转换 数据分值的转换是通过对数据进行重新编码来实现的。在SPSS中主要通过Recode命令来实现30Shanghai University of International Business and Ecnomics九、数据的整理九、数据的整理数据分值的转换数据分值的转换Into Same VariablesInto Same Variables: :编码后数据存放在原变量中

26、,覆盖原数据Into Different VariablesInto Different Variables:编码后数据存放在新定义的变量中,保留原数据 31Shanghai University of International Business and Ecnomics九、数据的整理九、数据的整理例二:例二: 假设一套量表共10题,每题有A、B、C三个选项,现有10个被试作答。要求根据评分规则,将被试的原始数据选择转换为量表分数注意:1、2、4、7、8、10:正向题3、5、6、9:反向题量表评分规则量表评分规则 题号选项12345678910A1131331131B2222222222C3

27、31311331310名被试的作答结果表名被试的作答结果表 题号被试123456789101ABBBABCACB2ABBCABCACB3ACBBABCABB4BBBBBACBCB5ACABBABABC6BCABABBBBA7BCCCABCABB8ACABBABACB9ABBBBACACB10BBBBABCBCC32Shanghai University of International Business and Ecnomics九、数据的整理九、数据的整理原数据转换后数据33Shanghai University of International Business and Ecnomics九、

28、数据的整理九、数据的整理操作步骤:操作步骤:数据输入:打开数据文件数据输入:打开数据文件(2-recode.sav)(2-recode.sav)Transform Recode Into Different Variables Transform Recode Into Different Variables 打开“Recode”对话框,定义新变量名打开“Old and New Value”对话框,定义转换规则或者在代码窗口输入:34Shanghai University of International Business and Ecnomics九、数据的整理九、数据的整理-Compute-

29、Compute量表的统分量表的统分 在数据录入过程中,输入的是最原始、最稳定的反应选项,但在后续的统计分析中通常需要对量表的总分进行推断统计。 量表的统分工作包括分量表的统分和总量表的统分,SPSS中通常用“Compute”命令实现量表的统分工作注:变量计算的目的分为 1. 数据的转换处理,新变量更具有直观有效的特点,如: 根据顾客的消费总金额和消费时间计算平均消费以预测理想客户;根据购房客户的贷款总额和按揭方案计算指标来评价客户的风险大小。 2.对数据原有分布状态进行转换。如:利用对数或多项式转换对非正态或非线性数据进行处理;对时间序列进行平稳化处理等。35Shanghai Universi

30、ty of International Business and Ecnomics九、数据的整理九、数据的整理- -量表统分量表统分例三:例三: 以分值转化后的数据文件2-recode.sav为例。 假定该量表由2个分量表构成,其中1个量表由第1、2、5、8、9题组成,另一个量表由第3、4、6、7、10题组成。 计算出每一个被试的分量表分和总量表分。36Shanghai University of International Business and Ecnomics九、数据的整理九、数据的整理操作步骤:操作步骤:打开数据文件2-recode.sav。Transform Compute (计算

31、分量表分flb1、flb2和总量表分zlb) 或者输入代码:或者输入代码:统分结果保存为2-lb.sav37Shanghai University of International Business and Ecnomics九、数据的整理九、数据的整理-Sort Cases-Sort Cases数据的排序数据的排序1.1.个案排序:个案排序:Data Sort Cases、2.2.变量排序变量排序 :Data Sort Variables注:排序使我们初步了解数据的离散程度,发现数据的异常值。38Shanghai University of International Business and

32、 Ecnomics九、数据的整理九、数据的整理例四:例四: 以数据文件2-lb.sav为例,找出变量zlb的高低分组的分组,一般以总个案的40%为界限确定高低分 39Shanghai University of International Business and Ecnomics九、数据的整理九、数据的整理操作步骤:操作步骤: 打开数据文件2-lb.sav Data Sort Cases 将分数排序,确定高分组和低分组的起点分数值 将变量zlb转换为变量zlb1(重新编码); 将高分组和低分组进行分组。 因为以总个案的40%为界限确定高低分,所以高分组和低分组各取4个个案 10*40%=4(

33、4个个案) 根据排序可以确定高分组和低分组的起点分数值分别为22和2040Shanghai University of International Business and Ecnomics九、数据的整理九、数据的整理-Slecte Cases-Slecte Cases数据的限选数据的限选 例五:例五:以SPSS系统随带数据文件Anxiety.sav为例 要求限选前20个个案进行后续统计分析。注:数据限选目的 1.提高数据分析效率 2.检验模型的需要41Shanghai University of International Business and Ecnomics九、数据的整理九、数据的整

34、理- -数据的限选数据的限选选择所有个案按指定条件选择个案对个案进行随机抽样按比例大概抽样精确抽样按范围选择个案 多余数据保留在原表中多余数据被删除42Shanghai University of International Business and Ecnomics九、数据的整理九、数据的整理操作步骤:操作步骤: 打开数据文件Anxiety.sav。 Data Select Cases 设置前20个个案。43Shanghai University of International Business and Ecnomics九、数据的整理九、数据的整理Weight CasesWeight Ca

35、ses数据加权数据加权 打开数据文件蔬菜销售.sav。 例六:统计该菜场当天平均菜价。44Shanghai University of International Business and Ecnomics九、数据的整理九、数据的整理Count Count 数据的计数数据的计数 SPSS SPSS有一项特定变量计数功能,可以计数一个观测变量中满足特定要求的那些变量值出现的次数,并将结果记录在新变量中。例七:利用住房数据标注出被调查家庭中对目前的住房不满意且近几年打算买房的个案。步骤:Transform Count Values with cases 45Shanghai University

36、of International Business and Ecnomics作业作业1.利用住房状况数据文件尝试标记出家庭收入在利用住房状况数据文件尝试标记出家庭收入在8000以上且未来打算买以上且未来打算买房的个案。房的个案。2.将学生成绩数据中的语文成绩进行自然对数变换,并保存文件。将学生成绩数据中的语文成绩进行自然对数变换,并保存文件。3.自学数据整理的其他操作,并了解其含义。自学数据整理的其他操作,并了解其含义。4.复习本讲内容,下周课前提问。复习本讲内容,下周课前提问。46Shanghai University of International Business and Ecnomics下节展望下节展望描述性统计掌握和了解样本数据的统计特征和总体分布形式频数分析描述统计量探索性分析交叉列联表分析47Shanghai University of International Business and Ecnomics谢结束结束谢48

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号