《第八章问卷检验与数据的录入(讲课)分析》由会员分享,可在线阅读,更多相关《第八章问卷检验与数据的录入(讲课)分析(96页珍藏版)》请在金锄头文库上搜索。
1、第八章第八章问卷检验与数据录入问卷检验与数据录入第一节第一节问卷的检验问卷的检验问卷调查法是营销研究中广泛采用的问卷调查法是营销研究中广泛采用的一种调查方法,根据调查目的设计的一种调查方法,根据调查目的设计的调查问卷是问卷调查法获取信息的工调查问卷是问卷调查法获取信息的工具,其质量高低对调查结果的真实性、具,其质量高低对调查结果的真实性、适用性等具有决定性的作用。适用性等具有决定性的作用。为了保证问卷具有较高的可靠性和有为了保证问卷具有较高的可靠性和有效性,在形成正式问卷之前,应当对效性,在形成正式问卷之前,应当对问卷进行试测,并对试测结果进行信问卷进行试测,并对试测结果进行信度和效度分析,根
2、据分析结果筛选问度和效度分析,根据分析结果筛选问卷题项,调整问卷结构,从而提高问卷题项,调整问卷结构,从而提高问卷的信度和效度。卷的信度和效度。信度和效度分析的方法包括逻辑分析信度和效度分析的方法包括逻辑分析和统计分析。和统计分析。一、信度分析信度(信度(Reliability)即可靠性,它)即可靠性,它是指采用同样的方法对同一对象重复是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。测量时所得结果的一致性程度。信度指标多以相关系数表示,大致可信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)性),等值系数
3、(跨形式的一致性)和内在一致性系数(跨项目的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种:。信度分析的方法主要有以下四种:1、重测信度法这一方法是用同样的问卷对同一组这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测,计被调查者间隔一定时间重复施测,计算两次施测结果的相关系数。显然,算两次施测结果的相关系数。显然,重测信度属于稳定系数。重测信度属于稳定系数。重测信度法特别适用于事实式问卷,重测信度法特别适用于事实式问卷,如性别、出生年月等在两次施测中不如性别、出生年月等在两次施测中不应有任何差异,大多数被调查者的兴应有任何差异,大多数被调查者的兴趣、爱好、习
4、惯等在短时间内也不会趣、爱好、习惯等在短时间内也不会有十分明显的变化。有十分明显的变化。1、重测信度法如果没有突发事件导致被调查者的如果没有突发事件导致被调查者的态度、意见突变,这种方法也适用于态度、意见突变,这种方法也适用于态度、意见式问卷。态度、意见式问卷。由于重测信度法需要对同一样本试测由于重测信度法需要对同一样本试测两次,被调查者容易受到各种事件、两次,被调查者容易受到各种事件、活动和他人的影响,而且间隔时间长活动和他人的影响,而且间隔时间长短也有一定限制,因此在实施中有一短也有一定限制,因此在实施中有一定困难。定困难。2、复本信度法复本信度法是让同一组被调查者一复本信度法是让同一组被
5、调查者一次填答两份问卷复本,计算两个复本次填答两份问卷复本,计算两个复本的相关系数。复本信度属于等值系数。的相关系数。复本信度属于等值系数。复本信度法要求两个复本除表述方式复本信度法要求两个复本除表述方式不同外,在内容、格式、难度和对应不同外,在内容、格式、难度和对应题项的提问方向等方面要完全一致,题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达而在实际调查中,很难使调查问卷达到这种要求,因此采用这种方法者较到这种要求,因此采用这种方法者较少。少。3、折半信度法折半信度法是将调查项目分为两半,折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计计算两半得分的相关系数
6、,进而估计整个量表的信度。折半信度属于内在整个量表的信度。折半信度属于内在一致性系数,测量的是两半题项得分一致性系数,测量的是两半题项得分间的一致性。间的一致性。这种方法一般不适用于事实式问卷这种方法一般不适用于事实式问卷(如年龄与性别无法相比),常用于(如年龄与性别无法相比),常用于态度、意见式问卷的信度分析。态度、意见式问卷的信度分析。折半信度分析折半信度分析进行折半信度分析时,如果量表中含进行折半信度分析时,如果量表中含有反意题项,应先将反意题项的得分有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分方向作逆向处理,以保证各题项得分方向的一致性,然后将全部题项按奇偶或的一致性,
7、然后将全部题项按奇偶或前后分为尽可能相等的两半,计算二前后分为尽可能相等的两半,计算二者的相关系数(者的相关系数(rhh,即半个量表的信,即半个量表的信度系数),最后用斯皮尔曼度系数),最后用斯皮尔曼-布朗布朗(Spearman-Brown)公式:)公式:rtt=2rhh/(1+rhh),求出整个量表的信度系数(求出整个量表的信度系数(ru)。)。4、信度系数法Cronbach信度系数是目前最常用信度系数是目前最常用的信度系数,其公式为:的信度系数,其公式为:其中,其中,K为量表中题项的总数,为量表中题项的总数,为为第第i题得分的题内方差,题得分的题内方差,为全部题项总为全部题项总得分的方差。
8、从公式中可以看出,得分的方差。从公式中可以看出,系系数评价的是量表中各题项得分间的一数评价的是量表中各题项得分间的一致性,属于内在一致性系数。这种方致性,属于内在一致性系数。这种方法适用于态度、意见式问卷(量表)法适用于态度、意见式问卷(量表)的信度分析。的信度分析。二、效度分析效度(效度(Validity)即有效性,它是)即有效性,它是指测量工具或手段能够准确测出所需指测量工具或手段能够准确测出所需测量的事物的程度。效度分为三种类测量的事物的程度。效度分为三种类型:内容效度、准则效度和结构效度。型:内容效度、准则效度和结构效度。效度分析有多种方法,其测量结果反效度分析有多种方法,其测量结果反
9、映效度的不同方面。常用于调查问卷映效度的不同方面。常用于调查问卷效度分析的方法主要有以下几种。效度分析的方法主要有以下几种。1、单项与总和相关效度分析这种方法用于测量量表的内容效度。这种方法用于测量量表的内容效度。内容效度又称表面效度或逻辑效度,内容效度又称表面效度或逻辑效度,它是指所设计的题项能否代表所要测它是指所设计的题项能否代表所要测量的内容或主题。量的内容或主题。对内容效度常采用逻辑分析与统计分对内容效度常采用逻辑分析与统计分析相结合的方法进行评价。逻辑分析析相结合的方法进行评价。逻辑分析一般由研究者或专家评判所选题项是一般由研究者或专家评判所选题项是否否“看上去看上去”符合测量的目的
10、和要求。符合测量的目的和要求。1、单项与总和相关效度分析统计分析主要采用单项与总和相关统计分析主要采用单项与总和相关分析法获得评价结果,即计算每个题分析法获得评价结果,即计算每个题项得分与题项总分的相关系数,根据项得分与题项总分的相关系数,根据相关是否显著判断是否有效。相关是否显著判断是否有效。若量表中有反意题项,应将其逆向处若量表中有反意题项,应将其逆向处理后再计算总分。理后再计算总分。2、准则效度分析准则效度又称为效标效度或预测效度。准则效度又称为效标效度或预测效度。准则效度分析是根据已经得到确定的某种准则效度分析是根据已经得到确定的某种理论,选择一种指标或测量工具作为准则理论,选择一种指
11、标或测量工具作为准则(效标),分析问卷题项与准则的联系,(效标),分析问卷题项与准则的联系,若二者相关显著,或者问卷题项对准则的若二者相关显著,或者问卷题项对准则的不同取值、特性表现出显著差异,则为有不同取值、特性表现出显著差异,则为有效的题项。效的题项。评价准则效度的方法是相关分析或差异显评价准则效度的方法是相关分析或差异显著性检验。在调查问卷的效度分析中,选著性检验。在调查问卷的效度分析中,选择一个合适的准则往往十分困难,使这种择一个合适的准则往往十分困难,使这种方法的应用受到一定限制。方法的应用受到一定限制。3、结构效度分析结构效度是指测量结果体现出来的结构效度是指测量结果体现出来的某种
12、结构与测值之间的对应程度。结某种结构与测值之间的对应程度。结构效度分析所采用的方法是因子分析。构效度分析所采用的方法是因子分析。有的学者认为,效度分析最理想的方有的学者认为,效度分析最理想的方法是利用因子分析测量量表或整个问法是利用因子分析测量量表或整个问卷的结构效度。因子分析的主要功能卷的结构效度。因子分析的主要功能是从量表全部变量(题项)中提取一是从量表全部变量(题项)中提取一些公因子,各公因子分别与某一群特些公因子,各公因子分别与某一群特定变量高度关联,这些公因子即代表定变量高度关联,这些公因子即代表了量表的基本结构。了量表的基本结构。通过因子分析可以考察问卷是否能够通过因子分析可以考察
13、问卷是否能够测量出研究者设计问卷时假设的某种测量出研究者设计问卷时假设的某种结构。在因子分析的结果中,用于评结构。在因子分析的结果中,用于评价结构效度的主要指标有累积贡献率、价结构效度的主要指标有累积贡献率、共同度和因子负荷。共同度和因子负荷。累积贡献率反映公因子对量表或问卷累积贡献率反映公因子对量表或问卷的累积有效程度,共同度反映由公因的累积有效程度,共同度反映由公因子解释原变量的有效程度,因子负荷子解释原变量的有效程度,因子负荷反映原变量与某个公因子的相关程度。反映原变量与某个公因子的相关程度。第二节第二节资料整理的一般程序资料整理的一般程序问卷接收问卷接收编辑和检查编辑和检查编编码码数据
14、的分析数据的分析缺失数据处缺失数据处理理数据录入数据录入资料整理程序资料整理程序数据资料的处理过程是从回收第一份数据资料的处理过程是从回收第一份问卷开始的。问卷开始的。按照事先调查方案的计划,尽量确保按照事先调查方案的计划,尽量确保每份问卷都是有效问卷(所谓每份问卷都是有效问卷(所谓“有效有效”问卷,指的是在调查过程中按照正问卷,指的是在调查过程中按照正确的方式执行完成的问卷)。确的方式执行完成的问卷)。第一节第一节数据整理的一般程序数据整理的一般程序问卷接收问卷接收编辑和检查编辑和检查编编码码数据的分析数据的分析缺失数据处缺失数据处理理数据录入数据录入数据整理程序数据整理程序一、问卷的接收一
15、、问卷的接收对于不同地区、不同调查员交来的问卷,应当认对于不同地区、不同调查员交来的问卷,应当认真仔细地做好接收、登记与核对工作。真仔细地做好接收、登记与核对工作。首先,要对问卷进行登记与编号;首先,要对问卷进行登记与编号;其次,要将无效问卷的进行剔除;其次,要将无效问卷的进行剔除;最后,还要确定补充调查。最后,还要确定补充调查。二、编辑和检查二、编辑和检查为了增加准确性,对那些初步为了增加准确性,对那些初步接收的问卷还要进一步进行检接收的问卷还要进一步进行检查和校订。主要检查是否清楚查和校订。主要检查是否清楚可认,是否完全,是否一致以可认,是否完全,是否一致以及是否明确不含糊等。及是否明确不
16、含糊等。对于检查出来的不满意问卷,对于检查出来的不满意问卷,常用以下方法进行处理常用以下方法进行处理:1.退回去重新填写;退回去重新填写;2.按缺失数据处理;按缺失数据处理;3.丢弃。丢弃。三、编三、编码码编码是指用代码来表示各组数编码是指用代码来表示各组数据资料使使其成为可进行计算据资料使使其成为可进行计算机处理和分析的信息。机处理和分析的信息。编码可以按照预先编码或事后编码可以按照预先编码或事后编码来进行。编码来进行。三、编三、编码码无论是哪种编码方式基本程序都包括以下几个方无论是哪种编码方式基本程序都包括以下几个方面:面:确定变量确定变量单选问题与多选问题的编码单选问题与多选问题的编码无
17、结构式(开放式)问题的编码无结构式(开放式)问题的编码编码说明书及数据输出格式说明书编码说明书及数据输出格式说明书四、数据录入四、数据录入数据录入要求做到准确无误。数据录入要求做到准确无误。控制录入误差的方法有:重复控制录入误差的方法有:重复录入、预值控制、平衡检测。录入、预值控制、平衡检测。五、缺失数据处理五、缺失数据处理缺失数据是指由于被调查者没缺失数据是指由于被调查者没有给出明确的答案或调查员没有给出明确的答案或调查员没有记录下他们的答案而造成未有记录下他们的答案而造成未知变量值。知变量值。缺失数据处理可以使用以下几缺失数据处理可以使用以下几种方法:种方法:1.用一个样本统计量去代替;用
18、一个样本统计量去代替;2.用某些统计模型进行推算;用某些统计模型进行推算;3.问卷整体剔除;问卷整体剔除;4.部份排除。部份排除。六、调查资料的分析六、调查资料的分析1.数据分析任务书数据分析任务书数据分析任务书一般应明确列举以下内容:数据分析任务书一般应明确列举以下内容:编制变量标识和变量制标识。编制变量标识和变量制标识。需要制作的统计表。需要制作的统计表。需要制作的统计图。需要制作的统计图。需要进行的统计分析。需要进行的统计分析。一、问卷的接收一、问卷的接收对于不同地区、不同调查员交来的问卷,应当认对于不同地区、不同调查员交来的问卷,应当认真仔细地做好接收、登记与核对工作。真仔细地做好接收
19、、登记与核对工作。首先,要对问卷进行登记与编号;首先,要对问卷进行登记与编号;其次,要将无效问卷的进行剔除;其次,要将无效问卷的进行剔除;最后,还要确定补充调查。最后,还要确定补充调查。问卷回收以后,督导员必须按照调查的要求,仔问卷回收以后,督导员必须按照调查的要求,仔细的检查问卷。检查问卷的目的在于将有错误填细的检查问卷。检查问卷的目的在于将有错误填写,或者是挑出不完整或不规范的问卷,保证数写,或者是挑出不完整或不规范的问卷,保证数据的准确性。据的准确性。所谓错误填写即出现了那些不合逻辑或根本不可所谓错误填写即出现了那些不合逻辑或根本不可能的结果,通过对调查员的复核,可以检查出哪能的结果,通
20、过对调查员的复核,可以检查出哪些调查员没有按照调查的要求去访问,那么,该些调查员没有按照调查的要求去访问,那么,该调查员完成的问卷可能存在很多问题。调查员完成的问卷可能存在很多问题。还有可能出现漏答了某些必须回答的问题,比如还有可能出现漏答了某些必须回答的问题,比如被访者的人口特征等基本情况,造成问卷回答不被访者的人口特征等基本情况,造成问卷回答不完整。完整。鉴于这些情况,不管是由于调查员造成的鉴于这些情况,不管是由于调查员造成的还是被访者的原因,通常有两种方式进行还是被访者的原因,通常有两种方式进行补救:补救:对于出现漏答的问卷,通常要求调查员对受访对于出现漏答的问卷,通常要求调查员对受访者
21、进行重访,以补充未答的问题;者进行重访,以补充未答的问题;如果不便于重访或重访后的问卷还有问题,数如果不便于重访或重访后的问卷还有问题,数目不是很多,可以当作缺失值计。如果数量非目不是很多,可以当作缺失值计。如果数量非常大,这份问卷就只能当作废卷处理,并且按常大,这份问卷就只能当作废卷处理,并且按照被访对象的抽样条件,补作相关的样本。照被访对象的抽样条件,补作相关的样本。二、编辑和检查二、编辑和检查为了增加准确性,对那些初步为了增加准确性,对那些初步接收的问卷还要进一步进行检接收的问卷还要进一步进行检查和校订。主要检查是否清楚查和校订。主要检查是否清楚可认,是否完全,是否一致以可认,是否完全,
22、是否一致以及是否明确不含糊等。及是否明确不含糊等。问卷的检查一般是指对回收问卷的完问卷的检查一般是指对回收问卷的完整性和访问质量的检查,目的是要确整性和访问质量的检查,目的是要确定哪些问卷可以接受,哪些问卷要作定哪些问卷可以接受,哪些问卷要作废。废。检查的要点检查的要点(1)规定详细的检查规则,一份问卷哪些规定详细的检查规则,一份问卷哪些问题是必须填写完整的,哪些问题出现缺失时可问题是必须填写完整的,哪些问题出现缺失时可以容忍等,使督导员明确检查问卷的每一项流程。以容忍等,使督导员明确检查问卷的每一项流程。(2)对于每份调查员交回来的问卷必须彻对于每份调查员交回来的问卷必须彻底地检查,以确认调
23、查员或者被访者是否按照相底地检查,以确认调查员或者被访者是否按照相关的要求完成了访问,并且完整的记录在问卷恰关的要求完成了访问,并且完整的记录在问卷恰当的位置。当的位置。检查的要点检查的要点(3)应该将问卷分成三种类型,一种是完成的应该将问卷分成三种类型,一种是完成的问卷,一种是作废的问卷,第三种是有问题的问问卷,一种是作废的问卷,第三种是有问题的问卷,但是通过追访还可以利用的问卷。卷,但是通过追访还可以利用的问卷。(4)如果抽样中有配额的要求,那么应将完成如果抽样中有配额的要求,那么应将完成的问卷中的配额指标进行统计分析,确定问卷是的问卷中的配额指标进行统计分析,确定问卷是否完成配额的要求,
24、以便及时的补充不足的样本。否完成配额的要求,以便及时的补充不足的样本。检查的要点检查的要点(5)通常有下面的情况的问卷是不能接受的:通常有下面的情况的问卷是不能接受的:回收的问卷明显不完整,缺了一页或者多页;回收的问卷明显不完整,缺了一页或者多页;问卷中有很多内容没有填答;问卷中有很多内容没有填答;问卷的模式说明调查员(被访者)没有理解或者遵循问卷的模式说明调查员(被访者)没有理解或者遵循访问指南回答等;访问指南回答等;问卷的答案几乎没有什么变化,如在态度的选项上全问卷的答案几乎没有什么变化,如在态度的选项上全部选择第项的情况;部选择第项的情况;问卷的被访者不符合抽样要求;问卷的被访者不符合抽
25、样要求;问卷的回收日期超过了的访问的时限等。问卷的回收日期超过了的访问的时限等。对于检查出来的不满意问卷,对于检查出来的不满意问卷,常用以下方法进行处理常用以下方法进行处理:1.退回去重新填写;退回去重新填写;2.按缺失数据处理;按缺失数据处理;3.丢弃。丢弃。问卷的校订问卷的校订为了加强问卷的准确性,对那些初步接受的问卷还要进行为了加强问卷的准确性,对那些初步接受的问卷还要进行进一步的检查和校订,在校订的过程中,通常会发现进一步的检查和校订,在校订的过程中,通常会发现问卷问卷中存在有字迹模糊、问题漏选的、前后回答不一致的、答中存在有字迹模糊、问题漏选的、前后回答不一致的、答案模棱两可的和跳答
26、错误的问题案模棱两可的和跳答错误的问题。问卷的某些问题答案可能出现字迹模糊的情况,特别问卷的某些问题答案可能出现字迹模糊的情况,特别是碰上无结构的开放式的问题时,因为调查员记录的不好,是碰上无结构的开放式的问题时,因为调查员记录的不好,答案不容易识别。如果发现这样的问题,必须对受访者进答案不容易识别。如果发现这样的问题,必须对受访者进行追访,将积极不清楚的地方填写清楚。行追访,将积极不清楚的地方填写清楚。对于漏选的问题处理方法也是一样,出现漏选的题目对于漏选的问题处理方法也是一样,出现漏选的题目因为各种原因,无法进行补充访问事后,普通的问题,而因为各种原因,无法进行补充访问事后,普通的问题,而
27、且数目不大的情况,通常作为缺失值处理;如果涉及到是且数目不大的情况,通常作为缺失值处理;如果涉及到是受访对象的个人特征的问题,通常只能作为废卷处理。受访对象的个人特征的问题,通常只能作为废卷处理。问卷的校订问卷的校订问卷中有些问题的答案会出现不容易理解的模棱两可的情问卷中有些问题的答案会出现不容易理解的模棱两可的情况,或者是使用了不是通用的缩写方式或词语,或者在该况,或者是使用了不是通用的缩写方式或词语,或者在该单选一项的问题中,圈选了两项等,都必须通过追访进行单选一项的问题中,圈选了两项等,都必须通过追访进行补救。补救。另外就是回答时可能出现跳答错误的情况,这可能是因为另外就是回答时可能出现
28、跳答错误的情况,这可能是因为被访对象没有很好的理解问题。如果出现这种情况,首先被访对象没有很好的理解问题。如果出现这种情况,首先要核实被访对象是否符合抽样调查的条件(跳答题目往往要核实被访对象是否符合抽样调查的条件(跳答题目往往是筛选条件),如果符合,进行追问补充,如果不符合条是筛选条件),如果符合,进行追问补充,如果不符合条件,问卷只能作废,重新补充样本。件,问卷只能作废,重新补充样本。问卷的回收、检查与校订可能是非常繁琐、且工作时间很问卷的回收、检查与校订可能是非常繁琐、且工作时间很长的工作,但是却是保证数据处理过程中较少误差的重要长的工作,但是却是保证数据处理过程中较少误差的重要的步骤。
29、的步骤。三、编三、编码码编码是指用代码来表示各组数编码是指用代码来表示各组数据资料使使其成为可进行计算据资料使使其成为可进行计算机处理和分析的信息。机处理和分析的信息。编码可以按照预先编码或事后编码可以按照预先编码或事后编码来进行。编码来进行。问题问题025:您认为打工的外地人对北京市的社会秩:您认为打工的外地人对北京市的社会秩序是否有影响?(单选)序是否有影响?(单选)1有很大影响 2有较大影响 3没有影响 4不好说 4编码答案 编码的步骤:1)确定变量;变量:变量:用来反映文意概念的量化形式。在统计中往往指最小的分析单位。编码就是对变量进行编码。变量由两个部分构成:变量名变量名和变量值变量
30、值。要注意区分何为变量,何为变量值。在调查问卷中还要注意区分问问题题和变量变量。问题问题009:您有几个儿子?几个女儿?:您有几个儿子?几个女儿? 1儿子_人 2女儿_人 23问题变量1变量2变量1的值变量2的值编码需要以下几个步骤编码需要以下几个步骤2)每个需要编码的项目都必须有一份编码表,将问题和每个需要编码的项目都必须有一份编码表,将问题和项目的代码详细的标注在编码表的顶端位置,由于事先不项目的代码详细的标注在编码表的顶端位置,由于事先不知道会有多少新的代码或答案出现,所以一定要预备足够知道会有多少新的代码或答案出现,所以一定要预备足够的空间。的空间。2)制作编码表直接过录直接过录0-1
31、编码编码变量名变量名: 一个数据文件中一个数据文件中,一个变量只能有一个唯一名称。一个变量只能有一个唯一名称。码位:某一变量在码位:某一变量在数据文件中占据的栏位数据文件中占据的栏位码数:码数:某一变量由几位数组成。某一变量由几位数组成。该变量是数值型(该变量是数值型(Numeric)如定距、定比,如定距、定比,还是字串型(还是字串型(String),如定类、定序。),如定类、定序。前者在统计中可以做高级运算,后者则不可以。前者在统计中可以做高级运算,后者则不可以。不适于被访人回答的问题的编码。不适于被访人回答的问题的编码。一般采用一般采用7,97,997等。等。被访人回答不知道时的编码。被访
32、人回答不知道时的编码。一般采用一般采用8,98,998等。等。被访人拒绝回答某变量时的编码。被访人拒绝回答某变量时的编码。一般采用一般采用9,99,999等。等。问卷中出现漏答时的处理编码。问卷中出现漏答时的处理编码。一般采用一般采用9,99,999等。等。23100011如果编码的工作由一个编码员完成,出现错误的可能性相如果编码的工作由一个编码员完成,出现错误的可能性相对较小。但实际上,因为需要编码的问题可能很多,一个对较小。但实际上,因为需要编码的问题可能很多,一个认识没有办法按时完成的,这就需要多个编码员。在这样认识没有办法按时完成的,这就需要多个编码员。在这样的情况下,一定要注意多个编
33、码员工作的协调。的情况下,一定要注意多个编码员工作的协调。应该安排编码员在不同的时间,或者相同的时间相同的地应该安排编码员在不同的时间,或者相同的时间相同的地点,使用同一个编码表。这样可以避免编码重复的情况。点,使用同一个编码表。这样可以避免编码重复的情况。注意事项注意事项注意事项注意事项(3)研究人员应详细制定编码的守则,指导编码员如何研究人员应详细制定编码的守则,指导编码员如何识别答案,并且将其归类,以及如何分配编码等等,并同识别答案,并且将其归类,以及如何分配编码等等,并同时对编码的过程进行监督和检查。时对编码的过程进行监督和检查。(4)可以对可以对“不知道不知道”、“无所谓无所谓”、“
34、不清楚不清楚”、“缺失缺失”事先规定,但是一定要注意规定的编码与实现对该事先规定,但是一定要注意规定的编码与实现对该问题的最大编码的预计的数量一致。问题的最大编码的预计的数量一致。(5)编码的字迹必须清楚,如果可能的话,及时的进行编码的字迹必须清楚,如果可能的话,及时的进行计算机的录入管理。计算机的录入管理。表5.1 公司年终考核表表5.2 公司年终考核表编码表1.数据文件的结构数据文件是为了某一特定目的而形成的同类记录的集合,数据的组织方式及内在联系的表示方式决定着数据处理的效率,因而设计数据文件的结构是数据处理工作的主要内容之一。2.文件的格式5.1.3 编码说明书编码说明书(codebo
35、od)是一份说明问卷中各个问题(即变量)及其答案与数据文件中的编码值之间一一对应关系的文件。表5.3 编码明细表续表续表5.1.4 预编码为了方便计算机处理,在设计问卷时就预先给这些答案设计了编码,这种编码方式称为预编码(precoding)。5.1.5 后编码后编码是整理开放式问题答案并对其进行编码的有效方法。5.2 表列5.2.1 单向表列四、数据录入四、数据录入数据录入是指将问卷或编码表中的每一个项目对应的代码转化成计算数据录入是指将问卷或编码表中的每一个项目对应的代码转化成计算机能够识别的形式的过程。这个过程需要数据录入装置(计算机)和机能够识别的形式的过程。这个过程需要数据录入装置(
36、计算机)和一个存储介质(数据库软件、磁盘)。市场调查发达的国家在数据的一个存储介质(数据库软件、磁盘)。市场调查发达的国家在数据的采集中使用采集中使用CATI、CAPI的方式很普遍,因此键盘录入的过程已在访的方式很普遍,因此键盘录入的过程已在访问的时候就已经完成了。而且对于简单的问卷调查,使用调查卡进行问的时候就已经完成了。而且对于简单的问卷调查,使用调查卡进行光学扫描录入也能从时间上节约不少成本。但是国内目前主要还是纸光学扫描录入也能从时间上节约不少成本。但是国内目前主要还是纸面问卷调查的形式居多,所以在问卷完成后,还需要对问卷进行录入面问卷调查的形式居多,所以在问卷完成后,还需要对问卷进行
37、录入的操作。的操作。数据录入要求做到准确无误。控制录入误差的方数据录入要求做到准确无误。控制录入误差的方法有:重复录入、预值控制、平衡检测。法有:重复录入、预值控制、平衡检测。如将在如将在图图15-1问卷的编码问卷的编码中出现的问题进行录入,中出现的问题进行录入,问卷编号,城市编码,调查员编号,问卷编号,城市编码,调查员编号,Q1、Q2、Q3LLQ12-1、Q12-2、Q12-3、Q13、Q14,对,对应的数据库结构应的数据库结构见图见图15-2。这样,输入时每份问卷按数据库中指定的位置输这样,输入时每份问卷按数据库中指定的位置输入相应变量的取值,一行数字就是一份问卷。结入相应变量的取值,一行
38、数字就是一份问卷。结果所有问卷次依输入完毕就形成一个数据库。果所有问卷次依输入完毕就形成一个数据库。(1)问卷编码是问卷编码是001号,城市是北京市,号,城市是北京市,12号号调查员完成的问卷,圈选的结果是:调查员完成的问卷,圈选的结果是:Q1男性;男性;Q230岁;岁;Q3大学专科;大学专科;LLQ12圈选的圈选的235;Q13非常同意;非常同意;Q14不同意;不同意;(2)问卷编码是问卷编码是005号,城市是上海市,号,城市是上海市,2号调号调查员完成的问卷,圈选的结果是:查员完成的问卷,圈选的结果是:Q1女性;女性;Q222岁;岁;Q3大学本科;大学本科;LLQ12圈选的圈选的13;Q1
39、3不同意;不同意;Q14非常同意;非常同意;对应的数据库对应的数据库1)001112130423552;2)005202222513045如果在录入过程中,没有实行双机录入(三机录入)的措如果在录入过程中,没有实行双机录入(三机录入)的措施,在录入完成之后,有必要对数据进行全面的整理检查。施,在录入完成之后,有必要对数据进行全面的整理检查。数据整理主要是尽可能的处理错误或不合理的信息以及进数据整理主要是尽可能的处理错误或不合理的信息以及进行一致性的检查。虽然经过回收问卷、编码过程以及录入行一致性的检查。虽然经过回收问卷、编码过程以及录入的重重检查,但是数据的整理过程是使用计算机进行的,的重重检
40、查,但是数据的整理过程是使用计算机进行的,对数据的矫正将更为彻底。对数据的矫正将更为彻底。数据整理可使用数据整理可使用SPSS或或SAS统计软件进行,可以很统计软件进行,可以很方便的寻找出超出选项范围、极端值或逻辑上不一样的数方便的寻找出超出选项范围、极端值或逻辑上不一样的数据。据。小值、最大值等统计分析,超出范围的数据和极小值、最大值等统计分析,超出范围的数据和极端的数值很容易检查出来。例如,端的数值很容易检查出来。例如,图图15-1问卷的问卷的编码编码的调查中,关于年龄的填写,假定缺失值为的调查中,关于年龄的填写,假定缺失值为“0”,如果出现小于,如果出现小于16,或者大于,或者大于60的
41、数值就的数值就是超出范围的。根据对应的问卷编号,变量编码是超出范围的。根据对应的问卷编号,变量编码找出问卷,进行核实。找出问卷,进行核实。数据整理是对数据进行的最后一道检查程序,数据整理是对数据进行的最后一道检查程序,这一步完成后,数据应该是这一步完成后,数据应该是“整齐、干净的整齐、干净的”,然后进入下一步,对数据进行统计处理分析。然后进入下一步,对数据进行统计处理分析。問卷資料的輸入與計算問卷資料的輸入與計算1.单选题单选题可以依照题目编号设定为编号,可以依照题目编号设定为编号,变量名称,变量名称,例如第例如第1题设为题设为X1、第、第2题设为题设为X2、依此类推。、依此类推。問卷內容的問
42、題方向問卷內容的問題方向品質滿意度品質滿意度題目題目1,2,3,4企業形象企業形象題目題目5,6,7購買意願購買意願題目題目8,9,10負面問題的處理負面問題的處理為何題目內容要設計負面問題?為何題目內容要設計負面問題?負面問題負面問題題目題目2,4,61分分5分分2分分4分分3342512.复选题复选题多重应答(多重应答(MultipleResponse),),又称多选题,是市场调查研究中十分又称多选题,是市场调查研究中十分常见的数据形式。常见的数据形式。两种数据录入方式两种数据录入方式比如说在某次民意调查中,我们希望比如说在某次民意调查中,我们希望了解公众评价宜居城市时,到底是城了解公众评
43、价宜居城市时,到底是城市的哪一些特征决定人们对该城市宜市的哪一些特征决定人们对该城市宜居性的评估。为此,我们在研究中设居性的评估。为此,我们在研究中设计了计了14项标准请被访者从中选出他们项标准请被访者从中选出他们在进行宜居评价时最看重的在进行宜居评价时最看重的5项标准项标准(1)多重二分法()多重二分法(Multipledichotomymethod)对于多项选择题的每一个选项看作一个变对于多项选择题的每一个选项看作一个变量来定义。量来定义。0代表没有被选中,代表没有被选中,1代表被选代表被选中。这样,多项选择题中有几个选项,就中。这样,多项选择题中有几个选项,就会变成有几个单选变量。这些单
44、选变量的会变成有几个单选变量。这些单选变量的选项都只有两个,即选项都只有两个,即0或或1。比如在上述例子中,我们就可以设置比如在上述例子中,我们就可以设置14个个单选变量,来标示某选项是否被选中;单选变量,来标示某选项是否被选中;(2)多重分类法()多重分类法(Multiplecategorymethod)。)。多项选择题中有几个选项,就定义几个单选变量。每个变多项选择题中有几个选项,就定义几个单选变量。每个变量的选项都一样,都和多项选择题的选项相同。每个变量量的选项都一样,都和多项选择题的选项相同。每个变量代表被调查者的一次选择,即纪录的是被选中的选项的代代表被调查者的一次选择,即纪录的是被
45、选中的选项的代码。码。如上述例子中,我们可以设置如上述例子中,我们可以设置X1X5共共5个变量,每个变个变量,每个变量的选项兼为从量的选项兼为从1到到14的的14项宜居标准。项宜居标准。很多情况下,当问卷中不限定被访者可选择的选项数量时,很多情况下,当问卷中不限定被访者可选择的选项数量时,被调查者可能不会全部选项都选,因此在数据录入时,一被调查者可能不会全部选项都选,因此在数据录入时,一般从这些变量的最前面几个变量开始录入,这样最后面几般从这些变量的最前面几个变量开始录入,这样最后面几个变量自然就是缺失值。当被调查者对多项选择题中的选个变量自然就是缺失值。当被调查者对多项选择题中的选项全部选择
46、时,这些变量中都有一个选项代码,此时没有项全部选择时,这些变量中都有一个选项代码,此时没有缺失值。缺失值。事实上,假如被访者所选择的各项选之间不涉及顺序问事实上,假如被访者所选择的各项选之间不涉及顺序问题(如上述例子中,不需要受访者给出哪种因素最重要,题(如上述例子中,不需要受访者给出哪种因素最重要,哪种次重要),那么这两种输入方法所表达的数据信息是哪种次重要),那么这两种输入方法所表达的数据信息是一样的。但在实际操作中,如果选择项较多,而被调查者一样的。但在实际操作中,如果选择项较多,而被调查者最多只选择其中少数几项时,采用多重二分法录入就显得最多只选择其中少数几项时,采用多重二分法录入就显
47、得繁琐,输入数据时容易出错。繁琐,输入数据时容易出错。尤其是当样本量增大时,采用多重二分法录入就大大增加尤其是当样本量增大时,采用多重二分法录入就大大增加了录入的工作量,不利于提高工作效率。为此,一般的市了录入的工作量,不利于提高工作效率。为此,一般的市场调查公司大都采用多重分类法的录入方式。场调查公司大都采用多重分类法的录入方式。大多数问卷的大多数问题都是封闭式的,在调查大多数问卷的大多数问题都是封闭式的,在调查之前就已经完成了编码的过程,即每一组问题的之前就已经完成了编码的过程,即每一组问题的不同答案的数字编码已经确定。不同答案的数字编码已经确定。而开放式问题,因为不知道会得到什么答案,或
48、而开放式问题,因为不知道会得到什么答案,或者是希望得到比列出的封闭式的选项更详尽的答者是希望得到比列出的封闭式的选项更详尽的答案,所以在调查结束后,必须对这些开放式的问案,所以在调查结束后,必须对这些开放式的问题题进行事后编码。进行事后编码。开放题的事后编码的工作量很开放题的事后编码的工作量很大,无法预知会出现多少个新的代码和答案,而大,无法预知会出现多少个新的代码和答案,而且有些答案是非常类似的,必须决定是否合并成且有些答案是非常类似的,必须决定是否合并成一类呢,还是分成不同的代码。一类呢,还是分成不同的代码。2-2 数据录入外部式录入内部式录入采用DOS、WPS、CCED等软件,按ASCI
49、I码方式录入成文本文件(*.dat;*.txt)。这种录入方式的特点是,数据之间没有间隔,录完一个数码后自动后移,录入速度较快。缺点是容易错位。采用SPSS数据编辑器(SPSS Data Editor)录入。其优点是不容易错位,缺点是不能自动后移,录入速度慢,数据错误不容易修改。大多数问卷信息通过智能录入系统进行,即使用相关的数据库软件包。大多数问卷信息通过智能录入系统进行,即使用相关的数据库软件包。数据库软件不仅可以存储数据,而且在录入过程中,通过事先的数据库结构数据库软件不仅可以存储数据,而且在录入过程中,通过事先的数据库结构的编辑,可以对录入员录入的过程进行逻辑检查,避免数据录入过程中出
50、现的编辑,可以对录入员录入的过程进行逻辑检查,避免数据录入过程中出现某种类型的错误,如录入无效的编码或者是太广的编码,同时对于跳答问题某种类型的错误,如录入无效的编码或者是太广的编码,同时对于跳答问题的录入也能进行很好的控制,减少错误的条约模式。的录入也能进行很好的控制,减少错误的条约模式。数据库软件的录入检查的范围,限制在最常见的逻辑错误上,对于在选数据库软件的录入检查的范围,限制在最常见的逻辑错误上,对于在选项范围内,因为录入员的疏忽而出错的信息,往往是不能察觉,而录入员在项范围内,因为录入员的疏忽而出错的信息,往往是不能察觉,而录入员在问卷的输入过程中,因为速度非常快,即使是非常老练的录
51、入员,也会出现问卷的输入过程中,因为速度非常快,即使是非常老练的录入员,也会出现录入错误的情况。录入错误的情况。为了保证数据录入的准确性,有必要对录入的结果进行核查,核查的方为了保证数据录入的准确性,有必要对录入的结果进行核查,核查的方式主要有双机录入或三机录入。无论是双机录入还是三机录入,都会增加调式主要有双机录入或三机录入。无论是双机录入还是三机录入,都会增加调查的时间和费用成本,而且是成倍地增加。但是为求得数据的收集录入各个查的时间和费用成本,而且是成倍地增加。但是为求得数据的收集录入各个环节的准确性,越来越多的企业和市场调查公司要求数据的正确录入的操作。环节的准确性,越来越多的企业和市
52、场调查公司要求数据的正确录入的操作。五、缺失数据处理五、缺失数据处理缺失数据是指由于被调查者没缺失数据是指由于被调查者没有给出明确的答案或调查员没有给出明确的答案或调查员没有记录下他们的答案而造成未有记录下他们的答案而造成未知变量值。知变量值。缺失数据处理可以使用以下几缺失数据处理可以使用以下几种方法:种方法:1.用一个样本统计量去代替;用一个样本统计量去代替;2.用某些统计模型进行推算;用某些统计模型进行推算;3.问卷整体剔除;问卷整体剔除;4.部份排除。部份排除。六、调查资料的分析六、调查资料的分析1.数据分析任务书数据分析任务书数据分析任务书一般应明确列举以下内容:数据分析任务书一般应明
53、确列举以下内容:编制变量标识和变量制标识。编制变量标识和变量制标识。需要制作的统计表。需要制作的统计表。需要制作的统计图。需要制作的统计图。需要进行的统计分析。需要进行的统计分析。2.选择适当的数据处理软件选择适当的数据处理软件3.数据分析的基本方法数据分析的基本方法频数分布。频数分布。编制频数分布首先要对原始数编制频数分布首先要对原始数据进行统计分组。在分组的基础上,把所据进行统计分组。在分组的基础上,把所有数据或总体单位按组归并、排列、形成有数据或总体单位按组归并、排列、形成所有数据或总体各单位在各组间的分布,所有数据或总体各单位在各组间的分布,称为频数分布。称为频数分布。集中趋势的度量。
54、集中趋势的度量。集中趋势,是指一集中趋势,是指一组数据向某一中心值靠拢的倾向,测组数据向某一中心值靠拢的倾向,测度集中趋势也就是要寻找数据一般水度集中趋势也就是要寻找数据一般水平的代表值或中心值。统计平均数就平的代表值或中心值。统计平均数就是用来反映总体的一般水平和集中趋是用来反映总体的一般水平和集中趋势的指标。势的指标。离散趋势的度量。离散趋势的度量。离中趋势是指一组离中趋势是指一组数据中各数据值以不同程度的距离偏数据中各数据值以不同程度的距离偏离其中心(平均数)的趋势,又称标离其中心(平均数)的趋势,又称标志变动度。离中趋势指标,是用来综志变动度。离中趋势指标,是用来综合反映数据的离中程度
55、的一类指标。合反映数据的离中程度的一类指标。常用的离中趋势指标有极差、分位差、常用的离中趋势指标有极差、分位差、平均差、方差、标准差、离散系数等。平均差、方差、标准差、离散系数等。变量间关系的分析。变量间关系的分析。市场现象市场现象之间的关系主要是相关关系。之间的关系主要是相关关系。分析相关关系主要有相关表、分析相关关系主要有相关表、相关图、相关系数等三种方法。相关图、相关系数等三种方法。2.选择适当的数据处理软件选择适当的数据处理软件3.数据分析的基本方法数据分析的基本方法频数分布。频数分布。编制频数分布首先要对原始数编制频数分布首先要对原始数据进行统计分组。在分组的基础上,把所据进行统计分
56、组。在分组的基础上,把所有数据或总体单位按组归并、排列、形成有数据或总体单位按组归并、排列、形成所有数据或总体各单位在各组间的分布,所有数据或总体各单位在各组间的分布,称为频数分布。称为频数分布。集中趋势的度量。集中趋势的度量。集中趋势,是指一集中趋势,是指一组数据向某一中心值靠拢的倾向,测组数据向某一中心值靠拢的倾向,测度集中趋势也就是要寻找数据一般水度集中趋势也就是要寻找数据一般水平的代表值或中心值。统计平均数就平的代表值或中心值。统计平均数就是用来反映总体的一般水平和集中趋是用来反映总体的一般水平和集中趋势的指标。势的指标。离散趋势的度量。离散趋势的度量。离中趋势是指一组离中趋势是指一组
57、数据中各数据值以不同程度的距离偏数据中各数据值以不同程度的距离偏离其中心(平均数)的趋势,又称标离其中心(平均数)的趋势,又称标志变动度。离中趋势指标,是用来综志变动度。离中趋势指标,是用来综合反映数据的离中程度的一类指标。合反映数据的离中程度的一类指标。常用的离中趋势指标有极差、分位差、常用的离中趋势指标有极差、分位差、平均差、方差、标准差、离散系数等。平均差、方差、标准差、离散系数等。变量间关系的分析。变量间关系的分析。市场现象市场现象之间的关系主要是相关关系。之间的关系主要是相关关系。分析相关关系主要有相关表、分析相关关系主要有相关表、相关图、相关系数等三种方法。相关图、相关系数等三种方法。