第十一章 定量资料分析第一节 资料的整理与录入第二节 单变量统计分析第三节 双变量统计分析第四节多变量统计分析第一节 资料整理的整理与录入l一、资料的审核l指研究者对所收集到的原始资料进行初步的审阅,校正错误、剔出乱填、空白和严重缺答的废卷目的是使原始资料具有较高的准确性、完整性和真实性,为数据录入和分析打下基础l在资料审核中,如发现问题,可以分别不同情况予以处理:l(1)调查中已发现并经认真核实后确认的错误,可由调查者代为更正l(2)资料中的可疑之处或明确有错误与出入的地方,应设法进行补充调查l(3)无法进行或无需进行补充调查的情况下,剔除那些明显错误的或无把握的资料,保证真实性和准确性l资料审核的方法主要有两种,即逻辑审核与计算审核l逻辑审核,即核查资料的内容是否合乎逻辑和常识,项目之间有无互相矛盾之处,与其他有关资料进行对照是否有明显出入等等l计算审核,是针对数字资料进行的审查要检查计算有无错误度量单位有没有错,前后数字之间有无相互矛盾之处等等数据的审核(原始数据)l 审核的内容审核的内容1.完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全2.准确性审核检查数据是否真实反映客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等数据的审核(原始数据)l审核数据准确性的方法审核数据准确性的方法1.逻辑检查从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象主要用于对定类数据和定序数据的审核2.计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对定距和定比数据的审核数据的审核(第二手数据)1.适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定这些数据是否符合自己分析研究的需要2.时效性审核应尽可能使用最新的统计数据3.确认是否必要做进一步的加工整理数据的筛选1.对审核过程中发现的错误应尽可能予以纠正2.当发现数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选3.数据筛选的内容包括:将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔出l资料审核的方式:l实地审核:收集资料的过程中进行的审核,即边收集边审核。
一旦发现填答错误,或漏填误填,或其他可疑现象,就及时进行询问核实其优点是及时、效果好;困难在于资料收集时组织安排特别周密,调查员个人处理能力较强l系统审核(集中审核):先将资料全部收回,然后集中时间进行审核其优点是便于统一安排和管理,检查标准统一但整个周期拉长,且有些核实工作往往那个难以落实l二、资料转换l将被调查者对问卷中问题的回答转换成供计算机识别和统计的数字l三、数据录入l数据录入的方式主要有两种:一是直接从问卷上将编好码的数据输入计算机;另一种是先将问卷上编好码的数据转录到专门的登录表上,然后再从登录表上将数据输入计算机l四、数据清理l1 有效范围清理l问卷中任何一个变量的编码值都有一定的范围,当数据中数字超出这一范围时,肯定是错误的l2 逻辑一致性清理l依据问卷中问题相互之间存在的某种内在的逻辑联系,检查前后数据之间的合理性l3 数据质量抽查统计分析概述l统计分析就是运用统计学的方法对调查得到的数据资料进行定量分析,以揭示事物内在的数量关系、规律和发展的一种资料分析方法其主要作用:l1 为研究提供一种清晰准确的形式化语言,对资料进行简化和描述l如对人们在一胎化政策实行前的行为进行研究,可以发现生育行为受文化程度的影响。
从总体上看,文化程度高的妇女其子女数量少于文化程度低的妇女用定性分析的方法只能得出这样一个概略的认识采用定量方法进行分析就可以将这种关系提炼成一个数学方程式:Y=4.380.16XY代表任何一个妇女生育子女的数量,X代表文化程度从这个方程中可以看出,每提高一组文化程度,就可以少生0.16个孩子2 统计分析时进行科学预测、探索未来的重要方法统计分析可以使人发现直觉所不能悟察到的规律,进行科学的预测3 对变量关系进行深入分析,通过样本推论总体统计分析提供参数估计、假设检验等手段将样本推论到总体的方法l统计分析的特点l1 统计分析要以定性分析为基础l首先,统计分析是根据数据资料进行的,但这些数据本身不是抽象的数字而是反映了事物属性的统计指标定性分析要为定量分析规定方向,划分范畴l其次,统计分析是依据一定公式计算的,公式的选择依赖于一定的理论知识、专业知识和必要的经验l事实上在定量分析之前已经通过定性分析,从理论和经验上判明了事物之间的联系,决定了要采用的公式l2 统计分析方法必须和其他分析方法结合运用l数量关系只是客观事物存在的诸种关系中的一种,而不是全部统计分析方法不是万能的,它有自身独特的长处。
也有无法克服的局限性,它不能代替其他分析方法l其次,统计分析方法能够帮助发现社会现象中不易察觉的规律,但对规律的揭示要借助于有关学科的理论l3 统计分析有一套专门的方法和技术l统计学是对社会现象作定量研究和分析的科学武器;计算机技术是进行统计研究的技术工具;统计分析的数字成果是运用数字模型来描述、解释、预测社会现象第二节 单变量统计分析主要分为两个大的方面,即描述统计和推论主要分为两个大的方面,即描述统计和推论统计l描述统计描述统计的主要目的在于用最简单的概括的主要目的在于用最简单的概括形式反映出大量数据资料所容纳的基本信形式反映出大量数据资料所容纳的基本信息包括集中趋势分析集中趋势分析、离散趋势分析离散趋势分析等l推论统计推论统计的主要目的,是从样本中所得到的主要目的,是从样本中所得到的数据资料来的数据资料来推断总体推断总体的情况,它主要包的情况,它主要包括括区间估计区间估计和和假设检验假设检验等描述统计1.1.内容内容搜集数据整理数据展示数据2.目的目的描述数据特征找出数据的基本规律0 0 0252525505050Q1Q1Q1Q2Q2Q2Q3Q3Q3Q4Q4Q4¥x x x=30 =30 =30 s s s2 22=105=105=105推断统计1.内容内容参数估计假设检验2.目的目的对总体特征作出推断样样本本总体总体描述统计与推断统计的关系反映客观现反映客观现反映客观现反映客观现象的数据象的数据象的数据象的数据总体内在的总体内在的总体内在的总体内在的数量规律性数量规律性数量规律性数量规律性推断统计推断统计推断统计推断统计(利用样本信息和概率(利用样本信息和概率(利用样本信息和概率(利用样本信息和概率论对总体的数量特征进论对总体的数量特征进论对总体的数量特征进论对总体的数量特征进行估计和检验等)行估计和检验等)行估计和检验等)行估计和检验等)概率论概率论概率论概率论(包括分布理论、大数定律(包括分布理论、大数定律(包括分布理论、大数定律(包括分布理论、大数定律和中心极限定理等)和中心极限定理等)和中心极限定理等)和中心极限定理等)描述统计描述统计描述统计描述统计(统计数据的搜集、整(统计数据的搜集、整(统计数据的搜集、整(统计数据的搜集、整理、显示和分析等)理、显示和分析等)理、显示和分析等)理、显示和分析等)总体数据总体数据样本数据样本数据统计学探索现象数量规律性的过程统计学探索现象数量规律性的过程统计学探索现象数量规律性的过程统计学探索现象数量规律性的过程l一、单变量描述统计一、单变量描述统计l1 1 集中趋势分析集中趋势分析l集中趋势分析指的是集中趋势分析指的是用一个典型值用一个典型值来来反映一组数据的反映一组数据的一般水平一般水平,或者是反,或者是反映这组数据向这个典型值集中的情况。
映这组数据向这个典型值集中的情况l这样一个典型值就被称为集中统计量这样一个典型值就被称为集中统计量l 按照处理方式不同集中统量可分为几类,按照处理方式不同集中统量可分为几类,两最常见的集中趋势有两最常见的集中趋势有算术平均值算术平均值、众数众数和中位数和中位数三种用得最多的是平均数用得最多的是平均数l1 1 定类层次:众值(众数定类层次:众值(众数)l其意义为,在众多数值中,出现次数最多其意义为,在众多数值中,出现次数最多的一个数值的一个数值l(1 1)原始资料,求众值)原始资料,求众值l例如:例如:2 2,3 3,5 5,5 5,5 5,6 6,6 6,7 7,8 8l出现次数最多的是出现次数最多的是5 5,其,其M M0=50=5l(2)次数资料,求众值l例如:江村女青年找对象的标准标准相貌人品文化健康职业能力经济条件政治条件家庭背景感情人数55122 5110413291613682其次数最多的为人品其次数最多的为人品122122人次,所以人次,所以M0=M0=人品人品l(3)分组的频数表中,频数最大的区间的组中值就是众值区间组中值频数75-7977170-7472365-6967560-64621055-5957450-54522表中频数最大的为表中频数最大的为1010,对应的区间是对应的区间是60-6460-64,其组中值是其组中值是6262,所以众,所以众值值=62=62。
如果在一个次数中出现如果在一个次数中出现两个邻近的次数较多者,两个邻近的次数较多者,众数是二次数多的组中众数是二次数多的组中值的平均值值的平均值l2 定序层次:中位值(中位数)(单选)l其意义为按大小顺序排列,处在一群数据中央位置的数值l(1)原始资料,求中位值l例如:有9个人,他们的月工资分别如下:l47,42,50,51,92,112,71,83,108l首先作排列处理,从小到大排列l42,47,50,51,71,83,92,108,112l其次求中央位置lMd的位置=(N+1)2=(9+1)2=5l最后求中位置Md=71(3 3)定距层次:算术平均数)定距层次:算术平均数l通常称平均数,又称均数或均值英文为通常称平均数,又称均数或均值英文为MeanMean,故以故以MM表示如果是由变量表示如果是由变量X X计算得来的就记为计算得来的就记为 (读(读X X杠),现在一般都以杠),现在一般都以 表示样本的平均数,表示样本的平均数,以以U U 表示总体的平均数表示总体的平均数l算术平均数就是各个变量值相加求和再除以变量算术平均数就是各个变量值相加求和再除以变量的总次数的总次数算术平均数的计算方法算术平均数的计算方法l1 1、用原始数据计算平均数、用原始数据计算平均数 。
当一组数据当一组数据个数不多时,可直接用原始数据来计算个数不多时,可直接用原始数据来计算l如某实验小组如某实验小组1010人的实验成绩为人的实验成绩为11 11,1313,1515,1616,1616,1616,1717,1818,1818,2020其平均数为:均数为:=1616l2 2、用频数分布表求平均数、用频数分布表求平均数 如果样本的如果样本的数据很多,达到数十个或数百个,则需编数据很多,达到数十个或数百个,则需编制频数分布表,用频数分布表求平均数制频数分布表,用频数分布表求平均数X Xc c 为各组的组中值,为各组的组中值,f f 为各组的频数,为各组的频数,N N 为总次数(为总次数()l例 调查某企业100名职工的收入,得到表中资料,计算他们的平均收入收入(元)职工数(人)组中值xf100-199101501500200-299102502500300-3994035014000400-499204509000500-5992055011000合计10038000平均收入=xf/n=38000/100=380(元)2.离散量数分析 l离散趋势指的是测量值围绕中心值比如平均值的分布。
极差就是个简单例子如我们可以报告说平均年龄是37.9,范围是从12到89岁l离散(中)量数分析 指的是用一个特别的数值来反映一组数据相互之间的离散(中)程度.即各组数据相对于平均数的差异程度(离中程度)。