定量资料分析培训教程

上传人:F****n 文档编号:95497888 上传时间:2019-08-19 格式:PPT 页数:86 大小:482KB
返回 下载 相关 举报
定量资料分析培训教程_第1页
第1页 / 共86页
定量资料分析培训教程_第2页
第2页 / 共86页
定量资料分析培训教程_第3页
第3页 / 共86页
定量资料分析培训教程_第4页
第4页 / 共86页
定量资料分析培训教程_第5页
第5页 / 共86页
点击查看更多>>
资源描述

《定量资料分析培训教程》由会员分享,可在线阅读,更多相关《定量资料分析培训教程(86页珍藏版)》请在金锄头文库上搜索。

1、第十一章 定量资料分析,第一节 资料的整理与录入 第二节 单变量统计分析 第三节 双变量统计分析 第四节多变量统计分析,第一节 资料整理的整理与录入,一、资料的审核 指研究者对所收集到的原始资料进行初步的审阅,校正错误、剔出乱填、空白和严重缺答的废卷。目的是使原始资料具有较高的准确性、完整性和真实性,为数据录入和分析打下基础。,在资料审核中,如发现问题,可以分别不同情况予以处理: (1)调查中已发现并经认真核实后确认的错误,可由调查者代为更正。 (2)资料中的可疑之处或明确有错误与出入的地方,应设法进行补充调查。 (3)无法进行或无需进行补充调查的情况下,剔除那些明显错误的或无把握的资料,保证

2、真实性和准确性。,资料审核的方法主要有两种,即逻辑审核与计算审核。 逻辑审核,即核查资料的内容是否合乎逻辑和常识,项目之间有无互相矛盾之处,与其他有关资料进行对照是否有明显出入等等。 计算审核,是针对数字资料进行的审查。要检查计算有无错误。度量单位有没有错,前后数字之间有无相互矛盾之处等等。,数据的审核 (原始数据), 审核的内容 完整性审核 检查应调查的单位或个体是否有遗漏 所有的调查项目或指标是否填写齐全 准确性审核 检查数据是否真实反映客观实际情况,内容是否符合实际 检查数据是否有错误,计算是否正确等,数据的审核 (原始数据),审核数据准确性的方法 逻辑检查 从定性角度,审核数据是否符合

3、逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象 主要用于对定类数据和定序数据的审核 计算检查 检查调查表中的各项数据在计算结果和计算方法上有无错误 主要用于对定距和定比数据的审核,数据的审核 (第二手数据),适用性审核 弄清楚数据的来源、数据的口径以及有关的背景材料 确定这些数据是否符合自己分析研究的需要 时效性审核 应尽可能使用最新的统计数据 确认是否必要做进一步的加工整理,数据的筛选,对审核过程中发现的错误应尽可能予以纠正 当发现数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选 数据筛选的内容包括: 将某些不符合要求的数据或有明显错误的数据予

4、以剔除 将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔出,资料审核的方式: 实地审核:收集资料的过程中进行的审核,即边收集边审核。一旦发现填答错误,或漏填误填,或其他可疑现象,就及时进行询问核实。其优点是及时、效果好;困难在于资料收集时组织安排特别周密,调查员个人处理能力较强。 系统审核(集中审核):先将资料全部收回,然后集中时间进行审核。其优点是便于统一安排和管理,检查标准统一。但整个周期拉长,且有些核实工作往往那个难以落实。,二、资料转换 将被调查者对问卷中问题的回答转换成供计算机识别和统计的数字 。 三、数据录入 数据录入的方式主要有两种:一是直接从问卷上将编好码的数据输

5、入计算机;另一种是先将问卷上编好码的数据转录到专门的登录表上,然后再从登录表上将数据输入计算机。,四、数据清理 1 有效范围清理 问卷中任何一个变量的编码值都有一定的范围,当数据中数字超出这一范围时,肯定是错误的。 2 逻辑一致性清理 依据问卷中问题相互之间存在的某种内在的逻辑联系,检查前后数据之间的合理性。 3 数据质量抽查,统计分析概述,统计分析就是运用统计学的方法对调查得到的数据资料进行定量分析,以揭示事物内在的数量关系、规律和发展的一种资料分析方法。其主要作用: 1 为研究提供一种清晰准确的形式化语言,对资料进行简化和描述。 如对人们在一胎化政策实行前的行为进行研究,可以发现生育行为受

6、文化程度的影响。从总体上看,文化程度高的妇女其子女数量少于文化程度低的妇女。用定性分析的方法只能得出这样一个概略的认识。采用定量方法进行分析就可以将这种关系提炼成一个数学方程式:Y=4.380.16X。Y代表任何一个妇女生育子女的数量,X代表文化程度。从这个方程中可以看出,每提高一组文化程度,就可以少生0.16个孩子。,2 统计分析时进行科学预测、探索未来的重要方法 统计分析可以使人发现直觉所不能悟察到的规律,进行科学的预测。 3 对变量关系进行深入分析,通过样本推论总体 统计分析提供参数估计、假设检验等手段将样本推论到总体的方法。,统计分析的特点 1 统计分析要以定性分析为基础 首先,统计分

7、析是根据数据资料进行的,但这些数据本身不是抽象的数字而是反映了事物属性的统计指标。定性分析要为定量分析规定方向,划分范畴。 其次,统计分析是依据一定公式计算的,公式的选择依赖于一定的理论知识、专业知识和必要的经验。 事实上在定量分析之前已经通过定性分析,从理论和经验上判明了事物之间的联系,决定了要采用的公式。,2 统计分析方法必须和其他分析方法结合运用 数量关系只是客观事物存在的诸种关系中的一种,而不是全部。统计分析方法不是万能的,它有自身独特的长处。也有无法克服的局限性,它不能代替其他分析方法。 其次,统计分析方法能够帮助发现社会现象中不易察觉的规律,但对规律的揭示要借助于有关学科的理论。,

8、3 统计分析有一套专门的方法和技术 统计学是对社会现象作定量研究和分析的科学武器;计算机技术是进行统计研究的技术工具;统计分析的数字成果是运用数字模型来描述、解释、预测社会现象。,第二节 单变量统计分析,主要分为两个大的方面,即描述统计和推论统计。 描述统计的主要目的在于用最简单的概括形式反映出大量数据资料所容纳的基本信息。包括集中趋势分析、离散趋势分析等。 推论统计的主要目的,是从样本中所得到的数据资料来推断总体的情况,它主要包括区间估计和假设检验等。,描述统计,内容 搜集数据 整理数据 展示数据 目的 描述数据特征 找出数据的基本规律,推断统计,内容 参数估计 假设检验 目的 对总体特征作

9、出推断,描述统计与推断统计的关系,反映客观现象的数据,描述统计 (统计数据的搜集、整理、显示和分析等),统计学探索现象数量规律性的过程,一、单变量描述统计 1 集中趋势分析 集中趋势分析指的是用一个典型值来反映一组数据的一般水平,或者是反映这组数据向这个典型值集中的情况。 这样一个典型值就被称为集中统计量。,按照处理方式不同集中统量可分为几类,两最常见的集中趋势有算术平均值、众数和中位数三种。用得最多的是平均数。 1 定类层次:众值(众数) 其意义为,在众多数值中,出现次数最多的一个数值。 (1)原始资料,求众值 例如:2,3,5,5,5,6,6,7,8 出现次数最多的是5,其M0=5,(2)

10、次数资料,求众值 例如:江村女青年找对象的标准,其次数最多的为人品122人次,所以M0=人品,(3)分组的频数表中,频数最大的区间的组中值就是众值,表中频数最大的为10,对应的区间是60-64,其组中值是62,所以众值=62。 如果在一个次数中出现两个邻近的次数较多者,众数是二次数多的组中值的平均值,2 定序层次:中位值(中位数)(单选) 其意义为按大小顺序排列,处在一群数据中央位置的数值。 (1)原始资料,求中位值 例如:有9个人,他们的月工资分别如下: 47,42,50,51,92,112,71,83,108 首先作排列处理,从小到大排列 42,47,50,51,71,83,92,108,

11、112 其次求中央位置 Md的位置=(N+1)2=(9+1)2=5 最后求中位置Md=71,(3)定距层次:算术平均数,通常称平均数,又称均数或均值。英文为Mean,故以M表示。如果是由变量X计算得来的就记为 (读X杠),现在一般都以 表示样本的平均数,以U 表示总体的平均数。 算术平均数就是各个变量值相加求和再除以变量的总次数。,=,=,算术平均数的计算方法,1、用原始数据计算平均数 。当一组数据个数不多时,可直接用原始数据来计算。 如某实验小组10人的实验成绩为11,13,15,16,16,16,17,18,18,20。其平均数为:,=,=,=,16,2、用频数分布表求平均数 。如果样本的

12、数据很多,达到数十个或数百个,则需编制频数分布表,用频数分布表求平均数。,=,Xc 为各组的组中值,f 为各组的频数,N 为总次数( ),例 调查某企业100名职工的收入,得到表中资料,计算他们的平均收入。,平均收入=xf/n=38000/100=380(元),2.离散量数分析,离散趋势指的是测量值围绕中心值比如平均值的分布。极差就是个简单例子。如我们可以报告说平均年龄是37.9,范围是从12到89岁。 离散(中)量数分析 指的是用一个特别的数值来反映一组数据相互之间的离散(中)程度.即各组数据相对于平均数的差异程度(离中程度)。差异程度小,平均数的代表性高;差异程度大,代表性低。 它与集中量

13、数一起分别从两个不同的侧面描述和揭示一组数据的分布情况。共同反映出资料分布的全面特征,同时它还对现各集中量数的代表性做出补充说明。,示例: 某三个班各选5名同学参加测试.他们的成绩分别如下 中文系:78, 79, 80, 81. 82 X = 80 数学系:65, 72, 80, 88, 95 X = 80 外语系:35, 78, 89, 98, 100 X = 80 如果仅以集中量数来衡量,这三个队的水平一样高,但是很明显.这80分对中文系队的同学代表性最高,而对外语系的同学代表性最低.,离散程度表示一组数值的差异情况,测量的是分配的离中趋势。反映数据对于集中趋势的偏离程度的量称为离散程度统

14、计量。 常见的离散量数统计量有全距,标准差,异众比率,和四分位差。,全距(R),全距也叫极差,它是一组数据中,最大值与最小值之差. 它是表示数据分布离散程度最简单的方式,即一组数据中最大数与最小数差,故称两极差。,R=Xmax-Xmin,当数据较多时,应用频数分布表求全距。其方法为:最大组与最小组的组中值之差或最大组上限与最小组下限之差。,R=Xcmax-Xcmin,R=Umax-Lmin,标准差 对于定距定比变量,可以采用标准差的测量法,标准差:一组数据对其平均数的偏差平方的算术平均数的平方根。一般以S(或 来表示 ) 式中S(样本统计值)为标准差,X为各学生的成绩分数, 为学生成绩的平均数

15、,x为各学生成绩分数的离差,n为学生(数据)数。,S,=,=,例:某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如下: 中文系:78 79 80 81 82 数学系:65 72 80 88 95 英语系:35 78 89 98 100 平均成绩 =80 标准差:一组数据对其平均数的偏差平方的算术平均数的平方根。 S(中文系)=1.414(分) S(数学系)=10.8(分) S(英语系)=23.8(分),S,=,由10个家庭每个月比前两年增加开支的情况是:85,63,50,46,37,34,28,25,22,20。 (1)先计算10个家庭平均每月开支多少?用集中趋势表示X/n=41元 (2

16、)对这10个家庭讲,对这个平均值(41元)的偏差程度如何?往往用标准差表示。 S19.5 这表示,这10个人家,每个月增长消费支出的标准差是19.5。 假如有另10户人家,其标准差是7.8,在这种情况下,说明前10户人家支出的分布比较分散,用的多得很多,用得少的人家则十分节俭。而后10户人家则指出比较平均。因此,标准差越大,表示分布越分散;而标准差越小,表示分布越集中。,相对差异(离散或离中)量数,1.离散系数 离散系数是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数进行比较,或者对两个不同总体中的同一离散量数进行比较。 离散系数的定义是:标准差与平均数的比值,用百分比表示。 CV= 100% (CV为离散系数),例1:一项调查得到下列结果,某市人均平均收入为92元,标准差为17元,人均住房面积7.5平方米,标准差为1.8平方米。试比较该市人均收入和人均住房情况哪一个差异程度比较大。 解人均收入的离散系数为 CV=S/ 100%=18.5% 人均住房

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号