第2章数据的搜集

上传人:飞*** 文档编号:3916506 上传时间:2017-08-05 格式:PPT 页数:80 大小:967KB
返回 下载 相关 举报
第2章数据的搜集_第1页
第1页 / 共80页
第2章数据的搜集_第2页
第2页 / 共80页
第2章数据的搜集_第3页
第3页 / 共80页
第2章数据的搜集_第4页
第4页 / 共80页
第2章数据的搜集_第5页
第5页 / 共80页
点击查看更多>>
资源描述

《第2章数据的搜集》由会员分享,可在线阅读,更多相关《第2章数据的搜集(80页珍藏版)》请在金锄头文库上搜索。

1、中央财经大学统计学院,第2章 数据的来源,21 数据的来源22 抽样调查23 调查设计,中央财经大学统计学院 2,学习目标,1.了解数据的来源。2.了解普查、抽样调查的作用及特点。3.了解各种概率抽样与非概率抽样方法。4.了解抽样中的误差。5.掌握数据的搜集方法。6.学会设计调查方案和调查问卷。,中央财经大学统计学院 3,2.1 数据来源,2.1.1 一手数据和二手数据2.1.2 统计调查方式,中央财经大学统计学院 4,2.1.1 一手数据和二手数据,中央财经大学统计学院 5,二手数据的来源,二手数据,主要是公开出版或报道的数据,有些是未公开出版的数据。在我国,公开出版或报道的社会经济数据主要

2、来自国家和地方的统计部门以及各种报刊媒介。,中央财经大学统计学院 6,使用二手数据需要注意的问题,应注意数据的含义、计算口径和计算方法,避免误用或滥用;注意二手数据的时间性,不能用过时的数据;应充分搞清这些数据的来源和可靠程度;应注明数据的出处,以尊重他人的劳动成果。,中央财经大学统计学院 7,2.1.2 常用的统计调查方式,统计调查是社会经济数据的主要来源。实际中常用的统计调查方式主要有抽样调查普查统计报表,中央财经大学统计学院 8,1普查(Census),普查是为某一特定目的而专门组织的一次性全面调查。 特点:普查通常是一次性的或周期性的。例如国务院规定每10年进行一次人口普查。普查一般需

3、要规定统一的标准时点。例如,第5次人口普查的标准时间为2000年11月1日0时。普查数据的准确性、标准化程度均较高 ;普查的调查项目较少,适用范围较狭窄,调查资料缺乏深度。,中央财经大学统计学院 9,2.抽样调查(Sampling Survey),抽样调查:是一种非全面调查,它是按照一定程序从总体中抽选一部分单位(样本)进行调查或观察,并以此对总体参数做出推断的调查方法。抽样不过是一种方法、手段,其主要目的仍然在于推断总体的信息。可以单独使用,也可用来对普查数据进行评价、修正或补充。,中央财经大学统计学院 10,概率抽样和非概率抽样,根据抽选样本的方法,抽样调查可以分为:概率抽样:也称随机抽样

4、,是按照随机原则抽选样本的抽样方式,抽样时每个样本单位被选中的概率是已知。概率抽样中可以对抽样误差进行控制。在我国,习惯上将概率抽样称为抽样调查。不满足概率抽样要求的抽样都被归为非概率抽样。非概率抽样单个单位被选中的概率是不可知的,不能从概率意义上控制抽样误差。,中央财经大学统计学院 11,概率抽样中的随机原则,随机原则:在抽选样本时排除主观因素的影响(不是有意识的抽选某些单位),使每个单位都有一定的机会被抽中。等概率抽样:抽样时每个单位被选中的概率都相等。不等概率抽样:抽样时不是每个单位被选中的概率都相等。,中央财经大学统计学院 12,抽样调查的特点,是实际中应用最广泛的一种调查方式。199

5、2年我国的国家调查系统将抽样调查列为统计调查的主体。与全面调查相比,它具有以下明显的特点:经济性。普查需要花费大量人力、财力,而采用抽样调查则可取得事半功倍的效果。时效性强 。可以迅速及时地获得信息。适应面广 。对于某些不可能进行普查的现象,只能通过抽样调查获取这些现象的部分数据。有可能获得比普查更高的数据质量 。普查中工作量大、环节多,登记性误差往往很大。,中央财经大学统计学院 13,3. 统计报表,统计报表是按照国家有关法规规定,自上而下地统一布置、自下而上地逐级提供基本统计报表的统计报告制度。是我国特有的统计调查方法。可以是全面调查,也可以是非全面调查。按报表内容和实施范围不同,分为国家

6、、部门和地方统计报表 按报送周期长短不同,分为日报、旬报、季报、半年报和年报 按填报单位不同,分为基层统计报表和综合统计报表。,中央财经大学统计学院,2.3 抽样调查,概率抽样方法非概率抽样方法抽样调查中的误差,中央财经大学统计学院 15,抽样调查方法的分类,中央财经大学统计学院 16,抽样单元和抽样框,在抽样调查中可以把总体分成若干个互不重叠又穷尽的有限个部分,每个部分称为一个抽样单位 (抽样单元,Sampling unit)。抽样单位可以是一个总体单位,也可以包含多个个体。抽样单位的名单称为抽样框(Sampling Frame)。抽样框应尽可能与目标总体相一致。例如名单抽样框、区域抽样框、

7、时间表抽样框。 从全校100个班级中抽选10个班进行调查,抽样单位和抽样框? 从5000名学生中抽选500名学生进行调查,抽样单位和抽样框?,中央财经大学统计学院 17,(1)简单随机抽样(Simple Random Sampling),也称纯随机抽样。直接从总体单位中抽选样本单位,每个个体被选入样本的概率都相等。可分为有放回和无放回两种方式。是最基本的抽样方法,许多抽样方法都是在它的基础上发展起来的。其数学性质简单,理论也最为成熟。,中央财经大学统计学院 18,有放回抽样和无放回抽样,有放回抽样:也称为重复抽样,在一个单位被选入样本后,记录其编号,然后又将其放回总体中继续参与随后的抽样过程。

8、无放回抽样:也称为不重复抽样,在一个单位被选入样本后,不再放回总体参与随后的抽样过程。,中央财经大学统计学院 19,有放回抽样和无放回抽样,问题:不重复抽样中每个个体被选中的概率相等吗?重复抽样的计算公式比不重复抽样简单,但误差也比不重复抽样略大(第4章有进一步的讲解)。实际应用中一般采用不重复抽样。,中央财经大学统计学院 20,抽选样本单位的方法,从N个总体单位中抽选n个单位组成样本,可以先将N个单位编号,若抽到某个号则对应的单位入样。通常有抽签法和随机数法两种抽选方法。抽签法:用均匀同质的材料制作N个签并充分混合,然后一次抽取n个签,或一次抽取一个签但不放回,直至抽满n个签为止。随机数法:

9、 随机数表随机数骰子摇奖机计算机产生的伪随机数,中央财经大学统计学院 21,随机数表举例,39 65 76 45 45 19 90 69 64 61 20 26 36 31 62 73 71 23 70 90 65 97 60 12 11 98 40 07 17 66 72 20 47 33 84 51 67 47 97 19 98 40 07 17 66 75 17 25 69 17 17 95 21 78 58 24 33 45 77 48 37 48 79 88 74 63 52 06 34 30 01 31 60 10 27 02 89 08 16 94 85 53 83 29 95

10、56 27 09 24 43 ,中央财经大学统计学院 22,简单随机抽样最适用的场合,当总体内样本单位不多,且有完备名册,可用于编号时。对研究的目的而言总内样本单位间的差异不大时。无法充分获得总体信息时。由于编制抽样框及抽取的样本可能过于分散等原因在实际实施中有一定困难,加之没有利用其他辅助信息提高估计的效率,所以大规模调查中很少直接采用。,中央财经大学统计学院 23,(2)系统抽样 (Systematic Sampling),系统抽样(也称等距抽样):将总体N个单位按某种顺序排列,按规则确定一个随机起点,再每隔一定间隔逐个抽取样本单位的抽样方法。直线等距抽样:将总体分成n个组,每组有 k=N

11、/n个单位。在第一组随机选择一个单位,之后每隔k个选择一个。,N = 64n = 8k = 8,第一组,中央财经大学统计学院 24,等距抽样的特点,总体单位的顺序可能影响抽样结果:各单元的排队顺序与所研究的内容无关;各单元的排队顺序与所研究的内容有内在联系。优点:抽取样本简便易行,易于监控。,中央财经大学统计学院 25,等距抽样的特点,主要适用场合总体内的样本单位,对有兴趣的指标而言是随机的或按大小排列的总体内单位数过多,而抽取的样本又较多时总体内的单位数不能确定时(例如抽取学号最后一位为8的学生进行调查),中央财经大学统计学院 26,(3)分层抽样 Stratified Sampling,也

12、称分类抽样或类型抽样。即先将总体所有单位按某种标志划分为若干层,然后从各层中随机抽取一定数目的单位构成样本,根据各层样本汇总对总体指标作出估计的一种抽样方式。,男生,女生,样本,中央财经大学统计学院 27,分层抽样的特点,问题:分层抽样中在分层时使用了已知的信息,还符合随机原则吗?可以提高样本的代表性,提高估计的精度。在估计总体参数的同时还能估计每层的参数。抽样误差只受层内方差的影响,分层时应使层间方差大、层内方差小。最适用的场合:当总体内样本单位的差异较大时;分层后能达到层间差异大,层内差异小的原则时,中央财经大学统计学院 28,按比例分层抽样和不按比例分层抽样,按比例分层抽样:各层的抽样比

13、例都相等(等于n/N)。在有些情况下为了降低抽样误差或者对各层的参数进行较好的估计,需要采用不按比例分层抽样。在不按比例的分层抽样中如果要用样本资料推断总体,需要对各层的数据资料进行加权处理。,中央财经大学统计学院 29,不按比例分层抽样(不等概率抽样)的例子,假设要从1000亩农田中抽取100亩调查小麦的平均亩产。1000亩耕地中有600亩为平原,400亩为丘陵;平原地区的亩产量相差不大(方差很小),而丘陵地区亩产量的差别很大(方差大)。按比例抽样:平原和丘陵各抽60亩和40亩。不按比例抽样:为了更准确地估计丘陵地区的平均亩产,在丘陵地区多抽一些农田(例如70亩),从平原地区抽取30亩 。这

14、时总体平均亩产的估计值为,中央财经大学统计学院 30,(4)整群抽样 Cluster Sampling,先将总体分为R个群(即次级单位或子总体),每个群包含若干总体单位。按某种方式从中随机抽取r个群,然后对抽中的群的所有单位都进行调查的抽样方式。,随机选择2个群构成样本,中央财经大学统计学院 31,整群抽样的特点,样本单位比较集中,容易集中力量进行调查,便于组织与管理,也节省了调查时间和费用。不需要所有总体单位的抽样框。由于样本单位不能均匀的分布在总体中,所以样本的代表性要差一些(对策:增大样本容量)。抽样误差受群间方差的影响,不受群内方差的影响。分群时应使群间方差小。最适用的场合:总体名单不

15、易获得时为节省调查成本时群内差异大,而群间的变异小时,中央财经大学统计学院 32,(5)多阶段抽样,先从总体中随机地抽取若干初级单位,再从初级单位中抽取若干二级单位,如此下去直至抽取所要调查的基本单位的抽样方法。例如: 统计年鉴2004指出 2003年人口变动情况抽样调查是以全国为总体,各省、自治区、直辖市为次总体,采用分层、等距、整群概率比例抽样方法,在全国31个省、自治区、直辖市抽取了990个县(市、区)、3734个乡(镇、街道)、6544个调查小区的126万人。,中央财经大学统计学院 33,多阶段抽样的特点,适用于总体分布很广,不可能从总体中直接抽取样本单位的情况。不需要全部低级单位的抽样框,节省了调查费用。方法灵活多样。,抽样调查的组织方式完全取决于调查研究的目的要求、调查对象的特点和客观的条件。凡是能够最经济、最省时而又能够满足预期精确度和可靠性的组织方式,便是一种好的组织方式,这也是抽样设计的最根本的原则。,中央财经大学统计学院 34,非概率抽样,不满足概率抽样要求的抽样都被归为非概率抽样。非概率抽样中单个单位被选中的概率是不可知的,无法根据样本计算抽样误差。,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号