统计学第五章抽样推断与参数估计讲解

上传人:我** 文档编号:115214420 上传时间:2019-11-13 格式:PPT 页数:68 大小:727KB
返回 下载 相关 举报
统计学第五章抽样推断与参数估计讲解_第1页
第1页 / 共68页
统计学第五章抽样推断与参数估计讲解_第2页
第2页 / 共68页
统计学第五章抽样推断与参数估计讲解_第3页
第3页 / 共68页
统计学第五章抽样推断与参数估计讲解_第4页
第4页 / 共68页
统计学第五章抽样推断与参数估计讲解_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《统计学第五章抽样推断与参数估计讲解》由会员分享,可在线阅读,更多相关《统计学第五章抽样推断与参数估计讲解(68页珍藏版)》请在金锄头文库上搜索。

1、第五章 抽样推断与参数估计,教学目的和要求: 1.了解抽样调查方法的概念和特点; 2.理解抽样分布的特点; 3.掌握抽样误差的计算和总体参数估计; 4.掌握必要样本数目的确定方法; 5.能够正确选择抽样组织方式。,第一节 抽样调查的意义和作用 第二节 抽样分布 第三节 总体参数估计 第四节 抽样组织形式和误差估计,第一节 抽样调查的意义和作用,一、抽样方法 抽样方法有两种:概率抽样和非概率抽样。 (一)概率抽样 它根据随机原则,以一定的入样概率,从现象总体中随机 抽取若干样本单位,然后计算样本单位的数量特征(称为统 计量),并以此来推断估计总体参数。参数估计可分为点估 计和区间估计。 1.随机

2、抽样的特点 数据的随机性;抽样方法的随机性;当用样本统计量来估计总体参数时,不但要考虑样本单位的数量特征,也要考虑各样本单位的入样概率;随机抽样要求样本单位的入样概率通过一定的随机化程序来实现。,2.随机抽样的意义 总体现象各个单位数据的分布,在大量观察的情况下,它服从一定的概率分布,当数据足够多时,它一般表现为正态分布的特征。用随机原则抽取样本单位,完全排除人为的干扰抽取样本单位,才能排除样本单位的有偏分布,才能保证 样本单位的分布结构与总体单位分布结构的一致性,才能够应用相应的分布概率来进行总体参数估计。 (二)非概率抽样 相对于概率抽样而言,非概率抽样在我国的统计学教科书中有所谓的重点调

3、查、典型调查。,在国外的教科书中称之为:目的抽样、随意(便)抽样、判断抽样、配额抽样等。 总之,非概率抽样的一个特点是样本单位的抽选是根据调查者的主观判断,有目的、有意识地或根据方便的原则来进行的,而不是按随机原则来抽取样本单位。用非概率抽样方法抽取的样本单位,所计算的样本数据来进行总体的参数估 计时,往往是有偏估计,它不能从概率意义上来估计抽样误差,并以此来保证抽样推断估计的准确性。,二、抽样调查的作用,(一)对不必要和不可能进行全面调查的现象,可以通过抽样调查,取得样本数据来推断总体的数量特征。 (二)适用于对那些要求时效性强,调查周期短的现象所进行的调查。 (三)对全面调查(普查)的补充

4、和修正。 (四)抽样调查能够节约调查的人力、物力和财力,从而大大地降低调查费用。,三、抽样调查在中国的应用,在我国,解放前科学的统计工作相当薄弱,统计学主要受英美流派的影响。抗战期间清华大学的国情调查研究所由戴世光主持、进行云南省呈贡县人口抽样调查。解放后,我国的统计工作主要学习苏联,按照计划经济的特点实行全面定期报表统计制度。但面对我国各地域社会经济发展状况的不同,根据不同的研究目的,也提出采用多种调查方法,其中也包括抽样调查方法。我国在1955年开始进行农民家计抽样调查,1956年开始城镇职工家计调查,1963年建立农产量调查队。但这些抽样调查都随着十年文化革命期间而停顿。同时,抽样调查的

5、理论研究也很少有人进行。,二十世纪八十年代以来,我国实行改革开放政策,用社会主义市场经济取代计划经济,调查对象主体日益多元化和复杂化,仅靠全面定期报表制度来搜集社会经济发展数据的调查体系已不能适应社会发展的需要,不能满足国家宏观决策和调控部门、公司企业和社会公众对统计信息的需求,于是科学的抽样调查方法受到人们的日益重视,抽样调查的应用实践和理论研究进入了一个新时期。 1981年国家统计局建立农村抽样调查队和城市抽样调查队,1994年成立企业调查队,分别进行农民家庭生活收支、城镇居民生活收支、农产量、城乡物价、企业景气等各种社会经济抽样调查。2006年国家实行统计管理体制改革,实行三个调查队的合

6、并,统筹进行各种社会经济现象的抽样调查。同时有关政府主管部门和研究机构,为某个政策研究目的而分别进行专题抽样调查。,二战以后,美国质量管理专家戴明在日本推广抽样统计质量管理方法,对提升日本产品质量起了巨大的作用,“戴明奖”成为日本政府最高级别的质量管理奖。二十世纪八十年代我国北京人民机器厂引进日本小松制作所的抽样统计质量管理方法,在中国科学院刘源张教授的指导下,进行抽样方法在产品质量管理中的应用实践,取得很好的效果。现在统计质量管理方法已普遍成为我国工业产品质量控制和服务质量管理的一个重要方法。 为适应我国社会经济发展和体制改革的需要,促进经济增长方式的根本转变,促进社会和谐发展,1994年国

7、务院批转国家统计局关于改革我国统计调查体系的请示,其改革的目标模式是:建立以必要的周期性普查为基础,以经常性抽样调查为主体,同时辅以重点调查、科学推算等多种方法综合运用的统计调查方法体系。,由于社会的需要和重视,抽样调查方法在经济学、管理学、社会学等学科的研究中得到广泛应用,在市场调查、民意测验、政府绩效评价、犯罪调查、舆论信息反馈、劳动就业、社会保障政策评价、质量管理等方面起了越来越重要的作用。在我国所有的统计学教科书中都写入抽样调查的有关章节内容,高等院校的统计学专业、社会学专业都把抽样调查的理论和方法应用列为一门必修的专业课。,第二节 抽样分布 一、大数定理与中心极限定理,(一)、大数定

8、理,当样本容量n 充分大时,可以用样本平均估计总体平均。,当试验次数n充分大时,可以用频率代替概率。,大数定理的意义:个别现象受偶然因素影响,但是,对总体的大量观察后进行平均,就能使偶然因素的影响相互抵消,从而使总体平均数稳定下来,反映出事物变化的一般规律,这就是大数定理的意义。,(二)、中心极限定理,正态分布的再生定理 :相互独立的两个正态随机变量相加之和仍服从正态分布。 中心极限定理: 大样本的平均数近似服从正态分布。,二、抽样的基本概念 (一)、总体与样本(见第一章) 1.总体:又称全及总体、母体,指所要研究对象的全体,由许多客观存在的具有某种共同性质的单位构成。总体单位数用 N 表示。

9、 2.样本:又称子样,来自总体,是从总体中按随机原则抽选出来的部分,由抽选的单位构成。样本单位数用 n 表示。 3.总体是唯一的、确定的,而样本是不确定的、可变的、随机的。,(二)、样本容量与样本个数,1、样本容量:一个样本中所包含的单位数,用n表示。 2、样本个数:又称样本可能数目,指从一个 总体中所可能抽取的样本的个数。对于有限总体,样本个数可以计算出来。样本个数的多少与抽样方法有关。(这个概念只是对有限总体有意义,对无限总体没有意义!),(三)、总体参数和样本统计量,1、总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。 2、样本统计量:根据样本分布计算的指标。是随机变量。,(四

10、)、重复(置)抽样与不重复(置)抽样,1、重复抽样:例如从A、B、C、D、E五个字母中随机抽取两个作为样本。N=5,n=2 考虑顺序时:样本个数=Nn=52=25 不考虑顺序时:样本个数=,2、不重复抽样: 例如从A、B、C、D、E五个字母中随机抽取两个作为样本。N=5,n=2 考虑顺序时:样本个数 不考虑顺序时:样本个数,三、抽样分布,抽样分布的概念:由样本统计量的全部可能取值和与之相应的概率(频率)组成的分配数列。(主要求出样本平均数的期望与方差),(一)、重置抽样分布-样本平均数的分布,某班组5个工人的日工资为34、38、42、46、50元。 = 42 2 = 32 现用重置抽样的方法从

11、5人中随机抽2个构成样本。共有52=25个样本。如右图。,验证了以下两个结论: 抽样平均数的标准差反映所有的样本平均数与总体平均数的平均误差,称为抽样平均误差,用 表示。,由概率论知,如果总体是正态分布的,则样本平均数的抽样分布是如下正态分布 这是一个非常重要的结论,有广泛的应用。(请参见中心极限定理。),(二)、重置抽样分布-样本成数的分布,总体成数p是指具有某种特征的单位在总体中的比重。成数是一个特殊平均数,设总体单位总数目是N,总体中有该特征的单位数是N1。设x是0、1变量(总体单位有该特征,则x取1,否则取0),则有: 现从总体中抽出n个单位,如果其中有相应特征的单位数是n1,则样本成

12、数是: P也是一个随机变量,利用样本平均数的分布性质结论,即有:,(三)、不重置抽样分布,样本均值的分布性质: 样本成数的分布性质,抽样分布总结,从以上公式可看出,影响抽样误差的因素有: 1.总体方差 ,它与抽样误差成正比例关系,当总体方差越大时,抽样误差也越大。当总体方差未知时,可用样本方差代替。 2.样本容量n,它与抽样误差成反比例关系,当抽取的样本单位数越多时,抽样误差越小。 3.不重复抽样的抽样误差比重复抽样的小,当N相对于n很大时,两者很接近。 4.不同的抽样组织形式,其抽样误差也各不相同。,第二节 总体参数估计 (Parameters estimation),参数估计,通俗地说,就

13、是根据抽样结果 来合理地、科学地估计总体的参数很可能是什 么?或者在什么范围。 点估计:根据样本数据算出一个单一的估 计值,用来估计总体的参数值。 区间估计:计算抽样平均误差,指出估计 的可信程度,进而在点估计的基础上,确定总 体参数的所在范围或区间。,一、总体参数估计概述,1、总体参数估计指以样本统计量来估计总体参数. 2、设待估计的总体参数是,用以估计该参数的统计量是 ,抽样估计的极限误差是,即: 3、极限误差是根据研究对象的变异程度和分析任 务的性质来确定的在一定概率下的允许误差范围。 参数估计的两个要求: 精度:估计误差的最大范围,通过极限误差来反映。显然,越小,估计的精度要求越高,越

14、大,估计的精度要求越低。极限误差的确定要以实际需要为基本标准。 可靠性:估计正确性的一个概率保证,通常称为估计的置信度。 估计中精度要求和可靠性要求是一对矛盾。,二、总体参数的点估计,(一)、点估计的含义 点估计的含义:直接以样本统计量作为相应总体参数的估计量。 优点:直接给出了总体参数的估计值 缺点:不能提供有关抽样误差的信息,(二)、优良估计量标准,优良估计标准: 无偏性:要求样本统计量的平均数等于被估计的总体参数本身。 一致性:当样本容量充分大时,样本统计量充分靠近总体参数本身。 有效性:,总体方差的无偏估计量为样本方差,点估计完全正确的概率通常为0。即没有解决参数估计的精确度和可靠度要

15、求,因此,我们更多的是考虑用样本统计量去估计总体参数的范围 区间估计。,三、参数区间估计 区间估计的内容,(一)、参数区间估计的含义 1、含义:根据样本求出总体未知参数的区间范围,并给出区间估计成立的概率值。 2、显著性水平、置信度和置信区间 设 和 都是样本的两个统计量,且 ,对于给定的0 1有 则称区间( , )为 的 的置信区间 其中: 1-(01)称为置信度;是区间估计的显著性水平,其取值大小由实际问题确定,经常取1%、5%和10%。,注对上式的理解: 例如抽取了1000个样本,根据每一个样本均构造了一个置信区间,这样,由1000个样本构造的总体参数的1000个置信区间中,有95%的区

16、间包含了总体参数的真值,而5%的置信区间则没有包含。这里,95%这个值被称为置信水平(或置信度)。一般地,将构造置区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。,真值只有一个,一个特定的区间“总是包含”或“绝对不包含”该真值。但是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。 如果大家还是不能理解,那你们最好这样回答有关区间估计的结果:该班同学平均成绩的置信区间是60-80分,置信度为95%。,(二)、区间估计的基本要素,1、基本要素包括:样本点估计值、抽样极限误差、估计的可靠程度 样本点估计值( ) 抽样极限误差:可允许的误差范围。 抽样估计的可靠程度(置信度、概率保证程度) 注意:本教材所进行的区间估计仅指对总体平均数或成数的区间估计,2、关于抽样极限误差、样本均值的标准差和临界值之间的关系,(三)、平均数区间估计,1、当总体方差 已知时,总体均值u的区

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号