三、抽样概述

上传人:xh****66 文档编号:55814770 上传时间:2018-10-06 格式:PPT 页数:57 大小:942.50KB
返回 下载 相关 举报
三、抽样概述_第1页
第1页 / 共57页
三、抽样概述_第2页
第2页 / 共57页
三、抽样概述_第3页
第3页 / 共57页
三、抽样概述_第4页
第4页 / 共57页
三、抽样概述_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《三、抽样概述》由会员分享,可在线阅读,更多相关《三、抽样概述(57页珍藏版)》请在金锄头文库上搜索。

1、三、抽样概述,抽样和样本:从总体中按一定抽样技术抽取若干个个体,这一过程称为抽样;所抽取的部分个体称样本。 样本容量:样本所包含的总体单位数,用n表示。 统计量:为了推断总体的某些特征,由样本构造的函数称为统计量。统计量只依赖于样本,不包含任何未知参数。如:样本均值、样本方差,概率抽样:按随机原则抽取样本。有以下几种:简单随机抽样、分层抽样、整群抽样、等距抽样 非概率抽样:不按随机原则抽取样本。 抽样框:实际进行抽样的总体范围和抽样单位。或包含全部抽样单位的名单框架。(1)名单抽样框(2)区域抽样框(3)时序抽样框,抽样方法,抽样方法,概率抽样 (probability sampling),根

2、据一个已知的概率来抽取样本单位,也称随机抽样 特点 按一定的概率以随机原则抽取样本 抽取样本时使每个单位都有一定的机会被抽中 每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率,从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中 抽取元素的具体方法有重复抽样和不重复抽样 特点 简单、直观,在抽样框完整时,可直接从中抽取样本 用样本统计量对目标量进行估计比较方便 局限性 当N很大时,不易构造抽样框 抽出的单位很分散,给实施调查增加了困难 没有利用其他辅助信息以提高估计的效率,简单随机

3、样本 (simple random sample),由简单随机抽样形成的样本 参数估计和假设检验所依据的主要是简单随机样本,简单随机样本应满足的两个条件:,分层抽样 (stratified sampling),将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本 优点 保证样本的结构与总体的结构比较相近,从而提高估计的精度 组织实施调查方便 既可以对总体参数进行估计,也可以对各层的目标量进行估计,系统抽样 (systematic sampling),将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确

4、定其他样本单位 先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位 优点:操作简便,可提高估计的精度 缺点:对估计量方差的估计比较困难,整群抽样 (cluster sampling),将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查 特点 抽样时只需群的抽样框,可简化工作量 调查的地点相对集中,节省调查费用,方便调查的实施 缺点是估计的精度较差,多阶段抽样 (multi-stage sampling),先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查 群是初级抽样单位,第二阶段

5、抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样 具有整群抽样的优点,保证样本相对集中,节约调查费用 需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开 在大规模的抽样调查中,经常被采用的方法,抽样误差,抽样误差是指调查所得结果与总体真实值之间的差异。,实际抽样误差,实际抽样误差是指某一具体样本的样本估计值与总体参数的真实值之间的离差。,由于样本具有随机性,所以样本估计量就是随样本不同而不同的随机变量,即实际抽样误差也是随样本变化的随机 变量,实际抽样误差无法计算,我们可以考虑计算抽样的平均误差。 抽样平均误差是所有可能样本的实际误差

6、的平均水平,记为,抽样平均误差,抽样平均误差反映了所有可能样本的估计值与总体参数的平均误差水平,其值可以说明样本对总体的代表性。误差越小,则样本估计值越接近总体参数,样本对总体的代表性越高。,样本方差:样本平均误差的平方,记作,抽样极限误差,抽样极限误差是在一定概率保证条件下的抽样误差的变动范围,又称允许误差。,抽样极限误差给出了抽样误差的可能范围而不是完全确定的范围。由上式可知,误差的可能范围与估计的概率密切相关。抽样估计中此概率通常称为置信度。其它条件不变时,抽样极限误差越大,置信度也越大。,三种不同性质的分布,1 总体分布 2 样本分布 3 抽样分布,总体中各元素的观察值所形成的分布 分

7、布通常是未知的 可以假定它服从某种分布,总体分布 (population distribution),一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,样本分布 (sample distribution),样本统计量的概率分布,是一种理论分布 在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 随机变量是 样本统计量 样本均值, 样本比例,样本方差等 结果来自容量相同的所有可能样本 提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,抽样分布 (sampling distribution),抽样分布

8、的形成过程 (sampling distribution),三种重要的精确分布,分布,t 分布,F 分布,一、 分布,定义 设总体XN(0,1), 是总体的一个样本,则称 服从自由度为n的 分布,记为 。,性质1. 设XN(0,1),则,性质2. 设 ,则,性质3.,推论.,性质4 当 , 分布趋于正态分布,即,上 分位点,二、t-分布,定义 设XN(0,1), ,且X与Y相互独立,则称 服从自由度为 n 的 t-分布,,记为 Tt(n)。,性质1 设 Tt(n),则当 n1,E(T)=0;当 n2,D(T)=n/(n-2)。,性质2. t-分布的密度曲线关于t=0对称,和标准正态分布的密度函

9、数曲线图形类似,但当 n 较小时,t-分布与标准正态分布的差异较大。t-分布在尾部比标准正态分布在尾部有较大的概率。当n45时,t分布与正态分布几乎没有差异。,三、F-分布,定义 设 ,且X与Y相互独立,则称,服从第一自由度为m,第二自由度为n 的 F-分布,记为 FF(m,n)。,性质1 对F-分布,若 FF(m,n),则1/FF(n,m)。,性质2 设 Tt(n),则,性质3,在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布 一种理论概率分布 推断总体均值的理论基础,样本均值的抽样分布,样本均值的抽样分布 (例题分析),【例】设一个总体,含有4个元素(个体) ,即总体

10、单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总体的均值、方差及分布如下,均值和方差,样本均值的抽样分布 (例题分析), 现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,样本均值的抽样分布 (例题分析), 计算出各样本的均值,如下表。并给出样本均值的抽样分布,样本均值的分布与总体分布的比较 (例题分析), = 2.5 2 =1.25,总体分布,1、当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(,2/n),当总体方差已知时,样本均值的抽样分布,2、

11、从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为,方差为2/n的正态分布,抽样分布与总体分布的关系,总体分布,正态分布,非正态分布,大样本,小样本,样本均值 正态分布,样本均值 正态分布,样本均值 非正态分布,统计量的标准误 (standard error),样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差 标准误衡量的是统计量的离散程度,它测度了用样本统计量估计总体参数的精确程度 以样本均值的抽样分布为例,在重复抽样条件下,样本均值的标准误为,估计的标准误 (standard error of estimation),当计

12、算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误 以样本均值的抽样分布为例,当总体标准差未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为,当总体方差未知时,用样本方差代替总体方差,则有:,),1,(,s/,2,2,1,2,-,-,=,n,t,n,x,t,s,x,x,x,x,N,X,n,m,s,m,,则统计量,,样本方差为,样本,样本均值为,是一随机,),,,,(,设总体,L,总体(或样本)中具有某种属性的单位与全部单位总数之比 不同性别的人与全部人数之比 合格品(或不合格品) 与全部产品总数之比 总体比例可表示为或 样本比例可表示为,2.样

13、本比例的抽样分布,当从总体中抽取一个容量为n的样本时,样本中具有某种特征的单位数x服从二项分布,即有xB(n,P),且有,样本比例,的期望、方差分别为:,比例的抽样平均误差为:,3.样本方差的抽样分布,其中 ,,为一个简单随机样本,4、不重复抽样的修正系数,当总体容量N较大,而抽样比 很小时,修正因子常忽略不计。,样本统计量的抽样分布 (两个总体参数推断时),两个样本均值之差的抽样分布 两个样本比例之差的抽样分布 两个样本方差比的抽样分布,两个总体都为正态分布,即 , 两个样本均值之差 的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差方差为各自的方差之和,两个样本均值之差的抽样分布,

14、两个样本均值之差的抽样分布,两个总体都服从二项分布 分别从两个总体中抽取容量为n1和n2的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布可用正态分布来近似 分布的数学期望为方差为各自的方差之和,两个样本比例之差的抽样分布,两个样本方差比的抽样分布,两个总体都为正态分布,即X1N(1 ,12),X2N(2 ,22 ) 从两个总体中分别抽取容量为n1和n2的独立样本 两个样本方差比的抽样分布,服从分子自由度为(n1-1),分母自由度为(n2-1) 的F分布,即,参数估计在统计方法中的地位,统计推断的过程,7.1 参数估计的一般问题,7.1.1 估计量与估计值 7.1.2 点估计与区间

15、估计 7.1.3 评价估计量的标准,估计量:用于估计总体参数的随机变量 如样本均值,样本比例、样本方差等 例如: 样本均值就是总体均值 的一个估计量 参数用 表示,估计量用 表示 估计值:估计参数时计算出来的统计量的具体值 如果样本均值 x =80,则80就是的估计值,估计量与估计值 (estimator & estimated value),参数估计的方法,点估计 (point estimate),用样本的估计量的某个取值直接作为总体参数的估计值 例如:用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之差的估计 无法给出估计值接近总体参数程度的信息 虽然在重复抽样条件下,点估计的均值可望等于总体真值,但由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值 一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 科普读物

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号