《抽样与抽样分布》1-3节课堂知识汇总及典型例题

上传人:小** 文档编号:88215133 上传时间:2019-04-21 格式:DOC 页数:8 大小:180.01KB
返回 下载 相关 举报
《抽样与抽样分布》1-3节课堂知识汇总及典型例题_第1页
第1页 / 共8页
《抽样与抽样分布》1-3节课堂知识汇总及典型例题_第2页
第2页 / 共8页
《抽样与抽样分布》1-3节课堂知识汇总及典型例题_第3页
第3页 / 共8页
《抽样与抽样分布》1-3节课堂知识汇总及典型例题_第4页
第4页 / 共8页
《抽样与抽样分布》1-3节课堂知识汇总及典型例题_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《《抽样与抽样分布》1-3节课堂知识汇总及典型例题》由会员分享,可在线阅读,更多相关《《抽样与抽样分布》1-3节课堂知识汇总及典型例题(8页珍藏版)》请在金锄头文库上搜索。

1、9第五章 抽样与抽样分布第一节 抽样的基本概念一、几个基本概念1、目标总体和抽样总体目标总体就是研究对象的全体。抽样总体是指从中抽取样本的总体。二者理应一致,但实际中有时难以保证。2、抽样单元和抽样框抽样总体的具体表现就是抽样框,通常是一份包含所有抽样单元的名单,好的抽样框应该尽可能多地提供与研究目标有关的辅助信息。抽样单元是构成抽样框的基本单位,可以是一个个体,也可以包含若干个个体,还可以分级。分级情况下,总体由若干个较大规模的抽样单元组成,为初级单元,每个初级单元又包含若干个规模较小的单元,为二级单元,以此类推。抽取哪一级,就需要有哪一级的抽样框。3、抽样误差和非抽样误差抽样误差是抽取样本

2、的随机性造成的样本值和总体值之间的差异。只要采用抽样调查,抽样误差就不可避免,但可通过增大样本量来减小误差。非抽样误差是由于其他多种原因引起的样本值和总体值之间的差异。三、抽样方案设计1、抽样设计步骤:明确调查目的,确定研究对象,确定目标量;明确总体及抽样单元;(根据总体的定义,收集一份全部个案的名单)对主要目标量的精度提出要求(误差控制在多大范围内);选择抽样方法;根据抽样方法、精度要求等确定样本量,并估计抽样误差;制定具体步骤。2、设计原则(1)随机性原则总体中所有个体被抽中机会相等。(2)抽样效果最佳原则在固定费用下,抽样误差最小;在要求精度下,费用最少。第二节 抽样方法一、随机抽样1、

3、简单随机抽样:最基本的抽样方法,最符合随机原则,每个个体都有同样的被抽中概率。是其它复杂抽样设计的基础。使用随机数表。2、分层抽样:将总体按照某些特征分成若干个层,在每一层当中独立抽取若干子样本。要求组内同质性强,组间差异大。由于在每层中都抽取出一些样本,样本具有较好的均匀性,代表性更强。3、整群抽样:先将总体划分为若干群,然后以群为初级抽样单元,从中随即抽取n个群,对抽中的裙内的所有次级单元都进行调查。要求群内差异大,群间差异小。组织上方便,但抽样单元过于集中,抽样误差最大。4、系统抽样:按照某种顺序给总体中的N个单元编号,然后随机抽取一个编号作为样本的第一个单元,其它单元则按照某种确定的规

4、则抽取。最常见的是等距抽样,按照相等的距离抽取样本。尽可能按照与调查项目有关的变量的大小顺序进行排序总体单元,类似于分层抽样,这样抽取出的样本分布均匀;或者随机排序;要尽量缩小各个等距组内的方差,增大等距组间的方差,否则抽出的样本有偏(每一组内都服从同样的规律)。5、PPS抽样:概率比例抽样,是一种多阶段抽样,每一阶段都可视为整群抽样,每一个抽中的群继续被整群抽样,直到抽样的单元满足要求,成为基本的调查单元。PPS抽样的优点是每个群被抽中的概率与其规模成正比,规模大的抽样概率大,但是最终会实现每个个体具有相同抽样概率,保证估计的无偏性。二、非随机抽样法(没有样本框)1、目的抽样由研究者根据自己

5、的主观判断选择代表性个案。2、偶遇抽样常见于市场调查,街访。3、定额抽样根据总体的某些特征分组,然后用目的抽样或偶遇抽样来选择。代表性高于前两种方法。非随机抽样优点在于简便,代价小,故常用于探索性或试点研究。缺点是不能推断总体。第三节 抽样分布一、抽样分布的概念抽取到不同的样本,会导致样本统计量的不同取值。所以要抽取大量样本,计算出各个样本统计量出现的可能性,得到各个样本统计量的概率分布,才能判断和比较哪个样本量比较合适。样本统计量的抽样分布:由n个样本的各观察值计算出的统计量的概率分布。例1:从某个班100位学生中抽取4位学生,计算身高(=169,=6.4),来估计全班平均身高,假设抽取了成

6、千上万个样本,得到了如下结果:抽样分布计算的期望值计算的标准差(标准误差)P()P()(-169)2(-169)2 P()1610.011.61640.641630.058.15361.801650.1219.80161.921670.1931.7340.761690.2643.9400.001710.1932.4940.761730.1220.76161.921750.058.75361.801770.011.77640.641.00的期望值=169的方差=10.24P的标准误差=3.20为了区分X的标准差和的标准差,的标准差通常称为标准误差(SE)。可以发现,样本均值抽样分布成正态分布,有

7、时大于有时小于总体均值,平均来看趋于。的期望值正好等于估计目标。总体标准差是的标准误差SE的2倍。为什么样本均值的波动小于观察值X的波动?这是取平均数的结果。通过取平均数,样本均值围绕目标的波动就会小。 样本容量越大,的标准误差就越小,分布的形状就越窄,波动越小,样本均值就是的更可靠的估计。 当总体为偏态分布时,样本均值的概率分布是否服从正态分布取决于样本量。当n等于5时,样本均值抽样分布开始向正态分布发展,n=30时各种样本均值抽样分布无差别,基本形成正态分布。二、样本均值的抽样分布1、样本均值抽样分布的特征A抽样分布的中心就是原总体中心,数学上可以证明:的期望值=;B抽样分布的标准误差比总

8、体标准差小,样本量越大,标准误差越小,数学上可以证明:标准误差(SE)=/C正态总体产生正态抽样分布;非正态总体,随着样本量的增加,样本均值抽样分布也会近似变成正态。这三点即独立同分布中心极限定理。例2:几年前台湾一项调查显示,台湾民众月收入近似成正态分布,均值为13100台币,标准差为8750元,求:1) 随机抽取一人,收入超过18430元的概率?2) 抽取一个10人样本,平均收入超过18430元的概率?解:1)Z= =(18430-13100)/8750=0.608 Pr(X18430)=Pr(Z0.608)0.270927%2)样本均值成正态分布,E()=13100,SE=/=8750/

9、 2767。对样本均值进行标准化: Z= =(18430-13100)/2767=1.92 Pr(18430)=Pr(Z1.92)0.02743% 可见,一个人收入超过18430元的机会较大,但10个人的平均收入超过18430元的机会则很小。例3:假定某班级男生平均身高169cm,标准差为10.2cm,如果抽取一个n=100的随机样本,那么样本均值在2之内的机会是多少?解:样本均值的期望值=169,标准误差SE=/=1.02,求样本均值在167-171之间的概率,可先求171的概率。Z= =(171-169)/1.02=1.96Pr(171)=Pr(Z1.96)=0.025。利用正态分布的对称

10、性,171和169的概率相等,所以Pr(167171)=1-20.025=95%练习题:一架电梯极限负重1000公斤,一般可容纳13人。假定电梯的所有乘客平均体重70公斤,标准差12公斤。那么一个13个人的随机样本总重量超过极限负重的概率是多少? 解:原提问可以转化为:13人样本的平均体重超过1000/13=76.92的概率是多少?人们的体重服从正态分布,期望值=70,SE=3.33,Z=(76.92-70) /3.33=2.08Pr(76.92)=Pr(Z2.08)=0.001882%2、不放回抽样的抽样分布 中心极限定理的前提是每次抽样的独立性,如果采取不放回抽样,则不再适用。但不放回抽样

11、会使抽样分布波动小,标准误差变小。于是将中心极限定理作修改,使其对于不放回抽样也适用。不放回抽样的标准误差计算公式: SE= 称为缩减因子/修正系数 当总体远远大于样本数时,则缩减因子几乎为1,可忽略。三、样本比例的抽样分布假定总体只有两种特征,分别赋值1和0,将想要研究的特征赋值为1。例4:某市育龄妇女生育意愿普查,65%的赞成“只生一个孩子”,35%不赞成或不表态。赞成为1,否则为0,总体分布如下:求:1)总体均值、总体方差、总体中赞成的比例;2)随机抽取10位育龄妇女,得到样本值为1、0、0、1、1、1、0、1、1、1,求样本均值、样本中赞成比例。解:1)X相对频率P(X)均值XP(X)

12、方差(X-)2P(X)00.3500.14787510.650.650.079625=0.652=0.2275总体均值=0.65,正好是总体中赞成比例,方差=0.2275 =0.350.65。2)样本均值=7/10=0.7,样本中赞成比例=7/10=0.7 样本均值等于样本中赞成的比例。将这个结果推广到一般情况。对于任何一个可以分为两种特征的总体,见下表, X= 1 成功 0 失败P(X)XP(X)(X-)2P(X)01-02(1-)1(1-)2 则总体均值=总体比例; 总体标准差= 处理比例的巧妙办法就是引入0-1变量(哑变量),规定总体中具有某种特征的个体为1,否则就为0,总体中对应于1的

13、比例就是该变量的均值,样本中含1的个体比例就是样本均值。把比例看作均值就可以用样本均值抽样分布原理来处理。同时,对于大样本来说,P的抽样分布近似正态。所以,P的期望值=; P的标准误差=例5:学校选人大代表,结果有60%的选民投了我院院长而当选。假定选举之前有人做了预测,抽取了一个n=30的随机样本进行民意测验,如果样本中只有半数一下的比例支持院长,那么会得出院长失败的结果,显然这一预测是一个倒霉的预测。那么,抽取到以上样本的概率是多少?即错误预测的机会多少?解:用p表示样本中支持院长的比例,要计算p 小于50%的概率。根据中心极限定理,p的期望值=0.6;SE=0.0894。将p=0.5标准

14、化:Z=(P-)/SE=(0.5-0.6)/0.0894=-1.12Pr(p0.5)=Pr(Z-1.12)=0.131413% 所以,预测错误的机会比较大,因为样本量不够大。如果将样本量增到100,错误概率为2%。四、样本方差的抽样分布由样本方差的所有可能取值形成的概率分布,称为样本方差的抽样分布。设随机变量x1,x2,x3.xi相互独立且服从同一正态分布,则将这些随机变量标准化,再计算它们的平方和,得到卡方值,服从于自由度为n-1的卡方分布:=进一步整理得=(n-1)分布的特点:分布的变量值始终为正;分布的形状取决于自由度大小,通常为不对称的右偏分布,随着自由度增大而逐渐趋于对称;分布的期望值E()=n,方差=2n;分布具有可加性,若U和V是两个独立的分布随机变量(n1),(n2),则U+V服从于自由度为n1+ n2的卡方分布。n=1 n=10 n=20n=4

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号