应用统计--抽样与抽样分布

上传人:豆浆 文档编号:52086388 上传时间:2018-08-18 格式:PPT 页数:59 大小:724KB
返回 下载 相关 举报
应用统计--抽样与抽样分布_第1页
第1页 / 共59页
应用统计--抽样与抽样分布_第2页
第2页 / 共59页
应用统计--抽样与抽样分布_第3页
第3页 / 共59页
应用统计--抽样与抽样分布_第4页
第4页 / 共59页
应用统计--抽样与抽样分布_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《应用统计--抽样与抽样分布》由会员分享,可在线阅读,更多相关《应用统计--抽样与抽样分布(59页珍藏版)》请在金锄头文库上搜索。

1、应用统计第四章:抽样与抽样分布抽样的基本概念 抽样调查的特点 经济性 时效性 必要性 抽样所需样本必需要有代表性 例:文学摘要杂志的停刊 Gallup (http:/ 抽样误差与非抽样误差一次失败的统计调查在1936年的美国总统选举前,一份名为 Literary Digest (文学摘要)杂志进行了一次民意调查。调查的焦点是谁将成为下一届总统是挑战者,堪萨斯州州长Alf Landon,还是现任总统 Franklin Delano Roosevelt。为了解选民意向,民意调查专家们根据电话簿和车辆登记簿上的名单给一大批人发了简单的调查 表(电话和汽车在1936年并不像现在那样普及,但是这些名单比

2、较容易得到)。尽管发出的调查表大约有一千万张,但收回的比 例并不高。在收回的调查表中, Alf Landon非常受欢迎。于是该杂志预测 Landon 将赢得选举。但事实上是Franklin Roosevelt赢得了这次选举在经济大萧条时期调查有电话和汽车的人们,并不能够反映全体选民的观点。此外,只有少数的问卷被收回。这些都是值得怀疑的抽样方法简单随机抽样分层抽样整群抽样系统抽样多阶段抽样概率抽样方便抽样判断抽样自愿样本滚雪球抽样配额抽样非概率抽样抽样方式概率抽样 根据一个已知的概率来抽取样本单位,也 称随机抽样. 特点 按一定的概率以随机原则抽取样本 抽取样本时使每个单位都有一定的机会被抽中

3、每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样 从总体N个单位中随机地抽取n个单位作为样本,使 得每一个容量为n样本都有相同的机会(概率)被抽中 抽取元素的具体方法有重复抽样和不重复抽样 特点 简单、直观,在抽样框完整时,可直接从中抽取样本 用样本统计量对目标量进行估计比较方便 局限性 当N很大时,不易构造抽样框 抽出的单位很分散,给实施调查增加了困难 没有利用其他辅助信息以提高估计的效率简单随机抽样【例】某公司想从某公司想从800800名专职雇员中抽取一个由名专职雇员中抽取一个由 3232名专职雇员组成的样本,来

4、获得有关公司发名专职雇员组成的样本,来获得有关公司发 起的护牙计划支出情况的信息。公司认为,并起的护牙计划支出情况的信息。公司认为,并 非每个人都愿意回答问卷,因此他们必须寄多非每个人都愿意回答问卷,因此他们必须寄多 于于3232份的问卷才能获得想要的份的问卷才能获得想要的3232份答案。假设份答案。假设 平均每平均每1010个专职雇员中有个专职雇员中有8 8人愿意回答调查问卷人愿意回答调查问卷 (即(即8080的回答率),就必须抽取总数为的回答率),就必须抽取总数为4040个个 雇员的样本才能得到想要的雇员的样本才能得到想要的3232份回答。因此,份回答。因此, 要从公司的个人档案中抽取要从

5、公司的个人档案中抽取4040名专职雇员。在名专职雇员。在 实际工作中,该怎样进行简单随机抽样?实际工作中,该怎样进行简单随机抽样?系统抽样(等距抽样) 将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位 先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位 优点:操作简便,可提高估计的精度 缺点:对估计量方差的估计比较困难 【例】续上例分层抽样 将总体单位按某种特征或某种规则划分为不同 的层(类),然后从不同的层中独立、随机地 抽取样本 原则:层间差异较大,而层内差异较小 优点 保证样

6、本的结构与总体的结构比较相近,从而提高估 计的精度 组织实施调查方便 既可以对总体参数进行估计,也可以对各层的目标量 进行估计分层抽样【例例】假设某大学的商学院想对今年的毕业生进行一次假设某大学的商学院想对今年的毕业生进行一次 调查,以便了解他们的就业倾向。该学院有调查,以便了解他们的就业倾向。该学院有5 5个专业:个专业: 会计,金融,市场营销,经营管理,信息系统。今年共会计,金融,市场营销,经营管理,信息系统。今年共 有有15001500名毕业生,其中会计专业名毕业生,其中会计专业500500名,金融专业名,金融专业350350名名 ,市场营销专业,市场营销专业300300名,经营管理专业

7、名,经营管理专业150150名,信息系统名,信息系统 专业专业200200名。假定要选取名。假定要选取180180人作为样本,各专业应抽取人作为样本,各专业应抽取 的人数分别为:会计专业的人数分别为:会计专业6060人,金融专业人,金融专业6262人,市场营人,市场营 销专业销专业3636人,经营管理专业人,经营管理专业1818人,信息系统人,信息系统2424人。人。整群抽样 将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查 原则:群间差异小,群内差异大。 特点 抽样时只需群的抽样框,可简化工作量 调查的地点相对集中,节省调查费用,方便调查的实施 缺点是

8、估计的精度较差抽样分布理论 总体参数 总体平均值 总体方差 总体标准差 总体比率抽样分布理论 样本统计量样本平均值样本方差样本标准差样本比率三种不同性质的分布 总体分布 样本分布 抽样分布总体分布 (population distribution) 总体中各元素的观察值所形成的分布 分布通常是未知的 可以假定它服从某种分布 总体总体样本分布 (sample distribution) 一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐 接近总体的分布 样样 本本抽样分布(sampling distribution) 样本统计量的概率分布,是一种理论分布在重复选取容量为

9、n的样本时,由该统计量的所有可 能取值形成的相对频数分布 样本统计量是随机变量 样本均值, 样本比例,样本方差等 结果来自容量相同的所有可能样本 提供了样本统计量长远而稳定的信息,是进行 推断的理论基础,也是抽样推断科学性的重要 依据 抽样分布的形成过程(sampling distribution)总体总体计算样本统计计算样本统计 量量如:样本均值如:样本均值 、比例、方差、比例、方差样样 本本一个总体参数推断时样本统计量的抽样分布样本均值的抽样分布 在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布 一种理论概率分布 推断总体均值的理论基础样本均值的抽样分布 (例题分析)

10、【例例】设一个总体,设一个总体,含有含有4 4个元素个元素( (个体个体) ) ,即总体单位,即总体单位 数数N=N=4 4。4 4 个个体分别为个个体分别为x x1 1=1=1,x x2 2=2=2,x x3 3=3=3,x x4 4=4=4 。总总 体的均值、方差及分布如下体的均值、方差及分布如下总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3均值和方差均值和方差样本均值的抽样分布(例题分析) 计算出各样本的均值,如下表。并给出样本均计算出各样本的均值,如下表。并给出样本均 值的抽样分布值的抽样分布3.53.02.52.033.02.52.01.524.03.53.0

11、2.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x x样本均值的抽样分布样本均值的抽样分布1.01.00 00.10.10.20.20.30.3P P ( ( x x ) )1.51.53.03.04.04.03.53.52.02.02.52.5样本均值的分布与总体分布的比较(例题分析) = 2.5 = 2.5 2 2 =1.25=1.25总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3抽样分布抽样分布P P ( ( x x ) )1.01.00 0.1.1.2.2.3.31.51.53.03.04.04.03.53.52.02.0

12、2.52.5x x 样本来自正态分布【正态分布再生定理】:设 为一组随机变量,若它们相互独立,而且都服从正态分布 ;则 服从正态分布 。 已知时,样本均值的抽样分布已知时,样本均值的抽样分布【正态分布再生定理】:如果容量为n的随机样本抽自平均数为u方差为 的正态分布总体,则样本平均数 也服从正态分布,该分布的期望值为 ,方差为 。 当N远远大于n 时,即 时,也可将不退还抽样看作退还抽样。其中 已知时,样本均值的抽样分布已知时,样本均值的抽样分布 样本来自非正态总体【中心极限定理】设 为一组随机变量,若它们相互独立,而且具有相同分布;期望 ,方差 ;则 服从正态分布 。【注】对任意分布形态的平

13、均数为u,方差为 的总体进行随机抽样,只要样本容量足够大 ( n30)则样本平均数抽样分布逼近期望值 为 ,方差为 的正态分布样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布其中通常把n30作为“n很大”的标准。样本容量 n30称为大样本,否则称为小样本。中心极限定理 x x 的分布趋的分布趋 于正态分布于正态分布 的过程的过程例题1【例】某类钢制产品的重量,经过多次衡量,取得有差异的一系列数据,这些数据近 似的服从正态分布,设平均值为2800公斤,方差为9000公斤。现假定从该总体中抽出容量为10的随机样本。问这个样本的平均重量小于或等于2750公斤的概率为多大?例题

14、分析【解解】:样本来自于标准差已知的正态分布总体,:样本来自于标准差已知的正态分布总体, 故抽样分布为正态分布。其中故抽样分布为正态分布。其中例题2【例】从海外A地区、B地区、和C地区到货了3批大豆,分别为1000包、10000包和100000包,已知3批大豆中平均每包重量都为100公斤,标准差都是4公斤。现从每批中都按不重复抽样抽取样本容量n=500包的样本,来测定这3批大豆的每包平均重量,要求分别标出样本平均重量短秤半公斤的概率。例题分析解:从A地区大豆抽样的从B地区大豆抽样的例题分析从C地区大豆抽样的如果不作总体修正,则例题分析A地区B地区C地区抽样分布与总体分布的关系总体分布总体分布正

15、态分布非正态分布大样本大样本小样本小样本正态分布正态分布非正态分布未知时,样本均值的抽样分布未知时,样本均值的抽样分布总体是正态总体或非正态总 体但样本量很大 未知,总体是正态总体未知,总体非正态总体且样 本量很大未知,总体非正态总体且样 本量很小分布未知t分布 t-分布是由W.S.Gosset(1876-1937)于1908年在一篇署名为“student”的论文中首次提出,因此又称为“学生氏”分布。 设随机变量X N(0,1), Y ,且X和Y相互独立,则随机变量 的分布称为自由度为n的t-分布,并记为T t(n)t分布 t -分布 是一概率分布簇。 某一特定的 t 分布依赖于参数n,称之为自由度。 随着自由度的增加,t-分布与正态分布之 间的差距将会不断减小(n30)。 随着自由度的增加,t-分布的离散程度也将减小。 t-分布的均值为0,方差为t分布 x xt t 分布与标准正态分布的比较分布与标准正态分布的比较t t 分布分布标准正态分布标准正态分布t t不同自由度的不同自由度的t t分布分布标准正态分布标准正态分布t t ( (dfdf = 13) = 13)t t ( (dfdf

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号