单变量推论统计1:参数估计

上传人:mg****85 文档编号:49899579 上传时间:2018-08-04 格式:PPT 页数:30 大小:478KB
返回 下载 相关 举报
单变量推论统计1:参数估计_第1页
第1页 / 共30页
单变量推论统计1:参数估计_第2页
第2页 / 共30页
单变量推论统计1:参数估计_第3页
第3页 / 共30页
单变量推论统计1:参数估计_第4页
第4页 / 共30页
单变量推论统计1:参数估计_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《单变量推论统计1:参数估计》由会员分享,可在线阅读,更多相关《单变量推论统计1:参数估计(30页珍藏版)》请在金锄头文库上搜索。

1、第三章 单变量的推论统计之一: 参数估计第一节 抽样分布 第二节 参数的点估计和区间估计 第一节 抽样分布一、相关名词解释参数值统计值随机抽样随机样本二、蒙特卡罗抽样分布:常见的统计问题是:总体未知,比如我们并不知道华 电所有学生的大学语文的平均分为u=65。我们只是随 机抽样,比如抽取了3000名学生,得知这个3000名学 生所构成的样本的均值 =64。因此我们用得到的这 个样本统计值去估计总体的参数值。但是我们都知道 ,样本是随机抽取的,不同的人抽取到的样本(假设 让全班28个人每个人都抽一个3000人容量的样本)是 不同的,同一个人反复抽样时也很可能抽取到不同的 样本。根据排列组合,抽到

2、的是无限个情况的样本。 我们反复从华电学生(假设是10000名)中抽3000个 人组成样本,每次都计算出一个新的样本均值,那么 将会得到无数个样本均值 ,这种重复抽样的方法就 叫蒙特卡罗抽样方法。从每个样本中可以计算出一个 样本均值 ,我们将重复抽取的n个样本的都计算出来 ,研究发现,这些均值就构成了均值的蒙特卡罗抽样 分布。因此可见,它是一种理论分布。研究发现:1、抽样分布的图形显示样本均值 围绕其目 标u,以标准误差SE=/ 近似正态地波动。( 因此n越大,SE越小,即波动越小)2、同样地,我们发现样本比例p也可以用这个 方法来处理,它围绕其目标P,以标准误差 SE= 近似正态地波动。三、

3、对比总体分布、样本分布、抽样分布1、参数值:u和都是唯一确定的值。统计值:由于总体容量N样本容量n ,因为重 复抽样时,每次抽取到的元素都会不尽相同。 因此,不同的样本的统计量很可能不同。2、抽样中样本只涉及到总体中的部分元素而不 是全部元素。因为样本的统计量与总体的参数 值之间总是存在一定的差别,我们引入抽样分 布的概念,旨在对这种差别进行一定的说明。3、均值的正态近似原理:样本均值以SE的标 准误差围绕总体均值u波动。随着n的增加,波 动越来越小,越接近正态分布。(n30)4、比例的正态近似定理:在容量为n的随机 样本中,样本比例p以SE= 的标准误差围 绕总体比例波动。随着n的增加,p的

4、分布也 就围绕其目标波动地原来越小,越来越接近正 态分布。(n30,np5)5、抽样分布是关于样本均值的分布,它的均 值就是总体的均值u,即。,而抽样分布 的标准差,将之称为标准误差SE,以与总体 分布、样本分布相区分。其中SE= ,而当样 本相当大时,一般用样本的标准差s来代替总 体。 例:台湾的一次普遍调查显示,台湾民众的月 收入近似地服从正态分布,其均值为13110台 币,标准差为8750元,求:(1)随机地抽取一个人,其收入超过18430元 的概率。(2)抽取一个含有50人的随机样本,求其平 均收入超过16000元的概率。(3)如果总体不是正态的,那么(2)的答案 是什么?例:全厂满意

5、工作环境的工人比例为35%,现 在从全厂中随机抽取150名工人,问其满意工 作环境的工人比例超过45%的概率。作业题:1、试计算以下数值的四分位差、中位数、众 数2,3,4,5,4,4,2,5,6,6,72、调查某地区的212个乡,目的是要知道每个 乡之育龄妇女(15-44岁)落实计划生育的比率 ,以下为收集到的资料。1)试求四分位差。 2)试求40百分位数点的值。 节育率(%) 频次向上累加频次 5及以下1616 5-153854 15-254094 25-3530124 35-4523147 45-5524171 55-6519190 65及以上22212 汇总212第二节 参数的点估计和

6、区间估计一、点估计1、总体均值的点估计值。2、总体方差的点估计值。3、总体标准差的点估计值。4、总体比例的点估计值。二、区间估计(即:求置信区间) 1、基本概念 置信度:又称可信度、置信水平。即总体的参数 值落在置信区间的把握。或者说用置信区间去 估计总体参数值时,成功的可能性有多大。 置信区间:在一定的置信水平下,根据样本的统 计值来估计总体的参数值处于一定的区间之内 ,这个区间就是置信区间。 显著度:又称显著性水平。它表示用置信区间来 估计总体参数,其不可靠的概率。若置信水平 为95%,则显著性水平为5%或0.05。2、置信区间与置信度之间的关系 相互制约 置信度高低反映的是这种估计的可靠

7、性或把握性的 问题,而置信区间的大小反映的是这种估计的精 确性问题。对于同一个总体和同一个抽样规模来说,所给区 间的大小与做出这种估计所具有的把握性成正比 。即区间越大,则对这一估计成功的把握性也越 大;反之,则把握性越小。 综上,从精确性出发,要求所估计的区间越小越好 ,但是从把握性出发,又要求所估计的区间越大 越好。人们总是需要在二者兼进行平衡与选择。3、总体均值的区间估计1)总体方差已知时,大、小样本的均值估计2)总体方差未知时,大样本的均值估计3)总体方差未知时,小样本的均值估计4)未知总体比例(成数),大样本的比例估计5)未知总体比例,小样本的比例估计 例:设某工厂妇女从事家务劳动时

8、间服从正态分布 N(u, ),随机抽取了一个n=36的样本,发 现其每天平均从事家务劳动的时间 =2.65小时 ,求u的双侧置信区间。(a=0.05) 解:例:设某工厂妇女从事家务劳动时间服从正态分 布N(u, ),随机抽取了一个n=25的样本 ,发现其每天平均从事家务劳动的时间 =2.65小时,求u的双侧置信区间。(a=0.05) 解:总结:1)总体参数u是常数,并且一直保持不变 ,变化的是随机区间,其中心为 ,长度为2 SE。 2)随着样本含量n的增加, 的标准误差/ 也 越来越小,因此置信区间也变得更窄更精确。 这就是增加样本含量的价值。 3)随着置信度的增高, 也随之增大,因此 置信区

9、间变得更宽, 即更加含糊不明确,这也 是可以理解的:要想把某一个声明表达得更有 把握,就必须使其更加含糊不明确。因此置信 度和精确度之间是矛盾的。我们对于实际问题 总是在两者之间作一个合理的折衷。例:设某社区受教育程度服从正态分布N (u, ),根据35人的随机抽样调查, =11.5年 ,S=3.6年,求u的双侧置信区间。(a=0.01 ) 解:例:设某社区受教育程度服从正态分布N (u, ), 未知,根据26人的随机抽样调查, =11.5年,S=3.6年,求u的双侧置信区间。( a=0.01) 解:t分布是适用于小样本的一种分布。其扁平或高 耸的程度取决于自由度(df=n-1),其自由度 越

10、大,越高耸,形状与标准正态分布曲线越接 近。当n30时,一般认为与正态分布近似。 t分布与正态分布的相似之处:t分布基线上的t 值从-+;平均数等于0处,左侧t值为负 ,右侧t值为正;曲线以平均数处为最高点向 两侧逐渐下降,尾部无限延伸,永不与基线相 接,呈单峰对称形。 使用t分布的条件:必须假定总体为正态分布。 (与使用Z分布的不同之处)为什么t分布的自由度是n-1而不是n呢? 自由度:指的是可以自由取值的个案的数目,对 于一组数据来说,假定n=1,则我们可以算出均 值(就是这个唯一的数本身),但是无法考虑 分布的形状。描述分布的形状最有价值的是方 差,只有n超过1,我们才能得到这组数据分布

11、 的方差。 ( = ),因此对于方差来说,均 值占用了一个自由度,其余的n-1个自由度留给 了方差。 例:有5个数,其均值为3,请问:1)你能确定 这5个数都是什么吗?2)如果不能,那么请问 其中有几个数是可以自由取值的?戈塞尔用笔名“学生”发表。 为什么分母中根号下为n-1?样本数据的离散程度 小于总体数据的离散程度(假设用全距这个离 散量数来说明)。因此样本的标准差会比总体 的标准差偏小。因此s除以根号n会有偏误,所 以采用了根号n-1,在nS/ ,因此分母中为更贴近于 / )例:从某社区取n=200个家庭的样本,36%的 家庭中家庭事务是丈夫说了算,问:此社区 家庭事务是丈夫说了算的家庭

12、比例的置信区 间。(a=0.01) 解: 法一: 法二:4、二总体均值差的区间估计 1)已知 ,大样本(n1+n2100) 2)已知 ,小样本( n1+n2100 ) 3)未知 ,大样本 4)未知 ,小样本5、二总体成数差的区间估计例:为了了解甲、乙两地中学毕业生成绩的 差别,两地作了抽样调查,结果显示:甲地 : =520,S1=40,n1=800名,乙地: =505,S2=50,n2=1000名,求:a=0.05时 ,两地平均成绩差的区间估计。例:有两个小组,甲小组:n1=11,人均每周抽 烟 =5盒,S1=1.5。乙小组:n2=11,人均 每周抽烟 =7盒,S2=2.0,求:a=0.05时

13、, 两组抽烟均值差的置信区间。例:甲、乙两地各做1000户抽样调查,其中甲 地拥有电视机为825户;乙地拥有电视机为 760户。求:a=0.05时,两地电视机拥有比例 (成数)差的置信区间。6、单侧置信区间例:设某工厂月平均收入服从正态分布N(u, ),随机抽取了一个n=36的样本,发现其每人 平均月平均收入为265元,求u的单侧置信区间 。(a=0.05) 解:作业: 1、我国某地区成年人教育水平的均值为8.2年, 标准差为3年。随机抽取了25位成年人进行调 查,发现平均受学校教育在7-9年之间的概率是 多少?(抽样分布) 2、一架电梯是按照极限负重为1000公斤设计的 ,声称可以容纳13人。假定利用该电梯的所有 乘客重量的平均值为70公斤,标准差为12公斤 。那么一个13人的随机样本的重量总体超过负 重极限1000公斤的概率是多少?(先算出样本 均值)3、课本403,六A 4、课本403,六B

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 教育/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号