研参数估计基础课件

上传人:F****n 文档编号:88161674 上传时间:2019-04-20 格式:PPT 页数:56 大小:743.50KB
返回 下载 相关 举报
研参数估计基础课件_第1页
第1页 / 共56页
研参数估计基础课件_第2页
第2页 / 共56页
研参数估计基础课件_第3页
第3页 / 共56页
研参数估计基础课件_第4页
第4页 / 共56页
研参数估计基础课件_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《研参数估计基础课件》由会员分享,可在线阅读,更多相关《研参数估计基础课件(56页珍藏版)》请在金锄头文库上搜索。

1、医用统计方法及其SPSS软件应用,公共卫生学院 流行病与卫生统计学系,第四章 抽样误差与参数估计,Question,某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2cm,标准差为4.5cm,,试估计该地19岁健康男大学生的身高可能的范围。,讲课提纲,抽样分布和抽样误差 t分布 总体均数和概率的估计,第一节 抽样分布与抽样误差,用样本信息来推断相应总体的特征,这一过程称为统计推断。 统计推断包括两方面的内容:参数估计和假设检验 抽样误差:由个体变异产生的、由于抽样而造成的样本统计量与样本统计量及样本统计量与总体参数之间的差异称为抽样误差。无倾向性,不可避免。,一、样本均

2、数的抽样分布与抽样误差 均数的抽样误差: 由个体变异产生的、由于抽样而造成的样本均数与样本均数及样本均数与总体均数之间的差异称为均数的抽样误差。用于表示均数抽样误差的指标叫样本均数的标准差,也称样本均数的标准误。,抽样实验一:假定从13岁女学生身高总体均数 标准差 的正态总体中进行随机抽样。,样本均数的抽样分布特点: 1 各样本均数未必等于总体均数 2 样本均数之间存在差异 3 样本均数的分布很有规律,围绕着总体均数,中 间多,两边少,左右基本对称,也服从正态分布 4 样本均数的变异较之原变量变异大大缩小,抽样实验二:非正态总体样本均数的抽样实验(实验5-2) 图5-1(a)是一个正偏峰的分布

3、, 用电脑从中随机抽取样本含量分别为5,10,30和50的样本各1000次,计算样本均数并绘制4个直方图,N=5,N=10,N=30,N=50,1)从正态总体N(,2)中,随机抽取例数为n的多个样本,样本均数 服从正态分布;即使是从偏态总体中随机抽样,当n足够大时(如n50), 也近似正态分布。,2)从均数为,标准差为的正态或偏态总体中抽取例数为n的样本,样本均数的标准差即标准误为 。,例5-1 2000年某研究所随机调查某地健康成年男子27人,得到血红蛋白的均数为125g/L,标准差为15g/L 。试估计该样本均数的抽样误差。,二 、样本频率的抽样分布与抽样误差,从同一总体中随机抽出观察单位

4、相等的多个样本,样本率与总体率及各样本率之间都存在差异,这种差异是由于抽样引起的,称为频率的抽样误差。,表示频率的抽样误差大小的指标叫频率的标准误。,样本频率的抽样分布与抽样误差 实验4.2 :某班近视眼患病率20%(总体概率=20%),随机抽出35人(n=35), 观察近视眼患病率(样本频率p i)。重复这样的实验100次,每次得到患病率分别为14.4%, 19.8%, 20.2%, 22.5%,等,将其频数分布列于表5-3。,表5-3 总体概率为20%时的随机抽样结果(ni= 35),例5-2 某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,

5、试计算该样本频率的抽样误差。,一、t分布的概念 在统计应用中,可以把任何一个均数为,标准差为的正态分布N(,2)转变为=0,=1的标准正态分布,即将正态变量值X用 来代替。,第二节 t 分布,也服从正态分布,,服从标准正态分布N(0,1),服从=n-1的t分布,N=3,N=50,正确使用t界值表!,t分布,统计学家将t分布曲线下的尾部面积(即概率P)与横轴t值间的关系编制了不同自由度 下的t界值表(附表2)。 t界值表:横标目为自由度 ,纵标目为概率P。 t临界值:表中数字表示当 和P 确定时,对应的值。 单侧概率 (one-tailed probability):用t,表示 双侧概率 (tw

6、o-tailed probability):用t/2,表示,t分布,例如, 当 =16,单侧概率P =0.05时,由表中查得单侧t0.05,16=1.746;而当 =16,双侧概率P =0.05时,由表中查得双侧t0.05/2,16=2.120。按t分布的规律,理论上有 单侧:P(t t0.05,16)=0.05 和 P(t t0.05,16)=0.05 双侧:P(t t0.05/2,16)P(t t0.05/2,16)=0.05,t分布,更一般的表示方法如图5-4(a)和(b)中阴影部分所示为: 单侧:P(t t, )= 和 P(t t , )= 双侧:P(t t/2, )P(t t /2,

7、 )=,t分布,从t界值表中或表的右上角图列亦可看出: 在相同自由度时,t值越大,概率P越小; 而在相同t值时,双侧概率P为单侧概率P的两倍,即t0.10/2,16 = t0.05,16 =1.746。,一、参数估计的概念 统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。,第三节 总体均数及总体概率的估计,二、置信区间的计算,1.点估计: 用样本统计量直接作为总体参数的估计值。 例如 于2000年测得某地27例健康成年男性血红蛋白量的样本均数为125g/L,试估计其总体均数。,同理,例5-2中776名50岁以上的中老年妇女骨质疏松症的样本患病率作为总体患

8、病率的点值估计值,即认为该市所有50岁以上的中老年妇女骨质疏松症的总体患病率约为41.5%。,(一)总体均数的置信区间,2. 区间估计:按预先给定的概率(1)估计总体参数的可能范围,该范围就称为总体参数的1置信区间(confidence interval, CI)。 预先给定的概率(1)称为置信度,常取95%或99%。如无特别说明,一般取双侧95%。,可信区间由两个数值即置信限构成,其中最小值称为下限,最大值称为上限。严格讲,可信区间不包括上下限两个端点值。,通式: (双侧),(2)未知但样本例数n足够大(n50)时 由t分布可知,自由度越大,t分布越逼近标准正态分布,此时t曲线下有95%的t

9、值约在1.96之间,即,95%的双侧置信区间: 99%的双侧置信区间:,例5-4 某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2cm,标准差为4.5cm,,试估计该地19岁健康男大学生的身高的95%置信区间。,该市19岁健康男大学生的身高的95%置信区间(171.3,173.1)cm,(3)未知且样本例数n较小时,按t分布原理,此时 某自由度的t曲线下有95%的t值约在t0.05()之间,,通式:,95%的双侧置信区间: 99%的双侧置信区间:,t/2, 是按自由度=n-1,由附表2查得的t值。,例5-3 已知某地27例健康成年男性血红蛋白量的均数为 ,标准差S=1

10、5g/L ,试问该地健康成年男性血红蛋白量的95%和99%置信区间。 本例n=27,S=15,95%CI:,99%CI:,置信区间的两个要素 准确度:反映置信度1-的大小,即区间包含总体均数的概率大小。 精度:反映区间的长度。 在置信区间确定的情况下,增加样本例数,会减小 t, 和 ,可减少区间长度,提高精度。,总体概率的置信区间与样本含量n,阳性频率p的大小有关,可根据n和p的大小选择以下两种方法。 1. 正态近似法 当样本含量足够大,且p和1-p不太小,则样本率 的分布近似正态分布。 公式为: P为样本率, 为率的标准误的估计值,,(二)总体概率的置信区间,例5-7 用某种仪器检查已确诊的

11、乳腺癌患者94例,检出率为78.3%。估计该仪器乳腺癌总体检出率的95%置信区间。 分析:本例样本例数较大,且样本率p不太小,可用正态近似法:,2. 查表法,当n较小,如n50,特别是p和1-p接近0或1时,应按照二项分布的原理估计总体率的可信区间。,例5-5 某医院对39名前列腺癌患者实施开放手术治疗,术后有合并症者2人,试估计该手术合并症发生概率的95%置信区间。,例5-6 某医生用某药物治疗31例脑血管梗塞患者,其中25例患者治疗有效,试求该药物治疗脑血管梗塞有效概率的95%置信区间。,注意:附表6仅列出Xn/2 的95%置信区间。 Xn/2,以n-X查表,再以100-查的值,小 结,掌

12、握:参数估计的概念,均数、率的标准误的计算方法,总体均数和总体率的可信区间计算方法。 熟悉:t分布的特征,t界值的使用。 了解:均数和率抽样误差的概念,样本统计量的分布规律,标准误的意义及应用。,参考值范围与均数置信区间的区别,意义: 前者为绝大多数人某项指标的数值范围,后者为按 一定的概率估计总体参数所在的范围 计算: 置信区间用标准误,参考值范围用标准差 应用:前者供判断观察对象某项指标是否正常时参考,后者估计未知总体均数所在范围,思考!,标准差与均数的标准误的区别与联系,区别: 1)概念(意义)不同:标准差是描述样本中个体值间的变异程度;标准误是描述样本均数抽样误差大小的指标 2) 记法

13、和计算不同:略 3) 用途不同:标准差常用于估计正常值范围,计算变异系数等;标准误常用于估计参数的可信区间,进行假设检验 4)控制方法不同:标准差趋向稳定,不能用统计方法控制。而标准误随例数的增大而减小,思考!,联系: 1)二者均为变异指标,如果把总体中各样本均数看成一个变 量,则标准误可称为样本均数的标准差 2)当样本含量不变时,均数的标准误与标准差成正比 3) 两者均可与均数结合运用,但描述的内容各不相同,案例辨析 P89,思考!,1. 某地1992年随机抽取100名健康女性,算得其血清总蛋白含量的均数为74g/L,标准差为4g/L,则其95%的参考值范围为( )。 A.7444 B.74

14、1.964 C.742.584 D.742.58410 E. 741.96410 2. 关于以0为中心的t分布,错误的是( )。 A. t分布图是一簇曲线 B. t分布图是单峰分布 C.当时,tu D. t分布图以0为中心,左右对称 E.相同时,|t|越大,P越大 3以下关于参数点估计的说法正确的是 ACV越小,表示用该样本估计总体均数越可靠 B标准误越小,表示用该样本估计总体均数越准确 C标准误越大,表示用该样本估计总体均数的可靠性越差 DS越小,表示用该样本估计总体均数越可靠,习题,某研究者欲了解某地1995年小学五年级学生智商(IQ)的平均水平,随机抽取了200名五年级小学生进行测试,算

15、得IQ的平均水平为108.5分,标准差为5.06分。以此研究解答以下问题: 问题1:为何要进行抽样研究?抽样研究的目的是什么? 问题2:什么是抽样误差?抽样误差形成的原因是什么? 问题3:什么是均数的抽样误差?描述均数的抽样误差大小的指标是什么? 问题4:标准误和标准差的联系和区别是什么?,小学五年级学生的智商水平服从总体均数为、总体标准差为的正态分布,若从正态分布的总体中随机抽取例数为n的样本并算得多个样本均数X,它们服从总体均数为、总体标准差为X的正态分布;以此研究解答以下问题:,问题1:t分布是怎样演变成的? 问题2:对于一个正态总体,有多少条t分布曲线?什么情况下对应一条t分布曲线? 问题3:与u分布相比较,t分布曲线的峰度和尾部是怎样的? 问题4:自由度增大,t分布曲线的峰度和尾部是如何变化的? 问题5:什么情况下,t分布逼近u分布? 问题6:什么是双侧t界值?什么是单侧t界值? 问题7:对于一条t分布曲线,什么情况下双侧t界值与单侧t界值相等?,问题8:在一条t分布曲线中,横轴上的t值越大,它所对应的曲线两侧尾部面积P是怎样变化的? 问题9、若有两条t分布曲线,自由度分别为1、2,12,横轴上同一个t值对应这两条t分布曲线的外尾面积分别为P1和P2,则P1和P2的大小关系如何?,随机测量某地初中生男女婴儿胸围(cm),数据如下。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号