[医学]第六章 参数估计基础

上传人:油条 文档编号:49593081 上传时间:2018-07-31 格式:PPT 页数:47 大小:818KB
返回 下载 相关 举报
[医学]第六章 参数估计基础_第1页
第1页 / 共47页
[医学]第六章 参数估计基础_第2页
第2页 / 共47页
[医学]第六章 参数估计基础_第3页
第3页 / 共47页
[医学]第六章 参数估计基础_第4页
第4页 / 共47页
[医学]第六章 参数估计基础_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《[医学]第六章 参数估计基础》由会员分享,可在线阅读,更多相关《[医学]第六章 参数估计基础(47页珍藏版)》请在金锄头文库上搜索。

1、第六章第六章 参数估计基础参数估计基础天津医科大学公共卫生学院天津医科大学公共卫生学院卫生统计学教研室卫生统计学教研室 马骏马骏1总体分布总体分布( (population distributionpopulation distribution) )是总体中各元素的观察值所形成的频数或频 率分布 总体分布通常是未知的可以假定它服从某种分布 第一节 抽样分布与抽样误差总体总体2是一个样本中各观察值的频数或频率分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接 近总体的分布 样本分布样本分布( (sample distributionsample distribution) )样样 本本3

2、( (一一) )抽样分布抽样分布( (sampling distributionsampling distribution) )是某一样本统计量的全部可能取值的概率分布。现实中不可能抽出所有样本,因此统计量的抽样分布 实际是一种理论概率分布。统计推断中,常用的理论 概率分布:正态分布、 2 2分布、t分布和F分布。是样本统计量的函数。若样本是随机的,则样本统计 量就是随机变量 ,如样本均值,样本比例,样本方差 等为随机变量。结果来自容量相同的所有可能样本。提供了样本统计量稳定的信息,是进行推断的理论基 础,也是抽样推断科学性的重要依据。一、样本均数的抽样分布与抽样误差一、样本均数的抽样分布与抽

3、样误差4抽样分布(sampling distribution)总体总体计算样本统计计算样本统计 量量例如:样本均例如:样本均 值、比例、方值、比例、方 差差样样 本本5(二)抽样误差(二)抽样误差oo从总体均数从总体均数 为为155.4cm155.4cm,标准差标准差 为为5.3cm5.3cm 的正态分布总体中随机抽样。样本大小为的正态分布总体中随机抽样。样本大小为3030n=30 .6从正态总体 抽样得到的1000个样本均数 的频数分布(ni=30)7Mean=155.426 Std=0.9668抽样误差抽样误差oo结果结果:n n各样本均数不一定等于总体均数;各样本均数不一定等于总体均数;

4、n n样本均数间存在差异;样本均数间存在差异;n n样本均数的分布规律:围绕总体均数上样本均数的分布规律:围绕总体均数上 下波动;下波动;n n样本均数的变异:由样本均数的标准差样本均数的变异:由样本均数的标准差 描述。描述。9抽样误差oo抽样误差(抽样误差(Sampling error Sampling error )n n由抽样引起的样本统计量与总体参数间由抽样引起的样本统计量与总体参数间 的差异的差异oo来源来源: :n n个体变异个体变异n n抽样抽样oo表现表现: :n n样本统计量与总体参数间的差异样本统计量与总体参数间的差异n n样本统计量间的差异样本统计量间的差异10oo样本均

5、数的规律性样本均数的规律性n n随机的随机的n n在概率意义下是有规律的在概率意义下是有规律的-抽样分抽样分 布布n n通过大量重复抽样通过大量重复抽样, ,借助频数表描述借助频数表描述n n样本均数的变异规律样本均数的变异规律( (抽样分布抽样分布) )与个与个 体观察值变异规律有关体观察值变异规律有关oo即使只有一个样本资料即使只有一个样本资料, ,也可由样本资料的个也可由样本资料的个 体观察值的变异规律间接得到样本均数的变异体观察值的变异规律间接得到样本均数的变异 规律规律抽样分布11正态总体样本均数的分布oo已知某地高三男生的平均身高为已知某地高三男生的平均身高为 ,标,标 准差为准差

6、为 ,将其视为一个总体。,将其视为一个总体。oo从该总体中随机抽样从该总体中随机抽样n n样本含量为样本含量为n nn n每次抽取每次抽取1000010000个样本并计算各自的样个样本并计算各自的样 本均数本均数n n以以1000010000个样本均数作为一个新的样本个样本均数作为一个新的样本 制作频数图制作频数图12抽样1样本含量n=4的平均数 =168.19的标准差 =2.9670 13抽样2样本含量 n=16的平均数 =168.158的标准差 =1.4884 14抽样3样本含量 n=36的平均数 =168.1493的标准差 =0.9997 15o从正态分布的总体 中随机抽取样本 含量为n

7、的样本X1,X2,Xn,其样本均 数 n服从正态分布,总体均数为 ;n样本均数的总体标准差o若 ,则其中任意一个随机样本Xn的均数正态总体样本均数的分布正态总体样本均数的分布16o样本均数的标准差 ,称为样本均数的标 准误(standard error of mean ,SE), 简称均数标准误o它反映样本均数之间的离散程度,也反映样 本均数抽样误差的大小。o误差大小 ,实质是要估计 的分布特 征 正态总体样本均数的分布17o由于实际 往往未知,需要用样本 来估 计 ,样本均数标准误的估计式为o注意区别:o证明:正态总体样本均数的分布正态总体样本均数的分布18非正态总体样本均数的分布非正态总体

8、样本均数的分布o从一个不服从正态分布的总体中随机抽样, 样本均数的分布会如何变化?o从总体均数为1的指数分布中抽样,样本大 小分别为4,9,100。每次抽10000个 样本制作频数分布图192021抽样1样本含量n=4的平均数 =1.0133的标准差 =0.5031 的中位数 =0. 929822抽样2样本含量n=9的平均数 =0.9959的标准差 =0. 3332 的中位数 =0.957423抽样3样本含量n=100的平均数 =0.9993的标准差 =0.1001 的中位数 =0.995824o从非正态指数分布总体中随机抽样所得样本 均数 :n在样本含量较小时呈偏态(非指数型);n样本含量较

9、大时接近正态分布;n均数 始终在总体均数 附近;n均数 的标准差非正态总体样本均数的分布25中心极限定理(central limit theorem)当当样本容量足够样本容量足够 大时大时( (n n 30) 30) , 样本均值的抽样样本均值的抽样 分布逐渐趋于正分布逐渐趋于正 态分布态分布 当总体为非正态分布时依据以下中心极限定理。当总体为非正态分布时依据以下中心极限定理。 中心极限定理:设从均值为中心极限定理:设从均值为 ,方差为方差为 2 2的一个任意总体中抽取容的一个任意总体中抽取容 量为量为n n的样本,当的样本,当n n充分大充分大( (通常通常n n30)30)时,样本均值的抽

10、样分布近似时,样本均值的抽样分布近似 服从均值为服从均值为 、方差为方差为 2 2/ /n n的正态分布。的正态分布。一个任意分一个任意分 布的总体布的总体X X26中心极限定理(central limit theorem)的分的分 布趋布趋 于正于正 态分态分 布的布的 过程过程27抽样分布与总体分布的关系总体分布总体分布正态分布非正态分布大样本大样本小样本小样本样本均值分布 近似正态分布样本均值分布为 正态分布样本均值分布为 非正态分布28中心极限定理及其应用o样本均数 总体标准差是个体资料X的总体 标准差的 ;即理论标准误o理论标准误的样本估计值为o样本均数 与 个体资料X的集中位置相同

11、,即样本均数 的总体均数与 个体资料X的总体均数 相同29中心极限定理及其应用o若个体资料X服从正态总体 ,则样 本均数 也服从正态分布 ;o个体资料X服从偏态分布,当样本量n较大时 ,样本均数 近似服从正态分布30第二节第二节 t t分布分布一、t分布的概念o ,标准正态分布与,标准正态分布与t t统计统计量量 oo实际研究中实际研究中 未知,用样本的标准差未知,用样本的标准差S S作为作为 的一个近似值的一个近似值( (估计值估计值) )代替代替 ,得到变换后,得到变换后 的统计量并记为的统计量并记为 31o如在正态总体N(168.18,62)中随机抽样,样本 量分别取n =5,n =10

12、0,均抽10000个样本 ,分别计算t值和U值并作相应t的频数图二、二、t t分布的图形和特征分布的图形和特征32t t分布的图形分布的图形样本含量n=5样本含量n=100不同样本含量时t值的频数分布图 33o结果n小样本时,t统计量和U统计量的分布有明显差 别n大样本时,t统计量和U统计量的分布非常接近 。o频数图n当样本量较大时,统计量t的频数图与标准正态 分布曲线非常接近n样本含量较小时,t统计量的峰值比标准正态分 布的峰值略小,双侧尾部的值则较标准正态分布略大 t t分布的图形分布的图形34o英国统计学家W. S. Gosset(1908)设 并给出了统计量t的分布规律,并称统计量t的

13、分布 规律为t分布,自由度为v,记为t(v)分布。 o每个自由度v对应一个分布,因此t分布是一簇分 布 ot分布仅与总体均数有关,与总体标准差无关 t t分布的图形分布的图形35o三条t分布密度曲线 t分布的图形特征v=1v=5v=不同自由度下的t分布图36t分布的图形特征o分布特征 nt分布曲线是单峰的n关于t = 0对称n自由度越大, t值越小o t分布与正态分布的关系 n自由度v较小时, t分布与标准正态分布相差较大 ,并且t分布曲线的尾部面积大于标准正态分布曲线的 尾部面积n当自由度 时, t分布逼近于标准正态分布 。37t分布的界值 o给定自由度v,t分布曲线的双侧尾部面积为 时对应

14、的t值,记为并称 为t的双侧界值 o单侧界值 :一侧尾部面积为时对应的t值o对称性得:单侧曲线下面积=2双侧曲线下面 积o同样的尾部面积,t分布的界值要大于标准正 态分布的界值 38t分布界值示意图,表示阴影的面积 39第三节 总体均数及总体概率的估计一、参数估计的概念o参数估计:是指用样本指标(统计量)来估计总体指标(参 数)。o它包括两种方法:(一)点(值)估计(point estimation):即把样本统计量直接作为总体参数的估计值,如用样 本均数来估计总体均数。这种方法虽然很简单,但是未涉 及随机误差,而随机误差在抽样研究中是不可忽视的。(二)区间估计(interval estima

15、tion):即按一定的概率估计总体均数在哪个范围,它把抽样 误差引入估计量,确定具有特定概率意义的区间。40可(置)信区间与参考值范围可(置)信区间与参考值范围可信区间:从总体中作随机抽样,每个样本可以算出一可信区间:从总体中作随机抽样,每个样本可以算出一 个可信区间,如个可信区间,如95%95%可信区间,意味着可信区间,意味着100100次抽样,算得次抽样,算得 100100个可信区间,平均有个可信区间,平均有9595个可信区间包括总体均数(估个可信区间包括总体均数(估 计正确),只有计正确),只有5 5个可信区间不包括总体均数(估计错误个可信区间不包括总体均数(估计错误 )。)。5%5%是

16、小概率事件,实际发生的可能性小,因此,在是小概率事件,实际发生的可能性小,因此,在 实际应用中就认为总体均数在算得的置信区间内实际应用中就认为总体均数在算得的置信区间内, , 这种这种 估计方法会冒估计方法会冒5%5%犯错误的风险。犯错误的风险。参考值范围:指同质总体中大多数个体变量值的分布范参考值范围:指同质总体中大多数个体变量值的分布范 围。围。95%95%参考值范围指同质总体中参考值范围指同质总体中95%95%的个体值分布在此的个体值分布在此 范围内。它与标准差有关,各个体值变异越大,该范围范围内。它与标准差有关,各个体值变异越大,该范围 越宽,分布也越分散。越宽,分布也越分散。 41可信区间和

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号