医学统计学:抽样误差与参数估计

上传人:工**** 文档编号:570330564 上传时间:2024-08-03 格式:PPT 页数:58 大小:1.56MB
返回 下载 相关 举报
医学统计学:抽样误差与参数估计_第1页
第1页 / 共58页
医学统计学:抽样误差与参数估计_第2页
第2页 / 共58页
医学统计学:抽样误差与参数估计_第3页
第3页 / 共58页
医学统计学:抽样误差与参数估计_第4页
第4页 / 共58页
医学统计学:抽样误差与参数估计_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《医学统计学:抽样误差与参数估计》由会员分享,可在线阅读,更多相关《医学统计学:抽样误差与参数估计(58页珍藏版)》请在金锄头文库上搜索。

1、抽样误差与参数估计抽样误差与参数估计n总体:研究对象(某项变量值)的全体。总体:研究对象(某项变量值)的全体。n样本:总体中随机抽取的一部分研究对象,其样本:总体中随机抽取的一部分研究对象,其变量值的集合。变量值的集合。n统计量:从样本计算出来的统计指标。统计量:从样本计算出来的统计指标。n参数:描述总体的统计指标。参数:描述总体的统计指标。几个概念几个概念s统计描述:统计描述:计量(集中水平、变异大小)、计数(相对数)计量(集中水平、变异大小)、计数(相对数)s统计推断:统计推断:用样本信息推论总体特征的过程。用样本信息推论总体特征的过程。u参数估计参数估计: 用样本的统计指标(统计量),对

2、总用样本的统计指标(统计量),对总体统计指标(参数)进行估计体统计指标(参数)进行估计u假设检验假设检验:又称显著性检验,是指通过样本间存又称显著性检验,是指通过样本间存在的差别对样本所代表的总体间是否存在着差别在的差别对样本所代表的总体间是否存在着差别做出判断。做出判断。Populations and SamplesRandomSelectionInferenceParameterStatisticPopulationSample(Population mean)(Sample mean)PopulationSampleSample 1Sample 2Sample n抽样分布抽样分布与抽样误

3、差与抽样误差 s样本样本均数均数的抽样分布与抽样误差的抽样分布与抽样误差s样本样本率率的抽样分布与抽样误差的抽样分布与抽样误差一、一、样本均数样本均数的抽样分布与抽样误差的抽样分布与抽样误差 假定某年某地所有13岁女学生身高服从总体均数 =155.4cm, 总体标准差 =5.3cm的正态分布N(155.4, 5.32)将此将此100100个样本均数看成个样本均数看成新变量值新变量值,则这,则这100100个个样本均数构成一样本均数构成一抽样分布抽样分布,绘制直方图。,绘制直方图。图图 从正态分布总体从正态分布总体N N(155.4, 5.3(155.4, 5.32 2) )随机抽样所得样本均数

4、分布随机抽样所得样本均数分布样本均数的抽样分布具有以下特点样本均数的抽样分布具有以下特点1. 各样本均数未必等于总体均数各样本均数未必等于总体均数;2. 样本均数之间存在差异样本均数之间存在差异;3. 样本均数的分布围绕总体均数,中间多,样本均数的分布围绕总体均数,中间多,两边少,左右基本对称两边少,左右基本对称 4. 样本均数的变异较之原变量的变异缩小样本均数的变异较之原变量的变异缩小数理统计数理统计( (中心极限定理中心极限定理) )可以证明:可以证明:抽样误差抽样误差( (Sample Error, SE) ) 均数的抽样误差:均数的抽样误差:由于抽样造成的样本均数由于抽样造成的样本均数

5、与样本均数之间,样本均数与总体均数的差与样本均数之间,样本均数与总体均数的差别别 原因:原因:1 1)抽样)抽样 2 2)个体差异)个体差异 如何度量如何度量抽样误差抽样误差的大小?的大小? 的总体均数为的总体均数为 ;而;而 的标准差比原的标准差比原个体个体测量值测量值的标准差的标准差 要小,为区别两者,要小,为区别两者, 的标的标准差准差用用 表示表示样本统计量的标准差称样本统计量的标准差称标准误标准误(standard error, SE)(standard error, SE)样本均数的标准差称样本均数的标准差称均数的标准误均数的标准误(standard error (standard

6、 error of mean, SEM)of mean, SEM),反映样本均数的抽样误差及样本均,反映样本均数的抽样误差及样本均数之间的离散程度。数之间的离散程度。抽样误差抽样误差抽样误差抽样误差s实际应用中标准误的计算公式(数理统计推导可得)s样本均数标准误的大小与标准差成正比,与样本含量n的平方根成反比,即在同一总体中随机抽样,样本含量n越大,抽样误差越小。s在实际应用中可通过增加样本含量n来减小样本均数的标准误,从而降低抽样误差。 例例s例 2000年某研究者随机调查某地健康成年男子27人,得到血红蛋白量的均数为125 g /L,标准差为15 g /L。试估计该样本均数的抽样误差。 偏

7、态分布总体中抽样偏态分布总体中抽样在非正态分布总体中可进行类似抽样,样在非正态分布总体中可进行类似抽样,样本均数的分布如何呢?本均数的分布如何呢?原始偏态分布总体原始偏态分布总体偏态分布总体中抽样偏态分布总体中抽样n=5n=5时样本均数的分布时样本均数的分布偏态分布总体中抽样偏态分布总体中抽样n=10n=10时样本均数的分布时样本均数的分布偏态分布总体中抽样偏态分布总体中抽样n=30n=30时的样本均数的分布时的样本均数的分布偏态分布总体中抽样偏态分布总体中抽样n=50n=50时的样本均数的分布时的样本均数的分布数理统计理论表明:数理统计理论表明:对于任意分布,无论是正态还是偏态,对于任意分布

8、,无论是正态还是偏态,只要只要n n足够大,则样本均数足够大,则样本均数 的分布近似服的分布近似服从正态分布从正态分布: :均数的标准误:均数的标准误:二、二、样本率样本率的抽样分布与抽样误差的抽样分布与抽样误差实验实验:在一口袋内装有形状、重量完全相:在一口袋内装有形状、重量完全相同的同的黑球和白球黑球和白球,已知黑球比例为,已知黑球比例为20%20%(总总体概率体概率=20%=20%),从口袋中每摸一次看清),从口袋中每摸一次看清颜色后放回去,搅匀后再摸,重复摸球颜色后放回去,搅匀后再摸,重复摸球5050回(回(n=50n=50), , 计算摸到黑球的百分比(样计算摸到黑球的百分比(样本率

9、本率p p)。)。重复这样的实验重复这样的实验100100次,得到的黑球比例次,得到的黑球比例分别为分别为14%, 20%, 2614%, 20%, 26%, %, , ,22%22%将这将这100100个率整理成频数表,如下个率整理成频数表,如下样本率样本率的抽样误差的抽样误差样本率 的总体均数为:, 率的总体标准差(率的标准误):实际中常用 根据二项分布原理,结果服从正态分布根据二项分布原理,结果服从正态分布例例例例 某市随机调查了某市随机调查了5050岁以上的中老年妇女岁以上的中老年妇女776776人,其中患有骨质疏松症者人,其中患有骨质疏松症者322322人,患人,患病率为病率为41.

10、5%41.5%,试估计该患病率的抽样误差。,试估计该患病率的抽样误差。p p = 41.5% = 0.415 = 41.5% = 0.415,n n = 776 = 776= =均数标准差与标准误联系与区别均数标准差与标准误联系与区别均数标准差均数标准误含义 测量值的离散程度,反映原始数据波动大小样本均数的离散程度,反映均数抽样误差大小计算大小大小用途 描述测量值离散程度、计算cv、计算正常值范围、计算标准误参数可信区间的估计假设检验联系都是离散程度的指标,标准误是通过标准差来计算t t 分布分布概念概念 式式 中中 为自由度为自由度(degree of freedom, df) 3实实际际工

11、工作作中中,由由于于 未未知知,用用 代代替替,则则 不不再再服服从从标准正态分布,而服从标准正态分布,而服从t t 分布。分布。 随机变量随机变量X XN N( , 2 2)标准正态分布标准正态分布N N(0 0,1 12 2)u u变换变换均数均数标准正态分布标准正态分布N N(0 0,1 12 2)Student Student t t分布分布自由度:自由度:n n-1-1s英国统计学家英国统计学家W.S.Gosset于于1908年以年以“Student”笔名发表论文,证明它服从自由度笔名发表论文,证明它服从自由度 = n 1的的t分布,即分布,即 t分布,分布, = n 1st分布又称

12、分布又称Student t分布(分布(Students t-distribution)s它是它是小样本小样本统计推断的理论基础统计推断的理论基础。二、二、t t 分布的图形与特征分布的图形与特征 式中式中 为伽玛函数;为伽玛函数; 圆周率圆周率 为自由度(为自由度(degree of freedomdegree of freedom),是),是t t分布的唯分布的唯一参数;一参数;t t为随机变量。为随机变量。以以t t为横轴,为横轴,f f( (t t) )为纵轴为纵轴, ,可绘制可绘制t t分布曲线分布曲线。t t分布的概率密度函数分布的概率密度函数一簇曲线,单峰分布,一簇曲线,单峰分布,

13、曲线在曲线在t t0 0 处最高,并以处最高,并以t t0 0为中心左右对称为中心左右对称与标准正态分布相比,与标准正态分布相比,自由度自由度 较小时,曲线最较小时,曲线最高处较矮,两尾部翘得高高处较矮,两尾部翘得高(见绿线)(见绿线) 随自由度增大,曲线逐随自由度增大,曲线逐渐接近正态分布;渐接近正态分布;t t分布的分布的极限为标准正态分布极限为标准正态分布。1.1.t t分布曲线特征分布曲线特征t t界值表:详见附表,可反映界值表:详见附表,可反映t t分布曲分布曲线下的面积。线下的面积。单侧面积或单尾面积:用单侧面积或单尾面积:用 表示;表示;双侧面积或双尾面积:用双侧面积或双尾面积:

14、用 表示。表示。 2 2t t分布曲线下面积分布曲线下面积 2 2t t分布曲线下面积分布曲线下面积 更一般的表示方法如图中阴影部分所示为:更一般的表示方法如图中阴影部分所示为:单侧:单侧:P P(t t t t , , )= = 和和 P P(t t t t , , )= = 双侧:双侧:P P(t t t t /2,/2, )P P(t t t t /2,/2, )= = 的界值的界值-tt0举例举例: t t分布曲线下面积(附表)分布曲线下面积(附表)双侧双侧t t0.05/20.05/2,9 92.262 2.262 单侧单侧t t0.0250.025,9 9单侧单侧t t0.050.

15、05,9 91.8331.833双侧双侧t t0.01/20.01/2,9 93.250 3.250 单侧单侧t t0.0050.005,9 9单侧单侧t t0.010.01,9 92.8212.821双侧双侧t t0.05/20.05/2,1.96 1.96 单侧单侧t t0.0250.025,单侧单侧t t0.050.05, 1.641.64参数估计参数估计: :用样本统计量推断总体参数用样本统计量推断总体参数总体均数估计:用样本均数(和标准差)推断总总体均数估计:用样本均数(和标准差)推断总体均数。体均数。(1) 点估计(点估计(point estimation)(2) 区间估计(区间估

16、计(interval estimation)三、三、总体均数及总体率的估计总体均数及总体率的估计用相应样本统计量直接作为其总体用相应样本统计量直接作为其总体参数的估计值(参数的估计值(近似值近似值)当当 时时, ,样本均值趋近于总体均样本均值趋近于总体均值。其方法简单,但未考虑值。其方法简单,但未考虑抽样误差抽样误差的大小的大小S S1 1点估计点估计(point estimation)(point estimation):可信区间:可信区间:也称为置信区间(也称为置信区间(confidence intervalconfidence interval, , CICI) )按预先给定的概率按预先

17、给定的概率(1(1 ) )所确定的包含未知总体参数的所确定的包含未知总体参数的一个范围(一个范围(近似范围近似范围)。)。事先给定的概率事先给定的概率1-1-称为称为可信度可信度,常取,常取95%95%或或99%99%总体均数的总体均数的95%95%(或(或99%99%)可信区间)可信区间:表示该区间包括总:表示该区间包括总体均数体均数的概率为的概率为95%95%(或(或99%)99%)。一般一般 =0.05=0.05, ,为为95%95%的可信区间或置信区间的可信区间或置信区间2 2区间估计区间估计(interval estimation)(interval estimation)95%CI

18、95%CI: : ( (下限,上限下限,上限) )s需考虑:需考虑:(1 1)总体标准差)总体标准差 是否已知是否已知(2 2)样本含量)样本含量n n的的大小大小s通常有两类方法:通常有两类方法:(1 1)正态近似法)正态近似法(2 2)t t分布法分布法一、总体均数的可信区间一、总体均数的可信区间(1) (1) 已知时:按已知时:按Z Z分布分布( (标准正态分布标准正态分布) )这种情况很少这种情况很少 (2) (2) 未知未知且且 n n 较小较小(n n 5050):):按按t t分布分布 例:已知某地例:已知某地2727名健康成年男子的血红蛋白量名健康成年男子的血红蛋白量均数均数=

19、125 g /L=125 g /L,标准差,标准差S S = 15 g /L= 15 g /L。试问。试问该市地健康正常成年男子血红蛋白血清胆固该市地健康正常成年男子血红蛋白血清胆固醇平均含量的醇平均含量的95%95%置信区间和置信区间和99%99%置信区间各置信区间各是多少?是多少?解:解:本例本例n n =27=27, = 27 = 27 1=26 1=26,查,查t t界值界值表,表, = 0.05= 0.05时,双侧时,双侧 t t0.05/2, 260.05/2, 26=2.056=2.056, = 0.01= 0.01时,双侧时,双侧 t t0.01/2, 260.01/2, 26

20、= 2.779= 2.77995%CI:125 2.056 =(119.06,130.94) g /L 99%CI:125 2.779 =(116.98,133.02)g /L 该市健康成年男子血红蛋白平均含量: 95%置信区间为(119.06, 130.94)g /L, 99%置信区间为(116.98, 133.02)g /L。 (3)(3) 未知但未知但n n较大:按较大:按Z Z分布分布 1.961.96 = 172.2= 172.2 1.96 1.96 = =(171.3171.3,173.1173.1) 该市该市20002000年年1919岁健康男大学生平均身高的岁健康男大学生平均身

21、高的95%95%置置信区间为(信区间为(171.3171.3,173.1173.1)cmcm。 例例 某市某市20002000年随机测量了年随机测量了9090名名1919岁健康男大学生岁健康男大学生的身高,其均数为的身高,其均数为172.2 cm172.2 cm,标准差为,标准差为4.5 cm4.5 cm,试估计该市试估计该市20002000年年1919岁健康男大学生平均身高的岁健康男大学生平均身高的95%95%置信区间。置信区间。二、总体率的可信区间二、总体率的可信区间方法方法查表法查表法正态近似法正态近似法查表法查表法当样本含量当样本含量n较小,比如较小,比如n 50,特别是,特别是p很接

22、近很接近0或或100%时,可以通过查相应时,可以通过查相应统计用表(附表统计用表(附表6),确定总体率的置),确定总体率的置信区间。信区间。 例例某某医院对医院对3939名前列腺癌患者实施开放手名前列腺癌患者实施开放手术治疗,术后有合并症者术治疗,术后有合并症者2 2人,试估计该手人,试估计该手术合并症发生概率的术合并症发生概率的95%95%置信区间置信区间查概率的置信区间表(附表查概率的置信区间表(附表6 6),在),在n n = 39 = 39的横行,的横行,X X=2=2的纵列交叉处的数值为的纵列交叉处的数值为1 11717即该手术合并症发生概率的即该手术合并症发生概率的95%95%置信

23、区间为置信区间为1%1%17% 17% 正态近似法正态近似法条件:当条件:当n足够大,且样本频率足够大,且样本频率p和(和(1 p)均)均不太小时,如不太小时,如np与与n(1 p) 均大于均大于5时,时,p的抽的抽样分布接近正态分布样分布接近正态分布公式:总体率的可信区间公式:总体率的可信区间 p u /2Sp 例例 用某种仪器检查已确诊的乳腺癌患者用某种仪器检查已确诊的乳腺癌患者120120名,名,检出乳腺癌患者检出乳腺癌患者9494例,检出率为例,检出率为78.3%78.3%。估计该仪。估计该仪器乳腺癌总体检出率的器乳腺癌总体检出率的95%95%置信区间。置信区间。解解: : 本例本例n

24、 n比较大,且比较大,且npnp = 94 = 94及及n n(1(1 p p) = 26) = 26均均大于大于5 5,用正态近似法估计总体率的置信区间,用正态近似法估计总体率的置信区间 sp Z/2 Sp= p u0.05/2 = 0.783 1.96 = 0.709 0.857 s即该仪器乳腺癌总体检出率的即该仪器乳腺癌总体检出率的95%可信区间为可信区间为(70.9% , 85.7% )。 1. 95%的可信区间的理解:的可信区间的理解:(1)计算出的可信区间有计算出的可信区间有95%的可能性包含了所要估计的可能性包含了所要估计的总体参数的总体参数。(2)从正态总体中随机抽取)从正态总

25、体中随机抽取100个样本,可算得个样本,可算得100个样个样本均数,也可算得本均数,也可算得100个可信区间,约有个可信区间,约有95个可信区个可信区间包含了总体均数间包含了总体均数 (估计正确),犯错概率(估计正确),犯错概率5%。(3)但在实际工作中,只能根据一次试验结果估计可信)但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体均数区间,我们就认为该区间包含了总体均数 。 可信区间的涵义可信区间的涵义 2.可信区间的两个要素可信区间的两个要素(1)准确度准确度:用可信度(:用可信度(1 )表示:表示:即区即区间包含总体均数间包含总体均数 的的理论概率理论概率大小

26、大小 。当然它愈接近当然它愈接近1愈好,如愈好,如99%的可信区间的可信区间比比95%的可信区间的可信区间准确度准确度要好要好(2)精确度精确度:即区间的宽度:即区间的宽度 区间愈窄愈好,如区间愈窄愈好,如95%的可信区间比的可信区间比99%的可信区间的可信区间精确度精确度要好要好 s当当n确定时,上述两者互相矛盾。确定时,上述两者互相矛盾。提高准确度(可信度),则精确度降低提高准确度(可信度),则精确度降低(可信区间会变宽),势必降低可信区间的实(可信区间会变宽),势必降低可信区间的实际应用价值,故不能笼统认为际应用价值,故不能笼统认为99%可信区间比可信区间比95%可信区间要好。可信区间要好。在实际应用中,在实际应用中,95%可信区间更为常用。可信区间更为常用。s在可信度确定的情况下,在可信度确定的情况下,增加样本含量增加样本含量可减小可减小区间宽度,提高精确度。区间宽度,提高精确度。总体均数可信区间与参考值范围的区别总体均数可信区间与参考值范围的区别

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号