3.抽样误差区间估计－金锄头文库

资源描述

《3.抽样误差区间估计》由会员分享，可在线阅读，更多相关《3.抽样误差区间估计（64页珍藏版）》请在金锄头文库上搜索。

1、医学统统计计学 Medical Statistics彭志行Department of Epidemiology 从任意总体中随机抽样，当样本含量足够大时，其样本均数的分布逐渐逼近正态分布；样本均数之均数的位置始终在总体均数的附近；随着样本含量的增加，样本均数的离散程度越来越小，表现为样本均数的分布范围越来越窄，其高峰越来越尖。中心极限定理（central limit theorem)的表现标准误的定义样本统计量（如均数）也服从一定的分布；与描述观测值离散趋势的指标类似，我们使用样本统计量的标准差来衡量抽样误差的大小。又称标准误(standard error, SE)。所

2、以样本均数的标准差，称为均数的标准误标准误的计算计算公式为其中，为总体标准差，n为抽样的样本例数在研究工作时，由于总体标准差常常未知，可以利用样本标准差近似估计标准误的计算【例9】根据7岁男童的身高资料，在已知总体标准差时，标准误为 4.38/10=0.438cm而若以第一次抽样的样本标准差来代替总体标准差，则标准误为 4.45/10=0.445cm标准误的意义反映了样本统计量（样本均数，样本率）分布的离散程度，体现了抽样误差的大小。标准误越大，说明样本统计量（样本均数，样本率）的离散程度越大，即用样本统计量来直接估计总体参数越不可靠。反之亦然。标准误的大小与标准差有关，在例数n

3、一定时，从标准差大的总体中抽样，标准误较大；而当总体一定时，样本例数越多，标准误越小。说明我们可以通过增加样本含量来减少抽样误差的大小。标准误的作用标准误的用途衡量样本统计量代表总体参数的可靠性；估计总体参数的可信区间；进行假设检验。标准误、标准差的区别和联系区别1、意义上标准差描述个体值之间的变异，即观察值之间的离散程度；而标准误是描述统计量的抽样误差，即样本统计量和总体参数的接近程度；2、用途上标准差常用于表现观察值的波动范围；标准误常表示抽样误差的大小，估计总体参数的可信区间。3、标准差、标准误与样本含量标准差是随着样本含量的增多，逐渐趋于稳定。标准误是随着样本含量的增多，

4、逐渐减少。联系首先，标准差和标准误都是变异指标，说明个体之间的变异用标准差，说明统计量之间的变异用标准误。其次，当样本含量不变时，标准差大，标准误亦越大，均数的标准误与标准差成正比。样本均数的抽样分布规律中心极限定理u从均数为，标准差为的正态总体中随机抽样，样本均数服从均数为，标准差为的正态分布。u从均数为，标准差为的任意总体中随机抽样，当样本含量足够大时，样本均数近似服从均数为，标准差为的正态分布。 t分布的演化根据中心极限定理的内容，当样本含量足够大时，对从均数为，标准差为的任意总体中随机抽样所得的样本均数进行标准化变换，有由于总体标准差往往是未知的，此时往往用样本

5、标准差代替总体标准差，这里，为自由度（degree of freedom,df)，取值为n -1，由W.S.Gosset提出。t分布的演化f(t) =(标准正态曲线) =5 =10.10.2-4-3-2-1012340.3自由度分别为1、5、时 t 分布的图形t分布的性质t分布为一簇单峰分布曲线，以0为中心，左右对称。分布的高峰位置比u分布低，尾部高。即相同的尾部面积对应的界值，比u分布大。例如:P=0.05,u=1.64,而自由度为10的t分布界值，t = 1.812。t分布与自由度有关，自由度越小，t分布的峰越低，而两侧尾部翘得越高；自由度逐渐增大时，t分布逐渐逼近标准正态分布；当

6、自由度为无穷大时，t分布就是标准正态分布。每一自由度下的t分布曲线都有其自身分布规律。t界值表每一自由度下的t分布曲线都有其自身分布规律，这个规律可见于t界值表。表上的阴影部分，表示t,以外的尾部面积占总面积的百分数，即概率P。表中数据表示与确定时相应的t界值（critical value），常记为t,。例如，当=10，单尾概率=0.05时，查表得单尾t0.05，10=1.812，表明，按t分布的规律，从正态分布总体中抽取样本含量为n=11的样本，则由该样本计算的t 值大于等于1.812的概率为0.05，或者小于等于-1.812的概率亦为0.05，可表示为：P(t-1.812)=

7、0.05或P(t1.812)=0.05例如，当=10，双尾概率=0.05时，查表得双尾t0.05,102.228，表明，按t分布的规律，从正态分布总体中抽取样本含量为n=11的样本，则由该样本计算的t值大于等于2.228的概率为0.025，小于等于-2.228的概率亦为0.025。可表示为： P(t-2.228)+P(t2.228)0.05 或：P(-2.228=t,)= 双侧：P(t =t,)= 即:P(-t, t t,)= 1-【例10】查t界值表得t 值表达式t 0.05,10=2.228 (双侧） t 0.05,10=1.812 (单侧）-tt0小结抽样误差的定义和表现抽样

8、误差的规律：中心极限定理标准误的定义及其意义t分布的演化、图形、特征及意义4.2 区间估计和可信区间Interval Estimation and Confidence Interval主要内容统计推断点估计区间估计区间估计的实质可信区间的定义总体均数可信区间的计算正确理解可信区间的含义统计推断所谓统计推断(statistical inference)，是指如何抽样，以及如何用样本性质推断总体特征。参数估计(parameter estimation)假设检验(hypothesis testing)统计推断的思路总体个体、个体变异总体参数未知样本代表性、抽样误差随机抽样样本统计量已知统

9、计推断风险参数估计点估计（Point Estimation)To use a number to estimate the parameter.区间估计(Interval Estimation) To obtain a range so as to include the parameter.(1)点估计用样本统计量作为总体参数的估计例如：用样本均数作为总体均数的一个估计点估计的缺陷=?cm =?cmx1,x2,x3,x4N=143.3747 S= 5.2347x1,x2,x3x10=144.0681 S= 4.7245 x1,x2,x3x10=142.7203 S= 9.2473 x1,

10、x2,x3x10样样本含量n =10点估计的缺陷（2）区间估计例11：为了解某地 1 岁婴儿的血红蛋白浓度，从该地区随机抽取 25 名 1 岁婴儿，测得其血红蛋白均数 = 123.7(g/L)标准差 =11.9(g/L)试估计该地区1岁婴儿的平均血红蛋白浓度。可信区间的定义v按一定的概率(1-)用一个区间来估计总体参数所在的范围，该范围通常称为参数的可信区间或置信区间(confidence interval，CI), 预先给定的概率(1-)称为可信度或者置信度(confidence level),常取95%或99%。 v可信区间(CL, CU )是一开区间，CL、CU 称为可信限理

11、论基础： t 值的分布均数的抽样分布-2.064 0 2.064v24区间估计：（3）可信区间(confidence interval)：区间(118.79, 128.61)包含了总体均数，其信度为95%。可信度(confidence level): 95% . 结论：该地区 1 岁婴儿的平均血红蛋白浓度为118.79128.61(g/L)(可信度为95%)。或：该地区 1 岁婴儿的平均血红蛋白浓度的95%可信区间为118.79128.61(g/L)。可信区间的两个要素准确性要求小，可信度大精确性要求大，区间窄可信区间的长度受制于个体变异和样本含量：个体变异越大，区间越宽；样

12、本含量越小，区间越宽可信区间估计的理论基础：均数的抽样分布-t /2, v 0 t /2, v 1- /2 /2（4）总体均数可信区间的计算总体标准差已知时均数的95%可信区间总体标准差未知时均数的95%可信区间总体标准差已知时均数的95%可信区间的估计2.5%2.5%95%总体标准差已知时均数的95%可信区间的估计对于以总体均数为中心的曲线下 95% 面积所对应的区间内的任意一个，相应的区间一定包含总体均数。总体标准差已知时均数的95%可信区间的估计在总体中抽样，样本均数的u变换值有 95%可能性落在(-1.96,1.96)之间在总体中抽样，样本均数所计算的区间有95%可能性包括总

13、体均数总体标准差未知时均数的95%可信区间样本含量较大时，样本标准差逼近总体标准差总体标准差未知时均数的95%可信区间-t /2, v 0 t /2, v 1- /2 /2例12 三种情形之下的计算从该地区随机抽取25名 1 岁婴儿，测得其血红蛋白均数123.7(g/L)，根据文献已知该地血红蛋白总体标准差12.1(g/L)；从该地区随机抽取250名 1 岁婴儿，测得其血红蛋白均数123.7(g/L)，样本标准差11.9(g/L)；从该地区随机抽取25名 1 岁婴儿，测得其血红蛋白均数123.7(g/L)，样本标准差11.9(g/L)；试估计该地区1岁婴儿的平均血红蛋白浓度。（5）

14、正确理解可信区间可信度为95%的CI的涵义：每100个样本，按同样方法计算95%的 CI，平均有95%的CI包含了总体参数。这里的95%, 指的是方法本身！而不是某个区间！总体参数虽未知，但却是固定的值，而不是随机变量值。95%可信区间的含义-2 -1 0 1 2按这种方法构建的可信区间，理论上平均每100次，有95次可以估计到总体参数。随机现象模拟软件下列说法正确吗？算得某95%的可信区间，则：总体参数有95%的可能落在该区间。有95%的总体参数在该区间内。该区间包含95%的总体参数。该区间包含总体参数，可信度为95%。 Summary Statistical Infere

15、nce includes parameter estimation and hypothesis test. To obtain a interval in which it may include the population parameter with some confidence level, this is called a interval estimation. Confidence interval has two factors:Confidence and Precision To obtain the confidence limits we should pay attention to the assumptions.概念辨析标准差标准误个体变异抽样误差参考值范围可信区间变量分布抽样分布Contact: 86862755Email: .

展开阅读全文