《第四部分抽样误差与区间估计教学课件》由会员分享,可在线阅读,更多相关《第四部分抽样误差与区间估计教学课件(31页珍藏版)》请在金锄头文库上搜索。
1、第四章第四章 抽样误差与区间估计抽样误差与区间估计第一节第一节 均数的抽样误差与标准误均数的抽样误差与标准误100份样本的均数和标准差将这100份样本的均数看成新变量值,按第二章的频数分布方法,得到这100个样本均数得直方图见图4-1。图4-1随机抽样所得100个样本均数的分布100个样本均数的抽样分布特点:样本均数的抽样分布特点: 100个样样本本均均数数中中,各各样样本本均均数数间间存存在在差差异异,但但各样本均数在总体均数周围波动。各样本均数在总体均数周围波动。样样本本均均数数的的分分布布曲曲线线为为中中间间高高,两两边边低低,左右对称,近似服从左右对称,近似服从正态分布正态分布。 样本
2、均数的标准差明显变小:样本均数的标准差明显变小:即即样样本本均均数数的的标标准准差差,可可用用于于衡衡量量抽抽样样误误差的大小。差的大小。因通常未知,计算标准误采用下式:标准误标准误(standarderror,SE) 通过增加样本通过增加样本含量含量n来降低抽来降低抽样误差。样误差。表表4-1计计算算了了100个个样样本本的的标标准准差差S,由由此此可可计算每一样本的抽样误差大小。计算每一样本的抽样误差大小。Friday, Friday, Friday, Friday, August 30, August 30, August 30, August 30, 20242024202420243
3、 3个抽样实验结果图示个抽样实验结果图示Friday, Friday, Friday, Friday, August 30, August 30, August 30, August 30, 2024202420242024抽样实验小结抽样实验小结 均数的均数均数的均数围绕总体均数上下波动。围绕总体均数上下波动。 均数的标准差均数的标准差即即标准误标准误 与总体标与总体标准差准差 相差一个常数的倍数,即相差一个常数的倍数,即 样本样本均数的标准误(均数的标准误(Standard Error)Standard Error)= =样本标准差样本标准差/ / 从正态总体从正态总体N N( (m m,
4、 ,s s2 2) )中抽取样本,获得中抽取样本,获得均数的分布仍近似呈均数的分布仍近似呈正态分布正态分布N(m m,s s2/n) 。Friday, Friday, Friday, Friday, August 30, August 30, August 30, August 30, 2024202420242024中心极限定理中心极限定理 central limit theoremcentral limit theorem即使从即使从非正态总体非正态总体中抽取样本,所得均数分布仍近似呈中抽取样本,所得均数分布仍近似呈正态正态。随着样本量的增大随着样本量的增大, , 样本均数的样本均数的变异
5、变异范围也逐渐变窄。范围也逐渐变窄。第二节第二节 t 分布分布(t-distribution)随机变量随机变量X XN N(m m,s s2 2)标准正态分布标准正态分布N N(0 0,1 12 2)Z变换均数均数标准正态分布标准正态分布N N(0 0,1 12 2)Student Student t t分布分布自由度:自由度:n n-1-1图4-2 不同自由度下的t 分布图t分布的特征 以0为中心,左右对称的单峰分布; t分布曲线是一簇曲线,其形态变化与自由度的大小有关。 自由度越小,则t值越分散,曲线越低平; 自由度逐渐增大时,t分布逐渐逼近Z分布(标准正态分布);当趋于时,t分布即为Z分
6、布。t 界值表界值表(P406,附表,附表2)1.8122.228-2.228tf (t)=10=10的的t t分布图分布图t t分布曲线下面积(附表分布曲线下面积(附表2 2)双侧双侧t t0.05/20.05/2,9 92.2622.262 单侧单侧t t0.0250.025,9 9单侧单侧t t0.050.05,9 91.8331.833双侧双侧t t0.01/20.01/2,9 93.2503.250 单侧单侧t t0.0050.005,9 9单侧单侧t t0.010.01,9 92.8212.821双侧双侧t t0.05/20.05/2,1.961.96 单侧单侧t t0.0250.
7、025,单侧单侧t t0.050.05, 1.641.64 总体均数的点估计(总体均数的点估计(point estimationpoint estimation)与区间估计)与区间估计(interval estimationinterval estimation)参数的估计参数的估计点估计点估计:由样本统计量:由样本统计量 直接估计直接估计 总体参数总体参数区间估计区间估计:在一定:在一定可信度可信度(Confidence level) 下,下,同时考虑抽样误差同时考虑抽样误差第三节第三节 总体均数的可信区间估计总体均数的可信区间估计 按预先给定的概率按预先给定的概率(1 ), 确定一个包含未
8、知总体参数的确定一个包含未知总体参数的范围。这一范围称为参数的可信区间或置信区间范围。这一范围称为参数的可信区间或置信区间(confidence interval,CI) (1 )称为可信度或置信度称为可信度或置信度(confidence level),常取),常取95。置信区间通常两个数值即置信限置信区间通常两个数值即置信限(confidence limit,CL)构成,构成,较小的称为置信下限(较小的称为置信下限(lower limit,L),),较大的称为置信上限(较大的称为置信上限(upper limit,U),),一、置信区间的有关概念一、置信区间的有关概念二、总体均数置信区间的计算
9、二、总体均数置信区间的计算s s未知,且未知,且 n较小,较小,按按t分布分布s s已知,或已知,或s s未知但未知但n足够大,按足够大,按Z分布分布1.单一总体均数的置信区间2.两总体均数的置信区间(一)单一总体均数的置信区间(一)单一总体均数的置信区间 例4-2Z0.05/2=1.96Z0.05=1.645Z0.05/2=1.96Z0.05=1.645 三、可信区间估计的优劣三、可信区间估计的优劣一一是是可可信信度度1 (准准确确度度),愈愈接接近近1愈愈好,如好,如99%的可信度比的可信度比95%的可信度要好;的可信度要好; 二二是是区区间间的的宽宽度度(精精密密度度),区区间间愈愈窄窄
10、愈愈好好。当当样样本本含含量量为为定定值值时时,上上述述两两者者互互相相矛矛盾。盾。 在在可可信信度度确确定定的的情情况况下下,增增加加样样本本含含量量可可减小区间宽度。减小区间宽度。四、总体均数可信区间与参考值范围的区别四、总体均数可信区间与参考值范围的区别第四节 方差的抽样误差与可信区间卡方界值见卡方界值见P407附表附表3第五节第五节 率的抽样误差与可信区间率的抽样误差与可信区间 一、率的抽样误差与标准误一、率的抽样误差与标准误 二、总体率的可信区间二、总体率的可信区间一、一、 率的抽样误差与标准误率的抽样误差与标准误 样本率样本率(p)和总体率和总体率()的差异称为率的的差异称为率的抽
11、样误差抽样误差(sampling error of rate) ,用,用率的率的标准误标准误(standard error of rate)度量。度量。如果总体率如果总体率未知,用未知,用样本率样本率p估计估计标准误的计算标准误的计算二、二、 总体率的可信区间总体率的可信区间 1. 正态分布法;正态分布法;2 . 查表法查表法 2. 查表法n 50,且,且P接近接近0或或1的资料时采用。的资料时采用。例例4-6某新药的毒理研究中,用某新药的毒理研究中,用20只小白鼠作急只小白鼠作急性毒性实验,死亡性毒性实验,死亡3只,估计该药急性致死率的只,估计该药急性致死率的95%可信区间。可信区间。从附表从附表7(根据二项分布原理制成)查得,在(根据二项分布原理制成)查得,在n=20与与X=3纵列交叉处的数值为纵列交叉处的数值为338,即该药,即该药急性致死率的急性致死率的95%可信区间为可信区间为3%38%。