抽样分布与参数估计-研

资源描述

《抽样分布与参数估计-研》由会员分享，可在线阅读，更多相关《抽样分布与参数估计-研（39页珍藏版）》请在金锄头文库上搜索。

1、1几个重要概念的回顾：总体：样本：统计量：参数：统计分析：统计描述统计推断：参数估计、假设检验2欲了解某地2000年正常成年男性血清总胆固醇的平均水平，随机抽取该地200名正常成年男性作为样本。由于存在个体差异，抽得的样本均数不太可能恰好等于总体均数。 3第一节抽样研究与抽样误差一、抽样研究用样本信息推断总体特征的研究方法称为抽样研究。样样本本总体总体4统计推断：用样本信息推论总体特征的过程。包括：参数估计: 运用统计学原理，用样本统计量对总体参数进行估计。假设检验：是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出判断。方法：均数的参数估计、均数u 检验、均数 t 检验5二、

2、抽样误差（一）抽样误差：由于个体差异和抽样引起的样本统计量与总体参数之间的差异或各样本统计量之间的差异。均数的抽样误差：X 率的抽样误差： p 6例题某市16岁女中学生身高分布服从均数 =168.15cm、标准差 =15.6cm的正态分布，从该N(168.15, 15.62)总体中随机抽样。样本含量分别为4、16、36人，分别随机抽取样本g=10000个，得到10000个样本均数及标准差Sj 。将上述10000个样本均数看成新变量值，这 10000个样本均数构成一新分布。（二）均数的抽样误差7的平均数168.198的标准差3.0样本含量n=4 样本含量n=16 的平均数168.19

3、8的标准差1.5样本含量n=36 的平均数168.198 的标准差1.0若服从正态分布：8的平均数0.9903 的标准差0.4891 的中位数0.9087 样本含量n=4 样本含量n=9 的平均数1.0068 的标准差0.3313 的中位数0.9696 样本含量n=100 的平均数0.9995 的标准差0.1002 的中位数0.9976 若不服从正态分布：（从总体均数为1的指数分布总体中抽样）9正态总体中样本均数抽样分布具有如下特点：各样本均数未必等于总体均数；各样本均数间存在差异；样本均数围绕总体均数呈正态分布；样本均数变异范围较原变量变异范围大大缩小。在非正态分布总体中可进行类似抽样。

4、10根据数理统计推理和中心极限定理可得到如下结论：若服从正态分布则服从正态分布若不服从正态分布 n大：则近似服从正态分布n小：则为非正态分布111、从正态总体N（，2）中，随机抽取例数为n的样本，样本均数X也服从正态分布；即使从偏态总体抽样，当n足够大时X也近似正态分布。2、从均数为，标准差为的正态或偏态总体中抽取例数为n的样本，样本均数X的总体均数也为，标准差为X 12样本均数的标准差称为均数的标准误(standard error of mean, SEM)计算：（标准误的估计值）注意： X 、SX均为样本均数的标准误13标准误意义：反映抽样误差的大小。标准误越小，抽样误差越

5、小，用样本均数估计总体均数的可靠性越大。与样本量的关系：S 一定，n，标准误14标准误用途：衡量抽样误差大小估计总体均数可信区间用于假设检验15（三）率的抽样误差率的抽样误差：由抽样造成的样本率(p)与总体率()的差异。率的标准误(p)：表明率的抽样误差的大小例3.1：P3116第二节 t 分布与总体均数的估计当样本量较大时，其统计量的抽样分布近似为正态分布。随着N的增大，越来越接近于正态分布（样本均数的分布）。但当样本量较小时，抽样分布不能再用正态分布来近似，随着N的减小，与正态分布的差别越来越大，需要用小样本理论来解释（样本均数的分布）。大样本、小样本概念：30 、 50 、

6、 100。 17若某一随机变量X服从总体均数为、总体标准差为的正态分布N(,2)由于样本均数服从总体均数为、总体标准差为的正态分布N(, ) 一、 t 分布18对正态变量样本均数X做正态变换（u变换）：X 常未知而用SX估计,则为t变换：19t分布最早由英国统计学家W.S. Gosset 于1908年以“Student”笔名发表，故又称 Students t-distribution。它的发现，开创了小样本统计推断的新纪元。 t值的分布即为t分布20t 分布的曲线：与有关2122t分布的图形与特征t分布是一簇曲线。不同，曲线形状不同。单峰分布，以0为中心，左右对称越小，t值越分散，

7、t分布的峰部越矮而尾部翘得越高；当逼近, 逼近 ,t分布逼近u分布。23t 界值表（P269附表2 ）t/2，：表示自由度为，双侧概率P为时t的界值24t分布曲线下面积(概率P或)与横轴t值间的关系：在相同自由度时， t值增大，P减小；在相同t值时，双尾P为单尾P的两倍。如双尾 =单尾 =1.812。在t界值表中，一侧尾部面积称单侧概率，两侧尾部面积之和称双侧概率。25t分布曲线下面积的规律：中间95%的t值：- t0.05/2， t0.05/2，中间99%的t值：- t0.01/2， t0.01/2，(1) 自由度（）一定时，p与t成反比;(2) 概率（p）一定时，与t成反比

8、;26t分布与标准正态分布的比较1、二者都是单峰分布，以0为中心左右对称2、t分布的峰部较矮而尾部翘得较高说明远侧的t值个数相对较多即尾部面积（概率P值）较大。当逐渐增大时，t分布逐渐逼近标准正态分布，当时，t分布完全成为标准正态分布27二、总体均数的估计统计推断：用样本信息推论总体特征。包括参数估计和假设检验参数估计：用样本统计量估计总体参数。1、点（值）估计：用样本统计量作为对总体参数的估计值282、区间估计：根据选定的置信度（或可信度，用概率表示）估计总体参数所在的范围可信度：估计正确的概率。1- 可信区间(confidence level, CI)：29总体均数的可信

9、区间按一定的可信度由样本均数计算的总体均数可能所在的范围，这个范围称为总体均数的可信区间。方法： (1) u 分布法 (2) t 分布法30总体均数的95可信区间总体均数的95可信区间：从总体中作随机抽样，作100次抽样，每个样本可算得一个可信区间，得100个可信区间，平均有95个可信区间包括总体均数(估计正确)，只有5个可信区间不包括总体均数(估计错误)31（1）t分布法未知、n小时按t分布原理总体均数的100（1-）%CI：例3.2：P3332（2）u 分布法未知但n足够大时按正态分布原理总体均数100（1-）%CI ：33（3）u 分布法已知时按正态分布原理100（1-）%CI ：9

10、5的CI：34区间估计的准确度：说对的可能性大小，用 (1-) 来衡量。99%的可信区间好于95%的可信区间（n, S 一定时）。区间估计的精确度：指区间范围的宽窄，范围越宽精确度越差。99%的可信区间差于95%的可信区间（n, S 一定时）。准确度与精确度的关系：35标准差标准误意义描述观察值的变异程度。其值越小，观察值的变异程度越小，均数的代表性越好描述样本均数的变异程度，说明抽样误差的大小。其值越小，估计总体均数的可靠性越大计算用途描述资料的频数分布状况，可用于制定医学参考值范围用于表示抽样误差大小、总体均数的区间估计和均数的假设检验等均数的标准差和标准误的区别

11、36总体均数的可信区间参考值范围含义按预先给定的概率确定的未知参数的可能范围总体均数的可能范围“正常人”的解剖、生理、生化某项指标的波动范围个体值的波动范围计算方法U分布法或t分布法正态分布法或百分位数法用途总体均数的区间估计绝大多数观察对象某项指标的分布范围总体均数可信区间与参考值范围的区别 37练习题是非判断：1标准误是一种特殊的标准差，其表示抽样误差的大小。2N一定时，测量值的离散程度越小，用样本均数估计总体均数的抽样误差就越小。38选择题：某地正常成年男子红细胞的普查结果，均数为480万/mm3，标准差为41.0万/mm3，后者反映（）A个体变异 B抽样误差 C总体均数不同 D均数间变异39

展开阅读全文