第03章抽样误差－金锄头文库

资源描述

《第03章抽样误差》由会员分享，可在线阅读，更多相关《第03章抽样误差（9页珍藏版）》请在金锄头文库上搜索。

1、第3章抽样误差3.1 抽样误差的概念医学科研中通常采用抽样研究的方法，从某总体中随机抽取一个样本来进行研究，而所得样本统计量与总体参数常不一致，这种由抽样引起的样本统计量与总体参数间的差异属于抽样误差(sampling error)，这在抽样研究中是不可避免的。例如，假设某地成年男子血红蛋白的总体均数(m)为13.76(g/100ml)，随机抽查了360名男子，算得平均血红蛋白含量13.45(g/100ml)，若用此作为该地区成年男子血红蛋白的总体均数(m)的一个估计值，则(13.76-13.45)=0.31(g/100ml)，此差值属于抽样误差。抽样误差有两种表现形式，其一是：样本统计量与

2、总体参数间的差异，如样本均数与总体均数间的差异；其二是：不同样本的统计量间的差异，如从同一总体中抽取含量相等的两样本得到的两个样本均数之间的差异。从理论上讲，若进行K次抽样，所得的K个样本统计量(例如)则很可能各不相同，若将这些样本统计量编制成频率分布表或绘制成频率分布图，则可看出样本统计量的抽样分布是有规律的。3.2 抽样误差产生的条件抽样误差产生的两个必备条件：(1) 抽样研究。抽样研究是产生抽样误差的必备条件之一。只有对总体中的部分个体进行研究，才可能导致样本指标与总体指标的不一致，而且在从同一总体进行抽样的的研究中，样本含量越少的研究，理论上抽样误差必然越大。(2) 个体变异。个体变异

3、是产生抽样误差的另一必备条件。在医学科研领域，许多被研究对象都存在着变异现象，如血压、疗效、药物反应等。在抽样方法和样本含量不变的条件下，变异大的研究样本其抽样误差也大，反之则小。以上是产生抽样误差的必备条件，缺一不可。若进行普查，则被研究对象的个体变异将不会产生抽样误差；若个体间无变异，当然无需作抽样研究，也无抽样误差可言。3.3 均数的抽样误差及标准误虽然均数的抽样误差可表现为样本均数与总体均数之差值，但由于总体均数往往是未知的，故这个差值实际上是得不到的，只能估计。均数的抽样误差也可用多个样本均数间的离散度表示，但由于对同一问题很少做多次同样的抽样研究，所以这个离散度一般也是得不到的。那

4、么，如何衡量抽样误差的大小，揭示抽样误差的规律呢？这就要应用数理统计中的中心极限定理(central limit theorem)了。中心极限定理的涵义：(1) 从均数为m、标准差为 s 的正态总体中独立、重复、随机抽取含量为n的样本，样本均数的分布仍为正态分布，其均数为m，标准差为。(2) 即使从非正态总体(均数为m、标准差为s )中独立、重复、随机抽取含量为n的样本，只要样本含量足够大(如n50)，样本均数也近似服从均数为m、标准差为的正态分布。 (3.1)在统计理论上将样本统计量的标准差称为统计量的标准误(standard error，SE)，用来衡量抽样误差的大小。据此，样本均数的标准

5、差称为均数的标准误，简称标准误。由上式可见，此标准误与个体变异s 成正比，与样本含量n的平方根成反比。实际工作中，s 往往是未知的，一般可用样本标准差s代替s ，求得的估计值。即： (3.2)因为标准差s随样本含量的增加而趋于稳定，故增加样本含量可以降低抽样误差。为了形象地展示中心极限定理，表3.1设计了4个非正态分布的总体，其中，总体A是偏三角分布，总体B是均匀分布，总体C是指数分布，总体D为双峰分布。分别从各总体中抽取10000个样本含量为n的样本，计算每个样本的均数，并根据10000个样本均数绘制频率分布图(图3.1)。由图可见，样本均数的分布不再显示原来的非正态分布之特征，且随着样本含

6、量n的增大，样本均数的分布很快接近正态分布，并显示均匀分布接近正态分布的速度快于偏态分布，单峰分布快于双峰分布。因此，根据中心极限定理，即使对于总体的精确分布并不清楚(这种情况在分析实际资料时较为常见)，我们也可以利用这一特性对样本均数的抽样误差进行各种分析。表3.1 4个总体不同样本含量时10000个模拟样本的均数和标准误与相应理论值的比较10000个样本理论值均数标准误,均数标准误,总体An=21.33400.33571.33330.3333n=41.33280.23551.33330.2357n=101.33220.14931.33330.1491n=251.33250.09371.33

7、330.0943总体Bn=20.49650.20420.50000.2041n=40.50070.14540.50000.1443n=100.50130.09190.50000.0913n=250.50020.05760.50000.0577总体Cn=20.99920.70651.00000.7071n=41.00010.50411.00000.5000n=101.00260.31541.00000.3162n=250.99620.19851.00000.2000总体Dn=21.00690.54861.00000.5477n=41.00740.39451.00000.3873n=100.996

8、50.24721.00000.2450n=250.99970.15601.00000.1549表3.1中12个抽样分布的均数及标准误与理论值均非常接近。实际工作中，常用表示某指标的均数及其抽样误差。同时，中心极限定理通过图3.1显示：从不同分布类型的总体抽样时，达到样本均数趋向正态分布所需的最小样本含量之参考数。一般而言，样本含量大于10时，其均数分布趋向正态的效果已经比较明显。本节描述了来自不同总体的样本均数之抽样误差和抽样分布规律。事实上，任何一个样本统计量均有其抽样分布规律，如来自正态分布总体的样本方差服从c2分布；方差之比服从F分布；相关系数作适当变换后近似服从正态分布；率的分布与样本

9、含量n和率的大小有关，在样本含量较小时服从二项分布，在n足够大时，近似服从正态分布；等。统计量的抽样分布规律是进行统计推断的理论基础。下面介绍从正态分布总体中随机抽样，均数和方差的有关抽样分布。n=2n=4Xn=10 总体分布B图3.1 中心极限定理图示(a)n=2n=4n=25的抽样分布的抽样分布总体分布AXn=10n=25XX总体分布Dn=2n=2n=4n=4总体分布Cn=10n=10n=25n=25的抽样分布的抽样分布图3.1 中心极限定理图示(b)3.4 t分布中心极限定理表明，从任何总体中随机抽样，当样本含量较大时，其均数的抽样分布将趋于正态分布。如果是从正态分布总体中抽样，英国统计

10、学W.S.Gosset (1908)导出了样本均数的确切分布。设从正态分布N(m,s2)中随机抽取含量为n的样本，样本均数和标准差分别为和s，且： (3.3)则t值服从自由度为n-1的t分布(t-distribution)。Gosset于1908年在Biometrika(生物统计)杂志1908年第6期卷第1期上发表了题为The probable error of a mean(平均数的概率误差)的论文，当时用的是笔名“Student”，故t分布又称Student t分布。t分布曲线可用图3.2表示。 f(t)n =（标准正态曲线）n =5n =10.10.2-4-3-2-1012340.3t图

11、3.2 自由度分别为1、5、时的t分布t分布有以下的特征：(1) t分布为一簇单峰分布曲线。(2) t分布以0为中心，左右对称。(3) t分布与自由度n有关，自由度越小，t分布的峰越低，而两侧尾部翘得越高；自由度逐渐增大时，t分布逐渐逼近标准正态分布；当自由度为无穷大时，t分布就是标准正态分布。每一自由度下的t分布曲线都有其自身分布规律，这个规律可见于t界值表(附表2)，表中横标目为自由度，纵标目为概率P，表中数据为相应的t界值，常记为ta,n。t分布表明，从正态分布总体中随机抽取的样本，由样本计算的t值接近0的可能性较大，远离0的可能性较小。t0.05,102.228，表明，从正态分布总体中

12、抽取样本含量为n=11的样本，则由该样本计算的t值大于等于2.228的概率为0.025，小于等于-2.228的概率亦为0.025。可表示为：P(t-2.228)+P(t2.228)0.05或：P(-2.228t2.228)=1-0.05=0.95。3.5 c2 分布设从正态分布N(m,s2)中随机抽取含量为n的样本，样本均数和标准差分别为和s，且： (3.4)则c2值服从自由度为n-1的c2分布(c2-distribution)，c是小写希腊字母，读作chi。可见，c2分布是方差的抽样分布。统计学家Karl Pearson在研究定性资料时指出，可以用c2分布近似描述具有某种属性的实际频数Ai与

13、理论频数Ti之间的抽样误差，即： (3.5)并指出，如果样本含量和理论频数均较大(如n40，Ti5)，或自由度大于1时，近似程度较好。因此，c2分布除用于方差的抽样分布研究外，还可用于样本分布与理论分布的拟合优度检验(见第9章)、率或构成比的比较(见第7章)，等。c2分布有以下的特征：(1) c2分布为一簇单峰正偏态分布曲线，c2取值范围为0。n=1时分布最为偏斜。随n的逐渐加大，分布趋于对称。图3.3给出了6个不同自由度时的c2分布。(2) 自由度为n的c2分布，其均数为n，方差为2n。(3) n1时c2分布实际上是标准正态分布变量之平方。自由度为n的c2分布实际上是n个标准正态分布变量之平

14、方和。可表示为：c2=u12+ u22+ uv2 (3.6)其中，ui为标准正态变量。该性质说明，c2分布具有可加性。 (4) 每一自由度下的c2分布曲线都有其自身分布规律，这个规律可见于c2界值表(附表3)，表中横标目为自由度，纵标目为概率P，表中数据为相应的c2界值，常记为c2a,n。当自由度n确定后，c2与P的关系如该表右上角插图所示：图中阴影部分表示大于c2a,n的尾部面积的百分数，即概率a。例如，自由度为1时，c20.05,13.84，表示当n =1，右侧a0.05时，c2的界值为3.84，也即按c2分布规律，n 1时，理论上c23.84的概率为0.05。c2分布说明，从正态分布的总体中随机抽样，所得样本的方差s2接近于总体方差s2的可能性大，远离总体方差的

展开阅读全文