数理统计第一章.doc－金锄头文库

资源描述

《数理统计第一章.doc》由会员分享，可在线阅读，更多相关《数理统计第一章.doc（27页珍藏版）》请在金锄头文库上搜索。

1、第1章抽样调查1.1 引言数理统计学是数学的一个重要分支.它研究怎样有效地收集、整理和分析带有随机性的数据，以对所考查的问题作出推断或预测，直至为采取一定的决策和行动提供依据和建议.若在以上句子中去掉“带有随机性的”这几个字，那就是统计学的研究范围.统计学就是数据科学（数理统计学讲义，高教出版）。数理统计学是这样一门学科：它使用概率论和数学的方法，研究怎样收集（通过试验和观察）带有随机误差的数据，并在设定的模型下（称为统计模型）之下，对数据进行分析（称为统计分析），以对所研究的问题作出推断（称为统计推断）（概率论与数理统计，中科大出版，陈希孺）.由以上关于数理统计学的概念的阐述可以看出数理统

2、计面对的对象就是数据，而数据的“质量”对最终的得出的结论的可靠性有着重大影响.对于普查的数据，数据的有效性、准确性很重要（这类数据的研究不属于数理统计学的范畴）.对于抽查数据，数据的概率性质很重要.本章简要地介绍抽样调查的一些概念和技术以及相关理论.在数理统计学中还有另一种获取数据的方法-试验设计(将在后面介绍).抽样调查是从总体中抽取一小部分个体以获取总体的有关信息.根据研究对象即总体的不同特点需要设计不同的抽样方法以获取高“质量”的数据.抽样技术在很多领域都有应用.抽样技术本质上具有概率性总体中每个个体都以特定的概率出现在样本中(简称为入样),并且样本的实际构成是随机的.随机抽样至少有以下

3、的益处: 抽取个体的随机性排除了调查者的偏见，即使是无意识的。与完全枚举（即普查）相比，小样本减少很多成本，调查更省时。随机抽样的结论实际上可能比完全枚举更精确。小样本的数据质量更容易监控，完全枚举需要大量的调查人员去实施，由此可能带来更多业务不精的职员。随机抽样技术使得抽样误差估计变得可能。在抽样设计时，通常可以确定出满足预设误差水平的样本容量。以上的讨论中涉及“总体”和“个体”和“样本”三个名词.总体指研究对象的全体.而组成总体的各个成员称为个体.依总体中个体数有限和无限，总体分为有限总体和无限总体.本章讨论的总体都是有限总体.在具体的统计问题中，我们总是关注总体中成员的某项（或多项

4、）数量指标.总体中的个成员的数量指标值记为.如果将总体中的成员依据某一属性分成类，我们可以用数值（或）分别代表各个类别（称为分类数据或属性数据），最常见的是分为二类（比如正品与次品，男性与女性），我们称之为二分变量. 例1.1 作为本章的第一个例子，我们利用Herkson(1976)的研究来解释一些思想.总体由个短期居留医院组成.我们关注于医院一个月内出院人数.令表示1968年1月份第个医院的出院人数,那么总体为.总体均值为,总体标准差为.总体的数值都是知道的,我们可通过频数直方图显示总体数值的分布,见P139图7.1.这里举这个例子是为了教学目的,后面还会用这个例子来说明一些方法和思想.实际

5、中,我们往往是不知道总体的数值,而是希望通过抽样而获得的数据去了解总体的信息,比如估计总体均值等.在统计问题中,我们特别关注的是总体的一些数值特征,或参数.总体均值（population mean）在分类数据中,各类别的比例. 总体总数(population total) 总体方差(population variance)在二分情况下,总体方差为.总体标准差(population standard deviation) .一般地，总体的特征数（或参数）是未知的，而我们要做的工作就是通过观察到的数据即样本来获取总体参数的信息.样本是指按照一定的抽样方案（或试验方案）从总体中抽取的若干个个体.由于

6、抽取个体的目的是要调查其某项（或多项）数量指标，因此所得的样本表现为抽取的各个个体的数量指标。记它们的数量指标为.我们称为样本，抽取的个体数称为样本容量. 由于抽样是随机安排的,因此是个随机变量(或向量).它们的联合分布依赖于总体的分布及抽样方案.抽样观察完成后便得到个具体的观察值,称为样本值, 是的一次实现.以后样本值简称为样本,因此以后说到样本可以是个随机变量,也可以是个的观察值,这就是所谓的样本的二重性.在不会引起混淆时都用表示样本. 1.2 简单随机抽样最初级的抽样方法是简单随机抽样:每个个体都以相同的概率入样. 简单随机抽样有放回的简单随机抽样（也称为有重复简单随机抽样）和不放回的简

7、单随机抽样（也称为无重复简单随机抽样）两种方式.有放回的简单随机抽样所得的样本的概率特性有(1) 各个具有相同的分布;(2) 相互独立. 不放回的简单随机抽样所得的样本的概率特性有（1）各个具有相同的分布;（2）不相互独立. 任意指定的个个体组成样本的概率均为。两种方式下的样本的第一条概率特性相同，这是由“每个个体都以相同的概率入样”的缘故.一般而言，简单随机抽样都是指不放回的随机抽样.这里引入有放回的随机抽样是因为（1）放回的随机抽样的样本的概率性质更为简单；（2）给不放回的随机抽样提供一个比较对象.例如，若总体中个个体的数量指标值各不相同，那么的概率质量函数为若总体中个个体的数量指标值

8、有相同的，各个体的不同取值记为，且取值的个体数为，那么的概率质量函数为若总体为二分变量，那么，其中总体中取值为的个体的比例. 我们往往关心总体均值、总体总数、总体方差等总体参数的估计，通常用样本均值（sample mean）作为总体均值的估计.作为总体总数的一个估计，我们考虑由于样本是随机的，所以样本均值也是随机的，它的概率分布称为抽样分布.的抽样分布决定了估计的精度，粗略地讲，抽样分布越紧密地集中在附近，估计越好.例1.2 为了解释抽样分布的概念,我们再一次考虑个医院的总体.当然,在实践中,总体是未知的.出于教学的目的,我们考如来自这个总体的样本均值的抽样分布.例如,假如我们想寻找容量为

9、的样本均值的抽样分布,原则上,我们可以得到所有的个样本,并计算每个样本的均值.但是这样的样本个数是阶,这显然是不可行的.因此我们利用称之为模拟的技术.我们抽取很多个容量同为的样本,计算均值,然后绘制其直方图,用以估计抽样分布.图7.2(见P141)显示了样本容量为和的次模拟结果.值得注意的是该图的三个特征:1. 所有的直方图集中在总体均值上.2. 随着样本容量的增加,直方图发散程度降低.3. 尽管总体直方图(图7.1)关于均值不对称,但图7.2的直方图接近于对称. 一般而言,得出的精确抽样分布很困难.下面计算的期望、方差,以了解该估计量的统计性质,并由此看出该估计的优良性. 首先在简单随机抽样

10、下,的期望、方差分别为以上性质无论放回抽样还是不放回抽样都成立,但对于协方差()会不一样,在放回抽样时;而不放回抽样时, ,由以上讨论易得性质1.2.1 简单随机抽样下, 要注意的是,由于是随机的,结论可以解释“平均地”.一般地利用样本构造的统计量估计总体参数时,如果无论取何值,总有,我们称为的无偏估计.因此是的无偏估计.但这并不意味着会恰好等于,与总会有偏差的,为此还需考验该估计的精度.一般地我们可用均方误差来衡量估计的精度.称为标准误差.易得称为偏差或偏倚.若为的无偏估计,那么性质1.2.2 在简单随机抽样下,(1) 若放回抽样,则 , ,(2) 若不放回抽样,则 ,(3)在二分情

11、形下,(放回抽样时),(不放回抽样时)可以看出,样本均值的精度与和有关,两种抽样方式的方差相差一个因子称它为有限总体校正.比值称为抽样比例,若抽样比例非常小时两种抽样方式下样本均值的方差差别不大.例1.3 如果无重复地抽取医院总体，样本容量为，那么样本均值的标准差为为了说明是精度合理的度量，再次审视图7.2b,观测到大部分样本均值在总体均值(814)的2倍标准误差之内,也就是说大部分样本均值在内.例1.4 在医院总体中,小于个出院人数的比例是.如果利用样本比例估计这个总体比例,可得该估计的标准误差为总体方差是一个重要的总体参数,也需要通过样本对其作出估计,并且由上面的讨论可看出样本均值

12、作为总体均值的估计时,其精度与总体方差有关,在实现中总体方差未知,我们可由样本对其作出估计,从而对样本均值作为总体均值的估计时的精度作出评估. 下面是一个常用的的估计量性质1.2.3 在简单随机抽样下,(1) 若放回抽样,则 (2) 若不放回抽样,则由此可见是的有偏估计,而且总有也即该估计系统地偏小,为了具有无偏性,我们可对以上估计作如下修正,(放回抽样时),(不放回抽样时),从无偏性角度,(或)优于.但从均方误差准则角度,往往优于(或).在实际中人们往往不希望把总体方差估计得偏小,因此总体方差的估计常用(或).我们易得下面结论性质1.2.4 样本均值的方差的无偏估计为 ,(放回抽样时)

13、, ,（不放回抽样时）性质1.2.5 在二分总体中,的估计的方差的无偏估计为 ,(放回抽样时), ,(不放回抽样时)如果我们知道了实际的总体方差,那么可用来度量的估计精度;如果总体方差未知(实际中通常未知),那用估计的标准误差替代他们,这是通常的做法.例1.5 从医院总体中抽取一个样本容量为的样本,并算得样本均值为,标准差为.那么可得样本均值的方差的估计为的估计标准误差是注意,真正的标准误差是例1.6 令为出院人数少于1000人的医院比例,从医院总体中抽取一个样本容量为的样本,其中有个医院出院人数少于1000.那么的估计值为的方差的估计为的估计标准误差为以上例子说明通过简单随机抽样不

14、仅可以得到未知的总体参数的估计,还可以利用样本数据的估计的标准误差刻画估计的误差水平.总结如下表: 总体参数估计方差估计估计方差样本比例前面己经讨论了样本均值的期望与方差，在理想情况下，我们想知道的抽样分布，这样做就可以告诉我们估计精度的一切特征.然而，在没有总体本身的信息时，我们是不能确定抽样分布的.但由中心极限定理我们可以导出其近似分布-正态分布，这种近似可以用来计算估计误差的概率限.若随机变量序列独立同分布，且期望方差,记,那么中心极限定理知依分布收敛于标准正态分布.也即当充分大时,近似服从正态分布. 由以上结论可知,若是从某总体中按放回的简单随机抽样方法得到的样本,总体均值和方差分别

15、为和,那么当样本容量充分大时,近似服从正态分布. 若是从某总体中按不放回的简单随机抽样方法得到的样本,此时情况所有不同,诸并不独立,且让样本容量趋于无穷是没有意义的.但是当样本容量很大,且相对于仍很小时,近似服从正态分布. 由以上的近似分布,我们可以近似地计算用估计时误差小于某常数的概率, ,或例1.7 再次考虑医院总体,容量为的样本均值的标准差为那么样本均值近似服从正态分布,这里为总体均值.由此可近似地计算出样本均值与总体均值的绝对偏差在100以上的概率例1.8 续例1.6 的真实值为,的估计值为,两者差距为,下面近似计算两者的绝对偏差超过的概率.由于近似服从正态分布,因而我们看到这样的样本非常“不幸”,超过这个误差的发生几率仅是4%. 1.3 比例的估计上一节简单随机抽样奠定了抽样调查的理论基础.在此基础上，这一节和下一节介绍抽样调查的一些高深话题.

展开阅读全文