《应用统计学(第三版)》-电子教案-龚曙明第10章抽样统计

资源描述

《《应用统计学(第三版)》-电子教案-龚曙明第10章抽样统计》由会员分享，可在线阅读，更多相关《《应用统计学(第三版)》-电子教案-龚曙明第10章抽样统计（63页珍藏版）》请在金锄头文库上搜索。

1、第10章抽样统计,本章主要阐述参数估计的基本概念、抽样分布、抽样的组织方式和抽样设计的基本问题。其中抽样组织方式主要有简单随机抽样、类型抽样、等距抽样、整群抽样、目录抽样、二重抽样、多阶段抽样等。其核心是怎样根据随机样本对总体参数作出科学的推断。,10.1 抽样统计的基本概念,抽样统计又叫参数估计，是指根据统计研究的任务和要求，从被研究总体中抽出部分单位进行调查，然后根据这一部分单位所求得的样本指标推断总体指标的统计方法。,10.1.1 总体与样本总体：又称全及总体，即被研究现象的全体，亦具有大量性、同质性和差异性的许多个别事物的集合体。总体单位数通常用N表示。样本：根据随机原则从总体中

2、抽出来的部分个体单位组成的集合体。样本中包含的单位个数记作n，又称样本容量，nN称为抽样比例。,10.1.2 参数和统计量参数：总体的数量特征即总体指标。在抽样时总体指标往往是未知的，是需要进行推断的。总体指标通常有总体平均值(期望值)，记作或，总体方差或标准差，记作，总体比率，记作P。统计量：样本的数量特征即样本指标。统计量随着样本的不同而不同，因而是个随机变量。统计量通常有样本均值，样本方差S2，样本标准差 S ，样本比例p。,总体分布：总体中某一随机变量的不同取值及其相应的频率或概率组成的分布。抽样分布：从总体中抽出的所有可能的样本统计量及其相应的概率构成的分布。,10.

3、1.3重复抽样与不重复抽样重复抽样：每抽出一个总体单位进行调查登记以后，放回去，混合均匀，再抽下一个，直到抽满n个为止。抽样时前面已抽到过的总体单位，在以后的抽取中可能重复抽到。不重复抽样：每次抽出一个总体单位进行调查登记以后，不再放回，抽样时前面已抽到过的总体单位，以后不会再被抽到。,抽样方法不同，所有可能抽到的样本个数(M)不相同： 1重复抽样条件下： 2不重复抽样条件下：,10.1.4 抽样误差与抽样标准误差抽样误差是指在遵守随机原则条件下，样本指标与总体指标的差异，它是一种偶然性的代表性误差。不包括系统性代表性误差和登记性误差。抽样标准误差：是指所有可能的样本平均数(或样本比率

4、)对总体平均数(或总体比率)的标准差。抽样标准误差的平方称为抽样方差。依定义有：,样本平均数的抽样标准误差：样本比率的抽样标准误差：,上述定义公式可用来解释抽样误差的实质，但不能实际应用，因为可能的样本个数太多，而且总体平均数或总体比率是未知的，是需要推断的。,一般来说，影响抽样误差大小的因素有四个： 1. 样本容量n。样本容量越大，抽样误差就越小，大到n=N时，抽样误差等于0； 2. 总体标准差。总体标准差越大，抽样误差就越大； 3. 抽样方法的影响。不重复抽样可以避免极端样本出现，故抽样误差比重复抽样误差小； 4. 抽样方式的影响。抽样方式不同，抽样误差也就不同,10.1.5 点估计与区

5、间估计参数估计是指用样本统计量来估计总体参数。用取值区间表现的称为区间估计。 1点估计：用点值表现估计结果。点估计也叫定值估计，当样本容量足够大时，可直接用样本平均数代替总体平均数，用样本比率代替总体比率，并据此计算有关总量指标，就是点估计。,点估计的优点是简单方便，缺点是无法知道估计的准确程度有多大，误差可能有多大。衡量一个样本统计量是否是总体参数的优良估计量的准则为：（1）无偏性。要求样本统计量的数学期望值等于被估计参数的本身。（2）一致性。要求样本容量n充分大，样本统计量能靠近被估计参数的本身。（3）有效性。要求样本统计量的方差比其他估计量的方差小。,2区间估计：用取值区间表

6、现估计结果。区间估计是用样本统计量和抽样标准误差构成的区间来估计总体参数，并用一定的概率来保证总体参数落在所估计的区间内。例如，总体服从正态分布，样本容量n30，则总体平均数的置信区间为：,即：,其中： Z为标准正态分布的一定置信概率条件下的概率保证程度（置信度）。称为极限误差，即，为置信区间下限；为置信区间上限。称为抽样标准误差，是抽样方差的平方根。,10.2 简单随机抽样,10.2.1 简单随机抽样的方法简单随机抽样又称纯随机抽样，是指从总体的全部单位中按随机原则直接抽取n个单位组成样本进行调查。简单随机抽样只适用于总体单位数不多，总体单位标志变异度较小的情形。具体做法有以

7、下三种： 1信手抽取法。 2抽签法。 3随机数表法。,10.2.2 简单随机抽样标准误差,10.2.3 总体平均数的估计需要指出的是，在参数估计时，总体方差往往是不知道的，则可用以往的、类似的、估计的总体方差代替，亦可用样本方差代替总体方差，只要样本容量n足够大(大样本)，仍可用z分布来估计总体平均数的置信区间。由于抽样标准误差只有总体标准差的1/，在大样本条件下，样本方差与总体方差的差异对抽样标准误差的影响不大，因而，用样本方差代替总体方差是一种常用的方法。【例10.3】,2. 小样本(n30）的总体平均数的估计【例10.4】,10.2.4 两个总体平均数之差的区间估计【例10.5】,

8、1.总体比率的区间估计若样本容量n30，而np和n (1p)均大于5时，由样本比率的抽样分布可知，样本比率p的抽样分布也是服从于正态分布的。因此，可根据标准正态分布用样本比率估计未知的总体比率P，估计公式为：在实际抽样时，由于总体比率P常常是未知数，总体方差P (1P)也难获知。由点估计理论可知，当样本容量足够大时，样本比率是总体比率的最佳估计量，因此，可用样本比率p代替上述公式中的总体比率P.【例10.7】,2. 两个总体比率之差的估计设两个总体的比率分别为和，从两个总体中各抽取一个样本，样本容量分别为和。当(1)和(1)皆大于5时，两个样本比率之差近似服从正态分布，因而可用标准正态

9、分布估计两个总体比率之差()的置信区间。当总体比率未知时，样本容量很大时，可用样本比率代替总体比率进行区间估计。估计公式为【例10.8】,10.2.6 简单随机抽样的必要抽样数目在设计抽样调查方案时，必须确定一个适当的样本容量，既满足抽样推断结果的准确度的要求，又能满足节省工作量和费用的要求。一般来说，确定样本容量应考虑以下几个因素： 1 总体方差，样本容量与总体方差成正比。 2极限误差。要求极限误差小，估计的精度高，要求样本容量应大一些。 3概率度Z。要求置信概率高或把握程度大，样本容量应大一些。 4抽样方法。重复抽样的样本容量应大一些；不重复抽样的样本容量可小一些。,样本容量的计

10、算公式，可根据抽样极限误差的公式推导出：（1）抽样比例nN较大时(大于5%)时，应采用不重复抽样公式计算必要的样本容量。否则，无论采用重复抽样还是不重复抽样时，均可用重复抽样公式计算样本容量n，可简化计算，且误差很小。（2）当总体方差或总体比率P未知时，可用样本方差(或样本比率)，或历史的类似的总体方差(或总体比率)代替。计算总体比率估计所需的样本容量时，亦可直接用P(1P)的最大值0.25代替。（3）在同一抽样调查中，总体均值与总体比率推断需要兼顾时，用以上公式计算的样本容量一般不相等，应采用较大的那个样本容量。,10.3 分层抽样,10.3.1 分层抽样的意义分层抽样是先将总体

11、按有关标志分组，然后再从每组中按随机原则抽取样本。在每个组中抽取的调查单位数目，可按相同比例(nN)抽取，也可按不同比例抽取。通常按相同比例抽取，称做等比例分层抽样。数理统计证明，对总体进行分层后，总体方差可以分解为层内方差和层间方差两部分，在分层抽样时，抽样误差只和层内方差有关，而与层间方差无关。因此，只要扩大层间方差而缩小层内方差，就可以提高抽样的精确度。,10.3.2 分层抽样的抽样标准误差由于分层抽样条件下，层间方差不会引起抽样误差，因此，可以各组层内方差的加权平均数代替总体方差以计算抽样标准误差。 1. 总体平均数估计的抽样标准误差设 ni、、为样本各组的单位数、平均数、方

12、差、Ni为总体各组的单位数，则：,(1)总体平均数点估计:,(2)层内方差平均数:,（3）总体平均数的抽样标准误差：,(重复抽样),(不重复抽样),2总体比率估计的抽样标准误差设P为总体比率，Pi为样本各组的比率，则：,(1) 总体比率估计,(2) 层内方差的加权平均数:,(3) 总体比率估计的抽样标准误差,（重复抽样）,（不重复抽样）,10.3.3 分层抽样的样本容量若分层抽样中，各层均采用重复抽样，则：,若分层抽样中，各层均采用不重复抽样，则：,样本容量n确定之后，各层应抽取的样本单位数ni，可采用等比例进行分配：,10.4 等距抽样,10.4.1 等距抽样的概念与方法等距抽样是将

13、总体各单位按一定顺序排列，然后每隔Nn个总体单位抽取一个样本单位组成样本进行调查。等距抽样能使样本十分均匀地分布在总体中，从而能增加样本的代表性，减少抽样误差，提高抽样效率。,1等距抽样的排序方法（1）按无关标志排队。即总体单位排列的顺序和所要研究的标志是无关的。称为无序系统抽样。一般认为，为无序系统抽样比简单纯随机抽样误差小。（2）按有关标志排队。即总体单位排列的顺序与所要研究的标志是有直接关系的。称为有序系统抽样。一般认为有序系统抽样比分层抽样误差更小。,2等距抽样的方法当总体单位的顺序排列之后，可选用下列方法进行等距抽样：（1）随机起点等距抽样。（2）半距起点等距随机抽样。用中

14、点法抽取样本。（3）随机起点对称等距抽样。可抵消或避免抽样中的系统误差。（4）循环等距抽样。,10.4.2 等距抽样标准误差的测定 1无序系统抽样，采用单纯不重复随机抽样的公式计算抽样标准误差：,当总体方差或p(1p)未知，样本为大样本时，可用样本方差代替。,2采用有序系统抽样。通常把有序系统抽样看作是一种特殊的分层抽样，即把相邻若干段抽出的样本单位合并为一组，然后计算各组组内方差及平均数，采用等比类型抽样标准误差公式计算抽样标准误差。,10.4.3 等距抽样样本容量的确定 1无序系统抽样的样本容量。采用简单随机抽样的公式确定样本容量。由于等距抽样一般都是不重复抽样，故应用下列公式确定样

15、本容量： 2有序系统抽样的样本容量的确定，采用分层抽样的样本容量公式确定样本容量n。,10.5 整群抽样,10.5.1 整群抽样的概念整群抽样是将总体按某一标志分组后形成的每个群视为单位进行随机抽样，然后对抽中的每个群进行全面调查。整群抽样的特点是先分群，后抽群作为样本单位，在抽中的群内实行全面调查。,10.5.2 整群抽样标准误差的测定整群抽样对群内的总体单位实行全面调查，因而群内方差并不引起抽样误差，因而，只需以群间方差代替总体方差计算整群抽样标准误差，当总体的群间方差未知时，可用样本群间方差代替。,设总体共分为R群，每群内有M个总体单位，样本容量为r群，各群平均数为，为群间方差

16、，则有下列计算公式：,1总体均值估计：,均值的群间方差：,2总体比率估计：,比率的群间方差：,3整群抽样标准误差：,如果为等群抽样，m1=m2=m3，则公式中的mi可略去，母项则为r群。,10.5.3 整群抽样的样本容量确定整群抽样一般是不重复抽样，故按不重复抽样计算必要的抽样群数：,其中为群间方差，可根据以往的资料确定。,10.6 目录抽样,10.6.1 目录抽样的概念目录抽样通常用于企业调查，首先编制一份企业目录(称为抽样框)，目录中一般包括企业名称、从业人数、产值、产量、利润等以往的资料。然后，考虑总体分布是否呈偏斜状态分布，如果呈极偏斜状态分布，则将其中的大中型企业单列出来作全面调查，对剩余的为数众多的小型企业实行抽样调查。因此，目录抽样是全面调查与抽样调查的有机结合。目录抽样可以减少抽样误差，提高抽样估计的精确度。,10.

展开阅读全文

《应用统计学(第三版)》-电子教案-龚曙明 第10章 抽样统计

最新文档

《应用统计学(第三版)》-电子教案-龚曙明第10章抽样统计