统计学整理资料2－金锄头文库

资源描述

《统计学整理资料2》由会员分享，可在线阅读，更多相关《统计学整理资料2（5页珍藏版）》请在金锄头文库上搜索。

1、第五章抽样与抽样估计本章教学要求和重点理解抽样调查中的基本概念；理解抽样分布的涵义；理解样本统计量的分布与总体分布之间的关系；掌握抽样估计和样本容量确定的方法；理解分层抽样、等距抽样、整群抽样的含义、特点和使用场合。第一节抽样中的基本问题一、抽样中的基本概念（一）概念：抽样调查是按照随机原则从全部研究对象中抽取一部分单位进行观察，并依据获得的数据对全部研究对象的数量特征做出具有一定可靠性的估计和判断，以达到对现象总体认识的一种方法。（二）特点：1、它是按照随机原则从总体中抽取样本。2、它是由部分推算整体的一种方法。3、它是运用概率估计的方法。4、抽样调查的误差可以是先计算并加以控制

2、。（三）优越性：1经济性2时效性3准确性4灵活性（四）作用：1、抽样调查能够解决全面调查无法或难以解决的问题。2、抽样调查可以补充和订正全面调查的结果。3、抽样调查方法可以用于生产过程中产品质量的检查和控制。4、抽样调查方法可以用于对总体的某种假设进行检验，以判断这种假设的真伪，决定行动的取舍。二、抽样调查中的几个基本概念（一）总体和样本1、总体：也称全及总体，指根据研究目的确定的所要研究的同类事物的全体，它是由所研究范围内具有某种共同性质的全体单位组成的集合体。2、样本：又称子样，它是全部总体中随机抽取出来，作为代表这一总体的那部分单位组成的集合体。（二）参数和统计量1、参数：根据全及总体

3、各个单位的标志值或标志特征计算的、反映总体某种属性的综合指标，称为全及指标。2、统计量：根据样本各单位标志值或标志特征计算的，反映样本某种属性的综合指标称为抽样指标或统计量。（三）样本容量和样本个数1、样本容量：是指一个样本所包含的单位数。2、样本个数：又称为样本可能数目。是指从一个总体中可以抽取的样本个数。（四）重复抽样和不重复抽样1、重复抽样：又称为重置抽样，它是这样来安排的，从总体N个单位中要随机抽取一个容量为n次试验构成一个样本。每次抽出一个单位把结果登记下来又放回，重新参加下一次的抽选。2、不重复抽样：又称为不重置抽样，它是这样安排的，从总体N个单位中要抽取一个容量为n的样本。

4、但每次抽选一个单位就不再放回参加下一次抽选，因此不重置抽样有这些特点。三、概率抽样与非概率抽样（一）概率抽样：也称为随机抽样，是指按照随机原则抽取样本。其基本的组织方式有；简单随机抽样，分层抽样，等距抽样和整群抽样。（二）非概率抽样：也称为非随机抽样，是指从研究目的出发，根据调查员的经验或判断，从总体中有意识地抽取若干单位构成样本。其组织方式有重点调查、典型调查、配额调查、方便抽样等。这种抽样容易产生系统偏差。四、抽样框抽样框是包含全部抽样单位的名单框架。主要形式有单抽样框、区域抽样框、时间表抽样框。五、抽样误差统计调查的误差，是指调查所得结果与总体真实数值之间的差异。在抽样调查中

5、，误差的来源有登记性误差和代表性误差两大类。（一）实际抽样误差：它是指某一具体样本的样本估计值与总体参数的真实值之间的离差。（二）抽样平均误差：它就是样本估计量的标准差，反映所有可能的样本估计值与总体参数的平均差异程度，可以衡量样本对总体的代表性大小。（三）抽样极限误差：它是指一定概率下，样本估计量与总体参数之间抽样误差的可能范围。第二节抽样分布这里必须说明：如无特别声明，我们下面只讨论可重复的简单随机抽样，所得容量为n的样本称为简单随机样本，它满足两个条件：(1)相互独立；(2)每个(=1, 2,，n)都与总体X同分布。一、抽样分布的概念样本指标即样本统计量是一种随机变

6、量，它有若干可能取值(即可能样本指标数值)，每个可能取值有一定的可能性(即概率)从而形成它的概率分布，统计上称为抽样分布。简言之，抽样分布就是指样本统计量的概率分布。(一) 分布1、概念：设是独立同分布的随机变量，且每个随机变量都服从标准正态分布，即，则随机变量的分布称作自由度为n的c2分布，记为c2 (n)。其分布密度为：2、分位数(或临界值)：或称k为c2 (n)的分位数，记为k 。3、性质：(1) 若 X 服从 c2 (n)，则均值 E (X) =n，方差 V (X) =2n。(2) c2分布具有可加性。若XI，X2相互独立，X1c2 (n1)，X2c 2(n2), 则(X1+X2

7、)c 2。(3) 当n g时，c 2分布渐进于正态分布，即c2(n )N(n，2n)。(4) 它是一个非对称分布。应强调：必须会查c2分布表；另外，c2 (n)分布随n的取值不同有不同的曲线。(二) t分布1. 概念：设随机变量X与Y相互独立，而且XN (0，1)，Yc2 (n)，则称随机变量服从自由度为n的 t分布，记作t (n)。其分布密度为：2. 分位数(临界值)：P (t (n)K) =a记为K ta (n)t1-a (n) =ta (n)3. 性质：(1) t 分布的均值 E (t) =0，方差 V (t) = n / n 2 ，(n 2)。(2) t分布是关于t=0的对称分布，且

8、为低峰分布。(3) 当n g时，t分布渐进于标准正态分布。应强调，必须会查t分布表。t分布随n的取值不同而对应相应的曲线。(三) F分布1. 概念：设随机变量X和Y相互独立，且分布服从自由度为n1， n2的c2分布，则服从第一自由度为，第二自由度为的F分布，记作：FF(nl,n2)。其分布密度为：2. 分位数(临界值)：P (F (n1，n2)K) =a 记为：K Fa (n1，n2)。3. 性质：(1) F分布是一个非对称分布。(2) F分布曲线为正偏态，其尾端以横轴为渐进线并趋于无穷。(3) 它是一种连续的概率分布，不同的自由度组合有不同的F分布曲线。二、样本平均数的抽样分布(一) 总体

9、方差已知时，样本平均数的抽样分布定理1：设总体XN (p , o 2)， (x1, x2，xn)是其一个简单随机样本，则样本平均数N(p , o 2/n)， E ( )=p , V( )= o 2/n。定理2：若总体平均数p和方差o 2有限，当样本容量n充分大时，无论总体分布形式如何，样本平均数近似服从正态分布 N(p , o 2/n)。由上面两个定理，根据抽样平均误差的定义，便可知平均数的抽样平均误差的计算公式为： o ( )= 在用此公式计算时，所研究总体的标准差通常是未知的，可用以前的总体标准差代替；在大样本情况下，通常用样本标准差代替。结论：当总体方差已知时，无论抽取的是大样本还是

10、小样本，样本平均数均服从正态分布。(二) 总体方差未知，样本平均数的抽样分布当总体方差未知时，用样本方差S2代替总体方差o 2,或用样本标准差S代替总体标准差o。则有：定理3：设总体XN (p , o 2),(x1, x2, xn)是其一个简单随机样本，样本均值为，样本标准差为S,则统计量结论：当总体方差未知时，如果抽取的样本为大样本，则样本平均数服从正态分布；如果抽取的样本为小样本，则样本平均数服从t (n-1)分布。三、样本比例的抽样分布当从总体中抽出一个容量为n的样本时，样本中具有某种特征的单位数n,服从二次分布，即nlB(n, p)。且有E(nl)=np，V(nl)=np(lp

11、)。因而样本比例p=也服从二次分布，且有：E(p)=E( )= E(n1) =pV(p)=V( )= V(n1)= p(1p)根据中心极限定理，当n8，二次分布趋近于正态分布。所以在大样本下，若np和n (lp)皆大于5, 样本比例近似服从正态分布：p N p， Xp(l-p)由抽样平均误差的定义和V (p)= X p ( 1 p )可知，比例的抽样平均误差为：(p)= =上式中，p为总体比例，实际计算时通常用以前的总体比例代替或用样本p代替。四、不重复抽样的修正系数前所讲的抽样分布和抽样平均误差的计算公式，都是就重复抽样而言的。可以证明，采用不重复抽样时，平均数和比例的抽样平均误差为：可见

12、，不重复抽样的抽样平均误差公式比重复抽样的相应公式多一个系数这个系数称为不重复抽样修正系数。当N很大时，(其中：n/N为抽样比例)。实际中，当抽样比例很小时， (一般认为小于0.5%) ，不重复抽样的抽样误差常采用重复抽样的公式计算。第三节抽样估计的基本方法一、点估计点估计也叫定值估计，就是直接以一个样本估计量来估计总体参数0。其常用的估计方法有以下两种：(一) 矩估计法基本思想；由于样本来源于总体，样本矩在一定程度上反映了总体矩，而且由大数定律可知，样本矩依概率收敛于总体矩。因此，只要总体X的k阶原点矩存在，就可以用样本矩作为相应总体矩的估计量，用样本矩的函数作为总体矩的函数的估计量。

13、(二) 极大似然估计法基本思想：设总体分布的函数形式已知，但有未知参数0 ， 0 可以取很多值，有0 的一切可能取值中选一个使样本观察值出现的概率为最大的值作为0 的估计值，记作，并称为0 的极大似然估计值。这种求估计值的方法称为极大似然估计法。(三) 估计量优劣的标准1、无偏性。2、有效性。3、一致性。二、区间估计(一) 概念：它是根据样本估计量以一定可靠程度推断总体参数所在的区间范围。(二) 步骤：1、抽取样本 x1，x2，xn2、找一个抽样分布(只含一个待估计的未知参数)。3、给定置信度1-a，确定置信区间。4、代入观测值就可得到一个具体的区间估计。(三) 区间估计的方法：1、总体

14、均值的区间估计(1) 总体方差已知时，正态总体均值的区间估计根据样本平均数的抽样分布定理2,若事先给定1-a，可由正态分布表查得临界值，使得在区间(-，) 的概率为，从而可得，给定置信度 1-a ，则有即这就是置信度为1-a的总体均值的置信区间。由前面抽样极限误差的定义可知，样本平均数的抽样极限误差可按如下公式来确定。则总体均值的置信度1-a的置信区间为(2) 总体方差未知时，正态总体均值的区间估计根据抽样分布定理3,小样本条件下，如果总体是正态分布的，总体标准差未知而需要用样本标准差S来代替，则随机变量。给定置信度1-a ，可查t分布表确定临界值，使t的取值在(一,)的概率等于1

15、-a ，即，也即=1-a由此可得总体均值的置信度为1-a的置信区间为：结论：总体方差未知时，在大样本情况下，正态总体均值的区间估计用 Z 估计量；在小样本情况下，正态总体均值的区间估计用t估计量。在这里，应指出：在对总体均值进行区间估计的基础上，可进一步推断相应的总量指标，即用总体单位数 N 分别乘以总体均值的区间下限和区间上限，便得到相应总量指标的区间范围。即：2、总体比例的区间估计根据样本比例的抽样分布定理，在大样本下，样本比例的分布趋近于均值为总体比例P,方差为P（1-P）的正态分布，服从标准正态分布，因此，给定置信度 1-a ，查正态分布表得，样本比例的抽样极限误差为因此，总体比例P的置信度为1-a的置信区间为与总体比例相应的总量指标一一总体中某部分单位总数NP的置信区间为：结论：对于总体比例的区间估计，大样本情况下，用 Z 估计量。小样本情况下？3、总体方差的区间估计在大样本情况下，样本标准差S的分布近似服从正态分布，所以，总体标准差的置信度为1-a的置信区间近似为：在小样本情况先，若总体是正态分布而

展开阅读全文

统计学整理资料2

最新文档