现代统计技术教学课件 ppt 作者余群英第四章

资源描述

《现代统计技术教学课件 ppt 作者余群英第四章》由会员分享，可在线阅读，更多相关《现代统计技术教学课件 ppt 作者余群英第四章（48页珍藏版）》请在金锄头文库上搜索。

1、现代统计技术,主编余群英,第四章抽样与参数估计,第一节抽样估计概述第二节抽样误差第三节参数估计第四节样本容量的确定第五节 Excel在区间估计中的应用第六节区间估计案例介绍,第一节抽样估计概述,一、抽样估计的意义二、抽样估计的特点三、抽样估计的基本概念四、常用的抽样组织形式五、抽样估计的理论依据,一、抽样估计的意义,在社会经济生活中，许多总体的数量特征往往事先并不知道，但人们又希望了解和全面掌握它的基本情况，限于下述系列因素的影响，在不可能或不必要对总体进行全面调查的情况下，抽样估计应运而生。（1）不可能进行全面调查的无限总体。（2）不可能进行

2、全面调查的破坏性或消耗性检验。（3）不必要进行全面调查的总体。（4）对全面调查资料的评价与修正。（5）用于工业生产过程的质量控制。,二、抽样估计的特点,（一）是由部分推断整体的一种认识方法（二）是建立在随机抽样基础上的统计分析方法（三）是建立在概率论基础上的统计方法（四）抽样估计的误差可以事先计算并加以控制,三、抽样估计的基本概念,（一）样本容量与样本个数 1样本容量 2样本个数（二）总体参数与样本统计量 1总体参数 2样本统计量（三）重复抽样与不重复抽样简单的抽样方法有重复抽样与不重复抽样。 1重复抽样 2不重复抽样,四、常用的抽样组织形式,抽样的组织形式，不仅关系到随机抽

3、样条件的实现和调查费用，而且是合理有效地取得各项实际数据、保证抽样结果准确性和可靠性的重要途径。因此，必须根据抽样的目的、任务和调查对象的性质、特点，采用不同的组织形式进行统计抽样。 1简单随机抽样 2类型抽样 3机械抽样 4整群抽样 5多阶段抽样,五、抽样估计的理论依据,抽样估计的理论是依据概率论的基本原理，并以大数定理和中心极限定理为基础的。,第二节抽样误差,一、抽样误差的概念二、影响抽样误差的主要因素三、抽样平均误差四、抽样极限误差五、抽样误差的概率度,一、抽样误差的概念,04(116-150)P35 wx_Embed_5.jpg,二、影响抽样误差的主要因素,1样本单位数

4、的多少 2总体各单位之间的标志变异程度的大小 3抽样的组织形式 4抽样方法,三、抽样平均误差,（一）抽样平均误差的意义（二）抽样平均误差的测定 1平均数的抽样平均误差（1）重复抽样的计算公式：（2）不重复抽样的计算公式,三、抽样平均误差,2率的抽样平均误差（1）重复抽样的计算公式：（2）不重复抽样的计算公式,四、抽样极限误差,抽样极限误差又称为允许误差。它是指在一定概率保证下，变动的样本指标与确定的总体指标之间抽样误差的最大可能范围，记作。因为抽样指标值（或p）总是围绕总体指标值（或 0）为中心上下波动的，它与总体指标值之间通常会产生正或负的离差。这些离差均是抽样指标的随机变量，因

5、而难以避免，只能控制在预先要求的误差范围（或）内。即均值的极限误差：率的极限误差：,五、抽样误差的概率度,04(116-150)P35 wx_Embed_45.jpg,由于抽样极限误差与抽样平均误差的比值大小能反映估计区间的宽窄，即概率保证程度的高低，故将其比值称为抽样误差的概率度，又称为临界值，用或表示。其计算公式为,五、抽样误差的概率度,表4-3 正态分布概率简表(双尾),五、抽样误差的概率度,由公式（4-7），可得到极限误差的计算公式或,第三节参数估计,一、参数估计的优良性准则二、参数估计的方法,一、参数估计的优良性准则,1无偏性,2一致性 3有效性,二、参数估计的方法,

6、（一）点估计所谓点估计，是指以抽样得到的样本统计量直接作为总体参数估计值的一种推断方法，通常是在大样本的情况下采用此法对总体参数进行估计，即直接用样本平均数、样本率p估计总体平均数和总体率 0，而不考虑任何抽样误差。,二、参数估计的方法,（二）区间估计所谓区间估计，指在一定的概率保证下，设计一个以点估计值为中心的区间范围估计总体参数的推断方法，即根据样本指标值和抽样平均误差估计总体参数可能范围的方法。该范围若由两个统计量,且满足：,二、参数估计的方法,（1）总体方差已知。如果总体服从正态分布，则样本平均数；如果总体不服从正态分布，但是样本容量n充分大时，近似地也有。因此，标准化后的统计量

7、z服从标准正态分布。即,二、参数估计的方法,这时，对于给定的显著性水平，反查标准正态分布表，得到的临界值,二、参数估计的方法,抽样估计还和抽样的方法有关，重复抽样时，总体均数的置信区间为不重复抽样时，总体均数的置信区间为,二、参数估计的方法,（2）总体方差未知。当总体服从正态分布但方差未知时，可用样本标准差s代替总体标准差，这时，样本统计量服从自由度为n1的t分布。即,因此，在置信度为的条件下重复抽样时，总体均数的置信区间为,不重复抽样时，总体均数的置信区间为,二、参数估计的方法,2总体率的区间估计在许多实际问题中，常需要估计总体中具有某种特征的单位占全部单位的比例，即百分比，又称为率。例

8、如，全部产品中的合格率；一批种子的发芽率；职工收入中某工资收入所占比例等。我们称总体中具有某种特征的单位占总体全部单位的比例为总体率，记为0或P；称样本具有某种特征的单位占样本单位的比例为样本率，记为p。由于样本率服从二项分布，可以证明，在重复抽样条件下，当样本容量n趋近无穷大时，二项分布趋近于平均数为p，方差为的正态分布。与样本均数一样，标准化后的统计量z服从标准正态分布。即,二、参数估计的方法,实际应用中，只要样本容量n足够大，就可以用正态分布代替二项分布，即使n不大，只要样本率p接近0.5，np5和n（1p）5，也可用正态分布代替二项分布。这时，在置信度为的条件下，总体率的置信区间为

9、同理，在不重复抽样条件下，总体率的置信区间为,二、参数估计的方法,04(116-150)P35 wx_Embed_93.jpg,第四节样本容量的确定,一、样本容量的影响因素二、必要样本容量的确定,一、样本容量的影响因素,1总体被研究标志的变异程度总体的标志变异程度大，样本容量应大些；反之，样本容量可小些。具体要看总体各单位被研究标志的方差的大小。方差大，样本容量应大些；方差小，样本容量可小些。 2估计的精确度要求估计的精确度要求越高，极限误差要求越小，就应多抽一些样本单位；反之，估计的精确度要求较低，极限误差可以大些，这时，就应少抽一些样本单位。 3估计的可靠性要求抽样估计的可靠

10、程度为置信概率，而置信概率与概率度，即临界值或有关。如果要求抽样估计的可靠程度高，即置信概率大，或值也就大，这时，就需要多抽取一些样本单位n；反之，如估计的可靠程度低，即置信概率小，或值也就小一些，这时，就可以少抽取一些样本单位n。 4抽样的方法和组织形式在其他条件相同的情况下，重复抽样比不重复抽样要多抽取一些样本单位；机械抽样和类型抽样，抽样单位数目可少些；若是简单随机抽样和整群抽样，则抽取的样本单位数就应多一些。 5人力、物力和财力的允许条件在考虑抽取样本单位数目时，还应该结合人力、物力和财力的具体情况作适当的调整，然后再确定必要的抽样数目。,二、必要样本容量的确定,如前所述，极限误差

11、、概率度与抽样平均误差三者之间的数量关系为：。当抽样平均误差保持不变时，极限误差与概率度两者之间的关系是：增大，z也增大；减小，z也减小。因此，抽样估计的精确度与可靠性之间存在矛盾，要提高精确度（减小），需要以牺牲概率度（z减小）为代价；反之，要提高概率度（z增大），又要以牺牲估计精确度（增大）为代价。在或不变的情况下，这对矛盾不可协调；但是，可以通过增加样本容量n来实现降低抽样平均误差的目标。那么，样本容量n究竟取多大合适？这就提出了样本容量的确定问题。,二、必要样本容量的确定,1总体方差已知，在重复抽样条件下，必要抽样单位数n的确定由公式（4-9）知，平均数抽样的极限误差为,将上式两边平

12、方整理后可得,2总体方差已知，在不重复抽样条件下，必要抽样单位数n的确定由公式（4-10）知，平均数抽样的极限误差为,将上式两边平方整理后可得,二、必要样本容量的确定,1在重复抽样条件下，必要抽样单位数的确定由公式（4-13）知，率的抽样极限误差为将上式两边平方整理后可得 2在不重复抽样条件下，必要抽样单位数的确定由公式知，率的抽样极限误差为将上式两边平方整理后可得,第五节 Excel在区间估计中的应用,一、进行区间估计的Excel函数二、运用Excel函数进行区间估计的实例三、运用Excel函数估计样本容量,一、进行区间估计的Excel函数,4TDIST(x,degrees_

13、freedom,tails)函数其中x表示需要计算的t分布函数的变量值，degrees_freedom表示t分布的自由度n1；tails 表示是单尾分布还是双尾分布；如果tails = 1，函数TDIST表示单尾分布；如果tails = 2，函数TDIST表示双尾分布。 TDIST函数主要用于计算自由度为n1的t分布所对应的小概率值，即t分布曲线下右侧的面积或两端的面积，亦即显著性水平或/2。如TDIST(2.58,100,1) 等于0.005 7；TDIST(2.58,100,2) 等于0.011 3。 5TINV(probability,degrees_freedom)函数 TDIST(

14、x,degrees_freedom,tails)函数的逆函数，其中probability表示双尾t分布的小概率值，即显著性水平；degrees_freedom为分布的自由度n1。,一、进行区间估计的Excel函数,1CONFIDENCE（alpha,standard_dev,size）函数其中，参数alpha表示显著水平，standard_dev表示总体标准差，size表示样本容量n。 CONFIDENCE函数主要用于计算简单随机重复抽样，样本统计量服从正态分布，且总体标准差已知时的极限误差，相当于使用公式计算的抽样极限误差。 2NORMSDIST(z)函数其中z表示需要计算的标准正态分

15、布函数的变量值，该函数主要用于计算标准正态分布的概率值，即标准正态分布曲线下的左侧面积。如NORMSDIST(1.645)等于0.95。 3NORMSINV(probability)函数 NORMSDIST(z)的逆函数。其中probability表示标准正态分布的概率值，即标准正态分布曲线下左侧的面积。该函数主要用于计算标准正态分布函数所对应的临界值。如NORMSINV(0.9) 等于1.281 6。,二、运用Excel函数进行区间估计的实例,1重复抽样，总体方差已知因总体服从正态分布且方差已知，由重复抽样区间估计公式（4-9）知，极限误差。,2）在CONFIDENCE对话框中，计算均数抽

16、样的极限误差。步骤如下：在Alpha框中，输入给定置信概率对应的显著性水平，本例为0.05；在Standard_dev框中，输入总体标准差，本例为1.5；在Size框中输入样本容量n，本例为100，如图4-1所示。,二、运用Excel函数进行区间估计的实例,04(116-150)P35 wx_Embed_214.jpg,二、运用Excel函数进行区间估计的实例,（3）点击“确定”，即可得到计算结果，本例为0.294 0。以上操作还可以直接使用输入函数公式的方法完成，方法是单击任一空单元格，输入“=CONFIDENCE（0.05,1.5,100）”，回车确认，即可得出同样的结果。（4）单击任一空单元格，输入“=40.294”，可得到置信区间的下限值；单击另一空单元格，输入“=4+0.294”，可得到置信区间的上限值；由此可得所求置信区间：（3.71，4.29）

展开阅读全文

现代统计技术 教学课件 ppt 作者 余群英 第四章

现代统计技术教学课件 ppt 作者余群英第四章