以Excel和SPSS为工具的管理统计第4章抽样分布和参数估计

资源描述

《以Excel和SPSS为工具的管理统计第4章抽样分布和参数估计》由会员分享，可在线阅读，更多相关《以Excel和SPSS为工具的管理统计第4章抽样分布和参数估计（71页珍藏版）》请在金锄头文库上搜索。

1、以以Excel Excel 和和SPSSSPSS为工具的管理统计为工具的管理统计同济大学经济与管理学院同济大学经济与管理学院管理科学工程系管理科学工程系张建同张建同副教授副教授1第四章第四章抽样分布和参数估计抽样分布和参数估计本章教学目标本章教学目标通过本章内容的学习n了解抽样调查的特点、方法及抽样误差的计算。n了解和掌握推断统计学的基本概念；n统计学中最常用的3种概率分布( 2分布、t分布、F 分布)及其查表使用；n了解和掌握统计推断中的一个基本问题：参数估计及其在经济管理中的应用； 2本章主要内容本章主要内容4.1 简单随机抽样和统计量 4.2 其他抽样方法4.3 参数的点估计4.4

2、区间估计本章重点：本章重点：推断统计学的基本概念、基本原理和基本方法； 2分布、t 分布、F 分布的右侧分位点的概念及其查表使用 3一一. 抽样调查概述抽样调查概述1.1.抽样调的特点抽样调的特点(1)按随机原则抽取调查单位按随机原则抽取调查单位这是抽样调查与其他非全面调查的主要区别之一。随机原则随机原则指在抽取样本单位时完全排除调查者的主观判断，使各总体单位都有同等的被抽中的机会。只有严格遵循随机原则，才能使样本的内部结构类似于总体的结构分布特征，对总体具有具有充分的代表性。 4.1 抽样调查和抽样误抽样调查和抽样误差差( (增加增加) )4(2)(2)用样本指标推断总体的数量分布特征用样

3、本指标推断总体的数量分布特征抽样调查的目的是根据所得到的样本数据推断被调查现象总体的特征。如总体指标、总体的概率分布等，这是其他非全面调查方法都无法做到的。(3)(3)可以计算和控制抽样误差可以计算和控制抽样误差任何调查方法都会产生误差，抽样调查以概率论为其理论依据，根据数理统计所提供的抽样误差的理论和方法，可以把推断的误差控制在一定的精确度内，以满足实际工作的需要。而其他调查方法都无法计算和控制误差。 52.2.抽样调查的优点抽样调查的优点抽样调查和全面调查相比，有以下有显著优点：(1)(1)费用低费用低与进行全面调查相比，抽样调查可以节省大量的人力、物力、财力，获得得事半功倍的效果。(

4、2)(2)速度快速度快调查和综合样本资料要比收集和综合全面调查的资料更快。当有些资料具有很强的时效性时，全面调查只能获取陈旧的信息，而抽样调查可以获得及时的信息。 6(3)(3)适用面广适用面广许多社会经济现象不可能采用全面调查方法，如破坏性的产品检验，矿藏资源的调查等等，只能用抽样调查。有些调查则需要受过专业训练的人员或专用设备来获得有关数据，也只能用抽样调查方法。此外当要调查的是无限总体时，就更不可能进行全面调查。(4)(4)准确度高准确度高由于抽样调查的工作较全面调查大大减少，调查人员可以经过专门训练，因此可能取得更准确的结果。例如对人口普查、统计报表制度等获得的全面调查结果，通常

5、需要采用抽样调查进行验证或修正。 73.3.样本样本抽样调查中随机抽取的部分总体单位组成的集合；样本中的个别单位称为样本单位。样本中的单位数称为样本容量，记为 n。 84.4.总体参数和样本指标总体参数和样本指标( (1)1)总体参数总体参数也即总体指标，是反映总体数量分布特征的综合指标。在抽样调查中，总体指标都是未知的常数，需要使用样本指标进行推断估计。故称为待估的参数参数。在推断统计学中，称总体平均数为总体均值总体均值，记为。同样称样本平均数为样本均值，记为 9( (2)2)统计量统计量也称为样本指标样本指标，是根据样本数据计算的综合指标，用以估计总体指标。由于从同一个总体中抽取的不同样本

6、，其样本指标值都不相同，因此样本指标是随机变量样本指标是随机变量。常用的样本指标主要有以下几个，它们分别是对应总体指标的优良估计。样本均值样本均值n 样本容量；f i 第 i 组子样本中的单位数；xi 第i个(组)样本单位的标志值或组中值； 10样本方差样本方差和标准差和标准差样本方差和样本标准差是反映样本数量标志变异程度的指标，分别是总体方差和标准差的优良估计。 11样本比例样本比例样本中具有某一属性的单位数在全部样本单位中所占的的比重，记为 p。n1样本中具有某一属性的单位数。样本比例是总体比例的优良估计。 12样本比例的均值、方差和标准差样本比例的均值、方差和标准差( (补充补充)

7、)记样本成数的方差和标准差分别为则设总体成数为P，则 XB(n, P)。则样本成数从而可得X 为 n 次独立试验中具有该特征的单位数，136.6.抽样方式抽样方式抽样方式可分为重复抽样和不重复抽样两种。重复抽样重复抽样又称放回抽样，指每次从总体中随机抽取一个样本单位，观察登记其标志值后再放回总体中，如此进行 n 次的抽样方法。重复抽样的特点：重复抽样的特点：在重复抽样的过程中，被抽取的总体单位总数始终保持不变，每一次抽样中各总体单位被抽到的机会都相同，每次抽样结果相互独立。每一总体单位都有被重复抽取的可能。 14不重复抽样不重复抽样也称不放回抽样，指被抽到的单位不再放回总体，每次仅在余下的总

8、体单位中抽取下一个样本的抽样方法。特点特点：任一总体单位都不会被重复抽到；每次抽样结果都受到以前各次抽取结果的影响，因此各次抽取结果是不独立的；可以一次抽取所需要的样本单位数。在实际应用中通常采用的都是不重复抽样方法。 15二二. .抽样方法抽样方法抽样方法关系到抽样调查的成本费用和抽样误差的大小，应根据调查的目的、和调查对象的特点采取不同的抽样方法。主要有以下四种抽样方法。1.1.简单随机抽样简单随机抽样也称纯随机抽样纯随机抽样，指不对总体作任何处理，直接按随机原则抽取调查单位的抽样方式。简单随机抽样最能体现抽样的随机原则，抽样误差的计算就是以简单随机抽样为基础的。局限性局限性：当总体单位数

9、很大时，就难以实现简单随机抽样，且抽样误差较大。使用EXCEL实现简单随机抽样 162.2.分层随机抽样分层随机抽样也称类型抽样抽样，是将总体按某一主要标志进行分类(分组)，分别从各类型组中随机抽取一部分调查单位共同组成样本。三种方法：三种方法：（1 1）等数分配法）等数分配法（2 2）等比分配法）等比分配法（3 3）最优分配法）最优分配法例如，对企业进行调查时将企业划分为特大型企业、大型企业、中型企业和小型企业四个类型组。对家庭收入进行调查时将居民家庭分为高收入、中等收入、低收入三个类型组等。 174.4.整群抽样整群抽样人们就将总体的各单位按一定的标志或要求，分成若干群，然后以群为单位，随

10、机抽取几个群，对被抽中的群进行全部调查，这就是整群抽样。如对人口普查资料进行复查，就采用整群抽样的方式。当群中的元素差异性大时，整群抽样得到的结果比较好。在理想状态下，每一群是整个总体小范围内的代表。 183.3.机械抽样机械抽样也称等距抽样，其步骤如下： (1)按某一标志值的大小将总体单位进行排队并顺序编号； (2)根据确定的抽样比例确定抽样间距； (3)随机确定第一个样本单位； (4)按顺序从总体中等间距地抽取其余样本单位。系统抽样的随机性主要体现在第一个样本单位的抽取上，因此一定要保证抽取第一个样本单位的随机性。 19方便抽样方便抽样是一种非概率抽样技术。正如名称所暗示的，样本的确定

11、基于简便。样本中所包括的项不是事先确定或选取时有已知的概率。例如，一个教授在一所大学作一项调查，由于学生志愿者已准备好并且参加该项调查无需或几乎不需要成本，故由他们组成样本。20判断抽样另一种非概率抽样技术为判断抽样，在这个方法中，由对总体非常了解的人选择总体中最具代表性的元素。经常这是一个相对容易选择样本的方法。例如，报告者可抽样选择2个或3个人大代表，认为这些代表反映了整个代表的普遍意见。然而，样本结果的质量依赖于选择样本的人的判断。211.1.统计误差和抽样误差统计误差和抽样误差统计结果与现象实际之间存在的差异统称为统计误差。统计误差可以分为以下两类：(1)(1)登记性误差登记性误差指由

12、于调查工作中的差错或弄虚作假等原因而引起的误差。无论是全面调查还是非全面调查，都可能存在登记性误差。登记性误差从理论上应是可以避免的，但实际中却难以完全避免，在误差理论中不考虑这类误差。三三. .抽样误差和标准误差抽样误差和标准误差22(2)(2)代表性误差代表性误差指由于随机样本内部结构与总体结构之间存在差异而引起的样本指标与总体指标之间的差异。代表性误差又可分为两类：系统性误差系统性误差指由于违反抽样的随机原则而产生的误差。随机误差随机误差也称抽样误差抽样误差，指由于随机抽样本身导致的现样本内部结构与总体结构不一致而产生的误差。在抽样调查中随机误差是不可避免的。如全部产品中有2%的次品，

13、随机抽取100件，其中恰好有2件次品的可能性是很少的。 232.2.影响抽样误差的主要因素影响抽样误差的主要因素(1)(1)总体标准差总体标准差总体标准差越大，样本结构就越难以接近总体结构，抽样误差也就越大。(2)(2)样本容量样本容量样本容量越大，样本结构就越接近总体结构，样本对总体的代表性就越高，抽样误差就越小。(3)(3)抽样方法抽样方法不同抽样的方法，将直接影响样本内部结构与总体结构之间的差异。如类型抽样就可以使样本结构更接近于总体结构，因而其抽样误差是所有抽样方法中最小的。(4)(4)抽样方式抽样方式不重复抽样可以使样本内部结构更接近总体结构。因此不重复抽样的抽样误差小于重复抽样

14、。 243.3.标准误差标准误差( (抽样平均误差抽样平均误差) )标准误差的概念标准误差的概念在一次抽样中，均值和成数这两个指标的抽样误差可以分别表示为但由于样本指标是随机变量，根据不同的样本计算的样本指标都不会相同，因而不同样本的抽样误差也就各不相同，因此需要引进标准误差标准误差即抽样平均误差抽样平均误差的概念。标准误差标准误差是指所有可能样本的样本指标与总体指标间的平均离差，反映抽样误差的平均水平。 25标准误差的计算标准误差的计算可以证明，样本均值的均值就是总体均值；同样，样本成数的均值就是总体成数。由此可知，抽样平均误差就是样本指标与其均值的平均离差。而测定平均离差最好的方法就是计算

15、标准差标准差。因此抽样平均误差就是样本指标的标准差抽样平均误差就是样本指标的标准差，故称为标准误差。下面仅介绍简单随机抽样标准误差的计算公式。 26四四. .简单随机抽样的标准误差简单随机抽样的标准误差1.1.均值的标准误差均值的标准误差不重复抽样不重复抽样 N 总体单位总数；当抽样比 n/N 5%，或总体单位数未知时，或无限总体时，可按重复抽样公式计算抽样平均误差。重复抽样重复抽样272.2.比例的标准误差比例的标准误差重复抽样重复抽样 P 总体成数 p 样本成数不重复抽样不重复抽样 28例例 1 某地在2800农户中随机抽取5%进行平均收入调查，调查结果：户均年收入为5965元，样本标

16、准差为827元，分别求重复抽样和不重复抽样的标准误差。解解：n =28005% =140，S =827(元)重复抽样：不重复抽样： 29例例 2某厂产品的的次品率为2%，现从10000件产品中抽取100件进行检验。分别求重复抽样和不重复抽样的标准误差。解解：次品率是成数指标。由题意，P=0.02，N=10000，n=100，重复抽样：不重复抽样： 30一. .再论总体与样本再论总体与样本 1.1.总体总体在推断统计中，人们关心的是所研究对象的某个指标 X（如产品的寿命,居民家庭月收入水平和月生活费支出等）,它是一个随机变量。因而在推断统计中，总体是指某个随机变量取值的全体。按总体 X 所包含

17、的个体数是有限还是无限的，可将总体分为有限总体和无限总体两类。以下假定总体都是无限总体。 4.2 统计量统计量31 2. 随机样本随机样本设总体为 X，X1, X2, , Xn 为从总体 X 中抽取的 n 个个体，称 X1, X2, , Xn 为总体 X 的一个样本样本,并称 n 为样本容量样本容量。样本中每个个体 Xi 也是随机变量，称为样本分量；抽样中所得到的样本数据 x1, x2, , xn 称为样本观察值。以下所称的样本都假定是简单随机样本。 32 统计量是用样本构造的函数，它包含了样本中的信息，因而可以用统计量的值来推断总体参数，如均值、方差、成数等。二二. 统计量统计量设

18、X1, X2, , Xn 为总体 X 的一个样本,g(X1, X2, , Xn)为一连续函数，若g中不含未知参数，为一个统计量统计量。设 x1, x2, , xn 是一组样本观察值，称g( x1, x2, , xn )是统计量 g(X1, X2, , Xn)的一个观察值。则称g( X1, X2, , Xn )33几个最常用的统计量几个最常用的统计量以上4个统计量是构造其他统计量的基础。样本均值：样本方差：样本标准差：样本成数：34一一. .点估计的概念点估计的概念设是总体 X 分布的未知参数，3.3 参数的点估计参数的点估计是用 X 的样本构造的统计量，的一个观察值去估计未知参数的

19、真值，参数的点估计；为的估计量估计量；为的一个估计值估计值。由于估计量是随机变量，抽取不同的样本，其取值是各不相同的。用一个特定样本对总体未知参数所作的估计，仅是所有可能估计值中的一个点，故称为点估计。称为并称统计量35在大多数的实际问题中，需要估计的总体未知参数主要有总体成数、总体均值和总体方差。可以证明，样本成数、样本均值和样本方差分别是总体成数、总体均值和总体方差的优良估计。即二二. 点估计的方法点估计的方法 36 设某种元件的寿命 XN(, 2)，其中 , 2未知，现随机测得10个元件的寿命如下(小时) 1502, 1453, 1367, 1108, 1650 1213,

20、1208, 1480, 1550, 1700 试估计和 2。解解：使用计算器的 SD 功能可得【例【例1 1】产品寿命均值和方差的估计产品寿命均值和方差的估计 371.1.无偏性无偏性为未知参数的估计量，则称为的无偏估计量，无偏性是对估计量的最基本要求，无偏估计将不会出现系统性的估计偏差。不难证明，对任意总体 X，和样本方差 S2 分别是总体均值和总体方差的无偏估计。三三. 估计量的评价标准估计量的评价标准简称无偏估计。若样本均值样本成数也是总体成数的无偏估计。 38有效性有效性是衡量估计量最重要最重要的标准。对给定的样本容量，有效估计是所有无偏估计量中估计误差最小的。是参数的两个

21、无偏估计，有效有效；容量，是所有无偏估计中方差最小的，是的最小方差无偏估计最小方差无偏估计，2. 有效性有效性若对固定的样本若则称也称为的的有效估计有效估计。样本均值和样本成数都是总体均值和总体成数的有效估计；而对正态总体，样本方差也是总体方差的有效估计。可以证明，对任意总体， 393.4 区间估计区间估计由于点估计存在误差，因此仅对总体参数作出点估计是不够的，还需要了解估计的精度及其误差。参数的区间估计就是在给定的可信度下，估计未知参数的可能取值范围。设为总体分布的未知参数，若由样本确定的两个统计量和对给定的概率 (0 Z = 0f (x) x z1- 二二. 总体均值总体均值

22、的区间估计的区间估计如图所示， ( Z )=1- ，因此，可由正态分布表得到 Z 。如：要查 Z0.025，由正态分布表可查得： (1.96) = 0.975 = 1-0.025，故 Z0.025 =1.96 49由正态分布的性质可得对给定的置信度1-，0f (x)x z/2/2 -z/2/21- N(0,1)由此可得从而的置信度为 1- 的置信区间为为便于记忆和理解，将的置信区间表示为如下形式： 2.2. 2 已已知知时总体均值时总体均值的区间估计的区间估计有其中 d 称为估计的允许误差允许误差。 50可用 Excel 的统计函数 NORMSINV 返回 Z 。语法规则如下：格式：N

23、ORMSINV(1-)功能：返回 Z 的值。说明： NORMSINV() 返回的是 Z1- 的值。用 Excel 求 Z513. t 分布分布设 XN(0, 1)， Y 2(n)，且 X 与 Y 相互独立，则随机变量服从自由度为 n 的 t 分布分布，记为 tt(n)。 52t t 分布密度函数的图形分布密度函数的图形标准正态分布分布是 t 分布的极限分布。当 n 很大时，t 分布近似于标准正态分布。 xf (x)0n = 1n = 4n = 10n = ，N (0, 1)530xf (x)t 分布的分布的右侧侧分位点分位点 t ( (n) ) t(n)为 t 分布中满足下式的右侧分

24、位点： P t t ( n ) = 由给定的概率，可查表得到 t(n)。由 t 分布的对称性，可得：t1-(n)=-t(n)。t(n)t1-(n)= - t(n) 54可用 Excel 的统计函数 TINV 返回 t (n)。语法规则如下：格式：TINV( 2 , n )功能:返回 t (n)的值。说明：TINV(, n )返回的是 t/2(n)的值。用 Excel 求 t /2(n)554. . 2 未知时总体均值未知时总体均值的区间估计的区间估计 t(n-1)设总体 XN( , 2 )，和 S2 分别为样本均值和样本方差。由此可得的置信度为 1- 的置信区间为因此，对给定的置信度

25、1-，有即X1, X2, , Xn 为 X 的容量为 n 的样本，可以证明： 56【例【例3 3】求例1中元件平均寿命的95%置信区间。故所求的 95% 置信区间为解：解：由例1， /2=0.025，=1423.1，S=196.5， =1-0.95=0.05，n=10，查表得 t0.025(9)=2.2622 可用 Excel 的【工具】“数据分析”“描述统计”求解正态总体均值的置信区间。57课堂练习课堂练习2：某车床加工的缸套外径尺寸 XN( , 2 )，下面是随机测得的10个加工后的缸套外径尺寸(mm)， 90.01，90.01，90.02，90.03，89.99 89.98，

26、89.97，90.00，90.01，89.99求（，）求的置信度为95%的置信区间；58用样本比例代替总体比例，三三. .总体比例的区间估计总体比例的区间估计( (补充补充) )设总体比例为 P，则当 nP 和 n (1-P) 都大于5时，样本成数 p 近似服从均值为 P，方差为 P (1-P)/n 的正态分布。从而对给定的置信度1-，由可得总体成数 P 的置信度为 1- 的置信区间为59【例例4 4】某厂为了解产品的质量情况，随机抽取了300件产品进行检验，其中有5件次品，求该厂产品次品率的置信度为95%的置信区间。解解：产品次品率为比例， =1-0.95=0.05， /2=

27、0.025，n=300,，查表得 Z0.025=1.96，样本成数该厂产品次品率的置信度为95%的置信区间为 60案例思考题案例思考题国外民意调查机构在进行民意调查时，通常要求在95%的置信度下将调查的允许误差(即置信区间的 d 值)控制在3%以内。问为满足该调查精度要求，至少需要多大的样本？如果要求置信度达到99%，调查误差仍为3%，此时至少需要多大的样本？ 61案例思考题解答案例思考题解答(1)(1)本案例中，故需要的样本容量至少为 62案例思考题解答案例思考题解答(2)(2)如果要求置信度达到99%，则Z/2=Z0.005=2.575， 63【例【例5 5】(1)求例1中元件平均寿命

28、的95%置信下限。 (2)求元件寿命方差的95%置信上限。解解:(1)从而的单侧 1- 置信下限为本例中，t 0.05(9)=1.8331，故所求置信下限为1423.1-1.8331196.5/该在95%的置信度下，该元件的平均寿命大于1309.2小时。 =1390.2可得四四. .单侧置信限的估计单侧置信限的估计由64同理可得 2 的置信度为 1- 的单侧置信上限为本例中，故所求2的95%置信上限为 9196.52/3.325 = 323.32 (小时2) 由以上分析可知，求单侧置信限与求双侧置信限的差别仅在于用相应分布的右侧分位点代替双侧区间估计公式中的右侧 /2 分位点。解解(2

29、)(2)： 2 的的置信置信上限上限65前面的分析都是在给定的样本容量和样本数据下求置信区间。但在实际应用中，应当在随机抽样前就确定所需抽取的样本容量。抽取的样本容量过大，虽然可以提高统计推断的精度，但将增加不必要的人力、物力、费用和时间开支；如果抽取的样本容量过小，则又会使统计推断的误差过大，推断结果就达不到必要的精度要求。确定样本容量的原则确定样本容量的原则在满足所需的置信度和允许误差条件(置信区间的 d 值)下，确定所需的最低样本容量。五五. .样本容量的确定样本容量的确定( (增加增加) )661.1.总体均值区间估计时样本容量的确定总体均值区间估计时样本容量的确定在给定置信度和允许

30、误差 d 的条件下，由可得其中总体标准差或样本标准差也是未知的，通常可以先通过小规模抽样作出估计。由于使用的是近似公式，可知实际采用的最低样本容量应比计算结果稍大。 67【例【例6 6】在例3 元件平均寿命的区间估计问题中，要求在95%的置信度下，使估计的允许误差不超过其平均寿命的10%，并设已得到例1的先期抽样数据。求所需的最低样本容量。其他条件不变，在99%的置信度下求所需最低样本容量。解解：由例1，S=196.5，d = 1423/10 =142.3 可知取 n =10 已能满足所给精度要求。可知此时取 n =20 就能满足所给精度要求。在总体均值的区间估计中，通常 n =30

31、就称为大样本大样本。在大样本时，无论总体服从什么分布，都可用前述公式进在大样本时，无论总体服从什么分布，都可用前述公式进行区间估计行区间估计。 682.2.总体比例区间估计时样本容量的确定总体比例区间估计时样本容量的确定其中样本成数 p 同样可先通过小规模抽样作出估计，也可根据其他信息估计，或取 0.5。 69【例【例7 7】某企业要重新制定产品抽样检验的规范。已知过去检验的次品率在3.6%左右，现要求允许误差不超过2%，置信度为95%。问每次至少应抽查多少产品？解解：由题意，要推断的是总体成数，p =0.036，1-p = 0.964，d = 0.02， = 0.05，z/2 = z0.025 = 1.96故每次至少应抽查 334 件产品。由此可知，在总体比例的区间估计问题中，要达由此可知，在总体比例的区间估计问题中，要达到一定的精度要求，样本到一定的精度要求，样本容量至少要在几百以上。容量至少要在几百以上。 70区间估计小结区间估计小结 P 2 2已知 2未知双侧双侧双侧双侧单侧上限单侧上限单侧下限单侧下限71

展开阅读全文

以Excel和SPSS为工具的管理统计第4章抽样分布和参数估计

最新文档