《抽样推断培训》由会员分享,可在线阅读,更多相关《抽样推断培训(127页珍藏版)》请在金锄头文库上搜索。
1、第六章第六章 抽样推断抽样推断 一家食品生产企业以生产袋装食品为主,每天的产量约为一家食品生产企业以生产袋装食品为主,每天的产量约为80008000袋左右。袋左右。按规定每袋的重量应不低于按规定每袋的重量应不低于100100克,否则即为不合格。为对产量质量进行检克,否则即为不合格。为对产量质量进行检测,企业设有质量检查科专门负责质量检验,并经常向企业高层领导提交质测,企业设有质量检查科专门负责质量检验,并经常向企业高层领导提交质检报告。质检的内容之一就是每袋重量是否符合要求。检报告。质检的内容之一就是每袋重量是否符合要求。 由于产品的数量大,进行全面的检验是不可能的,可行的办法是抽样,由于产品
2、的数量大,进行全面的检验是不可能的,可行的办法是抽样,然后用样本数据估计平均每袋的重量。质检科从某天生产的一批食品中随机然后用样本数据估计平均每袋的重量。质检科从某天生产的一批食品中随机抽取了抽取了2525袋,下表是对每袋食品重量的检验结果。(假定该种袋装食品重量袋,下表是对每袋食品重量的检验结果。(假定该种袋装食品重量服从正态分布。)服从正态分布。)案例导入案例导入 根据以上数据,质检科估计出该天生产的食品每袋的平均根据以上数据,质检科估计出该天生产的食品每袋的平均重量在重量在101.57101.57109.14109.14克之间,其中,估计的可信程度为克之间,其中,估计的可信程度为95%9
3、5%,估计误差不超过估计误差不超过4 4克。产品的合格率在克。产品的合格率在95.68%95.68%64.32%64.32%之间,其之间,其中,估计的可信程度为中,估计的可信程度为95%95%,估计误差不超过,估计误差不超过15.68%15.68%。112.5112.5102.6102.6100.0100.0116.6116.6136.8136.8101.0101.0107.5107.5123.5123.595.495.4102.8102.8103.0103.095.095.0102.0102.097.897.8101.5101.5102.0102.0108.8108.8101.6101.61
4、08.4108.498.498.4100.5100.5115.6115.6102.2102.2105.0105.093.393.3 质检报告提交后,企业高层领导人提出几点意见:质检报告提交后,企业高层领导人提出几点意见:一是抽取的样本大小是否合适?能不能用一个更大的一是抽取的样本大小是否合适?能不能用一个更大的样本进行估计?二是能否将估计的误差在缩小一点?样本进行估计?二是能否将估计的误差在缩小一点?比如,估计平均重量时估计误差不超过比如,估计平均重量时估计误差不超过3 3克,估计合格克,估计合格率时误差不超过率时误差不超过10%10%。三是总体平均重量的方差是多少。三是总体平均重量的方差是多
5、少?因为方差的大小说明了生产过程的稳定性,过大或?因为方差的大小说明了生产过程的稳定性,过大或过小的方差都意味着应对生产过程进行调整。过小的方差都意味着应对生产过程进行调整。参数估计、假设检验参数估计、假设检验在统计方法中的地位在统计方法中的地位统计推断的过程统计推断的过程样样样样本本本本总体总体总体总体样本统计量样本统计量样本统计量样本统计量例如:样本均例如:样本均例如:样本均例如:样本均值、成数、方值、成数、方值、成数、方值、成数、方差差差差参数参数例如例如: :总体总体均值、成数、均值、成数、方差方差第一节 抽样调查 一、抽样调查的概念与作用1抽样调查的概念抽样调查是一种科学的非全面调查
6、,是按照随机原则从总体中抽取一部分单位组成样本进行调查,根据调查的样本数据推断总体的某一数量特征的统计方法。2 2抽样调查的特点抽样调查的特点抽样调查具有以下特点:抽样调查具有以下特点:(1 1)遵循)遵循随机原则随机原则选择调查单位选择调查单位(2 2)抽样调查)抽样调查节省人力、费用和时间节省人力、费用和时间,比,比较灵活较灵活(3 3)抽样误差)抽样误差可以计算并且可以加以控制可以计算并且可以加以控制3 3抽样调查的适用范围抽样调查的适用范围(1 1)某些)某些不可能不可能进行全面调查又需要了解其进行全面调查又需要了解其全面情况的社会经济现象全面情况的社会经济现象(2 2)某些)某些不必
7、要不必要进行全面调查又需要了解其进行全面调查又需要了解其全面情况的社会经济现象全面情况的社会经济现象(3 3)抽样调查可以用来)抽样调查可以用来检验和修正全面调查检验和修正全面调查资料资料(4 4)抽样调查可以用于工业生产过程中的)抽样调查可以用于工业生产过程中的质质量控制量控制(5 5)利用抽样调查,可以对于)利用抽样调查,可以对于假设进行检验假设进行检验 二、抽样调查中的几个基本概念二、抽样调查中的几个基本概念1 1全及总体和抽样总体全及总体和抽样总体(1 1)全及总体)全及总体简称总体,是指所要认识对象的全体,全及总简称总体,是指所要认识对象的全体,全及总体的单位数通常用大写的英文字母体
8、的单位数通常用大写的英文字母“N N”来表来表示。示。(2 2)抽样总体)抽样总体也称样本,是指从全及总体中随机抽取出来,也称样本,是指从全及总体中随机抽取出来,代表全及总体部分单位的集合体,抽样总体的代表全及总体部分单位的集合体,抽样总体的单位数通常用小写英文字母单位数通常用小写英文字母“n n”表示。一般表示。一般说来,说来, n 30n 30称为大样本,称为大样本, n 30n 30称为小样称为小样本,本,n/Nn/N称为抽样比例,社会经济现象的抽样称为抽样比例,社会经济现象的抽样调查多取大样本。调查多取大样本。 全及总体是全及总体是惟一惟一确定的,抽样总体则是确定的,抽样总体则是随机随
9、机的的一个全及总体可能抽取很多个样本,全一个全及总体可能抽取很多个样本,全部样本的可能数目和每一样本的容量有部样本的可能数目和每一样本的容量有关,也和随机抽样的方法有关,不同的关,也和随机抽样的方法有关,不同的样本容量和取样方法,样本的可能数目样本容量和取样方法,样本的可能数目也有很大的差别。也有很大的差别。可能样本数目的计算公式可能样本数目的计算公式考虑考虑考虑考虑顺序顺序顺序顺序不考不考不考不考虑顺虑顺虑顺虑顺序序序序不重复抽样不重复抽样不重复抽样不重复抽样重复抽样重复抽样重复抽样重复抽样2 2全及指标和抽样指标全及指标和抽样指标(1 1)全及指标)全及指标反映总体数量特征的综合指标,称为
10、全及指标、反映总体数量特征的综合指标,称为全及指标、参数。参数。由于全及总体是惟一确定的,所以由于全及总体是惟一确定的,所以全及指标也全及指标也是惟一确定的是惟一确定的。对于对于变量总体变量总体,由于各单位的标志可以用数值,由于各单位的标志可以用数值来表示,所以可以计算总体平均数,用来表示,所以可以计算总体平均数,用 表表示;示;对于对于属性总体属性总体,可以计算总体成数,用大写英,可以计算总体成数,用大写英文字母文字母 表示,表示,变量总体也可以计算成数变量总体也可以计算成数。全及指标还有总体方差全及指标还有总体方差 和总体标准差和总体标准差 。 参数参数研究总体中研究总体中的数量标志的数量
11、标志总体平均数总体平均数总体方差总体方差X X=X X N NX X=XFXF F F(X-XX-X) N N2=2(X-XX-X) F F F F2=2研究总体中研究总体中的品质标志的品质标志总体成数总体成数成数方差成数方差2= = P(1-P)P(1-P)P =P = N N1 1N N(只有两种表现)(只有两种表现)(2)抽样指标 由抽样总体各个标志值或标志特征计算的综合指标称为抽样指标、统计量。变量样本的抽样指标有抽样平均数 、样本平均数方差 和样本平均数标准差 ;属性样本的抽样指标有抽样成数 、样本成数方差 和样本成数标准差 。 抽样指标的数值不是惟一确定的,是随机变量。统计量统计量
12、研究数量研究数量标志标志 样本平均数样本平均数 x=xnx=xff样本标准差样本标准差研究品质研究品质标志标志样本成数样本成数 成数标准差成数标准差 np=n3 3重复抽样与不重复抽样重复抽样与不重复抽样(1 1)重复抽样)重复抽样重复抽样,又称重复抽样,又称有放回抽样有放回抽样,是指从全及总体,是指从全及总体N N个单位个单位中中随机随机抽取一个容量为抽取一个容量为n n的样本,每次抽中的单位经登的样本,每次抽中的单位经登录其有关标志表现后又录其有关标志表现后又放回放回总体中总体中重新重新参加参加下一次下一次的的抽选。每次抽取均是在抽选。每次抽取均是在相同的条件相同的条件下完全按照随机原下完
13、全按照随机原则进行的。则进行的。(2 2)不重复抽样)不重复抽样不重复抽样又称不重复抽样又称无放回抽样无放回抽样,是指从全及总体,是指从全及总体N N个单位个单位中随机抽取一个容量为中随机抽取一个容量为n n的样本,每次抽中的单位登录的样本,每次抽中的单位登录其有关标志表现后其有关标志表现后不再放回不再放回总体中参加下一次的抽选,总体中参加下一次的抽选,上一次的抽取结果会上一次的抽取结果会直接影响直接影响到下一次抽选。到下一次抽选。4 4抽样框抽样框全及总体也叫目标总体。目标总体规定了全及总体也叫目标总体。目标总体规定了理理论上的抽样范围论上的抽样范围。但。但实际实际进行抽样的总体范进行抽样的
14、总体范围与目标总体有时是不一致的。因而,在抽围与目标总体有时是不一致的。因而,在抽样前还必须样前还必须明确实际进行抽样的总体范围和明确实际进行抽样的总体范围和抽样单位抽样单位。抽样框又称抽样框又称“抽样框架抽样框架”、“抽样结构抽样结构”,是指对是指对可以选择可以选择作为样本的总体单位列出名作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可采用构。设计出了抽样框后,便可采用抽签抽签的方的方式或按照式或按照随机数表随机数表来抽选必要的单位数。来抽选必要的单位数。好的抽样框的标准是:好的抽样框的标准是:完整而不重复完整而不
15、重复。常见的抽样框如大学学生花名册、工商企常见的抽样框如大学学生花名册、工商企业名录、街道派出所里居民户籍册、意向业名录、街道派出所里居民户籍册、意向购房人信息册等。购房人信息册等。在没有现成的名单的情况下,可由调查人在没有现成的名单的情况下,可由调查人员自己编制。员自己编制。在利用现有的名单作为抽样框时,要先对在利用现有的名单作为抽样框时,要先对该名录进行该名录进行检查检查,避免有重复、遗漏的情,避免有重复、遗漏的情况发生。以提高样本对总体的代表性。况发生。以提高样本对总体的代表性。例如:要从例如:要从1000010000名职工中抽出名职工中抽出200200名组成名组成一个样本,则一个样本,
16、则1000010000名职工的名册,就是名职工的名册,就是抽样框。抽样框。抽样框也可能存在一些误差,主要有:抽样框也可能存在一些误差,主要有:(1 1)丢失目标总体单位,也被称为)丢失目标总体单位,也被称为“涵盖不足涵盖不足”,或丢失目标单位。,或丢失目标单位。对丢失的总体单位不能发现并纠正会造成调查中对丢失的总体单位不能发现并纠正会造成调查中对总量的对总量的估计偏低估计偏低。 (2 2)包含非目标单位,也被称为)包含非目标单位,也被称为“过涵盖过涵盖”,是,是指抽样框中包含了一些指抽样框中包含了一些不属于不属于研究对象的非目标研究对象的非目标总体单位。总体单位。由于抽样框中存在非目标总体单位
17、,容易造成估由于抽样框中存在非目标总体单位,容易造成估计量的计量的高估高估。 (3 3)丢失目标单位和包含非目)丢失目标单位和包含非目标单位标单位共存共存,是指在抽样框中既,是指在抽样框中既有丢失目标单位,也有包含非目有丢失目标单位,也有包含非目标单位。标单位。在实际调查中,在实际调查中,丢失丢失目标单位目标单位不不易被查觉和发现易被查觉和发现,具有较大的,具有较大的隐隐蔽性蔽性,相比之下,包含非目标单,相比之下,包含非目标单位的抽样框误差的威胁性要小些。位的抽样框误差的威胁性要小些。因为在调查过程中,非目标单位因为在调查过程中,非目标单位容易被发现,并予以剔除。容易被发现,并予以剔除。(4
18、4)复合连接,是指抽样框单元与目标)复合连接,是指抽样框单元与目标总体单元不完全一一对应,而是存在总体单元不完全一一对应,而是存在一一对多、多对一或是多对多对多、多对一或是多对多模式的现象。模式的现象。例如:若某银行想了解其客户的情况进例如:若某银行想了解其客户的情况进行一次抽样调查,则该行所有客户构成行一次抽样调查,则该行所有客户构成目的总体。目的总体。选择的抽样框是银行的来往帐目,这就选择的抽样框是银行的来往帐目,这就构成了多对一模式。若在这个框中进行构成了多对一模式。若在这个框中进行抽样,则来往帐目多的客户被抽中的可抽样,则来往帐目多的客户被抽中的可能性则较大,反之来往帐目少的客户被能性
19、则较大,反之来往帐目少的客户被抽中的可能性很小,而两种客户通常会抽中的可能性很小,而两种客户通常会有较大差异,从而造成样本的偏斜,使有较大差异,从而造成样本的偏斜,使估计量产生偏差。估计量产生偏差。 (5)抽样框老化,是指随着时间的推移,抽样总体与目标总体产生极大的偏差,即原来的抽样框不符合实际情况,必须进行更新。最典型的例子,就是随着城市建设的大规模展开,许多地区已被改造,地址发生了变化,如果仍按以前的抽样框去抽样,那么精度就会难以控制。三、抽样调查的基本原理1大数定律大数定律,又称为大数法则,是指在随机试验中,每次出现的结果可能不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确
20、定的值。在大量的观察试验中,个别的、偶然的因素影响而产生的差异将会相互抵消,从而使现象的必然规律性显示出来。例如,观察个别或少数家庭的婴儿出生情况,发现有的生男,有的生女,没有一定的规律性,但是通过大量的观察就会发现,男婴和女婴的比例会趋于107:100。切贝雪夫大数定理设 是一列两两相互独立的随机变量,服从同一分布,且具有相同的数学期望 和方差 ,则对任意小的正数,有:当n很大时,服从同一分布的随机变 量 的算术平均数 将依概率接近于这些随机变量的数学期望。随着样本容量n的增加,样本平均数将接近于总体平均数,从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。(1)现象的某种总体规律
21、性,只有当具有这种现象的足够多的单位综合汇总在一起的时候,才能显现出来;(2)现象的总体性规律或倾向通常以平均数(或比率)的形式表现出来;(3)当所研究的现象总体包含的单位越多,平均数(或比率)也就越能正确反映出这些现象的规律性;(4)各单位的共同倾向决定着平均数(或比率)的水平,而各单位对平均数(或比率)的离差则会由于足够多数单位的综合汇总的结果,而相互抵消,趋于消失。根据大数定律的内容特点运用抽样调查时,必须注意以下两个问题:(1)抽样必须遵循随机原则,这样样本指标才能成为随机变量,大数定律才能应用;(2)抽样必须遵循大量原则,只有观察到足够多的单位,才能在综合后使个别单位表现出来的偶然性
22、得以消除。2中心极限定理在一定条件下,大量独立随机变量的平均数以正态分布为极限。设随机变量 相互独立;其数学期望值为 ;其标准差为 ; , , 满足下述条件: 对任一实数 ,有即:只要在样本容量充分大的条件下,不论全及总体的变量分布是否属于正态分布,其抽样平均数也服从或近似服从正态分布,这就为抽样调查进行估计提供了重要的理论根据。(1)如果总体服从正态分布,样本平均数也服从正态分布;(2)如果总体很大,但不服从正态分布,只要样本足够大,样本的平均数也趋近于正态分布;(3)样本平均数的数学期望等于总体均值。意义:当我们的认识对象分布未知时,只要坚持随机抽取足够多的样本单位,就可以使样本统计量服从
23、(或近似服从)正态分布,继而便可运用正态分布理论,根据样本信息来推断认识对象总体的数量特征。第二节 抽样误差一、抽样误差1抽样误差的概念 抽样指标与所要估计的全及指标之间的差值称为抽样误差。抽样误差既是一种随机性误差,也是一种代表性误差。抽样误差中的代表性误差是抽样调查本身所固有的、无法避免的误差,但随机性误差则可利用大数定律精确地计算并能够通过抽样设计程序加以控制。2影响抽样误差的因素(1)样本容量(2)总体各单位标志值的差异程度(3)抽样方法(4)抽样的组织形式二、抽样平均误差1样本平均数的抽样平均误差(1)当抽样方法为重复抽样时,样本标志值 是相互独立的,样本变量 与总体变量 同分布。其
24、计算公式如下: 它说明在重复抽样的条件下,抽样平均误差与总体标准差成正比,与样本容量的平方根成反比。在计算抽样平均数的抽样平均误差时,通常并不知道总体方差的数值,可用样本方差来代替总体方差。(2)不重复抽样: 当总体单位数很大时,这个计算公式可近似表示如下: 总是小于1,所以不重复抽样的抽样平均误差总是小于重复抽样的抽样平均误差。当抽样比例很小时,即使是采用不重复抽样的方法来抽取调查单位,也可使用重复抽样的误差公式来计算抽样平均误差。2抽样成数的平均误差总体成数可表现为总体是非标志的平均数,它的标准差为 。(1)在重复抽样下,其计算公式如下: 当总体单位数很大时,这个公式可近似表示如下:当总体
25、单位数很大时,这个公式可近似表示如下: 在计算抽样成数平均误差时,通常得不到总体方差的在计算抽样成数平均误差时,通常得不到总体方差的数值,一般可以用样本方差来代替总体方差。数值,一般可以用样本方差来代替总体方差。(2 2)在不重复抽样下,其计算公式如下:)在不重复抽样下,其计算公式如下: 三、抽样极限误差允许的误差范围,即抽样极限误差。抽样极限误差是指在一定的置信度下抽样指标与总体指标之间的抽样误差不超过某一给定的最大可能范围,记作。由上述两个绝对值不等式可得: 四、抽样估计的概率度、置信度四、抽样估计的概率度、置信度1 1抽样估计的概率度抽样估计的概率度抽样极限误差与抽样平均误差相比,从而使
26、由单一样本抽样极限误差与抽样平均误差相比,从而使由单一样本值得到的抽样极限误差标准化,称为概率度或相对误差值得到的抽样极限误差标准化,称为概率度或相对误差范围。在正态分布下,概率度用范围。在正态分布下,概率度用 表示,其计算公式表示,其计算公式如下:如下:抽样极限误差取决于两个因素:一是抽样平均误差,在其他条件既定时,抽样平均误差越小,抽样极限误差也越小;二是抽样估计的概率度,在其他条件既定时,抽样估计的概率度越小,抽样极限误差也越小。2抽样估计的置信度置信度就是总体指标落在某个区间(称为置信区间)的概率把握程度,又称抽样估计可靠程度、概率保证程度。置信区间是以一定的概率把握程度确定总体指标所
27、在的区间。 为置信度,表示区间估计的可靠程度。例如 =0.95,说明有95%的可能总体参数包括在估计区间内,而不包括在这个区间的概率为=5%, 叫显著性水平。应用标准正态分布概率表,可以得抽样指标落在置信区间内的置信度。抽样估计的精确度与置信度是一对反方向运动的矛盾,实际调查中应注意协调它们的矛盾。第三节第三节 参数估计参数估计包括对总体平均数和总体成数进行估计,有点估计和包括对总体平均数和总体成数进行估计,有点估计和区间估计两种方法。区间估计两种方法。一、参数估计的基本要求一、参数估计的基本要求1 1无偏性无偏性估计中,要求各个抽样指标的平均数应该等于全及指估计中,要求各个抽样指标的平均数应
28、该等于全及指标,即从平均数意义上,抽样指标的估计是没有偏误标,即从平均数意义上,抽样指标的估计是没有偏误的,这一要求称为无偏性。的,这一要求称为无偏性。如果样本统计量的数学期望值等于所估计的总体参数如果样本统计量的数学期望值等于所估计的总体参数的值,该样本统计量称作总体参数的无偏估计量。样的值,该样本统计量称作总体参数的无偏估计量。样本无偏统计量的所有可能值的期望值或均值等于被估本无偏统计量的所有可能值的期望值或均值等于被估计的总体参数。计的总体参数。 2 2一致性一致性当样本的单位数无限增大时,抽样指标当样本的单位数无限增大时,抽样指标就充分靠近全及指标,抽样指标和未知就充分靠近全及指标,抽
29、样指标和未知的全及总体指标之间的绝对离差为任意的全及总体指标之间的绝对离差为任意小的可能性也趋于必然。小的可能性也趋于必然。符合这一要求的估计量就是一致性估计符合这一要求的估计量就是一致性估计量。例如,样本均值、样本成数、样本量。例如,样本均值、样本成数、样本方差分别是总体均值、总体成数、总体方差分别是总体均值、总体成数、总体方差的一致性估计量。方差的一致性估计量。3 3有效性有效性以样本估计总体,要求优良估计量的抽以样本估计总体,要求优良估计量的抽样分布方差小于其他估计量的抽样分布样分布方差小于其他估计量的抽样分布方差,即从平均的角度来看,优良估计方差,即从平均的角度来看,优良估计量的估计误
30、差应小于其他估计量的估计量的估计误差应小于其他估计量的估计误差。误差。例如,对于正态分布总体来说,样本均例如,对于正态分布总体来说,样本均值和样本中位数都是总体均值的无偏估值和样本中位数都是总体均值的无偏估计量,但两者的方差不同,样本中位数计量,但两者的方差不同,样本中位数的方差比样本均值的方差大,因此,样的方差比样本均值的方差大,因此,样本均值比样本中位数更有效。同样样本本均值比样本中位数更有效。同样样本成数、样本方差分别是总体成数、总体成数、样本方差分别是总体成数、总体方差的有效性估计量。方差的有效性估计量。不是所有估计量都符合以上标准,可以说完全不是所有估计量都符合以上标准,可以说完全符
31、合以上标准的估计量要比不符合或不完全符符合以上标准的估计量要比不符合或不完全符合以上标准的估计量更为优良。例如在正态分合以上标准的估计量更为优良。例如在正态分布的情况下,总体平均数和中位数是重合在一布的情况下,总体平均数和中位数是重合在一起的,样本平均数是总体中位数的无偏估计量起的,样本平均数是总体中位数的无偏估计量和一致估计量,而且样本平均数比样本中位数和一致估计量,而且样本平均数比样本中位数作为总体中位数的估计量也是更有效的,因为作为总体中位数的估计量也是更有效的,因为样本平均数的方差比样本中位数的方差更小。样本平均数的方差比样本中位数的方差更小。当估计量的选择在无偏性和有效性之间产生矛当
32、估计量的选择在无偏性和有效性之间产生矛盾时,这时的基本原则是如果有偏估计量的偏盾时,这时的基本原则是如果有偏估计量的偏差不是很大,应该优先选择有偏但更有效地估差不是很大,应该优先选择有偏但更有效地估计量。计量。二、点估计二、点估计点估计又称定值估计,它是以抽样指标点估计又称定值估计,它是以抽样指标作为总体指标的估计量,并以抽样指标作为总体指标的估计量,并以抽样指标的实际观测值直接作为总体未知参数估的实际观测值直接作为总体未知参数估计值的一种推断方法。例如以某一样本计值的一种推断方法。例如以某一样本的均值来估计总体的均值,以某一样本的均值来估计总体的均值,以某一样本的成数来估计总体的成数等。的成
33、数来估计总体的成数等。 点估计的方法有矩估计法、顺序统计量点估计的方法有矩估计法、顺序统计量法、最大自然法、最小二乘法等。法、最大自然法、最小二乘法等。矩估计法是英国统计学家矩估计法是英国统计学家KPearsonKPearson提出的。提出的。其基本思想是:由于样本来源于总体,样本矩其基本思想是:由于样本来源于总体,样本矩在一定程度上反映了总体矩,而且由大数定律在一定程度上反映了总体矩,而且由大数定律可知,样本矩依概率收敛于总体矩。因此,只可知,样本矩依概率收敛于总体矩。因此,只要总体的要总体的k k阶原点矩存在,就可以用样本矩作阶原点矩存在,就可以用样本矩作为相应总体矩的估计量,用样本矩的函
34、数作为为相应总体矩的估计量,用样本矩的函数作为总体矩的函数的估计量。例如,用样本均值来总体矩的函数的估计量。例如,用样本均值来估计总体均值,用样本方差来估计总体方差。估计总体均值,用样本方差来估计总体方差。矩估计法简单、直观,而且不必知道总体的分矩估计法简单、直观,而且不必知道总体的分布类型,所以矩估计法得到了广泛应用。但矩布类型,所以矩估计法得到了广泛应用。但矩估计法也有局限性,它要求总体以估计法也有局限性,它要求总体以k k阶原点矩阶原点矩存在,否则无法估计,它不考虑总体分布类型,存在,否则无法估计,它不考虑总体分布类型,因此也就没有充分利用总体分布函数提供的信因此也就没有充分利用总体分布
35、函数提供的信息。息。极大似然估计法是由极大似然估计法是由FisherFisher,提出的一,提出的一种参数估计方法。其基本思想是:设总种参数估计方法。其基本思想是:设总体分布的函数形式已知,但有未知参数,体分布的函数形式已知,但有未知参数,可以取很多值,在的一切可能取值中选可以取很多值,在的一切可能取值中选一个使样本观察值出现的概率为最大的一个使样本观察值出现的概率为最大的值作为的估计值,记作,称为的极大似值作为的估计值,记作,称为的极大似然估计值,这种求估计量的方法称为极然估计值,这种求估计量的方法称为极大似然估计法。大似然估计法。确定一个好的点估计是很重要的。点估确定一个好的点估计是很重要
36、的。点估计的优点是能给出一个明确的值,缺点计的优点是能给出一个明确的值,缺点是没有指出这种估计的允许波动范围和是没有指出这种估计的允许波动范围和把握程度有多大。因此,在实际中,点把握程度有多大。因此,在实际中,点估计往往是与区间估计同时进行的。估计往往是与区间估计同时进行的。三、区间估计三、区间估计区间估计就是以一个具有一定可靠程度的区间区间估计就是以一个具有一定可靠程度的区间范围来估计总体参数,即根据抽样指标和抽样范围来估计总体参数,即根据抽样指标和抽样平均误差推断全及指标的可能范围。用抽样指平均误差推断全及指标的可能范围。用抽样指标来估计全及指标,要标来估计全及指标,要达到达到100%10
37、0%的准确几乎是的准确几乎是不可能的不可能的,所以在估计全及指标时就必须同时,所以在估计全及指标时就必须同时考虑估计误差的大小。考虑估计误差的大小。科学地确定允许的误差范围:科学地确定允许的误差范围:一是这一可能范围的大小,即一是这一可能范围的大小,即置信区间置信区间;二是总体指标落在这个可能范围内的概率,即二是总体指标落在这个可能范围内的概率,即置信度置信度。区间估计必须同时具备三个要素,即具备估计值、抽样极限误差和置信度三个基本要素。抽样极限误差决定抽样估计的精确度,置信度决定抽样估计的可靠性,两者密切联系,但同时又是一对矛盾,所以对估计的精确度和可靠性的要求应慎重考虑。 和 称为置信区间
38、。科学的区间估计要具备三个基本要素:科学的区间估计要具备三个基本要素:第一,要有合适的统计量作为估计量;第一,要有合适的统计量作为估计量;第二,要有合理的允许误差范围;第二,要有合理的允许误差范围;第三,要有可靠的概率保证程度。第三,要有可靠的概率保证程度。由于参数的允许范围涉及估计的准确性问题,由于参数的允许范围涉及估计的准确性问题,而相应的置信度涉及估计的可靠性问题。出于而相应的置信度涉及估计的可靠性问题。出于本能,在做估计时常常希望准确性尽可能提高,本能,在做估计时常常希望准确性尽可能提高,而且可靠性也不能小,但是这两个要求是矛盾而且可靠性也不能小,但是这两个要求是矛盾的。在样本单位数不
39、变的条件下,要想缩小估的。在样本单位数不变的条件下,要想缩小估计区间,提高估计的准确性,势必要减小置信计区间,提高估计的准确性,势必要减小置信度,降低估计的可靠性。同样,提高了估计的度,降低估计的可靠性。同样,提高了估计的可靠性,也必然要降低估计的准确性。可靠性,也必然要降低估计的准确性。因此,在抽样估计的时候,只能对其中的一个要素提因此,在抽样估计的时候,只能对其中的一个要素提出要求,而推断另一个要素的变动情况。如对估计的出要求,而推断另一个要素的变动情况。如对估计的准确性提出要求,即要求误差范围不超过给定的标准,准确性提出要求,即要求误差范围不超过给定的标准,来推算估计的可靠性,即置信度;
40、或对估计的可靠性来推算估计的可靠性,即置信度;或对估计的可靠性提出要求,即要求给定的置信度,来推算抽样的误差提出要求,即要求给定的置信度,来推算抽样的误差范围。若所推算的另一要素(抽样误差范围或概率保范围。若所推算的另一要素(抽样误差范围或概率保证程度)不能满足实际工作的需要,就应该增加样本证程度)不能满足实际工作的需要,就应该增加样本单位改善抽样组织方式,重新进行抽样,直到符合要单位改善抽样组织方式,重新进行抽样,直到符合要求为止。求为止。根据置信度的要求,估计总体指标出现的可能范围的根据置信度的要求,估计总体指标出现的可能范围的具体步骤是:具体步骤是:(1 1)抽取样本,计算样本指标,如计
41、算样本平均数或)抽取样本,计算样本指标,如计算样本平均数或样本成数,作为总体指标的相应估计值。并计算样本样本成数,作为总体指标的相应估计值。并计算样本标准差用以推算抽样平均误差。标准差用以推算抽样平均误差。(2 2)根据给定的置信度的要求,查)根据给定的置信度的要求,查正态分布概率表正态分布概率表,求得概率度值。,求得概率度值。(3 3)根据概率度和抽样平均误差来推算抽样极限误差)根据概率度和抽样平均误差来推算抽样极限误差的可能范围,并据以计算被估计总体指标的上下限,的可能范围,并据以计算被估计总体指标的上下限,对总体参数作区间估计。对总体参数作区间估计。1 1总体平均数的估计总体平均数的估计
42、某外贸公司出口一种茶叶,规定每包规格不低于150克,现在用不重复抽样的方法抽取其中1%进行检验。测得结果如表所示,要求以95.45%的概率估计这批茶叶平均每包的重量范围,以便确定平均重量是否达到规格要求。每包重量(克)每包重量(克)组中值组中值包包 数数148-149148-149148.5148.51010149-150149-150149.5149.52020150-151150-151150.5150.55050151-152151-152151.5151.52020合合 计计100100第一步,根据样本资料计算样本平均数和标准差,并推算抽样平均误差。第二步,根据给定的置信度95.45%
43、,查表得概率度 =2。第三步,根据概率度和抽样平均误差计算抽样极限误差,并估计总体平均数的上下限,判断其是否达到规格要求。可以用95.45%的概率保证该批茶叶平均每包重量在150.13-150.47克之间,表明这批茶叶平均每包重量达到了规格要求。 对对某某型型号号的的电电子子元元件件进进行行耐耐用用性性能能检检查查,抽抽查查的的资资料料分分组组列列表表如如下下,要要求求耐耐用用时时数数的的允允许许误误差差范范围围 =10.5=10.5小小时时,试试估估计计该该批批电电子子元元件件的的平均耐用时数。平均耐用时数。练习练习耐用时数耐用时数耐用时数耐用时数组中值组中值组中值组中值元件数元件数元件数元
44、件数900900900900以下以下以下以下900-950900-950900-950900-950950-1000950-1000950-1000950-10001000-10501000-10501000-10501000-10501050-11001050-11001050-11001050-11001100-11501100-11501100-11501100-11501150-12001150-12001150-12001150-12001200120012001200以上以上以上以上87587587587592592592592597597597597510251025102510
45、251075107510751075112511251125112511751175117511751225122512251225 1 1 1 1 2 2 2 2 6 6 6 6 35 35 35 35 43 43 43 43 9 9 9 9 3 3 3 3 1 1 1 1合计合计合计合计1001001001001 1、计算抽样平均数和标准差、计算抽样平均数和标准差2 2、根据给定的、根据给定的=10.5=10.5小时,计算总体平均数的上小时,计算总体平均数的上下限,下限,下限下限= = 上限上限= =3 3、根据、根据 =10.5/ 5.191=2 =10.5/ 5.191=2,查概率表得
46、置信度查概率表得置信度 1- =0.95451- =0.9545我们可以作如下估计,即可以概率我们可以作如下估计,即可以概率95.45%95.45%的保证程的保证程度,估计该批电子元件的耐用时数在度,估计该批电子元件的耐用时数在1045-10661045-1066小小时之间。时之间。2 2总体成数的估计总体成数的估计仍用前例资料,要求用同样的概率保证这批茶叶包装仍用前例资料,要求用同样的概率保证这批茶叶包装合格率范围。合格率范围。第一步,根据样本资料计算样本合格率和标准差,并第一步,根据样本资料计算样本合格率和标准差,并推算抽样平均误差。推算抽样平均误差。第二步,根据给定的置信度第二步,根据给
47、定的置信度95.45%95.45%,查表得概率度,查表得概率度 =2 =2。第三步,根据概率度和抽样平均误差计算抽样极限误差,并估计总体合格率的上下限。可以用95.45%的概率,保证该批茶叶包装的合格率在60.88%-79.12%之间。练习:某纱厂某时期内生产了练习:某纱厂某时期内生产了1010万个单位的纱,按纯随万个单位的纱,按纯随机抽样方式抽取机抽样方式抽取20002000个单位检验,检验结果合格率为个单位检验,检验结果合格率为95%95%,废品率为,废品率为5%5%,试以,试以95%95%的把握程度,估计全部的把握程度,估计全部纱合格品率的区间范围及合格品数量的区间范围?纱合格品率的区间
48、范围及合格品数量的区间范围?区间下限:区间下限:区间上限:区间上限:第四节第四节 抽样组织形式抽样组织形式不同的抽样组织形式,会有不同的抽样误差,因而抽样的效果也是不同的。一种科学的组织形式往往有可能以较少的样本单位数取得更好的抽样效果。因此抽样调查必须选择合适的组织形式,并对所用方法的抽样做出正确的估计,进一步和其他组织形式的抽样误差进行对比分析。例如粮食产量按地理条件分类,分类取样;或按历史单产资料、当年估产资料,将各单位顺序排队,并等距取样等等。即使是同一种抽样组织形式,由于采用的分类标准不同,群体的划分不同等等原因,仍然会产生不同的效果。进行对比分析,从中选择有效和切实可行的抽样方案。
49、常用的抽样组织方式有简单随机抽样、类型抽样、等距抽样、整群抽样、多阶段抽样等等。一、简单随机抽样一、简单随机抽样简单随机抽样,是按照简单随机抽样,是按照随机随机原则直接从个总体原则直接从个总体单位中抽取个单位作为样本。单位中抽取个单位作为样本。不论是不论是重复还是不重复抽样重复还是不重复抽样,都要保证每个单,都要保证每个单位在抽选中都有位在抽选中都有相等的中选机会相等的中选机会。优点:简单易行优点:简单易行适用:总体单位数不是太多的均匀总体。适用:总体单位数不是太多的均匀总体。采用简单随机抽样,在进行抽样调查之前应该采用简单随机抽样,在进行抽样调查之前应该先确定总体范围,并对总体进行编号,然后
50、随先确定总体范围,并对总体进行编号,然后随机抽选必要的单位数,简单随机抽样最符合随机抽选必要的单位数,简单随机抽样最符合随机原则。机原则。抽选样本单位的具体做法抽选样本单位的具体做法(1 1)抽签法:做标签,充分地拌匀后逐)抽签法:做标签,充分地拌匀后逐个地抽出个标签,根据抽样框找到相应个地抽出个标签,根据抽样框找到相应的抽样单位进行现场调查,从而得到一的抽样单位进行现场调查,从而得到一个简单随机样本。如果总体比较大,抽个简单随机样本。如果总体比较大,抽签法就显得比较笨重,实施起来不太方签法就显得比较笨重,实施起来不太方便,甚至于根本无法实施,此时可利用便,甚至于根本无法实施,此时可利用随机数
51、字表法。随机数字表法。(2 2)随机数字表法:随机数字表,是供)随机数字表法:随机数字表,是供抽样使用的,由抽样使用的,由0 0到到9 9这十个数码随机排这十个数码随机排列组成的多位数字表。在使用前,先将列组成的多位数字表。在使用前,先将总体的全部单位编号,并根据编号的位总体的全部单位编号,并根据编号的位数确定使用表中数字的列数;然后,从数确定使用表中数字的列数;然后,从任意一行、任意一列、任意方向开始数,任意一行、任意一列、任意方向开始数,遇到编号范围内的数字就作为样本单位,遇到编号范围内的数字就作为样本单位,超过编号范围内的数字就跳过去,直到超过编号范围内的数字就跳过去,直到抽够样本单位数
52、目为止。抽够样本单位数目为止。(3 3)利用计算机软件中的随机函数产生)利用计算机软件中的随机函数产生随机数的功能随机抽选样本单位数。随机数的功能随机抽选样本单位数。组织抽样调查的一项重要工作就是确定组织抽样调查的一项重要工作就是确定合适的合适的样本容量样本容量。因为样本容量越大,抽样误差可能越小,因为样本容量越大,抽样误差可能越小,但花费的时间和费用也越高,也就失去但花费的时间和费用也越高,也就失去了抽样调查的意义;反之,样本容量越了抽样调查的意义;反之,样本容量越小,花费的时间和费用也越少,但在估小,花费的时间和费用也越少,但在估计的精确度上常不能满足要求。计的精确度上常不能满足要求。所以
53、在设计的时候,通常是先根据研究所以在设计的时候,通常是先根据研究问题的性质确定允许的误差范围和必要问题的性质确定允许的误差范围和必要的概率保证程度或概率度,并根据总体的概率保证程度或概率度,并根据总体的标准差通过抽样平均误差的公式来确的标准差通过抽样平均误差的公式来确定必要的样本单位数。定必要的样本单位数。根据各种条件下的抽样平均误差以及极根据各种条件下的抽样平均误差以及极限误差很容易推算出必要的抽样数目。限误差很容易推算出必要的抽样数目。在重复抽样下,样本平均数的极限抽样误差公式为:则必要的样本单位数为:在不重复抽样下, 则必要的样本单位数为:同样,重复抽样和不重复抽样的成数样本必要单位数分
54、同样,重复抽样和不重复抽样的成数样本必要单位数分别为:别为:确定抽样单位数时的注意事项:确定抽样单位数时的注意事项:1 1样本容量受允许误差范围大小的影响。误样本容量受允许误差范围大小的影响。误差范围要求越小则样本单位数就需要越愈多,差范围要求越小则样本单位数就需要越愈多,所以在抽样设计中确定抽样误差可允许范围要所以在抽样设计中确定抽样误差可允许范围要十分慎重考虑。十分慎重考虑。2 2样本容量受总体标准差大小的影响。在确样本容量受总体标准差大小的影响。在确定一个样本进行多指标的调查中,为保证所有定一个样本进行多指标的调查中,为保证所有的抽样误差都控制在允许的范围内,应选择样的抽样误差都控制在允
55、许的范围内,应选择样本容量大的。本容量大的。3 3当总体单位数较大时,不重复抽样的样本当总体单位数较大时,不重复抽样的样本容量的确定,也可以用重复抽样情况下必要单容量的确定,也可以用重复抽样情况下必要单位的计算公式。位的计算公式。某市进行居民家计调查,根据历史资料该市居民家庭平均每人年收入的标准差为3000元,而家庭消费的恩格尔系数为43%。现在用重复抽样的方法,要求在95%的概率保证下,平均收入的极限误差不超过250元,恩格尔系数的极限误差不超过4%。问必要的抽样单位数应该为多少?根据重复抽样条件下必要样本单位数的公式计算为:样本平均数的必要单位数 = =554(人)样本成数的必要单位数 =
56、 =589(人)两个抽样指标所要求的必要抽样数目不同,应该取其中较大的单位数,即抽取589人作为样本,以满足共同的要求。简单随机抽样在实践上受到许多限制。例如当总体很大时,要首先对每一个单位加以编号就有很大困难,对于无限总体,对其进行编号甚至是不可能的。但这种抽样方式从理论上说最符合随机原则,它的抽样误差容易得到理论上的论证。因此可以作为发展其他更复杂的抽样设计的基础,同时也是衡量其他抽样方式抽样效果的比较标准。1:某市进行职工家庭生活费抽样调查,已知职工家庭平均每人每月生活费收入的标准差为110元,允许误差范围10元,概率把握程度95%,试确定应抽选的户数。 解: 2:某企业要调查产品合格率
57、,已知以往的合格率曾有90%、98%、99%。现要求误差不超过1%,把握程度为95%,问需要抽选多少件产品? 解: 3 3:要调查某校大学生英语四级考试成绩,:要调查某校大学生英语四级考试成绩,假设根据历史资料该校学生平均成绩的标准假设根据历史资料该校学生平均成绩的标准差为差为2020分,及格率为分,及格率为65%65%。现用重复抽样方。现用重复抽样方法,要求在法,要求在95%95%的置信度下,平均分数的误的置信度下,平均分数的误差不超过差不超过2 2分,及格率的误差不超过分,及格率的误差不超过4%4%,求,求必要抽样数目。必要抽样数目。二、类型抽样二、类型抽样类型抽样又称分层抽样、分类抽样,
58、它是先对总体各类型抽样又称分层抽样、分类抽样,它是先对总体各单位按某一主要标志进行分组,然后再从各组中按随单位按某一主要标志进行分组,然后再从各组中按随机的原则抽选一定单位构成样本。机的原则抽选一定单位构成样本。类型抽样是将统计分组和简单随机抽样相结合的一种类型抽样是将统计分组和简单随机抽样相结合的一种抽样方式。通过分组,可以把总体分成几个在组内性抽样方式。通过分组,可以把总体分成几个在组内性质比较接近的类型,使得各组内标志差异缩小,各组质比较接近的类型,使得各组内标志差异缩小,各组间有较大差异,保证了样本单位能够均匀地分布在总间有较大差异,保证了样本单位能够均匀地分布在总体各部分,从而体各部
59、分,从而提高了样本的代表性提高了样本的代表性。对于给定的总体,总方差是一定的,根据方差定理,对于给定的总体,总方差是一定的,根据方差定理,在分组的情况下,总方差在分组的情况下,总方差= =组间方差组间方差+ +组内方差的平均组内方差的平均数。所以,划分类别时应尽量增大组(或类)间差异,数。所以,划分类别时应尽量增大组(或类)间差异,缩小组(或类)内差异。因为组(或类)内方差越小,缩小组(或类)内差异。因为组(或类)内方差越小,类型抽样的抽样平均误差就会随之缩小,抽样估计的类型抽样的抽样平均误差就会随之缩小,抽样估计的效率便会随之升高。效率便会随之升高。将总体分成若干组后,样本单位数在各组之间将
60、总体分成若干组后,样本单位数在各组之间的分配主要有两种方法:的分配主要有两种方法:一是按统一的比例确定各组应抽选的单位数,一是按统一的比例确定各组应抽选的单位数,这种分配方法称为比例分配。这种分配方法称为比例分配。二是按各组的标志变异程度来确定各组应抽的二是按各组的标志变异程度来确定各组应抽的单位数。对于标志变异大的组宜多抽一些单位单位数。对于标志变异大的组宜多抽一些单位进行调查,而标志变异小的组宜少抽一些单位进行调查,而标志变异小的组宜少抽一些单位进行调查。各组的抽选比例与对应的总体中各进行调查。各组的抽选比例与对应的总体中各组单位数所占的比例是不相等的,这种分配方组单位数所占的比例是不相等
61、的,这种分配方法称为最佳分配。各组的样本单位数确定后,法称为最佳分配。各组的样本单位数确定后,再按简单随机抽样等方式在各组内随机地抽取再按简单随机抽样等方式在各组内随机地抽取样本单位。样本单位。比例分配样本单位数一般是按照各组总比例分配样本单位数一般是按照各组总体单位数与全部总体单位数之比例来分体单位数与全部总体单位数之比例来分配样本单位数,以保持各组样本单位数配样本单位数,以保持各组样本单位数与样本容量之比等于各组总体单位数与与样本容量之比等于各组总体单位数与全部总体单位数之比,即:全部总体单位数之比,即: 所以各组的样本单位数应为:所以各组的样本单位数应为: 类型抽样的样本平均数计算步骤为
62、:类型抽样的样本平均数计算步骤为:第一步,在各组分别取样,可以计算各第一步,在各组分别取样,可以计算各组抽样平均数。组抽样平均数。 第二步,将各组样本平均数以各组样本第二步,将各组样本平均数以各组样本单位数或总体单位数为权数进行加权平单位数或总体单位数为权数进行加权平均,即为所求的样本平均数。均,即为所求的样本平均数。 类型抽样的抽样平均误差的计算步骤为:类型抽样的抽样平均误差的计算步骤为:第一步,计算各组内方差。第一步,计算各组内方差。 第二步,以各组样本单位数为权数,计算各组内方差第二步,以各组样本单位数为权数,计算各组内方差的平均数的平均数 由于类型抽样是对每一组均进行随机抽样,不存在组
63、由于类型抽样是对每一组均进行随机抽样,不存在组间误差,所以抽样平均误差取决于各组内方差的平均间误差,所以抽样平均误差取决于各组内方差的平均水平。水平。第三步,计算抽样平均误差。第三步,计算抽样平均误差。重复抽样:重复抽样: 不重复抽样不重复抽样 对某乡全部对某乡全部40004000公顷土地按类型抽样,了解该公顷土地按类型抽样,了解该乡平均每公顷产量和全乡小麦总产量。其中,乡平均每公顷产量和全乡小麦总产量。其中,有平原地有平原地30003000公顷,丘陵地公顷,丘陵地10001000公顷。采用不公顷。采用不重复抽样方法,按重复抽样方法,按33的比例抽取样本单位,的比例抽取样本单位,调查结果如表。
64、要求在调查结果如表。要求在95%95%的概率保证下,对的概率保证下,对全乡小麦平均每公顷产量和总产量进行估计。全乡小麦平均每公顷产量和总产量进行估计。样本平均数和组内方差的平均数为:样本平均数和组内方差的平均数为:抽样平均误差为:抽样平均误差为:全乡平均每公顷产量区间为:全乡平均每公顷产量区间为:即,即,6187.06187.0 6650.93(6650.93(千克千克) )全村总产量区间为:全村总产量区间为:即,即, 2474828024748280(千克)(千克) 26603720(26603720(千克千克) )有有95%95%的概率保证,该乡小麦平均每公顷产量在的概率保证,该乡小麦平均
65、每公顷产量在6187.076187.07千克与千克与6650.936650.93千克之间;总产量在千克之间;总产量在2474828024748280千克与千克与2660372026603720千克之间。千克之间。从以上计算过程可以看出,类型抽样的抽样平从以上计算过程可以看出,类型抽样的抽样平均误差与组间的方差无关,仅取决于组内方差均误差与组间的方差无关,仅取决于组内方差的平均水平。由于简单随机抽样采用的是总方的平均水平。由于简单随机抽样采用的是总方差,它等于组间方差与组内平均方差之和,所差,它等于组间方差与组内平均方差之和,所以类型抽样的平均误差一般小于简单随机抽样以类型抽样的平均误差一般小于
66、简单随机抽样的平均误差。同时由于总体方差是唯一确定的的平均误差。同时由于总体方差是唯一确定的数值,因此在类型抽样分组时应该尽可能扩大数值,因此在类型抽样分组时应该尽可能扩大组间方差,缩小组内方差,即各组间的差异可组间方差,缩小组内方差,即各组间的差异可以大,而各组内的差异必须小,这样就可以减以大,而各组内的差异必须小,这样就可以减少抽样误差,提高抽样效果。少抽样误差,提高抽样效果。三、等距抽样三、等距抽样等距抽样也称系统抽样、机械抽样,它是先将总体各单位按某一等距抽样也称系统抽样、机械抽样,它是先将总体各单位按某一标志排队,然后按固定的距离或间隔来抽取样本单位。标志排队,然后按固定的距离或间隔
67、来抽取样本单位。需要事先对总体结构有一定的了解,有较高的代表性。需要事先对总体结构有一定的了解,有较高的代表性。由于排队所依据的标志不同,有两种等距抽样方法。由于排队所依据的标志不同,有两种等距抽样方法。第一无关标志排队法,即是指排列的标志和所研究的单位标志值第一无关标志排队法,即是指排列的标志和所研究的单位标志值大小无关或不起主要的影响作用。大小无关或不起主要的影响作用。第二有关标志排队法,所谓有关标志是指作为排列顺序的标志和第二有关标志排队法,所谓有关标志是指作为排列顺序的标志和所研究的单位标志值大小有密切的关系。所研究的单位标志值大小有密切的关系。排队后,需计算出抽样距离,公式为:排队后
68、,需计算出抽样距离,公式为: 也可采用半距中点取样,也可采用对称等距取样。也可采用半距中点取样,也可采用对称等距取样。注意:无论何种取样,都不要把抽样的间隔和现象本身的周期性注意:无论何种取样,都不要把抽样的间隔和现象本身的周期性变化相重合,以免出现系统性偏差。变化相重合,以免出现系统性偏差。半半距距中中点点取取样样:即即在在每每部部分分的的中中间间(抽抽样样距距离离的的一一半半)抽抽取取一一个个单单位位组组成成样样本本。如如,第第一一部部分分取取第第k/2k/2单单位位,第第二二部部分分取取第第3k/23k/2单单位位,第第n n部部分分取取第第(2n-1)k/2(2n-1)k/2单单位位。
69、这这种种取取样样方方法法,使使所所抽抽取取的的各各单单位位最最能能代代表表每每部部分分的的一一般般水水平平,从从而而提提高高样样本本的的代代表表性性,其其不不足足之处是只能取一个样本。之处是只能取一个样本。对对称称等等距距取取样样。即即第第一一部部分分随随机机抽抽取取一一个个单单位位,然然后后据据此此在在各各部部分分中中抽抽取取两两两两对对称称的的样样本本单单位位组组成成样样本本。如如,第第一一部部分分取取第第i i单单位位,第第二二部部分分取取第第2k-i2k-i单单位位,第第三三部部分分取取第第2k+i2k+i单单位位,第第四四部部分分取取第第4k-i4k-i单单位位,第第(n-1n-1)
70、部部分分取取第第(n-2)k+i(n-2)k+i单单位位,第第n n部部分分取取第第nk-ink-i单单位位。这这种种取取样样方方法法,既既遵遵循循随随机机原原则则,又又能能取取到到较较有有代代表表性的样本,并且可以抽取性的样本,并且可以抽取k k个样本。个样本。样本容量确定的方法与不重复分层抽样相同样本容量确定的方法与不重复分层抽样相同 。用等距抽样的方式抽取单位组成样本,可直接用简单用等距抽样的方式抽取单位组成样本,可直接用简单法计算样本平均数。但等距抽样的平均误差情况比较法计算样本平均数。但等距抽样的平均误差情况比较复杂,它和标志排列的顺序有关。等距抽样一定是不复杂,它和标志排列的顺序有
71、关。等距抽样一定是不重复抽样,一般地,按无关标志排队等距抽样,由于重复抽样,一般地,按无关标志排队等距抽样,由于排队所用标志与研究目的无关,而且是随机起点,其排队所用标志与研究目的无关,而且是随机起点,其性质近似简单随机抽样,可按不重复条件下简单随机性质近似简单随机抽样,可按不重复条件下简单随机抽样的抽样平均误差公式来近似计算。按有关标志排抽样的抽样平均误差公式来近似计算。按有关标志排队的等距抽样,其性质又近似类型抽样,只是分类更队的等距抽样,其性质又近似类型抽样,只是分类更细,相当于每一类中抽取一个单位,因此其抽样误差细,相当于每一类中抽取一个单位,因此其抽样误差可借助类型抽样平均误差的公式
72、计算。可借助类型抽样平均误差的公式计算。四、整群抽样四、整群抽样整群抽样也称集团抽样,是将总体各单位划分成若干群,然后以整群抽样也称集团抽样,是将总体各单位划分成若干群,然后以群为单位从中随机抽取一些群,对中选群的所有单位进行全面调群为单位从中随机抽取一些群,对中选群的所有单位进行全面调查的抽样组织形式。查的抽样组织形式。优点:抽取的单位一般比较集中,组织工作简单,搜集资料方便优点:抽取的单位一般比较集中,组织工作简单,搜集资料方便容易,节省人力、物力,调查费用较少。容易,节省人力、物力,调查费用较少。因为以群为单位进行抽选,抽选单位比较集中,显著地影响了在因为以群为单位进行抽选,抽选单位比较
73、集中,显著地影响了在总体中各单位分布的均匀性,与其他抽样方式比较,抽样误差比总体中各单位分布的均匀性,与其他抽样方式比较,抽样误差比较大,即使要得到同简单随机抽样相同的精确度,整群抽样都要较大,即使要得到同简单随机抽样相同的精确度,整群抽样都要调查相对较多的样本单位。调查相对较多的样本单位。设将总体的全部单位划分为设将总体的全部单位划分为 群,现从总体群,现从总体 群中随机抽取群中随机抽取 群群组成样本,并对中选群的所有单位进行全面调查。样本平均数的组成样本,并对中选群的所有单位进行全面调查。样本平均数的抽样平均误差可以按这一方法来计算。抽样平均误差可以按这一方法来计算。 其中,其中, 为群间
74、方差,用公式表示为:为群间方差,用公式表示为: 设某化肥厂日夜连续生产,每分钟产量为设某化肥厂日夜连续生产,每分钟产量为100100袋。现在采用整群抽袋。现在采用整群抽样来检验一昼夜生产的化肥每袋的重量和包装的一等品率。以样来检验一昼夜生产的化肥每袋的重量和包装的一等品率。以144144分钟为一个间隔,每次抽取一分钟的产量,共抽取分钟为一个间隔,每次抽取一分钟的产量,共抽取1010分钟的产量分钟的产量进行分批检验,其平均每袋重量为进行分批检验,其平均每袋重量为49.549.5千克,其群间方差为千克,其群间方差为2.652.65千克。一等品包装的比重为千克。一等品包装的比重为85%85%,其群间
75、方差为,其群间方差为0.5%0.5%。要求用。要求用95.45%95.45%的概率估计该厂的概率估计该厂2424小时化肥产量每袋平均重量和一等品率小时化肥产量每袋平均重量和一等品率的范围。的范围。第一步,根据已知条件,确定第一步,根据已知条件,确定 和和 。第二步,进行抽样平均数的推断。第二步,进行抽样平均数的推断。即(即(48.4748.4750.5350.53),也就是说,以),也就是说,以95.45%95.45%的概率保证程度的概率保证程度 估计,估计,该厂化肥的平均每袋重量在该厂化肥的平均每袋重量在48.4748.47千克到千克到50.5350.53千克之间。千克之间。可知:整群抽样和
76、类型抽样虽然都要对总体各可知:整群抽样和类型抽样虽然都要对总体各单位进行分组,但对分组所起的作用则是完全单位进行分组,但对分组所起的作用则是完全不同的。类型抽样分组的作用在于尽量扩大组不同的。类型抽样分组的作用在于尽量扩大组间的差异程度,达到缩小组内方差提高抽样效间的差异程度,达到缩小组内方差提高抽样效果的目的。而整群抽样分组的作用在于尽量扩果的目的。而整群抽样分组的作用在于尽量扩大群内的差异程度,从而达到缩小群间方差提大群内的差异程度,从而达到缩小群间方差提高抽样效果的目的高抽样效果的目的第三步,进行抽样成数的推断。第三步,进行抽样成数的推断。即以即以95.45%95.45%的概率保证程度估
77、计,一等品率在的概率保证程度估计,一等品率在80.49%-80.49%-89.51%89.51%范围内。范围内。五、多阶段抽样五、多阶段抽样当总体单位很多、分布广泛,又几乎不可能从总体中直接抽取总体单位当总体单位很多、分布广泛,又几乎不可能从总体中直接抽取总体单位时,常采用多阶段抽样。时,常采用多阶段抽样。如果将总体进行多层次分组,然后依次在各层中随机抽组,直到抽取总如果将总体进行多层次分组,然后依次在各层中随机抽组,直到抽取总体单位,称为多阶段抽样。体单位,称为多阶段抽样。如我国农产品产量调查就是采用多阶段抽样调查,第一阶段从省抽县,如我国农产品产量调查就是采用多阶段抽样调查,第一阶段从省抽
78、县,第二阶段从中选县抽乡,第三阶段从中选乡抽村,再从中选的村中抽地第二阶段从中选县抽乡,第三阶段从中选乡抽村,再从中选的村中抽地块,最后从中选的地块中抽具体的样本单位,并以样本单位测得的实际块,最后从中选的地块中抽具体的样本单位,并以样本单位测得的实际资料来推算平均亩产和总产。资料来推算平均亩产和总产。 优点:优点:第一,便于组织抽样,它可以按现有的行政区划或地理区域分各阶段的第一,便于组织抽样,它可以按现有的行政区划或地理区域分各阶段的抽样单元,从而简化抽样框的编制。抽样单元,从而简化抽样框的编制。第二,可以获得各阶段单元的调查资料,根据最初级资料可进行逐级抽第二,可以获得各阶段单元的调查资
79、料,根据最初级资料可进行逐级抽样推断,得到各级的调查资料。样推断,得到各级的调查资料。第三,多阶段抽样的方式比较灵活,各阶段抽样的组织方式应以前述四第三,多阶段抽样的方式比较灵活,各阶段抽样的组织方式应以前述四种为依据进行选择。在多阶段抽样中,每个阶段都存在抽样误差。为提种为依据进行选择。在多阶段抽样中,每个阶段都存在抽样误差。为提高样本的代表性,还应根据各阶段的不同特点,注意样本单位的均匀分高样本的代表性,还应根据各阶段的不同特点,注意样本单位的均匀分布,采用不同的抽样比。如方差大的阶段,抽样比大一些,方差小的阶布,采用不同的抽样比。如方差大的阶段,抽样比大一些,方差小的阶段,抽样比小一些。
80、而且多阶段抽样在简化抽样工作的同时,又因抽样段,抽样比小一些。而且多阶段抽样在简化抽样工作的同时,又因抽样单位的分布较广,而具有较强的代表性。单位的分布较广,而具有较强的代表性。案例导入案例导入案例一:时下不少大学生在一边学习的同时也不断寻找案例一:时下不少大学生在一边学习的同时也不断寻找一些机会打些零工以赚点钱弥补学习和生活之需,这已一些机会打些零工以赚点钱弥补学习和生活之需,这已经是学生们之间人所共知的事情。这没有丝毫的让人好经是学生们之间人所共知的事情。这没有丝毫的让人好奇之处,让人好奇的是这些打工的学生究竟一个月平均奇之处,让人好奇的是这些打工的学生究竟一个月平均能赚多少钱?假设有人说
81、:这个数据是能赚多少钱?假设有人说:这个数据是500500元,你觉得信元,你觉得信不信它呢?当然,你首先需要收集证据,没有证据是肯不信它呢?当然,你首先需要收集证据,没有证据是肯定说明不了任何问题的。又假设有人通过组织调查取得定说明不了任何问题的。又假设有人通过组织调查取得过如下数据(调查到一共过如下数据(调查到一共3030人,单位:元):人,单位:元):假设检验假设检验350 500 900 100 100 200 240 300 100 320450 260 650 380 290 400 800 400 250 400 290 870 540 320 140 160 300 400 50
82、0 340 这时你该做何结论?就算是你得到以上数据的平均这时你该做何结论?就算是你得到以上数据的平均数等于数等于423423元,你是否就可以作出元,你是否就可以作出“是是”或或“不是不是”的回的回答?因为你要作出的回答是针对整个总体的,根据却又答?因为你要作出的回答是针对整个总体的,根据却又只是来自部分总体只是来自部分总体即样本,所以事实上不论你最终即样本,所以事实上不论你最终作出的是作出的是“是是”还是还是“不是不是”的回答其实都存在犯错误的回答其实都存在犯错误的可能。的可能。 那么,如何以样本数据去对总体参数下结论才最那么,如何以样本数据去对总体参数下结论才最科学最不容易犯错误呢?这就是一
83、个属于单个总体参科学最不容易犯错误呢?这就是一个属于单个总体参数假设检验的问题了。数假设检验的问题了。 案例二:你可能认为每一个美国人都知道像这样案例二:你可能认为每一个美国人都知道像这样一些简单历史问题的答案一些简单历史问题的答案“在美国国旗上有多少颗星在美国国旗上有多少颗星?有多少条条纹?星代表什么?条纹又代表什么?有多少条条纹?星代表什么?条纹又代表什么?”。非常有意思的是,并非每一个人都知道问题的答案,。非常有意思的是,并非每一个人都知道问题的答案,而且当你知道问题的答案时,你也许会大吃一惊的。而且当你知道问题的答案时,你也许会大吃一惊的。 1998 1998年美国杂志年美国杂志Tod
84、ays AmericaTodays America就确实做就确实做过这么一个调查,所得到的数据肯定多多少少会出乎过这么一个调查,所得到的数据肯定多多少少会出乎很多人的意料之外。下面就是按性别和美国地区列出很多人的意料之外。下面就是按性别和美国地区列出的知道星的数目的成年人的百分比:的知道星的数目的成年人的百分比: 男士男士 女士女士 大城市大城市 小城镇小城镇 农村农村知道知道 72 72 57 56 3172 72 57 56 31不知道不知道 22 34 25 16 1522 34 25 16 15 在纽约的伊利县里在纽约的伊利县里200200个成人被问及在美国国旗上个成人被问及在美国国旗
85、上有多少颗星。上面的表现是属于每一类的成人的数目。有多少颗星。上面的表现是属于每一类的成人的数目。样本的结果被计算两次,一次按性别算,另一次按回样本的结果被计算两次,一次按性别算,另一次按回答问题的成人的住所算。答问题的成人的住所算。 正确地回答问题的男士的百分比与女士的百分比正确地回答问题的男士的百分比与女士的百分比之间有显著差别吗?大城市的成年人的百分比与小城之间有显著差别吗?大城市的成年人的百分比与小城镇的成年人的百分比之间有显著差别吗?小城镇的百镇的成年人的百分比之间有显著差别吗?小城镇的百分比与农村的百分比之间有显著差别吗?这样的问题分比与农村的百分比之间有显著差别吗?这样的问题属于
86、两个总体参数假设检验问题。属于两个总体参数假设检验问题。假设检验的过程假设检验的过程提出假设提出假设抽取样本抽取样本作出决策作出决策总体总体总体总体 抽取随机样本抽取随机样本抽取随机样本抽取随机样本均值均值均值均值为为为为78787878 我认为人口的平均我认为人口的平均年龄是年龄是8 80 0岁岁提出假设提出假设提出假设提出假设 拒绝假设拒绝假设! ! 别无选择别无选择. .作出决策作出决策作出决策作出决策第五节第五节 假设检验假设检验假设检验,就是事先对总体参数或总体分布做出一个假设检验,就是事先对总体参数或总体分布做出一个假设,然后利用样本信息来判断假设是否成立,即判假设,然后利用样本信
87、息来判断假设是否成立,即判断样本信息与假设是否有显著差异,从而决定应接受断样本信息与假设是否有显著差异,从而决定应接受或拒绝原假设。或拒绝原假设。假设检验可分为两类,一是参数假设检验;二是非参假设检验可分为两类,一是参数假设检验;二是非参数检验或自由分布检验,主要是总体分布形式的假设数检验或自由分布检验,主要是总体分布形式的假设检验。检验。一、假设检验一般问题一、假设检验一般问题1 1 假设检验的基本思想假设检验的基本思想假设检验是对总体参数先做出假设,然后抽取样本,假设检验是对总体参数先做出假设,然后抽取样本,利用样本提供的信息对假设的正确性进行判断的过程。利用样本提供的信息对假设的正确性进
88、行判断的过程。假设检验的思想颇为似类于司法程假设检验的思想颇为似类于司法程序中的序中的“凭证定罪、疑罪从无凭证定罪、疑罪从无”的的做法,需要检验的假设往往是那些做法,需要检验的假设往往是那些检验前被默认为正确的、检验前被默认为正确的、除非具有除非具有充分证据否则不希望甚至不允许随充分证据否则不希望甚至不允许随便推翻的结论性语言便推翻的结论性语言。显著性水平。显著性水平之所以设得比较小,是为了一旦能之所以设得比较小,是为了一旦能够推翻就肯定有足够证据;但不能够推翻就肯定有足够证据;但不能推翻却未必说明原假设(零假设)推翻却未必说明原假设(零假设)成立。成立。 正因为此,我们说:假设检验有个显著特
89、点,正因为此,我们说:假设检验有个显著特点,即即“信心满怀地拒绝,含含糊糊地接受信心满怀地拒绝,含含糊糊地接受”。 参数估计与假设检验两种方法间虽参数估计与假设检验两种方法间虽有一定有一定相似性相似性,但本质性区别是:前者对总体一无所,但本质性区别是:前者对总体一无所知,是求知一事物;后者则有所了解,是求证知,是求知一事物;后者则有所了解,是求证一事物。一事物。2 2假设检验的步骤假设检验的步骤(1 1)提出原假设和备择假设)提出原假设和备择假设每个假设检验问题,一般可同时提出两个完全相反的假设:原假每个假设检验问题,一般可同时提出两个完全相反的假设:原假设和备择假设。设和备择假设。原假设又称
90、零假设原假设又称零假设,是待检验的假设,记为,是待检验的假设,记为 ;备择假设是拒绝原假设后可供选择的假设备择假设是拒绝原假设后可供选择的假设,记为,记为 。原假设和备择假设是原假设和备择假设是相互对立的相互对立的,检验结果二者必取其一。,检验结果二者必取其一。原假设和备择假设应根据所检验问题的具体背景而定。原假设和备择假设应根据所检验问题的具体背景而定。常常是采取常常是采取“不轻易拒绝原假设不轻易拒绝原假设”的原则,即把没有充分理由不的原则,即把没有充分理由不能轻易否定的命题作为原假设,而相应地把没有足够把握就不能能轻易否定的命题作为原假设,而相应地把没有足够把握就不能轻易肯定的命题作为备择
91、假设。轻易肯定的命题作为备择假设。一般地,假设有三种形式:一般地,假设有三种形式: : ; : ,这种形式的假设检验称为这种形式的假设检验称为双侧检验双侧检验采用哪种假设,要根据所研究的实际问题而定。如果对所研究问采用哪种假设,要根据所研究的实际问题而定。如果对所研究问题只需判断有无显著差异或要求同时注意总体参数偏大或偏小的题只需判断有无显著差异或要求同时注意总体参数偏大或偏小的情况,则采用双侧检验;如果所关心的是总体参数是否比某个值情况,则采用双侧检验;如果所关心的是总体参数是否比某个值偏大(或偏小),则宜采用单侧检验。偏大(或偏小),则宜采用单侧检验。(2 2)选择适当的统计量,并确定其分
92、布形式)选择适当的统计量,并确定其分布形式在参数的假设检验中,如同在参数估计中一样,在参数的假设检验中,如同在参数估计中一样,要借助于样本统计量进行统计推断。用于假设要借助于样本统计量进行统计推断。用于假设检验问题的统计量称为检验统计量。在具体问检验问题的统计量称为检验统计量。在具体问题里,选择什么统计量作为检验统计量,需要题里,选择什么统计量作为检验统计量,需要考虑的因素与参数估计相同。考虑的因素与参数估计相同。例如,用于进行检验的样本是例如,用于进行检验的样本是大样本还是小样大样本还是小样本本,总体方差,总体方差已知已知还是还是未知未知等,在不同的条件等,在不同的条件下应选择不同的检验统计
93、量。下应选择不同的检验统计量。(3 3)选择显著性水平,确定临界值)选择显著性水平,确定临界值显著性水平显著性水平 表示为表示为 真时拒绝真时拒绝 的概率。的概率。把否定真实的原假设的行动称为把否定真实的原假设的行动称为第第类错误或类错误或弃真错误弃真错误;把接受不真实的原假设的行动称为;把接受不真实的原假设的行动称为第第类错误或纳伪错误(或取伪错误)类错误或纳伪错误(或取伪错误)。在假设检验中在假设检验中, ,把犯第把犯第类错误的概率记为类错误的概率记为,把犯第把犯第类错误的概率记为类错误的概率记为。越大越大, ,就越有可能犯第就越有可能犯第类错误,即越有可类错误,即越有可能否定真实的原假设
94、。能否定真实的原假设。越大越大, ,就越有可能犯就越有可能犯第第类错误类错误, ,即越有可能接受不真实的原假设。即越有可能接受不真实的原假设。两类错误不可避免,是此销彼长的关系,要同两类错误不可避免,是此销彼长的关系,要同时减少犯两类错误的概率,只能增加样本容量。时减少犯两类错误的概率,只能增加样本容量。 和 的关系 你不能同时减你不能同时减少两类错误少两类错误! 和和和和 的关系就像的关系就像的关系就像的关系就像翘翘板,翘翘板,翘翘板,翘翘板, 小小小小 就就就就大,大,大,大, 大大大大 就小就小就小就小H H0 0: : 无罪无罪无罪无罪假设检验中的两类错误假设检验中的两类错误(决策结果
95、)(决策结果)陪审团审判陪审团审判裁决裁决实际情况实际情况无罪无罪有罪有罪无罪无罪正确正确错误错误有罪有罪错误错误正确正确H0 检验检验决策决策实际情况实际情况H0为真为真H0为假为假接受接受H01 - 第二类错第二类错误误( ()拒绝拒绝H0第一类错第一类错误误( ()功效功效(1-(1-)假设检验就好像一场审判过程假设检验就好像一场审判过程假设检验就好像一场审判过程假设检验过程假设检验过程假设检验过程显著性水平,也就是决策中所面临的风险。显著性水显著性水平,也就是决策中所面临的风险。显著性水平是指当原假设为正确时人们却把它拒绝了的概率或平是指当原假设为正确时人们却把它拒绝了的概率或风险。这
96、个概率是由人们确定的,通常取风险。这个概率是由人们确定的,通常取 =0.05=0.05或或 0.010.01,这表明当做出接受原假设的决定时,这表明当做出接受原假设的决定时,其正确的可能性(概率)为其正确的可能性(概率)为95%95%或或99%99%。假设检验应用小概率事件实际极少发生的原理,这里假设检验应用小概率事件实际极少发生的原理,这里的小概率就是指显著性水平。给定了显著性水平,就的小概率就是指显著性水平。给定了显著性水平,就可由有关的概率分布表查得临界值,从而确定的接受可由有关的概率分布表查得临界值,从而确定的接受区域和拒绝区域,临界值就是接受区域和拒绝区域的区域和拒绝区域,临界值就是
97、接受区域和拒绝区域的分界点。分界点。对于不同形式的假设,的接受区域和拒绝区域也有所对于不同形式的假设,的接受区域和拒绝区域也有所不同。双侧检验的拒绝区域位于统计量分布曲线的两不同。双侧检验的拒绝区域位于统计量分布曲线的两侧。侧。(4 4)做出结论)做出结论根据样本资料计算出检验统计量的具体根据样本资料计算出检验统计量的具体值,并用以与临界值比较,做出值,并用以与临界值比较,做出接受或接受或拒绝原假设的结论拒绝原假设的结论。如果检验统计量的。如果检验统计量的值落在拒绝区域内,说明样本所描述的值落在拒绝区域内,说明样本所描述的情况与原假设有显著性差异,应拒绝原情况与原假设有显著性差异,应拒绝原假设
98、;反之,则接受原假设。假设;反之,则接受原假设。假设检验中的小概率原理假设检验中的小概率原理什么是小概率?什么是小概率?1. 1. 在在一一次次试试验验中中,一一个个几几乎乎不不可可能能发发生生的事件发生的概率的事件发生的概率2. 2. 在在一一次次试试验验中中小小概概率率事事件件一一旦旦发发生生,我们就有理由拒绝原假设我们就有理由拒绝原假设3. 3. 小概率由研究者事先确定小概率由研究者事先确定双侧检验与单侧检验双侧检验与单侧检验 (假设的形式)假设假设研究的问题研究的问题双侧检验双侧检验左侧检验左侧检验右侧检验右侧检验H0 = 0 0 0 0 0 0H1 0 0 0 0假设检验的流程假设检
99、验的流程提出假设提出假设确定适当的检验统计量确定适当的检验统计量规定显著性水平规定显著性水平 计算检验统计量的值计算检验统计量的值作出统计决策作出统计决策什么是检验统计量?什么是检验统计量?1.1.用于假设检验决策的统计量用于假设检验决策的统计量2.2.选选择择统统计计量量的的方方法法与与参参数数估估计计相相同同,需需考考虑虑是大样本还是小样本是大样本还是小样本总体方差已知还是未知总体方差已知还是未知3. 3. 检验统计量的基本形式为检验统计量的基本形式为确定适当的检验统计量确定适当的检验统计量作出统计决策作出统计决策1.1.计算检验的统计量计算检验的统计量2.2.根据给定的显著性水平根据给定
100、的显著性水平 ,查表得出相应的,查表得出相应的临界值临界值, ,如如: :z z /2/23.3.将检验统计量的值与将检验统计量的值与临界值进行比较临界值进行比较4.4.得出拒绝或不拒绝原假设的结论得出拒绝或不拒绝原假设的结论双侧检验(原假设与备择假设的确定)1.1.例例如如,某某种种零零件件的的尺尺寸寸,要要求求其其平平均均长长度度为为10cm10cm,大大于于或或小小于于10cm10cm均均属于不合格属于不合格我我们们想想要要证证明明( (检检验验) )大大于于或或小小于于这这两种可能性中的任何一种是否成立两种可能性中的任何一种是否成立2.2.建立的原假设与备择假设应为建立的原假设与备择假
101、设应为 H0: = = 10 H1: 10双侧检验(显著性水平与拒绝域 )抽样分布抽样分布抽样分布抽样分布抽样分布抽样分布H HH000值值值临界值临界值临界值临界值临界值临界值 /2 /2 /2 /2/2 样本统计量样本统计量样本统计量拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域1 - 1 - 1 - 置信度置信度置信度置信度置信度置信度一个总体参数的检验一个总体参数的检验Z Z 检验检验(单尾和(单尾和双尾双尾) t t 检验检验(单尾和双尾)(单尾和双尾)Z Z 检验检验(单尾和(单尾和双尾双尾) 2 2检验检验(单尾和双尾)(单尾和双尾)均值均值一个总体一个总体成数成数成数成数方差方差总体均值
102、的检验 (2 已知或2未知大样本)1.假定条件假定条件总体服从正态分布总体服从正态分布若不服从正态分布若不服从正态分布, , 可用正态分布来近似可用正态分布来近似( (n n 30)30)2.2.使用使用Z Z- -统计量统计量 2 2 已知:已知: 2 2 未知:未知: 2 已知均值的检验已知均值的检验某某机机床床厂厂加加工工一一种种零零件件,根根据据经经验验知知道道,该该厂厂加加工工零零件件的的椭椭圆圆度度近近似似服服从从正正态态分分布布,其其总总体体均均值值为为 0 0=0.081mm=0.081mm,总总体体标标准准差差为为 = 0.025 。今今换换一一种种新新机机床床进进行行加加工
103、工,抽抽取取n n=200=200个个零零件件进进行行检检验验,得得到到的的椭椭圆圆度度为为0.076mm0.076mm。试试问问新新机机床床加加工工零零件件的的椭椭圆圆度度的的均均值值与与以以前前有无显著差异?(有无显著差异?( 0.050.05)双侧检验双侧检验双侧检验双侧检验 2 已知均值的检验已知均值的检验H0: = 0.081H1: 0.081 = 0.05n = 200临界值临界值(s):检验统计量检验统计量检验统计量检验统计量: :Z Z0 01.961.96-1.96-1.96.025.025拒绝拒绝拒绝拒绝 H H0 0拒绝拒绝拒绝拒绝 H H0 0.025.025决策决策决
104、策决策: :结论结论结论结论: : 在在在在 = 0.05= 0.05的水平上拒绝的水平上拒绝的水平上拒绝的水平上拒绝H H0 0有有有有证证证证据据据据表表表表明明明明新新新新机机机机床床床床加加加加工工工工的的的的零零零零件件件件的椭圆度与以前有显著差异的椭圆度与以前有显著差异的椭圆度与以前有显著差异的椭圆度与以前有显著差异一个总体成数检验一个总体成数检验1.1.假定条件假定条件有两类结果有两类结果总体服从二项分布总体服从二项分布可用正态分布来近似可用正态分布来近似2.2.成数检验的成数检验的 Z Z 统计量统计量p p0 0为假设的总体为假设的总体为假设的总体为假设的总体成数成数成数成数
105、一个总体成数成数的检验一一项项统统计计结结果果声声称称,某某市市老老年年人人口口(年年龄龄在在6565岁岁以以上上)的的比比重重为为14.714.7% %,该该市市老老年年人人口口研研究究会会为为了了检检验验该该项项统统计计是是否否可可靠靠,随随机机抽抽选选了了400400名名居居民民,发发现现其其中中有有5757人人年年龄龄在在6565岁岁以以上上。调调查查结结果果是是否否支支持持该该市市老老年年人人口口比比重重 为为 14.7%14.7%的的 看看 法法 ? ( = 0.05)双侧检验双侧检验双侧检验双侧检验一个总体成数成数的检验H0: p = 14.7%H1: p 14.7% = 0.05n = 400临界值临界值(s):检验统计量检验统计量检验统计量检验统计量: :在在在在 = 0.05= 0.05的水平上接受的水平上接受的水平上接受的水平上接受H H0 0该市老年人口比重为该市老年人口比重为该市老年人口比重为该市老年人口比重为14.7%14.7%决策决策决策决策: :结论结论结论结论: :Z Z0 01.961.96-1.96-1.96.025.025拒绝拒绝 H H0 0拒绝拒绝 H H0 0.025.025假设检验中的其他问题假设检验中的其他问题用置信区间进行检验用置信区间进行检验利用利用P - 值进行检验值进行检验