首饰足金统计实务

上传人:cl****1 文档编号:590427578 上传时间:2024-09-14 格式:PPT 页数:108 大小:2.10MB
返回 下载 相关 举报
首饰足金统计实务_第1页
第1页 / 共108页
首饰足金统计实务_第2页
第2页 / 共108页
首饰足金统计实务_第3页
第3页 / 共108页
首饰足金统计实务_第4页
第4页 / 共108页
首饰足金统计实务_第5页
第5页 / 共108页
点击查看更多>>
资源描述

《首饰足金统计实务》由会员分享,可在线阅读,更多相关《首饰足金统计实务(108页珍藏版)》请在金锄头文库上搜索。

1、第二章 统计数据的搜集与整理v第一节 统计调查v一、统计调查的要求一、统计调查的要求统计调查是根据统计研究的目的,向调查单位搜集统计资料的过程搜集统计资料的过程。 原始资料:未经加工整理 ,只能说明个体特征。 次级资料:经过加工整理,一定程度能说明总体特征。 统计调查的要求:调查资料二、统计调查的种类v(一)按调查对象包括的(一)按调查对象包括的范围不同范围不同,分为,分为全面调查和非全面调查全面调查和非全面调查全面调查:对总体中的所有总体单位进行调查。全面调查:对总体中的所有总体单位进行调查。例如,人口普查。例如,人口普查。非全面调查:只调查总体中的一部分总体单位。非全面调查:只调查总体中的

2、一部分总体单位。例如,抽样调查例如,抽样调查。v(二)按调查登记的(二)按调查登记的时间是否连续时间是否连续,分为,分为经常性调查和一次性调查。经常性调查和一次性调查。经常性调查:对总体的状况进行连续不断的登记。经常性调查:对总体的状况进行连续不断的登记。一次性调查:对总体的状况间隔一段时间调查一次。一次性调查:对总体的状况间隔一段时间调查一次。v(三)按调查的(三)按调查的组织方式的不同组织方式的不同,分为,分为统计报表和专门调查。统计报表和专门调查。 统计报表是国家统计系统和各个业务部门为了定期取得全面的统计统计报表是国家统计系统和各个业务部门为了定期取得全面的统计资料而采用的一种调查方式

3、资料而采用的一种调查方式 。 专门调查是指为了了解和研究某种情况或某项问题而专门组织的调查专门调查是指为了了解和研究某种情况或某项问题而专门组织的调查。 针对时期现象针对时点现象v 统计调查的分类不是互相排斥的,而是从不同角度对同一调查进行不同的分类,它们是相互联系、相互交叉的 。例如普查是一种专门组织的调查,又是一次性的调查,也是全面的调查。 v全面调查 由调查经费 、调查期限决定v非全面调查v经常性调查 由所调查指标的时间特征决定v一次性调查三、统计调查方案设计三、统计调查方案设计v(一)确定调查的任务和目的。(一)确定调查的任务和目的。v(二)确定调查对象和调查单位。(二)确定调查对象和

4、调查单位。 v(三)拟定调查提纲和编制调查表。(三)拟定调查提纲和编制调查表。 单一表单一表 :一份表上只登记一个调查单位的调查项目:一份表上只登记一个调查单位的调查项目 调查表调查表 一览表:一份调查表同时登记若干个调查单位的调查项目一览表:一份调查表同时登记若干个调查单位的调查项目 v(四)确定调查的方式和方法(四)确定调查的方式和方法v(五)确定调查时间和调查期限:(五)确定调查时间和调查期限:调查时间是调查资料所属的时间;调调查时间是调查资料所属的时间;调 查期限是调查工作的起至时间。查期限是调查工作的起至时间。v(六)制定调查的组织实施计划(六)制定调查的组织实施计划总总 体体总体单

5、位总体单位四、统计调查组织形式四、统计调查组织形式v(一)统计报表(一)统计报表 统计报表是按照国家相关法律的规定,按照统一的表式、统一的指统计报表是按照国家相关法律的规定,按照统一的表式、统一的指标、统一的报送时间和报送程序自上而下统一布置,自下而上地逐级定标、统一的报送时间和报送程序自上而下统一布置,自下而上地逐级定期提供基本统计资料的一种调查方式。期提供基本统计资料的一种调查方式。v统计报表的种类:统计报表的种类:l按调查范围不同,统计报表可以分为全面统计报表和非全面统计报表。按调查范围不同,统计报表可以分为全面统计报表和非全面统计报表。l按报送时间不同,统计报表可以分为日报、旬报、月报

6、、季报、半年报按报送时间不同,统计报表可以分为日报、旬报、月报、季报、半年报和年报统计报表和年报统计报表 。l按报送范围不同,统计报表可以分为国家报表、部门报表、地方报表。按报送范围不同,统计报表可以分为国家报表、部门报表、地方报表。l按填报单位不同,统计报表可以分为基层报表和综合报表。按填报单位不同,统计报表可以分为基层报表和综合报表。(二)普查v概念:普查是专门组织的一次性的全面调查。v特点:1、普查是一次性的定期调查 。一般要规定统一的标准时间 。如 我国第五次人口普查的标准时间为2000年11月1日0时 。 2、普查是一种全面调查 。它比其他任何一种调查形式更能掌握大量、详细、全面的统

7、计资料。花费的人力、物力很大。 3、普查是专门组织的调查,所以其数据一般比较准确,规范化程度也较高 。搜集有关国情、搜集有关国情、国力的基本数据国力的基本数据(三)重点调查(三)重点调查v概念:只对总体中的重点单位进行调查。v 单位数少单位数少 v 调查的标志值在总体标志总量中占有很大的比重调查的标志值在总体标志总量中占有很大的比重 v(四)典型调查(四)典型调查v概念:有意识地从总体中选出少数几个具有代表性的典型单位进行深入细致的调查研究 。适宜变量值分布极适宜变量值分布极不均衡的总体不均衡的总体凭主观抽取凭主观抽取调查单位调查单位(五)抽样调查(五)抽样调查v概念:概念: 按照随机原则从总

8、体中抽取一部分单位作为样本,并根据样本按照随机原则从总体中抽取一部分单位作为样本,并根据样本 指标数值推算总体指标数值的调查方式。指标数值推算总体指标数值的调查方式。v特点:特点: 1、样本单位是按随机原则抽取的。、样本单位是按随机原则抽取的。 2、要用样本数据推算总体数据。、要用样本数据推算总体数据。 3、抽样误差可以计算并事先计算并加以控制。、抽样误差可以计算并事先计算并加以控制。v适用范围适用范围 : 1、对一些不可能或不必要进行全面调查的客观现象。、对一些不可能或不必要进行全面调查的客观现象。 2、对普查资料进行必要的修正。、对普查资料进行必要的修正。 3、抽样调查可以用于工业生产过程

9、的质量控制。、抽样调查可以用于工业生产过程的质量控制。 4、利用抽样调查还可以对总体的某种假设进行检验、利用抽样调查还可以对总体的某种假设进行检验 抽样调查的组织方式抽样调查的组织方式v1、简单随机抽样按随机原则直接从总体N个单位中抽取n个单位作为样本,保证总体中每个单位在抽选时都有同等的中选机会。v2、分层随机抽样先对总体各单位按主要标志加以分组,然后再从各组中按随机原则抽取一定单位构成样本。v3、系统随机抽样是先将总体各单位按某一标志进行排队,然后按固定顺序和间隔来抽取样本。排队可按无关标志,也可按有关标志。例如,从200个单位中抽取10个单位,间隔为20(200/10)即将200个单位1

10、0等份,每等份抽取1个单位,从第一等份中随机抽取1个单位,以后的样本单位均按等距抽取。v 4、整群随机抽样是先将总体分成若干群,然后以群为单位从中随机抽取若干群,对中选群的全部单位进行全面调查 。 抽样调查的组织方式简单随机抽样分层抽样等距抽样整群抽样先分群,以群为单位随机抽取先排队,按固定间隔抽取先分组,从各组中随机抽取事先不做任何加工直接抽取 全面统计报表全面统计报表 (定期、全面调查) 全面调查全面调查 普查普查 (全面、一次性、专门调查)统计调查的组织方式统计调查的组织方式 抽样调查抽样调查 (随机抽取调查单位) 典型调查典型调查 非全面调查非全面调查 (凭主观抽取调查单位) 重点调查

11、重点调查 (只调查重点单位)五、统计调查的具体方法五、统计调查的具体方法v(一)直接观察法(一)直接观察法调查者到现场直接对调查对象进行观察、计数、计量。资料较准确、生动,但需调查者到现场直接对调查对象进行观察、计数、计量。资料较准确、生动,但需要花费较大的人力、财力和时间要花费较大的人力、财力和时间 。v(二)采访法(二)采访法采访法是指调查者向被调查者询问,根据被询问者的答复来搜集资料的一种调查方法。包采访法是指调查者向被调查者询问,根据被询问者的答复来搜集资料的一种调查方法。包括:口头询问法;括:口头询问法;问卷法问卷法;开调查会;电话调查;开调查会;电话调查 。问卷问卷是有问有答的调查

12、表,提问方式和提问次序是问卷设计应注意的问题。问卷的提问方是有问有答的调查表,提问方式和提问次序是问卷设计应注意的问题。问卷的提问方式包括式包括封闭式提问和开放式提问封闭式提问和开放式提问两种方式,问卷的提问次序应遵循两种方式,问卷的提问次序应遵循先易后难先易后难的原则。的原则。v(三)报告法(三)报告法调查单位向上报送统计资料的方法。如统计报表。调查单位向上报送统计资料的方法。如统计报表。 六、统计调查误差六、统计调查误差v统计调查误差是统计调查所得到的数据与客观真实数据之间的偏差。统计调查误差是统计调查所得到的数据与客观真实数据之间的偏差。v根据误差产生的原因不同,对统计调查误差可进行如下

13、分类:根据误差产生的原因不同,对统计调查误差可进行如下分类:登记性误差(计量、记录、计算等差错而引起的误差登记性误差(计量、记录、计算等差错而引起的误差 )系统性误差系统性误差代表性误差代表性误差(样本代表性不足)随机性误差(抽样误差)(样本代表性不足)随机性误差(抽样误差)统计调查误差统计调查误差第二节第二节 数据整理数据整理v一、什么是数据整理:数据资料的整理是指将统计调查所得到的原始资料进行科什么是数据整理:数据资料的整理是指将统计调查所得到的原始资料进行科学得分组和汇总,并用一定的方式将其显示出来,为统计分析推断提供系统化、学得分组和汇总,并用一定的方式将其显示出来,为统计分析推断提供

14、系统化、条理化的资料的过程。条理化的资料的过程。 v数据整理的步骤:数据整理的步骤:数据预处理、统计分组、汇总、显示。数据预处理、统计分组、汇总、显示。二、数据的预处理二、数据的预处理数据整理首先要对调查得到的数据进行审核,数据审核主要从数据整理首先要对调查得到的数据进行审核,数据审核主要从完整性完整性和和准确准确性性两个方面进行。两个方面进行。完整性审核主要是检查应调查的单位或个体是否有遗漏,所有完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全等。准确性审核主要是检查数据资料是否真实地的调查项目或指标是否填写齐全等。准确性审核主要是检查数据资料是否真实地反映

15、了客观实际情况,统计调查数据是否有错误,计算是否正确等。反映了客观实际情况,统计调查数据是否有错误,计算是否正确等。 数据审核的方法主要有数据审核的方法主要有逻辑检查逻辑检查和和计算检查计算检查两种方法。逻辑检查是定性角度审两种方法。逻辑检查是定性角度审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象。核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象。计算检查是检查调查表中的各项数据在计算结果和计算方法上有无错误。计算检查是检查调查表中的各项数据在计算结果和计算方法上有无错误。 三、统计分组三、统计分组v(一)统计分组的概念和作用(一)统计分组的概念和作

16、用统计分组统计分组是根据统计分析的目的和要求,按一定的标志将总体划分为是根据统计分析的目的和要求,按一定的标志将总体划分为若个不同的部分若个不同的部分。如人口按性别分为两组,学生按成绩分为五组。如人口按性别分为两组,学生按成绩分为五组。统计分组的作用:统计分组的作用:(1)区分社会经济现象的类型。一个总体往往包含很多个体,)区分社会经济现象的类型。一个总体往往包含很多个体,通过统计分组可将性质相同的个体归为一类,从而把不同的通过统计分组可将性质相同的个体归为一类,从而把不同的社会经济现象区分开来。社会经济现象区分开来。(2)反映和研究总体的内部构成。通过统计分组后,计算各)反映和研究总体的内部

17、构成。通过统计分组后,计算各组成部分的总量占总体总量的比重,从而反映总体的内部构组成部分的总量占总体总量的比重,从而反映总体的内部构成状成状(3)分析研究现象之间的依存关系。如将居民按收入分组,)分析研究现象之间的依存关系。如将居民按收入分组,并计算各组的消费支出,可看出收入与消费支出的依存关系。并计算各组的消费支出,可看出收入与消费支出的依存关系。(二)统计分组的原则与类型(二)统计分组的原则与类型v1统计分组的原则统计分组的原则(1)完备性原则:总体中的任何一个个体都有组可归)完备性原则:总体中的任何一个个体都有组可归 。(2)互斥性原则)互斥性原则 :每个个体只能划归其中的一个组中。每个

18、个体只能划归其中的一个组中。概括地讲进行统计分组时,要使总体中的每个个体都概括地讲进行统计分组时,要使总体中的每个个体都有组可归,而且只能归入其中一个组。即采取有组可归,而且只能归入其中一个组。即采取“不重不漏不重不漏”的原则。的原则。v2、分组的类型、分组的类型 按分组标志的选择不同,统计分组可分为品质标志分组与数量标志分组两按分组标志的选择不同,统计分组可分为品质标志分组与数量标志分组两种形式。种形式。(1)品质标志分组的组数和组限比较容易划定。有多少个标志表现就可划)品质标志分组的组数和组限比较容易划定。有多少个标志表现就可划分为多少个组分为多少个组 。对一些品质标志,其标志表现大众熟知

19、,如性别、民族对一些品质标志,其标志表现大众熟知,如性别、民族等,相应的组数和组限很容易划定;而对于另一些品质标志如行业、职等,相应的组数和组限很容易划定;而对于另一些品质标志如行业、职业,可从国家统计局制定了统一的分类目录中查询,如业,可从国家统计局制定了统一的分类目录中查询,如 国民经济行业国民经济行业分类目录分类目录、职业分类目录职业分类目录、产品分类目录产品分类目录等。等。 不遗漏不重复(2)数量标志分组的组数和各组界限v按数量标志分组时,组数和各组界限都较复杂,需要人为地确定。按数量标志分组时,组数和各组界限都较复杂,需要人为地确定。数量标志分组有两种形式:数量标志分组有两种形式:v

20、(1)单项式分组。单项式分组是每个组的组别只用一个变量值表示的分组方式)单项式分组。单项式分组是每个组的组别只用一个变量值表示的分组方式 。即每遇到一个不同的变量值单独列组。即每遇到一个不同的变量值单独列组。v(2)组距式分组。组距式分组是指每个组用表示一定变动范围的两个变量值表)组距式分组。组距式分组是指每个组用表示一定变动范围的两个变量值表示,即将数量标志的取值范围划分成若干个区间示,即将数量标志的取值范围划分成若干个区间 。如职工按工资分组如下:。如职工按工资分组如下:800900,9001000,10001100,11001200。在组距式分组中,每组最大。在组距式分组中,每组最大的变

21、量值叫该组的上限,最小的变量值叫该组下限,如上述工资分组中第一组的的变量值叫该组的上限,最小的变量值叫该组下限,如上述工资分组中第一组的上限上限900,下限,下限800。组距上限下限组距上限下限 组距式分组又可分为等距分组与异距分组两种。组距式分组又可分为等距分组与异距分组两种。 统计分组品质标志分组数量标志分组单项式分组组距式分组等距分组异距分组3、分组体系、分组体系v对同一个总体采用两个或两个以上的分组标志进行一系列分对同一个总体采用两个或两个以上的分组标志进行一系列分组所形成的体系称为分组体系。分组体系可分为平行分组体组所形成的体系称为分组体系。分组体系可分为平行分组体系和复合分组体系两

22、种类型。系和复合分组体系两种类型。v(1)平行分组体系。在同一个分组体系中,若将)平行分组体系。在同一个分组体系中,若将各个分组标志相互独立平行地进行分组,则这种分各个分组标志相互独立平行地进行分组,则这种分组体系称为平行分组体系。如将工人总体按性别分,组体系称为平行分组体系。如将工人总体按性别分,按工龄分,按工种分按工龄分,按工种分。v(2)复合分组体系。在一个分组体系中,若将各)复合分组体系。在一个分组体系中,若将各个分组标志层叠或交叉进行分组,则这种分组体系个分组标志层叠或交叉进行分组,则这种分组体系称为复合分组体系。称为复合分组体系。各分组之间相互独立各分组之间不独立四、次数分布四、次

23、数分布(一)次数分布的概念和类型(一)次数分布的概念和类型1、概念:、概念:按某种标志对总体进行分组后,就会形成总体单位数在各组之间的按某种标志对总体进行分组后,就会形成总体单位数在各组之间的分布,这就是次数分布。如某车间工人按性别分组如下:分组后就必然分布,这就是次数分布。如某车间工人按性别分组如下:分组后就必然会形成会形成50个总体单位在各组间的分布,这就是个总体单位在各组间的分布,这就是次数分布次数分布。次数次数:分布在各组的总体单位数。:分布在各组的总体单位数。频率频率:各组次数与总次数之比。:各组次数与总次数之比。次数分布数列次数分布数列:将各组组别与次数:将各组组别与次数依次排列所

24、形成的数列。依次排列所形成的数列。次数分布数列的要素:次数分布数列的要素:(1)组别组别(2)次数或频率次数或频率组别次数频率组别次数频率 按性别分按性别分人数人数比重比重男男300.6女女200.4合计合计5012、次数分布数列的类型、次数分布数列的类型v按选择的分组标志的不同,次数分布数列可分为属性分布数列和变量分按选择的分组标志的不同,次数分布数列可分为属性分布数列和变量分布数列两种。布数列两种。v属性分布数列是按品质标志分组形成的数列,简称品质数列。如上述按属性分布数列是按品质标志分组形成的数列,简称品质数列。如上述按性别分组形成的分布数列。性别分组形成的分布数列。v变量分布数列是按数

25、量标志分组形成的数列,简称变量数列。变量分布数列是按数量标志分组形成的数列,简称变量数列。由于按数量标志分组有单项式分组与组距式分组之分,变量由于按数量标志分组有单项式分组与组距式分组之分,变量数列也有单项式变量数列与组距式变量数列两种。单项式分数列也有单项式变量数列与组距式变量数列两种。单项式分组形成的数列叫单项式变量数列;组距式分组形成的数列叫组形成的数列叫单项式变量数列;组距式分组形成的数列叫组距式变量数列,组距式变量数列根据组距的不同又可分为组距式变量数列,组距式变量数列根据组距的不同又可分为等距数列和异距数列。等距数列和异距数列。 次数分布数列属性分布数列变量分布数列单项式数列组距式

26、数列等距数列不等距数列家庭人口数家庭人口数户数户数比重比重1252102532562.5437.5合计合计40100按工资分按工资分人数人数比重比重8009002018.190010003027.4100011004036.4110012002018.1合计合计110100 单项式数列等距数列按日产量分(件)按日产量分(件)人数人数比重比重7080820801001845100110123011012025合计合计40100异距数列v对于单项式数列和等距式数列可以通过比较各组次数或频率对于单项式数列和等距式数列可以通过比较各组次数或频率的大小,判断次数分布的疏与密的程度,次数或频率大的组,的大

27、小,判断次数分布的疏与密的程度,次数或频率大的组,分布就密集,次数或频率小的组,分布相对稀疏。分布就密集,次数或频率小的组,分布相对稀疏。v对于异距数列,由于各组的组距不完全相等,各组次数或频对于异距数列,由于各组的组距不完全相等,各组次数或频率的大小会受组距的影响,因此不能根据各组次数或频率的率的大小会受组距的影响,因此不能根据各组次数或频率的大小来判断分布的疏与密,为消除各组组距的影响,在分析大小来判断分布的疏与密,为消除各组组距的影响,在分析异距数列时异距数列时 ,需计算次数密度或频率密度,次数密度或频率,需计算次数密度或频率密度,次数密度或频率密度大的组,分布就密集。次数密度和频率密度

28、的计算公式密度大的组,分布就密集。次数密度和频率密度的计算公式如下:如下:v次数密度次数次数密度次数/组距;频率密度频率组距;频率密度频率/组距组距(二)次数分布数列的编制(二)次数分布数列的编制v等距式数列的编制的步骤:等距式数列的编制的步骤:1、确定组数。、确定组数。对于等距式分组,在实际应用时,一般按斯特格斯(对于等距式分组,在实际应用时,一般按斯特格斯(H.A.Sturges)提出的经验公式确定组数提出的经验公式确定组数K:2、确定各组的组距。、确定各组的组距。全距最大变量值最小变量值全距最大变量值最小变量值 一般情况下一般情况下d取取5或或10的倍数的倍数 为组数,N为总体单位数d为

29、组距,R为全距3、组限的确定和组中值的计算、组限的确定和组中值的计算 v1、若分组变量为连续型变量,相邻两个组的组限应采用重叠的变量值,、若分组变量为连续型变量,相邻两个组的组限应采用重叠的变量值,同时为遵循互斥性原则,在按组归类整理时,遵循同时为遵循互斥性原则,在按组归类整理时,遵循“上限不在内原则上限不在内原则”。v2、若分组变量为离散型变量,相邻两组的组限可以重叠也可以不重叠,、若分组变量为离散型变量,相邻两组的组限可以重叠也可以不重叠,若重叠仍然采用若重叠仍然采用“上限不在内上限不在内”的原则进行归类整理。的原则进行归类整理。v3、区分事物质的差别的数量界限应作为组限。、区分事物质的差

30、别的数量界限应作为组限。v4、首末组的组限可以略大于最大变量值或略小于最小变量值。、首末组的组限可以略大于最大变量值或略小于最小变量值。v5、组中值:组中值是组距式分组中各组变量值的代表值,用来代表各组、组中值:组中值是组距式分组中各组变量值的代表值,用来代表各组变量值的一般水平,所以每组上限与下限的中点数值称为该组的组中值。变量值的一般水平,所以每组上限与下限的中点数值称为该组的组中值。用组中值作为各组变量值一般水平的代表值,有一个必要的假定条件,用组中值作为各组变量值一般水平的代表值,有一个必要的假定条件,即各组数据在本组内呈均匀分布或对称分布。即各组数据在本组内呈均匀分布或对称分布。对于

31、开口组,通常假定开口组的组距与邻组组距相等,然后求得组中对于开口组,通常假定开口组的组距与邻组组距相等,然后求得组中值。值。4、各组次数或频率的计算、各组次数或频率的计算 v汇总各组次数与频率,将各组组别与各组次数一一对应排列,就得汇总各组次数与频率,将各组组别与各组次数一一对应排列,就得到所需的分布数列到所需的分布数列 。v有时为了统计分析的需要,还需计算累计次数和累计频率。根据累有时为了统计分析的需要,还需计算累计次数和累计频率。根据累计的方向不同可分为向上累计和向下累计。计的方向不同可分为向上累计和向下累计。v向上累计:从变量值小的组向变量值大的组累加。向上累计:从变量值小的组向变量值大

32、的组累加。v向下累计:从变量值大的组向变量值小的组累加。向下累计:从变量值大的组向变量值小的组累加。按日产量(件)按日产量(件)工人数工人数向上累计次数向上累计次数向下累计次数向下累计次数70803030130809050801009010040120501001101013010合计合计130第三节数据资料的显示第三节数据资料的显示v一、统计表一、统计表统计表是用于显示统计数据的表格。其构成包括:总标题、统计表是用于显示统计数据的表格。其构成包括:总标题、横行标题、纵栏标题、数据资料、表末附注。横行标题、纵栏标题、数据资料、表末附注。v二、统计图二、统计图1、直方图、直方图2、折线图、折线图

33、3、曲线图、曲线图4、茎叶图、茎叶图第三章第三章 数据分布特征的描述数据分布特征的描述l总量指标和相对指标总量指标和相对指标l 集中趋势测度集中趋势测度l离散趋势的测度离散趋势的测度l偏态和峰度的测定偏态和峰度的测定第一节总量指标和相对指标第一节总量指标和相对指标v一、总量指标一、总量指标v(一)概念:总量指标是反映总体总规模或总水平的指标,例如国内生产总值、(一)概念:总量指标是反映总体总规模或总水平的指标,例如国内生产总值、全国人口数、粮食总产量、工业总产值等指标都是总量指标。全国人口数、粮食总产量、工业总产值等指标都是总量指标。v(二)种类:(二)种类:1、按反映总体内容的不同,可分为标

34、志总量和总体单位总量。、按反映总体内容的不同,可分为标志总量和总体单位总量。标志总量是标志值之和;总体单位总量是总体单位的总个数。标志总量是标志值之和;总体单位总量是总体单位的总个数。2、按其反映的时间状况的不同,总量指标可分为时点指标和时期指标。、按其反映的时间状况的不同,总量指标可分为时点指标和时期指标。时点指标,也称存量指标,它反映总体在某一瞬间的现存总量。时点指标,也称存量指标,它反映总体在某一瞬间的现存总量。时期指标也叫流量指标,它是反映总体在一段时期内的累计总量。时期指标也叫流量指标,它是反映总体在一段时期内的累计总量。 相加后无意义相加后无意义一次性调查取得一次性调查取得与间隔长

35、短无关与间隔长短无关与间隔长短有关与间隔长短有关经常性调查取得经常性调查取得可相加可相加3、按其表现形式不同,可分为实物指标与价值指标。、按其表现形式不同,可分为实物指标与价值指标。实物指标用实物单位计量。实物计量一般有自然单位计量、实物指标用实物单位计量。实物计量一般有自然单位计量、度量衡单位、标准实物单位三种计量形式。度量衡单位、标准实物单位三种计量形式。价值指标是指用货币单位来计量的总量指标。价值指标是指用货币单位来计量的总量指标。二、相对指标二、相对指标相对指标是两个有联系的统计指标对比形成的比率相对指标是两个有联系的统计指标对比形成的比率 。1、计划完成程度相对指标计划完成程度相对指

36、标2、结构相对数、结构相对数 v3、比例相对数、比例相对数v4、比较相对数、比较相对数v5、强度相对指标、强度相对指标强度相对数某一总量指标值强度相对数某一总量指标值/另一性质不同但有联系的指标值另一性质不同但有联系的指标值v6、动态相对指标、动态相对指标第二节第二节 集中趋势测度集中趋势测度v平均指标是变量值一般水平的代表值,它反映变量值集中趋势平均指标是变量值一般水平的代表值,它反映变量值集中趋势。v常用的平均指标有算术平均数、调和平均数、几何平均数、中位数和众数常用的平均指标有算术平均数、调和平均数、几何平均数、中位数和众数五种五种 。v一、算术平均数(一、算术平均数(Arithmeti

37、c mean)v算术平均数是描述集中趋势最常用的指标。其基本公式是:算术平均数是描述集中趋势最常用的指标。其基本公式是:v根据掌握的资料的不同,算术平均数有简单算术平均数和加权算术平均数两根据掌握的资料的不同,算术平均数有简单算术平均数和加权算术平均数两种。种。1、简单算术平均数(、简单算术平均数(Simple mean)针对未分组资料)针对未分组资料例例如如8个个工工人人的的日日产产量量(件件)为为:20,21,22,23,24,25,26,27,其其平均日产量为(平均日产量为(2021+27)/8=23.5(件(件)这就是简单算术平均数。这就是简单算术平均数。公公式式:设设总总体体中中有有

38、N个个个个体体,各各个个个个体体的的标标志志值值为为X1,X2,X3,Xn ,若若用代表算术平均数,则其计算公式为:用代表算术平均数,则其计算公式为:2、加权算术平均数(Weighted mean)针对分组资料v例、根据下表资料计算工人的平均日产量。例、根据下表资料计算工人的平均日产量。平均日产量(平均日产量(32103518382)/3034.2(件)(件)此平均数就是加权算术平均数,工人数即为权数,加权算术平均数的大小受此平均数就是加权算术平均数,工人数即为权数,加权算术平均数的大小受两个因素的影响:两个因素的影响:一是被平均的变量值;二是权数。一是被平均的变量值;二是权数。权数的作用体现

39、在:权数的作用体现在:那个组的权数较大,那个组的变量值在平均数中起的作用就大,计算出那个组的权数较大,那个组的变量值在平均数中起的作用就大,计算出的平均数就比较靠近该组的变量值。的平均数就比较靠近该组的变量值。按日产量分(件)按日产量分(件)工人数工人数32103518382合计合计30此平均数受此平均数受日产量和工日产量和工人数两个因人数两个因素的影响素的影响v公式:公式:1.用用X1,X2,X3,XK代表各组的变量值;用代表各组的变量值;用F1,F2,F3,FK代表各组的次数,则算术平均数的计算公式可写为:代表各组的次数,则算术平均数的计算公式可写为:v2.加权算术平均数也可以用频率做权数

40、,其公式为:加权算术平均数也可以用频率做权数,其公式为:v若上例以工人数比重为权数,平均日产量若上例以工人数比重为权数,平均日产量320.33350.6380.0734.2(件)(件)v例:某车间工人按工资分组如下:例:某车间工人按工资分组如下:v以上分组为组距式分组,组距式分组要用组中值代表被平均的变量值。以上分组为组距式分组,组距式分组要用组中值代表被平均的变量值。v即平均工资(即平均工资(8502095030105040115020)/110v1004.55(元)(元)按工资分按工资分工人数工人数比重比重8009002018.190010003027.4100011004036.4110

41、012002018.1合计合计1101003、算术平均数的性质和特点、算术平均数的性质和特点v(1)各变量值与其均值的离差之和等于零,即:)各变量值与其均值的离差之和等于零,即:v这一性质说明了算术平均数是变量数列的分布中心。这一性质说明了算术平均数是变量数列的分布中心。v(2)各变量值与其均值的离差平方和最小,即:)各变量值与其均值的离差平方和最小,即:v该性质说明,在所有平均指标中,算术平均数与各个变量值的离差平方和最小。该性质说明,在所有平均指标中,算术平均数与各个变量值的离差平方和最小。从这一点看,算术平均数是误差最小的一般水平的代表值。从这一点看,算术平均数是误差最小的一般水平的代表

42、值。v(3)算术平均值易受极端数值的影响。)算术平均值易受极端数值的影响。二、调和平均数二、调和平均数v调和平均数又称调和平均数又称“倒数平均数倒数平均数”,它是变量数列中各变量值倒数的算术平均数的,它是变量数列中各变量值倒数的算术平均数的倒数。倒数。v根据掌握的资料的不同,调和平均数有简单调和平均数和加权调和平均数两种。根据掌握的资料的不同,调和平均数有简单调和平均数和加权调和平均数两种。v1、简单调和平均数、简单调和平均数若,为被平均的变量值,为调和平均数若,为被平均的变量值,为调和平均数则则=v2、加权调和平均数、加权调和平均数设设X1,X2,X3,XK代表各组的变量值,代表各组的变量值

43、,m1,m2,m3,mK代表相应的权数,即各组代表相应的权数,即各组标志总量。若用表示调和平均数,则其计算公式为:标志总量。若用表示调和平均数,则其计算公式为: v3、相对数(或平均数)的平均数、相对数(或平均数)的平均数调和平均数一般是作为算术平均数的变形使用。因为调和平均数本调和平均数一般是作为算术平均数的变形使用。因为调和平均数本质上仍然是标志总量除以总体单位总量,只是已知的资料不同。质上仍然是标志总量除以总体单位总量,只是已知的资料不同。例:根据例:根据A表和表和B表资料计算平均产值计划完成程度。表资料计算平均产值计划完成程度。表表A 平均产值计划完成程度平均产值计划完成程度总实际产值

44、总实际产值/总计划产值总计划产值(851200957000105110001154800)/24000103.1按产值计划完成程度分()按产值计划完成程度分()计划产值(万元)计划产值(万元)80901200901007000100110110001101204800合计合计24000加权算术平均加权算术平均按产值计划完成程度分按产值计划完成程度分()()实际产值(万实际产值(万元)元)80901020901006650100110115501101205520合计合计24740加权调和平均加权调和平均平均产值计划完成程度总实际产值平均产值计划完成程度总实际产值/总计划产值总计划产值103.1

45、三、几何平均数(三、几何平均数(Geometric mean)v几何平均数是几何平均数是n个变量值连乘积的个变量值连乘积的n次方根次方根 。v根据掌握的资料不同,几何平均数有简单几何平均数和加权几何平均数两种。根据掌握的资料不同,几何平均数有简单几何平均数和加权几何平均数两种。v1、简单几何平均数、简单几何平均数针对未分组资料针对未分组资料简单几何平均数适用于未分组资料计算平均速度和某些平均比率。设总体简单几何平均数适用于未分组资料计算平均速度和某些平均比率。设总体中有中有N个个体,各个个体的标志值为个个体,各个个体的标志值为X1,X2,X3,XN,若用,若用G代表几何平均代表几何平均数,则其

46、计算公式为:数,则其计算公式为:v2、加权几何平均数、加权几何平均数针对分组资料针对分组资料v加权几何平均数适用于分组资料计算平均速度和某些平均比率。设加权几何平均数适用于分组资料计算平均速度和某些平均比率。设X1,X2,X3,XN,代表各组的变量值,代表各组的变量值,F1,F2,F3,FN代表相应的权数,则其加代表相应的权数,则其加权几何平均数为:权几何平均数为:v【例例】某企业生产某种产品要经过三个连续作业车间才能完成。若某月某企业生产某种产品要经过三个连续作业车间才能完成。若某月第一车间粗加工产品的合格率为第一车间粗加工产品的合格率为97,第二车间精加工产品的合格率为,第二车间精加工产品

47、的合格率为91%,第三车间最后装配的合格率为,第三车间最后装配的合格率为89%,计算三个车间的平均合格率,计算三个车间的平均合格率为多少?为多少?v几何平均数的应用范围较窄,只有当变量值的连乘几何平均数的应用范围较窄,只有当变量值的连乘积等于总比率、总速度时,求平均比率、平均速度积等于总比率、总速度时,求平均比率、平均速度才用几何平均数才用几何平均数 。四、中位数四、中位数v(一)概念(一)概念v中位数是位置平均数,若将变量值按大小顺序排列,处于中点位置的变中位数是位置平均数,若将变量值按大小顺序排列,处于中点位置的变量值即为中位数。中位数不受极端数值的影响量值即为中位数。中位数不受极端数值的

48、影响 。v(二)由未分组资料确定中位数(二)由未分组资料确定中位数1、将变量值按大小顺序排列。、将变量值按大小顺序排列。2、确定中位数的位置:中间项、确定中位数的位置:中间项(n+1)/23、确定中位数、确定中位数(1)变量数列的项数为奇数:中间项对应的变量值即中位数。)变量数列的项数为奇数:中间项对应的变量值即中位数。例:五个企业的利润(万元)为:例:五个企业的利润(万元)为:5,6,8,10,12,则,则利润额的中位数利润额的中位数8(万元)(万元)(2)变量数列的项数为偶数:中间两项的算术平均数为中位数。)变量数列的项数为偶数:中间两项的算术平均数为中位数。例六个企业的利润(万元)为:例

49、六个企业的利润(万元)为: 5,6,8,10,12,13,则,则利润额的中位数(利润额的中位数(810)/29(万元)(万元)(三)由分组资料确定中位数(三)由分组资料确定中位数日产量(件)日产量(件)工人数工人数向上累计向上累计向下累计向下累计308830331018223572512385305合计合计30v1、由单项式数列计算中位数、由单项式数列计算中位数 。v首先找出中位数所在组,即用首先找出中位数所在组,即用( f+1)/2确定中位数位置,并计算向确定中位数位置,并计算向上累计次数或向下累计次数,累计次数达到上累计次数或向下累计次数,累计次数达到( f +1)/2的组即为中位的组即为

50、中位数所在组,中位数所在组对应的变量值即为中位数。数所在组,中位数所在组对应的变量值即为中位数。v例例:根据下表资料确定日产量的中位数。根据下表资料确定日产量的中位数。中间项中间项31/215.5即中位数是第即中位数是第15项和第项和第16项的平均数。项的平均数。由累计次数可知:中位由累计次数可知:中位数在第二组,所以日产量数在第二组,所以日产量的中位数为的中位数为33件。件。2、由组距式数列计算中位数由组距式数列计算中位数 (1)确定中位数所在的组。即用)确定中位数所在的组。即用( +1)/2确定中位数位置,并计算向上累计确定中位数位置,并计算向上累计次数或向下累计次数,累计次数达到次数或向

51、下累计次数,累计次数达到( +1)/2的组即为中位数所在组。的组即为中位数所在组。(2)然后用下面的公式近似然后用下面的公式近似计算中位数的算中位数的值:式中,式中,L为中位数所在组的下限,为中位数所在组的下限,U为中位数所在组的上限;为中位数所在组的上限;Sm-1为中位数所在组以为中位数所在组以下各组的累计次数或频率,下各组的累计次数或频率,Sm+1为中位数所在组以上各组的累计次数或频率,为中位数所在组以上各组的累计次数或频率,fm为中位数所在组的次数或频率,为中位数所在组的次数或频率,d为组距。为组距。 已知频率已知频率已知已知次数次数v例例 某校某校3000名学生的月消费额资料如下,确定

52、月消费额的中位数。名学生的月消费额资料如下,确定月消费额的中位数。月消费(元)月消费(元) 人数人数向上累向上累计计向下累向下累计计500-6002402403000600-7004807202760700-800105017702280800-90060023701230900-100027026406301000-110021028503601100-120012029701501200-130030300030合计合计3000中间项(中间项(30001)/21500.5由累计次数可知:中位数在第三组,即由累计次数可知:中位数在第三组,即700-800之间。之间。由中位数公式可计算:由中位

53、数公式可计算:五、众数(五、众数(Mode)v众数是变量数列中出现密度最大的变量值,众数也是分布密度曲线众数是变量数列中出现密度最大的变量值,众数也是分布密度曲线的高峰位置对应的变量值,是反映分布中心的指标。根据数据分布特点的高峰位置对应的变量值,是反映分布中心的指标。根据数据分布特点的不同,众数可以不存在,可以有一个,也可以有多个。的不同,众数可以不存在,可以有一个,也可以有多个。v对于未分组资料直接根据概念就可确定众数。如对于未分组资料直接根据概念就可确定众数。如六个企业的利润(万六个企业的利润(万元)为:元)为:5,6,8,8,10,12,则众数为,则众数为8。v 对于单项式数列,次数最

54、大的组为众数组,众数组对应的变量值即众对于单项式数列,次数最大的组为众数组,众数组对应的变量值即众数。数。v对于组距式数列对于组距式数列:1 .确定众数组。次数密度或频率密度最大的组为确定众数组。次数密度或频率密度最大的组为众数组。众数组。2.然后用下面的公式近似然后用下面的公式近似计算中位数的算中位数的值: 式中,式中,M0为众数;为众数;L为众数组为众数组的下限;的下限;U为众数组的上限;为众数组的上限;d为众数组的组距;为众数组的组距;f为众数组的为众数组的次数密度或频率密度;次数密度或频率密度;f+1为众为众数组上一组的次数密度或频率数组上一组的次数密度或频率密度;密度;f-1为众数组

55、下一组的次为众数组下一组的次数密度或频率密度。数密度或频率密度。月消费(元)月消费(元)人数人数500-600240600-700480700-8001050800-900600900-10002701000-11002101100-12001201200-130030合计合计3000例某校例某校3000名学生的月消费额资料如下,确定月消费额的众数。名学生的月消费额资料如下,确定月消费额的众数。首先,确定众数组。首先,确定众数组。700-800组组的密度最大,所以的密度最大,所以700-800组为组为众数组。众数组。由众数公式可计算:由众数公式可计算:755.9元元六、众数、中位数和均值的比较

56、众数、中位数和均值的比较v1如果数据的分布是对称的,则众数、中位数、和均值完全相等,即有:如果数据的分布是对称的,则众数、中位数、和均值完全相等,即有:v2、如果数据是左偏分布(分布密度曲线的尖峰位于变量较大值的一边),、如果数据是左偏分布(分布密度曲线的尖峰位于变量较大值的一边),三者之间的关系表现为:三者之间的关系表现为:v3、如果数据是右偏分布,、如果数据是右偏分布, 则有:则有: 三者的关系可用下图表示:三者的关系可用下图表示:v4当数据分布的偏斜程度不是很大时,算术平均数到众数的距离是算术当数据分布的偏斜程度不是很大时,算术平均数到众数的距离是算术平均数到中位数距离的平均数到中位数距

57、离的3倍。即:倍。即:第三节第三节 离散趋势的测度离散趋势的测度v离散指标是反映变量值差异程度的指标。离散指标是反映变量值差异程度的指标。v作用作用 1、反映变量值的离散趋势。、反映变量值的离散趋势。 2、离散指标是衡量平均数代表性的尺度。离散指标、离散指标是衡量平均数代表性的尺度。离散指标值越小,平均数的代表性就越好值越小,平均数的代表性就越好 。 3、变异指标可以表明现象的均衡性、变异指标可以表明现象的均衡性 v 常用的离散指标有:极差、四分位差、平均差、方差常用的离散指标有:极差、四分位差、平均差、方差和标准差、离散系数等。和标准差、离散系数等。v一、极差(一、极差(Range)v极差也

58、叫全距,是一组数据的最大值与最小值之差。极差也叫全距,是一组数据的最大值与最小值之差。v极差越大,表明变量的变动范围越大,即离散程度越大。极差越大,表明变量的变动范围越大,即离散程度越大。v组距式数列的极差组距式数列的极差=最高组上限最高组上限-最低组下限最低组下限粗略反映粗略反映离散程度离散程度二、四分位差(内距)二、四分位差(内距)v四分位差是上四分位数与下四分位数之差。四分位差是上四分位数与下四分位数之差。v将变量值按大小顺排列,然后分为四等份,得到三个四分点,四分点对应的变量将变量值按大小顺排列,然后分为四等份,得到三个四分点,四分点对应的变量值为四分位数,靠近变量值大的一端的四分位数

59、叫上四分位数,用值为四分位数,靠近变量值大的一端的四分位数叫上四分位数,用QU表示;靠表示;靠近变量值小的一端的四分位数叫下四分位数,用近变量值小的一端的四分位数叫下四分位数,用QL表示,若用表示,若用H表示四分位差,表示四分位差,则计算公式为:则计算公式为:v四分位差反映了中位数两侧中间一半数据的离散程度。四分位差反映了中位数两侧中间一半数据的离散程度。v三、平均差三、平均差 v1、概念、概念 平均差是随机变量各个取值与其算术平均数的离差的绝对值的算术平均数。平均差是随机变量各个取值与其算术平均数的离差的绝对值的算术平均数。v 2、公式、公式 根据未分根据未分组资料组资料根据分根据分组资料组

60、资料四、标准差和方差四、标准差和方差v1、概念、概念 标准差是各变量值与其算术平均数离差平方的算术平均数的平方根。标准差是各变量值与其算术平均数离差平方的算术平均数的平方根。 2、公式、公式 例例 某公司五个企业的利润额(万元)为:某公司五个企业的利润额(万元)为:2,5,7,9,12,计算平均差和标准差。,计算平均差和标准差。根据未分根据未分组资料组资料根据分根据分组资料组资料=(2+5+7+9+12)/5=7=14/5=2.8(万元(万元)=3.41(万元万元)(万元)(万元)3、方差、方差 方差是标准差的平方。方差是标准差的平方。 根据未分根据未分组资料组资料根据分根据分组资料组资料由方

61、差的性质:由方差的性质:=根据未分根据未分组资料组资料根据分根据分组资料组资料按零件数分(个)按零件数分(个)人数人数 组中值组中值105-1103107.515.747.1246.49739.47110-1155112.510.753.5114.49572.45115-1208117.55.745.632.49259.92120-12514122.50.79.80.496.86125-13010127.54.34318.49184.9130-1356132.59.355.886.49518.94135-1404137.514.357.2204.49817.96合计合计503123100.5v

62、例例 根据以下资料计算平均差和标准差。根据以下资料计算平均差和标准差。平均平均 产量产量=6160/50=123.2(个)(个)Md=312/50=6.24(个)(个)五、离散系数五、离散系数v离散系数是反映变量值相对离散程度的指标。是反映变量值离散程度的绝对离散离散系数是反映变量值相对离散程度的指标。是反映变量值离散程度的绝对离散指标与其算术平均数的比率指标与其算术平均数的比率 。v极差系数:极差系数: 四分位差系数:四分位差系数:v平均差系数:平均差系数: 标准差系数:标准差系数:某大学文、理科学生数学统考的平均成绩某大学文、理科学生数学统考的平均成绩和标准差为:理科:平均分数和标准差为:

63、理科:平均分数 86 标准差标准差9 文科文科: 平均分数平均分数 71 标准差标准差8比较文理科学生平均成绩的代表性。比较文理科学生平均成绩的代表性。理科标准差系数理科标准差系数=9/86=10.47%文科标准差系数文科标准差系数=8/71=11.27%理科学生平均成绩代表性高。理科学生平均成绩代表性高。离散系数消除了离散系数消除了计量单位和计量单位和平均水平的影响平均水平的影响第四节偏态和峰度的测定第四节偏态和峰度的测定v 一、偏态系数(一、偏态系数(Skewness)v(一)经验测定法(一)经验测定法v经验测定法是利用平均数之间的关系来测定随机变量的偏斜状态的,有皮尔逊经验测定法是利用平

64、均数之间的关系来测定随机变量的偏斜状态的,有皮尔逊(KPearson)偏度系数和鲍莱()偏度系数和鲍莱(ALBowley)偏度系数。)偏度系数。v1、皮尔逊(、皮尔逊(KPearson)偏度系数)偏度系数v2、鲍莱(、鲍莱(A L Bowley)偏度系数)偏度系数取值在取值在-3+3之间之间取值在取值在-1+1之间之间(二)矩法偏度系数(二)矩法偏度系数v1、什么是矩?、什么是矩?v原点矩是随机变量取值原点矩是随机变量取值K次方的数学期望,称为次方的数学期望,称为K阶原点矩阶原点矩 。 未分组资料:未分组资料: 分组资料:分组资料: v 中心矩是随机变量各取值与数学期望离差的中心矩是随机变量各

65、取值与数学期望离差的K次方的数学期望,称为次方的数学期望,称为K阶阶中心矩。中心矩。未分组资料:未分组资料: 分组资料:分组资料: 2、矩法偏度系数、矩法偏度系数二、峰度系数二、峰度系数 为正表示正偏,为负表示负偏,绝为正表示正偏,为负表示负偏,绝对值越大,表示偏度越大对值越大,表示偏度越大峰度系数越大越尖峭,大峰度系数越大越尖峭,大于于3为尖峰分布为尖峰分布第四章第四章 抽样分布与参数估计抽样分布与参数估计l抽样分布抽样分布l抽样平均误差抽样平均误差l区间估计区间估计l样本容量的确定样本容量的确定第一节第一节 抽样及抽样分布抽样及抽样分布样本样本总体总体均值均值比例比例方差方差容量容量n N

66、v一、基本概念一、基本概念 总体参数:未知的待估计的总体指标值。记为总体参数:未知的待估计的总体指标值。记为 估计量估计量 : 用来估计总体指标数值的样本指标称为总体指标的估计量。用来估计总体指标数值的样本指标称为总体指标的估计量。 通常记为通常记为 常用的样本估计量与总体参数的表示符号如下表所示。常用的样本估计量与总体参数的表示符号如下表所示。重置抽样:有放回抽样重置抽样:有放回抽样不重置抽样:不放回抽样不重置抽样:不放回抽样相互相互独立独立不独不独立立v 抽样分布是样本估计量的概率分布。即由样本估计量的所有可能取值抽样分布是样本估计量的概率分布。即由样本估计量的所有可能取值及其相应概率组成

67、。及其相应概率组成。v例:设总体由例:设总体由4、5、6三个数字组成,从中抽取容量为三个数字组成,从中抽取容量为2的随机样本。试列的随机样本。试列出样本均值的抽样分布。出样本均值的抽样分布。 样本均值的抽样分布,与抽样的两种不同方式样本均值的抽样分布,与抽样的两种不同方式重置抽样和不重置抽样重置抽样和不重置抽样有关。在重置抽样情况下,样本可能数目为有关。在重置抽样情况下,样本可能数目为Nn=32=9在不重置抽样情况下,在不重置抽样情况下,样本可能数目为样本可能数目为ANn=A32=6,由于两种抽样方式下样本可能数目不同,因,由于两种抽样方式下样本可能数目不同,因此,样本均值的抽样分布也不同。以

68、下以重置抽样为例。此,样本均值的抽样分布也不同。以下以重置抽样为例。 对于重置抽样,全部可能样本分别为(对于重置抽样,全部可能样本分别为(4,4),(),(4,5),(),(4,6),),(5,4),(),(5,5),(),(5,6),(),(6,4),(),(6,5),(),(6,6),每),每个样本被抽到的概率相同,均为个样本被抽到的概率相同,均为1/9 。对于每个可能样本,均可计算出一。对于每个可能样本,均可计算出一个样本均值,并进一步可得样本均值的抽样分布如下所示。个样本均值,并进一步可得样本均值的抽样分布如下所示。 4 4.5 5 5.5 6 1/9 2/9 3/9 2/9 1/9v

69、1、样本均值的抽样分布、样本均值的抽样分布v(1)正态总体中样本均值的抽样分布)正态总体中样本均值的抽样分布 如果总体服从期望为如果总体服从期望为 ,方差为,方差为 的正态分布,从中抽取样本,无论样的正态分布,从中抽取样本,无论样本容量多大,则可以证明样本均值服从正态分布。即本容量多大,则可以证明样本均值服从正态分布。即N(E( ),Var( ))。简言之,正态总体中样本均值服从正态分布。)。简言之,正态总体中样本均值服从正态分布。 (2)大样本情形下样本均值的抽样分布)大样本情形下样本均值的抽样分布 中心极限定理:对于任意一个期望为中心极限定理:对于任意一个期望为 方差为方差为 的总体,当样

70、本容量的总体,当样本容量n足足够大够大 时,样本均值近似地服从期望为时,样本均值近似地服从期望为E( ), ,方差为,方差为Var( )的正态分布。的正态分布。 E( )=()重置抽重置抽样样不重置抽样不重置抽样v2、样本比例的抽样分布、样本比例的抽样分布v(1)什么是比例?)什么是比例? 将总体分成两部分,其中一部分占总体的比重。将总体分成两部分,其中一部分占总体的比重。 比例的本质是均值比例的本质是均值 ,是两点分布总体的均值。样本比例则是来自该总体,是两点分布总体的均值。样本比例则是来自该总体的样本均值。样本比例是随机变量。即对于两点分布总体:的样本均值。样本比例是随机变量。即对于两点分

71、布总体: = = (2)样本比例的抽样分布)样本比例的抽样分布 根据中心极限定理,从服从任意分布的总体中抽取样本,只要样本根据中心极限定理,从服从任意分布的总体中抽取样本,只要样本容量足够大,样本均值就近似地服从正态分布,显然在大样本情形下,容量足够大,样本均值就近似地服从正态分布,显然在大样本情形下,样本比例近似地服从正态分布,即样本比例近似地服从正态分布,即N(E( ),V( )。 E( )= V( )= V( )= 重置抽重置抽样样不重置抽样不重置抽样v3、样本方差的抽样分布、样本方差的抽样分布 若所考察的随机变量的分布为正态分布,即若所考察的随机变量的分布为正态分布,即XN( , ),

72、从),从该总体中抽取容量为的简单随机样本,则有该总体中抽取容量为的简单随机样本,则有第二节参数估计概述第二节参数估计概述一、参数估计的两种类型一、参数估计的两种类型v(一一)点估计点估计 如果根据样本资料给出总体参数的单一估计值,这种估计称为点估如果根据样本资料给出总体参数的单一估计值,这种估计称为点估计。矩法估计是点估计中常用的方法。计。矩法估计是点估计中常用的方法。 矩法估计包括两方面内容,一是用样本矩作为总体同一矩的估计量,矩法估计包括两方面内容,一是用样本矩作为总体同一矩的估计量,二是用样本矩的函数作为总体相应矩同一函数的估计量。二是用样本矩的函数作为总体相应矩同一函数的估计量。例例

73、设一总体的均值设一总体的均值和方差和方差2均未知,从中抽取一个容量为均未知,从中抽取一个容量为n的简单随机的简单随机样本,求样本,求和和 2 的矩法估计量。的矩法估计量。=v(二二)区间估计区间估计 区间估计是指在事先给定的概率保证程度之下,根据样本估计量的概区间估计是指在事先给定的概率保证程度之下,根据样本估计量的概率分布,确定出可能包含未知总体参数的某个区间,作为对总体参率分布,确定出可能包含未知总体参数的某个区间,作为对总体参数的估计。记总体指标为数的估计。记总体指标为 ,样本估计量为,样本估计量为 ,事先给定的概率,事先给定的概率为为1- ,若根据样本估计量的概率分布可计算出一个区间(

74、,若根据样本估计量的概率分布可计算出一个区间( ),),使得该区间包含未知总体参数为概率等于事先给定的概使得该区间包含未知总体参数为概率等于事先给定的概 率率1- ,即:,即: 置信度反映区间估计的可靠性,置信区间的长短反映区间估计的置信度反映区间估计的可靠性,置信区间的长短反映区间估计的 精精确度。确度。 (三)有效性(三)有效性 对总体指标进行估计时,若存在两个无偏估计量对总体指标进行估计时,若存在两个无偏估计量 和和 ,其中估,其中估计量计量 的估计误差平均来说小于估计量的估计误差平均来说小于估计量 的估计误差,则称估计量的估计误差,则称估计量 比比 有效。有效。(二二)无偏性无偏性 用

75、样本指标估计总体指标时,如果估计量的数学期望等于被估计的用样本指标估计总体指标时,如果估计量的数学期望等于被估计的总体指标,就称该估计量为无偏估计量。设总体指标为总体指标,就称该估计量为无偏估计量。设总体指标为 ,其估计量,其估计量为为 ,如果,如果E( )= ,则,则 就是就是 的无偏估计量的无偏估计量二、估计量的优良标准二、估计量的优良标准(一)相合性(一)相合性 用样本指标估计总体指标时,如果随着样本容量的增大,估计量越来越用样本指标估计总体指标时,如果随着样本容量的增大,估计量越来越接近总体指标的真值接近总体指标的真值 ,就称这个估计量为相合估计量或一致估计量。,就称这个估计量为相合估

76、计量或一致估计量。平方根。若总体指标平方根。若总体指标 ,其估计量为,其估计量为 ,全部可能的样本数目,全部可能的样本数目为为m,则抽样平均误差为:,则抽样平均误差为:三、抽样平均误差三、抽样平均误差(一一) 抽样平均误差的意义抽样平均误差的意义 抽样平均误差是估计量与总体指标真值偏差平方的算术平均数的抽样平均误差是估计量与总体指标真值偏差平方的算术平均数的抽样平均误差越小,表明估计量与总体指标真值的平均偏离越小;抽样平均误差越小,表明估计量与总体指标真值的平均偏离越小;抽样平均误差越大,表明估计量与总体指标真值抽样平均误差越大,表明估计量与总体指标真值 的平均偏离越大。的平均偏离越大。(二二

77、) 抽样平均误差的计算抽样平均误差的计算1.均值估计量的抽样平均误差均值估计量的抽样平均误差=不重不重置抽置抽样样重置抽样重置抽样v2.比例估计量的抽样平均误差比例估计量的抽样平均误差v(三三)影响抽样平均误差的因素影响抽样平均误差的因素v1.1.总体中各个体之间的差异程度。总体中各个体之间的差异程度。v2.2.样本容量的大小。样本容量的大小。 v3.3.抽取样本的方式。抽取样本的方式。 重置抽样重置抽样不重置抽样不重置抽样第三节第三节 区间估计区间估计 v总体均值的区间估计总体均值的区间估计v总体比例的区间估计总体比例的区间估计v总体方差的区间估计总体方差的区间估计一、总体均值的区间估计一、

78、总体均值的区间估计v(一)大样本情形下总体均值的区间估计(一)大样本情形下总体均值的区间估计 中心极限定理给我们提供了样本均值的抽样分布,即无论所考察中心极限定理给我们提供了样本均值的抽样分布,即无论所考察的随机变量的总体分布如何,只要样本容量的随机变量的总体分布如何,只要样本容量n足够大,样本均值足够大,样本均值 。 将随机变量将随机变量 标准化标准化 ,并记标准正态分布变量为,并记标准正态分布变量为Z则有:则有: 根据给定的概率根据给定的概率1,查标准正态分布概率表可得标准正态分,查标准正态分布概率表可得标准正态分布的上侧分位数布的上侧分位数 使得:使得: 由上式可得,总体均值由上式可得,

79、总体均值的置信区间为:的置信区间为:以上所讲的置信区间既有置信下限又有置信上限,称为双侧置信区间。以上所讲的置信区间既有置信下限又有置信上限,称为双侧置信区间。2 未知,用未知,用 或或 代替代替v单侧置信区间:单侧置信区间: 根据给定的概率根据给定的概率1,查标准正态分布概率表可得正态分布,查标准正态分布概率表可得正态分布分位数分位数 ,并,并使得:使得: 或或 将这两式左端括号中的不等式变换,可得大样本情形下总体均值将这两式左端括号中的不等式变换,可得大样本情形下总体均值的两个单侧的两个单侧置信区间分别为:置信区间分别为: (二)正态总体均值的区间估计(二)正态总体均值的区间估计 1、2已

80、知时。已知时。若总体所考察的变量服从正态分布,则不论样本容量多大,都若总体所考察的变量服从正态分布,则不论样本容量多大,都有有 。 因此,若总体方差因此,若总体方差2已知,则仍可用类似于上述大样本情形下总体均值的区间已知,则仍可用类似于上述大样本情形下总体均值的区间估计方法进行估计,得出总体均值估计方法进行估计,得出总体均值的置信区间仍为:的置信区间仍为:v2、2 未知时未知时 对于给定的置信概率对于给定的置信概率1,查,查 t 分布表,可得分布表,可得t 分布的上侧分位数分布的上侧分位数 ,使得:,使得: 由上式可得,总体均值由上式可得,总体均值的双侧置信区间为:的双侧置信区间为:同理总体均

81、值同理总体均值的单侧置信区间为的单侧置信区间为v例例1 为了解某县农户的年收入状况,从该县所有农户中随机抽取了为了解某县农户的年收入状况,从该县所有农户中随机抽取了200户进行调查,得样本每户农民的年平均收入为户进行调查,得样本每户农民的年平均收入为3600元,标准差为元,标准差为192元,元,试在试在95的概率保证下,求该县农户平均年收入的双侧置信区间和单侧的概率保证下,求该县农户平均年收入的双侧置信区间和单侧置信下限。置信下限。 由于由于 n=200, 表明该样本为大样本表明该样本为大样本,显然此例属于大样本情形下总体均值显然此例属于大样本情形下总体均值的区间估计。的区间估计。 双侧置信区

82、间为双侧置信区间为 单侧置信下限为单侧置信下限为v例例2 某仓库有某仓库有150箱食品,每箱食品均装箱食品,每箱食品均装100个,随机抽取个,随机抽取10箱进行检查,得每箱进行检查,得每箱食品的变质个数为:箱食品的变质个数为:1,6,3,0,2,4,1,5,3,5,假定每箱食品变质个,假定每箱食品变质个数的概率分布为正态分布,给定置信概率数的概率分布为正态分布,给定置信概率95,求平均每箱食品变质个数的双,求平均每箱食品变质个数的双侧置信区间和单侧置信上限。侧置信区间和单侧置信上限。 n=10,所以是小样本。由样本数据可得所以是小样本。由样本数据可得 单侧置信上限为单侧置信上限为:平均每箱食品

83、变质个数的双侧置信区间为平均每箱食品变质个数的双侧置信区间为: 二、总体比例的区间估计二、总体比例的区间估计v总体比例是两点分布总体的均值,其无偏估计量样本比例是来自两点总体比例是两点分布总体的均值,其无偏估计量样本比例是来自两点分布总体的样本均值。在大样本情形下,分布总体的样本均值。在大样本情形下,v经标准化变换可得:经标准化变换可得: 对于给定的置信度对于给定的置信度1,查标准正态分布概率表可得标准正态,查标准正态分布概率表可得标准正态分布的上侧分位数分布的上侧分位数 使得:使得: 即即 总体比例的双侧置信区间:总体比例的双侧置信区间: 由于由于 未知,可用未知,可用 代替。从而有:代替。

84、从而有:需要说明需要说明,由于大样本情形下由于大样本情形下 与与 相差无几,所以实践中也可用相差无几,所以实践中也可用 代替代替同理总体比例的单侧置信区间为同理总体比例的单侧置信区间为: v当总体服从正态分布时,当总体服从正态分布时, 服从自由度为服从自由度为 n-1 的的 分布,分布,三、总体方差的区间估计三、总体方差的区间估计记记对于给定的置信度对于给定的置信度1 ,查表可得,查表可得 和和从而有从而有即即总体方差的双侧置信区间为:总体方差的双侧置信区间为:v例例 某电视台举办了一台大型晚会,为了了解这台晚会的收视情况,随机抽取了某电视台举办了一台大型晚会,为了了解这台晚会的收视情况,随机

85、抽取了400人,经调查有人,经调查有86人收看了这台晚会,以人收看了这台晚会,以95的置信度求这台晚会收视率的双侧的置信度求这台晚会收视率的双侧置信区间和单侧置信下限。置信区间和单侧置信下限。单侧置信下限为:单侧置信下限为:双侧置信区间为双侧置信区间为:=18.12%v 例例 为了了解某灯具厂所生产灯泡寿命的稳定性,随机从其生产的一批灯为了了解某灯具厂所生产灯泡寿命的稳定性,随机从其生产的一批灯泡中抽取泡中抽取20个进行试验,并计算得样本标准差个进行试验,并计算得样本标准差sn-1=260小时小时 ,假设灯泡的,假设灯泡的使用寿命服从正态分布,试以使用寿命服从正态分布,试以95的可靠性求该批灯

86、泡使用寿命方差的置的可靠性求该批灯泡使用寿命方差的置信区间。信区间。由题意可知由题意可知查表可知查表可知则总体方差的置信下限为:则总体方差的置信下限为:置信上限为:置信上限为:重置抽样重置抽样v一、一、估计总体均值所需的样本容量估计总体均值所需的样本容量第四节第四节 样本容量的确定样本容量的确定不重置抽样不重置抽样二、估计总体比例所需的样本容量二、估计总体比例所需的样本容量重置抽样重置抽样不重置抽样不重置抽样三、影响样本容量的因素三、影响样本容量的因素v1、总体中各个体标志值的差异程度。总体中各个体标志值的差异程度。总体中各个体标总体中各个体标志值的差异程度越大,所需的样本容量越大;总体中各志

87、值的差异程度越大,所需的样本容量越大;总体中各个体标志值的差异程度越小,所需的样本容量越小。个体标志值的差异程度越小,所需的样本容量越小。v2、允许误差的大小。允许误差的大小。允许误差越小,估计的精确度越允许误差越小,估计的精确度越高,则所需的样本容量越大;反之,允许误差越大,估高,则所需的样本容量越大;反之,允许误差越大,估计的精确度越低,则所需的样本容量越小。计的精确度越低,则所需的样本容量越小。v3、估计的可靠性高低。估计的可靠性高低。估计的可靠性越高,所需的样估计的可靠性越高,所需的样本容量越大;反之,估计的可靠性越低,所需的样本容本容量越大;反之,估计的可靠性越低,所需的样本容量越小

88、。量越小。v4、抽样方式。抽样方式。在其他条件相同的情况下,采用重置抽在其他条件相同的情况下,采用重置抽样方式比采用不重置抽样方式所需的样本容量大。样方式比采用不重置抽样方式所需的样本容量大。确定样本容量应注意:确定样本容量应注意:v1、按公式计算得到的样本容量是必要的样本容量即抽取按公式计算得到的样本容量是必要的样本容量即抽取样本时不能低于该样本容量。样本时不能低于该样本容量。v2、如果同时对总体均值和总体比例进行区间估计,运用、如果同时对总体均值和总体比例进行区间估计,运用样本容量的计算公式可计算得到两个样本容量,一般情样本容量的计算公式可计算得到两个样本容量,一般情况下这两个样本容量是不

89、相等的,为了同时满足均值、况下这两个样本容量是不相等的,为了同时满足均值、比例估计的精确度要求,应从两个样本容量中选择较大比例估计的精确度要求,应从两个样本容量中选择较大的一个。的一个。v3、在计算估计总体比例所需的样本容量时,若方差、在计算估计总体比例所需的样本容量时,若方差P(1-P)的资料完全缺乏,可用方差的最大值的资料完全缺乏,可用方差的最大值0.25代替。代替。例、某高校有例、某高校有50005000名学生,为了以名学生,为了以95%95%的置信度对该校学生平均每的置信度对该校学生平均每周文体活动的时间进行估计,需首先从总体中抽取样本,假定估计周文体活动的时间进行估计,需首先从总体中

90、抽取样本,假定估计的允许误差为的允许误差为0.150.15小时,由抽样前的试验调查得方差为小时,由抽样前的试验调查得方差为3.013.01( (小时小时) )2 2 ,试确定样本容量。,试确定样本容量。 重置抽重置抽样样不重置抽不重置抽样样这表明若按重置抽样方式抽取样本,应抽取这表明若按重置抽样方式抽取样本,应抽取514514名学生,若按不重置名学生,若按不重置抽样方式抽取样本,应抽取抽样方式抽取样本,应抽取467467名学生。名学生。 v例例 某企业收到供货方发来的一批电子元件,以往的资料表明,某企业收到供货方发来的一批电子元件,以往的资料表明,电子元件使用寿命的标准差为电子元件使用寿命的标

91、准差为89.6小时,欲采用重置抽样方式抽小时,欲采用重置抽样方式抽取一个样本,并以取一个样本,并以95.45%的概率同时估计:的概率同时估计:(1)该批电子元件的平均使用寿命。允许误差为)该批电子元件的平均使用寿命。允许误差为10小时。小时。(2)该批电子元件的合格率。允许误差)该批电子元件的合格率。允许误差5%。 估计总体均值所需的样本容量为:估计总体均值所需的样本容量为:估计总体比例所需的样本容量为:估计总体比例所需的样本容量为:由于要用一个样本同时估计两个目标,样本容量应取其大者,所以需抽取由于要用一个样本同时估计两个目标,样本容量应取其大者,所以需抽取400400件。件。第五章 假设检

92、验v总体均值的假设检验v总体比例的假设检验v总体方差的假设检验v假设检验的两类错误若若H0为真,样本均值为真,样本均值 就应该和就应该和1000偏差不大,反过来如果样本均偏差不大,反过来如果样本均值与值与1000偏差大,就有理由怀疑偏差大,就有理由怀疑H0为假。为假。第一节第一节 假设检验的基本原理假设检验的基本原理v一、假设检验的概念一、假设检验的概念假设:关于总体分布特征的猜测假设:关于总体分布特征的猜测 。检验:根据样本提供的信息检验假设是否成立。检验:根据样本提供的信息检验假设是否成立。例例 某企业称其生产的电子元件平均寿命为某企业称其生产的电子元件平均寿命为10001000小时,经销

93、商从其生小时,经销商从其生产的电子元件中随机抽取了产的电子元件中随机抽取了5050件,得平均寿命为件,得平均寿命为980980小时,能否认为小时,能否认为这批元件的平均寿命达到了这批元件的平均寿命达到了10001000小时。小时。建立假设如下:建立假设如下:n 二、假设检验的基本思想二、假设检验的基本思想v由于样本是随机抽取的,有可能在由于样本是随机抽取的,有可能在H0为真的情况下,样本均值与为真的情况下,样本均值与1000偏偏差大,从而作出拒绝差大,从而作出拒绝H0的决策。这种情况虽然可能,但其可能性非常小,的决策。这种情况虽然可能,但其可能性非常小,即为小概率事件。即为小概率事件。小概率事

94、件发生的概率用小概率事件发生的概率用表示,表示, 即即P H0为真,但被拒绝为真,但被拒绝 小概率事件在一次试验中不可能发生。小概率事件在一次试验中不可能发生。如果样本均值与如果样本均值与1000偏差大,说明在偏差大,说明在H0为真的情况下,小概率事为真的情况下,小概率事件发生了,从而可得出原假设件发生了,从而可得出原假设H0不成立。不成立。假设检验采用的推理方法是反证法假设检验采用的推理方法是反证法v三、三、假设检验的程序假设检验的程序1、提出原假设和备择假设。、提出原假设和备择假设。记未知的总体参数为记未知的总体参数为 ,该参数的假设值为,该参数的假设值为 ,则该参数的假设,则该参数的假设

95、可表示为:可表示为: H0: H1: 假设假设H0 是所要检验的假设,称为原假设或零假设,是所要检验的假设,称为原假设或零假设,而假设而假设 H1称为备择假设或对立假设。显然原假设称为备择假设或对立假设。显然原假设与备择假设是对立的,假设检验就是要在这两种对与备择假设是对立的,假设检验就是要在这两种对立的假设中作出抉择。立的假设中作出抉择。 2、确定适当的检验统计量。、确定适当的检验统计量。 将样本中包含的关于总体假设有关的信息提炼出来,构造一个样本将样本中包含的关于总体假设有关的信息提炼出来,构造一个样本指标,这就是检验统计量。指标,这就是检验统计量。3 3、规定检验的显著性水平。、规定检验

96、的显著性水平。 由于假设检验是根据样本提供的信息作出决策。因此对原假设由于假设检验是根据样本提供的信息作出决策。因此对原假设是否为真作判断时有可能犯错误,为了控制这一风险,需要用一概率是否为真作判断时有可能犯错误,为了控制这一风险,需要用一概率表示这一风险,这个概率称为显著水平,记为表示这一风险,这个概率称为显著水平,记为 。4、确定拒绝域与接受域、确定拒绝域与接受域 。根据给定的显著性水平和样本估计量的根据给定的显著性水平和样本估计量的概率分布,确定原假设成立条件下样本估计值偏离程度的临界值,概率分布,确定原假设成立条件下样本估计值偏离程度的临界值,该临界值将样本估计量的取值区间分成了两个区

97、域即拒绝域和接受该临界值将样本估计量的取值区间分成了两个区域即拒绝域和接受域。域。5 5、计算检验统计量的样本值,并据此做出决策。、计算检验统计量的样本值,并据此做出决策。 v三、双侧检验与单侧检验三、双侧检验与单侧检验 v双侧检验双侧检验 : 原假设原假设H0: ,备择假设,备择假设H1:从这种假设形式可看出从这种假设形式可看出 : 样本估计值从正方向与总体参数假样本估计值从正方向与总体参数假设值偏离程度显著或从负方向与总体参数假设值偏离程度显著,设值偏离程度显著或从负方向与总体参数假设值偏离程度显著,都要拒绝原假设,这就是双侧检验。双侧检验的拒绝域建立在都要拒绝原假设,这就是双侧检验。双侧

98、检验的拒绝域建立在样本估计值对总体参数原假设值正负偏离超出给定的临界值的样本估计值对总体参数原假设值正负偏离超出给定的临界值的两侧两侧 。如下图:。如下图:v单侧检验:如果假设检验的拒绝域建立在样本估计值与总体参数的原假设值的偏单侧检验:如果假设检验的拒绝域建立在样本估计值与总体参数的原假设值的偏离超出给定临界值的一侧,这种检验称为单侧检验。根据拒绝域的方向不同,单离超出给定临界值的一侧,这种检验称为单侧检验。根据拒绝域的方向不同,单侧检验可分为左侧检验和右侧检验。侧检验可分为左侧检验和右侧检验。 左侧检验的原假设与备择假设可表示为:左侧检验的原假设与备择假设可表示为:右侧检验的原假设和备择假

99、设可表示为右侧检验的原假设和备择假设可表示为:精确假设精确假设非精确假设非精确假设精确假设精确假设非精确假设非精确假设第二节第二节 总体参数检验总体参数检验v一、总体均值的检验一、总体均值的检验v(一)单一总体均值的检验(一)单一总体均值的检验v单一总体均值检验的原假设和备择假设的一般形单一总体均值检验的原假设和备择假设的一般形式为式为: 由于对于不同的总体和不同的的样本容量,由于对于不同的总体和不同的的样本容量,样本均值的概率分布不同,所以应区分不同的情形样本均值的概率分布不同,所以应区分不同的情形进行讨论。进行讨论。 左左侧侧双双侧侧右右侧侧若为若为单侧检验单侧检验,则在给定的显著性水平之

100、下,由标准正态分布概率表可查,则在给定的显著性水平之下,由标准正态分布概率表可查出上侧分位数出上侧分位数 。 左侧检验的拒绝域左侧检验的拒绝域: Z -若为若为双侧检验双侧检验,则在给定的显著性水平之下,由标准正态分布概率,则在给定的显著性水平之下,由标准正态分布概率表可查出相应的上侧分位数表可查出相应的上侧分位数 , 如果如果 ,则拒绝,则拒绝H H0 0若若 1200以上假设可转换成相应精确假设如下以上假设可转换成相应精确假设如下:H0: =1200, H1: 1200此例属于大样本情形下总体均值的右侧检验此例属于大样本情形下总体均值的右侧检验,可计算检验统计量可计算检验统计量Z的值为的值

101、为:在显著性水平在显著性水平 =0.01之下之下,由标准正态分布概率表查得由标准正态分布概率表查得Z=Z0.01=2.33,由于由于Z=1.52.33=Z,所以接受原假设所以接受原假设,拒绝备择假设拒绝备择假设,即不能说该厂的产品质量即不能说该厂的产品质量高于规定的标准。高于规定的标准。 v例例 在正常情况下,某灯泡厂生产的灯泡的寿命服从正态分布,从该厂生产在正常情况下,某灯泡厂生产的灯泡的寿命服从正态分布,从该厂生产的灯泡中随机抽取了的灯泡中随机抽取了10个,测得使用寿命如下:个,测得使用寿命如下:1490,1440,1680,1610,1500,1750,1550,1420,1800,15

102、80,问在,问在0.05的显著性水平的显著性水平下,能否认为该厂生产的灯泡的平均寿命为下,能否认为该厂生产的灯泡的平均寿命为1600小时?小时?根据题意可建立原假设和备择假设如下:根据题意可建立原假设和备择假设如下:H0: 1600, H1: 1600此例属于正态总体均值的双侧检验。根据样本观测值可计算:此例属于正态总体均值的双侧检验。根据样本观测值可计算:由于总体方差未知,所以由于总体方差未知,所以应该用应该用t 检验检验 对于给定的显著性水平对于给定的显著性水平0.05,查,查t分布表可得分布表可得t/2(n-1)=t 0.025(9)2.26,由于由于|t|=0.4422或或10或或1-

103、22.07=0.025(22),所,所以应拒绝原假设,即认为两种热处理方以应拒绝原假设,即认为两种热处理方法加工的金属材料抗拉强度有显著差异。法加工的金属材料抗拉强度有显著差异。二、总体比例的检验二、总体比例的检验v(一)单一总体比例的检验(一)单一总体比例的检验单一总体比例检验的原假设和备择假设的一般形式为:单一总体比例检验的原假设和备择假设的一般形式为:H0: P=P0 , H1: P P0或或P P0或或PP2 或或P10或或P1-P20对于分别抽自两个总体的两个大样本来说对于分别抽自两个总体的两个大样本来说 ,将两个样本比例之差标准化,得:将两个样本比例之差标准化,得: 因为在原假设成

104、立的条件下,两总体比例相同,所以可将两个样本联因为在原假设成立的条件下,两总体比例相同,所以可将两个样本联合起来估计其总体比例合起来估计其总体比例P,记此联合估计量为,记此联合估计量为P*,则有:,则有:将将P*代入上述检验统计量的表达方式,可得:代入上述检验统计量的表达方式,可得:在给定的显著性水平下,利用在给定的显著性水平下,利用Z统计量可进行两总体比例比较的检验。统计量可进行两总体比例比较的检验。v例例 在某次农村经济调查中,从甲地区随机抽取了在某次农村经济调查中,从甲地区随机抽取了100户农民家庭的一个样本,其中户农民家庭的一个样本,其中13户是贫困户;从乙地区随机抽取了户是贫困户;从

105、乙地区随机抽取了200户农民家庭的一个样本,其中户农民家庭的一个样本,其中38户是贫困户。户是贫困户。问在问在0.05的显著性水平下,两个地区农民家庭贫困户比重是否相同的显著性水平下,两个地区农民家庭贫困户比重是否相同? 根据题意可建立原假设和备择假设为:根据题意可建立原假设和备择假设为:H0:P 1P2 , H1:P1P2由于由于n1=100, n 2=200,属于大样本,因此可采用检验。根据样本数据可计算得属于大样本,因此可采用检验。根据样本数据可计算得 =13/100=0.13, =38/200=0.19,将两个样本联合可得总体比例的联合,将两个样本联合可得总体比例的联合估计量:估计量:

106、从而可得:从而可得:由假设可看出,该检验为右侧检验,对于给定的显著性水平由假设可看出,该检验为右侧检验,对于给定的显著性水平 =0.05,查标准正态分布概率表可查标准正态分布概率表可Z0.025=1.96,|Z|=1.3041.96=Z0.025,所所以接受原假设。以接受原假设。三、总体方差的检验三、总体方差的检验 单一总体方差检验的原假设和备择假设的一般形式为:单一总体方差检验的原假设和备择假设的一般形式为: 在正态总体条件下,单一总体方差检验的检验统计量为在正态总体条件下,单一总体方差检验的检验统计量为: 在给定的显著性水平下,由于在给定的显著性水平下,由于 分布是非对称分布,所以根据分布

107、表可确分布是非对称分布,所以根据分布表可确定上、下两个临界值,定上、下两个临界值, 和和 双侧检验双侧检验 : 或或 拒绝拒绝H0 右侧检验右侧检验: 拒绝拒绝H0左侧检验左侧检验: 拒绝拒绝H0v例某市公共汽车各车次的乘车人数服从正态分布,过去的资料表例某市公共汽车各车次的乘车人数服从正态分布,过去的资料表明,各车次乘车人数的标准差为明,各车次乘车人数的标准差为20人,现公交公司中随机抽取了人,现公交公司中随机抽取了30趟车次的乘车人数,得标准差为趟车次的乘车人数,得标准差为25人,问在人,问在0.05的显著性水平下的显著性水平下,各各车次乘车人数的差异性是否发生了变化车次乘车人数的差异性是

108、否发生了变化?根据题意可建立原假设和备择设如下:根据题意可建立原假设和备择设如下: H0:2202 , H1:2202 检验统计量的样本值为:检验统计量的样本值为:对于给定的显著性水平对于给定的显著性水平=0.05,查,查 分布表,可得:分布表,可得: 45.72和和 16.05 ,由于由于16.05 =45.3145.72= , 所以接受假设,即所以接受假设,即各车次乘车人数的差异性没有变化。各车次乘车人数的差异性没有变化。第三节假设检验的两类错误与功效第三节假设检验的两类错误与功效v 一、假设检验的两类错误一、假设检验的两类错误第一类错误又称弃真错误,它是指原假设第一类错误又称弃真错误,它

109、是指原假设H0正确但却被拒绝了的错误。正确但却被拒绝了的错误。第二类错误又称纳伪错误,它是指原假设不正确但却接受原假设的错误。第二类错误又称纳伪错误,它是指原假设不正确但却接受原假设的错误。 犯第一类错误的概率为犯第一类错误的概率为 ,犯第二类错误的概率为,犯第二类错误的概率为 假设检验中犯两类错误的概率如图所示假设检验中犯两类错误的概率如图所示 越大,越大, 越小越小1与与0相差越大相差越大越小越小 H0: =0 H1: =1 二、假设检验的功效二、假设检验的功效v假设检验的功效:假设检验的功效:是指备择假设是指备择假设H1为真时,接受备择假设为真时,接受备择假设H1的概的概率。即假设检验的

110、功效为率。即假设检验的功效为1 功效函数:功效函数:由于假设检验的功效取决于备择假设的取值,假设检验的功由于假设检验的功效取决于备择假设的取值,假设检验的功效随备择假设的不同取值而变化,因此,检验功效是备择假设值的函数,此效随备择假设的不同取值而变化,因此,检验功效是备择假设值的函数,此函数称为功效函数,功效函数的图形称为功效曲线。函数称为功效函数,功效函数的图形称为功效曲线。(1)无论是单侧检验还是双侧检验,备择假设值与原假设值的偏离)无论是单侧检验还是双侧检验,备择假设值与原假设值的偏离程度越大,犯第二类错误的概率程度越大,犯第二类错误的概率越小,从而检验的功效越小,从而检验的功效1-越大;越大;反之,备择假设值与原假设值的偏离程度越小,犯第二类错误的概反之,备择假设值与原假设值的偏离程度越小,犯第二类错误的概率率越大,从而检验的功效越大,从而检验的功效1-越小。(越小。(2)双侧检验的功效曲线是)双侧检验的功效曲线是对称的,即备择假设值从正负两个方向与原假设值的偏离程度相同对称的,即备择假设值从正负两个方向与原假设值的偏离程度相同时,检验的功效也相同。时,检验的功效也相同。见教材见教材p136例例7-6

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号