课件第七部分假设检验

上传人:re****.1 文档编号:578812036 上传时间:2024-08-25 格式:PPT 页数:50 大小:804.52KB
返回 下载 相关 举报
课件第七部分假设检验_第1页
第1页 / 共50页
课件第七部分假设检验_第2页
第2页 / 共50页
课件第七部分假设检验_第3页
第3页 / 共50页
课件第七部分假设检验_第4页
第4页 / 共50页
课件第七部分假设检验_第5页
第5页 / 共50页
点击查看更多>>
资源描述

《课件第七部分假设检验》由会员分享,可在线阅读,更多相关《课件第七部分假设检验(50页珍藏版)》请在金锄头文库上搜索。

1、 第七章第七章 假设检验假设检验 我们在第一章就已经知道,推论统计有两个基本我们在第一章就已经知道,推论统计有两个基本我们在第一章就已经知道,推论统计有两个基本我们在第一章就已经知道,推论统计有两个基本内容:内容:内容:内容:假设检验;假设检验;假设检验;假设检验;参数估计。有了概率和概率分参数估计。有了概率和概率分参数估计。有了概率和概率分参数估计。有了概率和概率分布的知识,接下来我们要逐步掌握统计检验的一般步布的知识,接下来我们要逐步掌握统计检验的一般步布的知识,接下来我们要逐步掌握统计检验的一般步布的知识,接下来我们要逐步掌握统计检验的一般步骤。既然按照数学规则得到的概率都不能用经验方法

2、骤。既然按照数学规则得到的概率都不能用经验方法骤。既然按照数学规则得到的概率都不能用经验方法骤。既然按照数学规则得到的概率都不能用经验方法准确求得,于是,理论概率和经验得到的频率之间肯准确求得,于是,理论概率和经验得到的频率之间肯准确求得,于是,理论概率和经验得到的频率之间肯准确求得,于是,理论概率和经验得到的频率之间肯定存在某种差别,这就引出了实践检验理论的问题。定存在某种差别,这就引出了实践检验理论的问题。定存在某种差别,这就引出了实践检验理论的问题。定存在某种差别,这就引出了实践检验理论的问题。随机变量的取值状态不同,其概率分布的形式也就不随机变量的取值状态不同,其概率分布的形式也就不随

3、机变量的取值状态不同,其概率分布的形式也就不随机变量的取值状态不同,其概率分布的形式也就不同。本章我们不仅要引出二项分布和正态分布这两个同。本章我们不仅要引出二项分布和正态分布这两个同。本章我们不仅要引出二项分布和正态分布这两个同。本章我们不仅要引出二项分布和正态分布这两个著名的概率分布,并且要将它们与抽样调查联系起著名的概率分布,并且要将它们与抽样调查联系起著名的概率分布,并且要将它们与抽样调查联系起著名的概率分布,并且要将它们与抽样调查联系起来,以领会统计检验,并逐步拓宽其应用面。来,以领会统计检验,并逐步拓宽其应用面。来,以领会统计检验,并逐步拓宽其应用面。来,以领会统计检验,并逐步拓宽

4、其应用面。 8/25/20241 第一节第一节 二项分布二项分布 二项分布是从著名的贝努里试验中推导而来。所谓二项分布是从著名的贝努里试验中推导而来。所谓二项分布是从著名的贝努里试验中推导而来。所谓二项分布是从著名的贝努里试验中推导而来。所谓贝努里试验,是指只有两种可能结果的随机试验。在实际贝努里试验,是指只有两种可能结果的随机试验。在实际贝努里试验,是指只有两种可能结果的随机试验。在实际贝努里试验,是指只有两种可能结果的随机试验。在实际问题中,有许多随机现象只包含两个结果,如男与女,是问题中,有许多随机现象只包含两个结果,如男与女,是问题中,有许多随机现象只包含两个结果,如男与女,是问题中,

5、有许多随机现象只包含两个结果,如男与女,是与非,生与死,同意与不同意,赞成与反对等等。通常,与非,生与死,同意与不同意,赞成与反对等等。通常,与非,生与死,同意与不同意,赞成与反对等等。通常,与非,生与死,同意与不同意,赞成与反对等等。通常,我们把其中比较关注那个结果称为我们把其中比较关注那个结果称为我们把其中比较关注那个结果称为我们把其中比较关注那个结果称为“ “成功成功成功成功” ”,另一个结果,另一个结果,另一个结果,另一个结果则则则则称为称为称为称为“ “失败失败失败失败” ”。每当情况如同贝努里试验,是在相同的条。每当情况如同贝努里试验,是在相同的条。每当情况如同贝努里试验,是在相同

6、的条。每当情况如同贝努里试验,是在相同的条件件件件下重复下重复下重复下重复n n次,考虑的是次,考虑的是次,考虑的是次,考虑的是“ “成功成功成功成功” ”的概率,且各次试验相互的概率,且各次试验相互的概率,且各次试验相互的概率,且各次试验相互独独独独立,就可利用与二项分布有关的统计检验。虽然许多分布立,就可利用与二项分布有关的统计检验。虽然许多分布立,就可利用与二项分布有关的统计检验。虽然许多分布立,就可利用与二项分布有关的统计检验。虽然许多分布较之二项分布更实用,但二项分布简单明了,况且其他概较之二项分布更实用,但二项分布简单明了,况且其他概较之二项分布更实用,但二项分布简单明了,况且其他

7、概较之二项分布更实用,但二项分布简单明了,况且其他概率分布的使用和计算逻辑与之相同。所以要理解统计检验率分布的使用和计算逻辑与之相同。所以要理解统计检验率分布的使用和计算逻辑与之相同。所以要理解统计检验率分布的使用和计算逻辑与之相同。所以要理解统计检验以及它所涉及的许多新概念,人们几乎都乐意从二项分布以及它所涉及的许多新概念,人们几乎都乐意从二项分布以及它所涉及的许多新概念,人们几乎都乐意从二项分布以及它所涉及的许多新概念,人们几乎都乐意从二项分布的讨论入手。的讨论入手。的讨论入手。的讨论入手。 8/25/202421. 1. 二项分布的数学形式二项分布的数学形式二项分布的数学形式二项分布的数

8、学形式 从掷硬币的试验入手。假定二项试验由重复抛掷从掷硬币的试验入手。假定二项试验由重复抛掷从掷硬币的试验入手。假定二项试验由重复抛掷从掷硬币的试验入手。假定二项试验由重复抛掷n n次次次次硬币组成,已知硬币面朝上硬币组成,已知硬币面朝上硬币组成,已知硬币面朝上硬币组成,已知硬币面朝上( (成功成功成功成功) )的概率是的概率是的概率是的概率是p p,面朝下,面朝下,面朝下,面朝下( (失失失失败败败败) )的概率是的概率是的概率是的概率是q q ( (显然有显然有显然有显然有 q q11p p) )。这样,对试验结果而。这样,对试验结果而。这样,对试验结果而。这样,对试验结果而言,成功的次数

9、(即硬币面朝上的次数)言,成功的次数(即硬币面朝上的次数)言,成功的次数(即硬币面朝上的次数)言,成功的次数(即硬币面朝上的次数)X X是一个离散型是一个离散型是一个离散型是一个离散型随机变量,它的可能取值是随机变量,它的可能取值是随机变量,它的可能取值是随机变量,它的可能取值是0 0,1 1,2 2,3 3,n n。而对。而对。而对。而对X X的的的的一个具体取值一个具体取值一个具体取值一个具体取值x x而言,根据乘法规则,我们立刻可以就试而言,根据乘法规则,我们立刻可以就试而言,根据乘法规则,我们立刻可以就试而言,根据乘法规则,我们立刻可以就试验结果计算出一种特定排列方式验结果计算出一种特

10、定排列方式验结果计算出一种特定排列方式验结果计算出一种特定排列方式( (先先先先x x次面朝上,而后次面朝上,而后次面朝上,而后次面朝上,而后n nx x次面朝下次面朝下次面朝下次面朝下) )实现的概率,即实现的概率,即实现的概率,即实现的概率,即 ppppqqqqpxqn-x8/25/20243 由于正确解决概率问题,光考虑乘法规则是由于正确解决概率问题,光考虑乘法规则是由于正确解决概率问题,光考虑乘法规则是由于正确解决概率问题,光考虑乘法规则是不够的,还要考虑加法规则,于是就不够的,还要考虑加法规则,于是就不够的,还要考虑加法规则,于是就不够的,还要考虑加法规则,于是就x x次成功和次成功

11、和次成功和次成功和(n nx x)次失败这个宏观结果而言所包含的所有)次失败这个宏观结果而言所包含的所有)次失败这个宏观结果而言所包含的所有)次失败这个宏观结果而言所包含的所有排列的方式数,用符号表示排列的方式数,用符号表示排列的方式数,用符号表示排列的方式数,用符号表示 这样,我们就得到了二项试验中随机变量这样,我们就得到了二项试验中随机变量这样,我们就得到了二项试验中随机变量这样,我们就得到了二项试验中随机变量X X的的的的概率分布,即概率分布,即概率分布,即概率分布,即 8/25/20244 譬如,二项试验是将一譬如,二项试验是将一枚硬币重复做枚硬币重复做8 8次抛掷,假次抛掷,假设这枚

12、硬币是无偏的,即设这枚硬币是无偏的,即p pq q0.50.5,那么恰好得到,那么恰好得到5 5次面朝上的概率是次面朝上的概率是 硬币面朝硬币面朝上数上数x x 概率概率P P( (X X= =x x) ) 0 01 12 23 34 45 56 67 78 8 1/256= .004 1/256= .004 8/256= .031 8/256= .031 28/256= .109 28/256= .109 56/256= .219 56/256= .219 70/256= .274 70/256= .274 56/256= .219 56/256= .219 28/256= .109 28/

13、256= .109 8/256= .031 8/256= .031 1/256= .004 1/256= .004合合 计计 1.0001.000 同理,我们也可以求出这个二项试验中硬币刚好为0,1,2,8次面朝上的各种宏观结果的概率,全部写出来就是右表。 8/25/202452. 2. 二项分布讨论二项分布讨论二项分布讨论二项分布讨论X X 0 1 2 0 1 2 n n合计合计合计合计P(X)P(X) 二项分布为离散二项分布为离散型随机变量的分布。每型随机变量的分布。每当试验做的是在相同的当试验做的是在相同的条件下条件下n n次重复的贝努利次重复的贝努利试验时,随机变量试验时,随机变量X

14、X共共有有n n+1+1个取值。二项分个取值。二项分布可以用分布律布可以用分布律( (见上表见上表) )和折线图和折线图( (见右图见右图) )来表来表示。示。 当当P=0.5P=0.5时二项时二项分分布的图形是对称的。布的图形是对称的。8/25/20246 E(X)=E(X)= = =npnp, D(X)= D(X)= 2 2= = npqnpq 二项分布受二项分布受二项分布受二项分布受 p p 和和和和 n n 变化的影响,只要确定了变化的影响,只要确定了变化的影响,只要确定了变化的影响,只要确定了 p p和和和和 n n,成功次数,成功次数,成功次数,成功次数 X X 的分布也随之确定。

15、因此,二项分的分布也随之确定。因此,二项分的分布也随之确定。因此,二项分的分布也随之确定。因此,二项分布还可简写作布还可简写作布还可简写作布还可简写作 B(B(x;n,px;n,p) )。 二项分布的概率值除了根据公式直接进行计算二项分布的概率值除了根据公式直接进行计算二项分布的概率值除了根据公式直接进行计算二项分布的概率值除了根据公式直接进行计算外,还可查表求得。二项分布表的编制方法有两种:外,还可查表求得。二项分布表的编制方法有两种:外,还可查表求得。二项分布表的编制方法有两种:外,还可查表求得。二项分布表的编制方法有两种:一种依据概率分布律一种依据概率分布律一种依据概率分布律一种依据概率

16、分布律 P P( (x x) ) 编制编制编制编制( (见附表见附表见附表见附表2)2);另一种依;另一种依;另一种依;另一种依据分布函数据分布函数据分布函数据分布函数 F F( (x x) ) 编制编制编制编制( (见附表见附表见附表见附表3)3)。 其中其中其中其中8/25/20247n n 例例例例 某特定社区人口的某特定社区人口的某特定社区人口的某特定社区人口的10%10%是少数民族,现随机是少数民族,现随机是少数民族,现随机是少数民族,现随机抽取抽取抽取抽取6 6人,问其中恰好人,问其中恰好人,问其中恰好人,问其中恰好2 2人是少数民族的概率是多少?人是少数民族的概率是多少?人是少数

17、民族的概率是多少?人是少数民族的概率是多少? 解解解解 解法一:根据解法一:根据解法一:根据解法一:根据(7.3)(7.3)式直接计算式直接计算式直接计算式直接计算 解法二:根据附表解法二:根据附表解法二:根据附表解法二:根据附表2 2中纵列中纵列中纵列中纵列n n6 6和横行和横行和横行和横行p p0.10.1所所所所对应对应对应对应x x值,可直接查得值,可直接查得值,可直接查得值,可直接查得B B( (x x;6 6,0.1)0.1)的概率值的概率值的概率值的概率值 B B (2 (2;6 6,0.1)0.1)0 00984 0984 解法三:根据附表解法三:根据附表解法三:根据附表解法

18、三:根据附表3 3求得求得求得求得 B B (2 (2;6 6,0.1)0.1)F F(2) (2) F F(3(3 ) ) 0.11430.01590.11430.01590.09840.0984 8/25/20248第二节第二节 统计检验的基本步骤统计检验的基本步骤 二项分布是用数学或演绎推理的方法求得的一种理论分布。认识到二项分布是用数学或演绎推理的方法求得的一种理论分布。认识到二项分布是用数学或演绎推理的方法求得的一种理论分布。认识到二项分布是用数学或演绎推理的方法求得的一种理论分布。认识到概率分布是先验的理论分布这一点很重要,因为我们不禁要问,既然试概率分布是先验的理论分布这一点很重

19、要,因为我们不禁要问,既然试概率分布是先验的理论分布这一点很重要,因为我们不禁要问,既然试概率分布是先验的理论分布这一点很重要,因为我们不禁要问,既然试验或抽样调查的结果仅与随机变量可能取值中的一个相联系,那么实际验或抽样调查的结果仅与随机变量可能取值中的一个相联系,那么实际验或抽样调查的结果仅与随机变量可能取值中的一个相联系,那么实际验或抽样调查的结果仅与随机变量可能取值中的一个相联系,那么实际试验或样本调查对结果的概率分布及前提假设有没有一个检验的问题?试验或样本调查对结果的概率分布及前提假设有没有一个检验的问题?试验或样本调查对结果的概率分布及前提假设有没有一个检验的问题?试验或样本调查

20、对结果的概率分布及前提假设有没有一个检验的问题?具体来讲,对于一枚硬币被重复抛掷具体来讲,对于一枚硬币被重复抛掷具体来讲,对于一枚硬币被重复抛掷具体来讲,对于一枚硬币被重复抛掷8 8次的二项试验,经验告诉我们,一次的二项试验,经验告诉我们,一次的二项试验,经验告诉我们,一次的二项试验,经验告诉我们,一共有共有共有共有9 9种可能的结果,而且实现这些结果的机会是大不相同的。研究者实种可能的结果,而且实现这些结果的机会是大不相同的。研究者实种可能的结果,而且实现这些结果的机会是大不相同的。研究者实种可能的结果,而且实现这些结果的机会是大不相同的。研究者实际上从来不用经验的方法求得概率分布,因为通常

21、我们只对一项试验进际上从来不用经验的方法求得概率分布,因为通常我们只对一项试验进际上从来不用经验的方法求得概率分布,因为通常我们只对一项试验进际上从来不用经验的方法求得概率分布,因为通常我们只对一项试验进行一次或几次,抽取样本也是一个或至多不过几个。既然二项分布是按行一次或几次,抽取样本也是一个或至多不过几个。既然二项分布是按行一次或几次,抽取样本也是一个或至多不过几个。既然二项分布是按行一次或几次,抽取样本也是一个或至多不过几个。既然二项分布是按照数学规则得到的,那么对这照数学规则得到的,那么对这照数学规则得到的,那么对这照数学规则得到的,那么对这9 9种结果的可能性我们应该作出何种评价呢种

22、结果的可能性我们应该作出何种评价呢种结果的可能性我们应该作出何种评价呢种结果的可能性我们应该作出何种评价呢? ?如果实际试验(或抽样)得到的结果偏巧就是先验概率预示的最不可能如果实际试验(或抽样)得到的结果偏巧就是先验概率预示的最不可能如果实际试验(或抽样)得到的结果偏巧就是先验概率预示的最不可能如果实际试验(或抽样)得到的结果偏巧就是先验概率预示的最不可能出现的结果,那么我们是认定纯属巧合,还是开始对用数学或演绎推理出现的结果,那么我们是认定纯属巧合,还是开始对用数学或演绎推理出现的结果,那么我们是认定纯属巧合,还是开始对用数学或演绎推理出现的结果,那么我们是认定纯属巧合,还是开始对用数学或

23、演绎推理方法求得的概率以及理想试验的种种前提假设产生怀疑方法求得的概率以及理想试验的种种前提假设产生怀疑方法求得的概率以及理想试验的种种前提假设产生怀疑方法求得的概率以及理想试验的种种前提假设产生怀疑? ?更准确地说,在更准确地说,在更准确地说,在更准确地说,在一枚硬币被重复抛掷一枚硬币被重复抛掷一枚硬币被重复抛掷一枚硬币被重复抛掷8 8次的这个二项试验中,究竟出现什么结果时,我们次的这个二项试验中,究竟出现什么结果时,我们次的这个二项试验中,究竟出现什么结果时,我们次的这个二项试验中,究竟出现什么结果时,我们应该对二项分布及其前提假设产生怀疑呢应该对二项分布及其前提假设产生怀疑呢应该对二项分

24、布及其前提假设产生怀疑呢应该对二项分布及其前提假设产生怀疑呢? ?是不是只要不是得到是不是只要不是得到是不是只要不是得到是不是只要不是得到4 4次成功次成功次成功次成功4 4次失败这个最大可能性结果就开始怀疑,还是仅当出现次失败这个最大可能性结果就开始怀疑,还是仅当出现次失败这个最大可能性结果就开始怀疑,还是仅当出现次失败这个最大可能性结果就开始怀疑,还是仅当出现8 8次成功或一次也次成功或一次也次成功或一次也次成功或一次也不成功这两个极端情况时才产生怀疑呢不成功这两个极端情况时才产生怀疑呢不成功这两个极端情况时才产生怀疑呢不成功这两个极端情况时才产生怀疑呢? ?这就是统计检验的核心问题。这就

25、是统计检验的核心问题。这就是统计检验的核心问题。这就是统计检验的核心问题。 8/25/20249n n大数定理表明:就大量观察大数定理表明:就大量观察而言,事件的发生具有一定而言,事件的发生具有一定的规律性。的规律性。n n根据概率的大小,人们处理根据概率的大小,人们处理的态度和方式很不一样。的态度和方式很不一样。n n在日常生活中,人们往往习在日常生活中,人们往往习惯于把概率很小的事件,当惯于把概率很小的事件,当作一次观察中是极不可能看作一次观察中是极不可能看到的事件。例如,人们出门到的事件。例如,人们出门做事就有可能遇到不测事故,做事就有可能遇到不测事故,但却很少人因此而不敢出门。但却很少

26、人因此而不敢出门。原因是:小概率事件极不可原因是:小概率事件极不可能发生。能发生。 统计检验统计检验统计检验统计检验是指先建立一个关于总体情况的假设,是指先建立一个关于总体情况的假设,继而抽取一个随机样本,然后以样本的统计量或者统继而抽取一个随机样本,然后以样本的统计量或者统计性质来检定假设。计性质来检定假设。 统计检验的依据是统计检验的依据是统计检验的依据是统计检验的依据是小概率原理:一是认为小概率原理:一是认为小概率原理:一是认为小概率原理:一是认为小概率事件在一次观察小概率事件在一次观察小概率事件在一次观察小概率事件在一次观察中是极少出现的;二是中是极少出现的;二是中是极少出现的;二是中

27、是极少出现的;二是如果在一次观察中出现如果在一次观察中出现如果在一次观察中出现如果在一次观察中出现了小概率事件,那么应了小概率事件,那么应了小概率事件,那么应了小概率事件,那么应该否定原有事件具有小该否定原有事件具有小该否定原有事件具有小该否定原有事件具有小概率的说法或者假设。概率的说法或者假设。概率的说法或者假设。概率的说法或者假设。8/25/202410(1)建立假设建立假设(2)求抽样分求抽样分布布(4)计算检验统计计算检验统计量量(3)选择显著选择显著性水平和否定性水平和否定域域(5)判定判定所所包有含统的计步检骤验 根据以往多年的统计表明,上海财根据以往多年的统计表明,上海财大英语的

28、平均成绩为大英语的平均成绩为90分,随机抽取分,随机抽取100个学生,其平均成绩为个学生,其平均成绩为80分,问今分,问今年财大学生的英语成绩是否下降?年财大学生的英语成绩是否下降?8/25/202411 1 1建立假设建立假设建立假设建立假设 统计检验是将抽样结果和抽样分布相对照而作出判统计检验是将抽样结果和抽样分布相对照而作出判统计检验是将抽样结果和抽样分布相对照而作出判统计检验是将抽样结果和抽样分布相对照而作出判断的工作。取得抽样结果,依据描述性统计的方法就足断的工作。取得抽样结果,依据描述性统计的方法就足断的工作。取得抽样结果,依据描述性统计的方法就足断的工作。取得抽样结果,依据描述性

29、统计的方法就足够了。抽样分布则不然,它无法从资料中得到,非利用够了。抽样分布则不然,它无法从资料中得到,非利用够了。抽样分布则不然,它无法从资料中得到,非利用够了。抽样分布则不然,它无法从资料中得到,非利用概率论不可。而不对待概括的总体和使用的抽样程序做概率论不可。而不对待概括的总体和使用的抽样程序做概率论不可。而不对待概括的总体和使用的抽样程序做概率论不可。而不对待概括的总体和使用的抽样程序做某种必要的假设,这项工作将无法进行。比如通过掷硬某种必要的假设,这项工作将无法进行。比如通过掷硬某种必要的假设,这项工作将无法进行。比如通过掷硬某种必要的假设,这项工作将无法进行。比如通过掷硬币的实验得

30、到二项分布,必须假设:币的实验得到二项分布,必须假设:币的实验得到二项分布,必须假设:币的实验得到二项分布,必须假设:样本是随机的,样本是随机的,样本是随机的,样本是随机的,试验中各次抛掷相互独立;试验中各次抛掷相互独立;试验中各次抛掷相互独立;试验中各次抛掷相互独立;硬币是无偏的硬币是无偏的硬币是无偏的硬币是无偏的( (或称是诚或称是诚或称是诚或称是诚实的实的实的实的) ),即,即,即,即p pq q0 05 5。概括地说,必须首先就研究总。概括地说,必须首先就研究总。概括地说,必须首先就研究总。概括地说,必须首先就研究总体和抽样方案都做出假设,再加上概率论,我们就可以体和抽样方案都做出假设

31、,再加上概率论,我们就可以体和抽样方案都做出假设,再加上概率论,我们就可以体和抽样方案都做出假设,再加上概率论,我们就可以对各种可能结果做具体的概率陈述了。对各种可能结果做具体的概率陈述了。对各种可能结果做具体的概率陈述了。对各种可能结果做具体的概率陈述了。 8/25/202412 2 2求抽样分布求抽样分布求抽样分布求抽样分布 在做了必要的假设之后,我们就能用数学推理在做了必要的假设之后,我们就能用数学推理在做了必要的假设之后,我们就能用数学推理在做了必要的假设之后,我们就能用数学推理过程来求抽样分布了。比如在这一章开头,在硬币重过程来求抽样分布了。比如在这一章开头,在硬币重过程来求抽样分布

32、了。比如在这一章开头,在硬币重过程来求抽样分布了。比如在这一章开头,在硬币重复抛掷复抛掷复抛掷复抛掷n n次的理想实验中,我们计算了成功次数为次的理想实验中,我们计算了成功次数为次的理想实验中,我们计算了成功次数为次的理想实验中,我们计算了成功次数为x x的的的的宏观结果所具有的概率,得到二项分布。如果前提假宏观结果所具有的概率,得到二项分布。如果前提假宏观结果所具有的概率,得到二项分布。如果前提假宏观结果所具有的概率,得到二项分布。如果前提假设变动了,还可以求出其他形式的概率分布,如正态设变动了,还可以求出其他形式的概率分布,如正态设变动了,还可以求出其他形式的概率分布,如正态设变动了,还可

33、以求出其他形式的概率分布,如正态分布、泊松分布、卡方分布等等,它们都有特定的方分布、泊松分布、卡方分布等等,它们都有特定的方分布、泊松分布、卡方分布等等,它们都有特定的方分布、泊松分布、卡方分布等等,它们都有特定的方程式。由于数学上已经取得的成果,实际上统计工作程式。由于数学上已经取得的成果,实际上统计工作程式。由于数学上已经取得的成果,实际上统计工作程式。由于数学上已经取得的成果,实际上统计工作者要做的这项工作往往并不是真的去求抽样分布的数者要做的这项工作往往并不是真的去求抽样分布的数者要做的这项工作往往并不是真的去求抽样分布的数者要做的这项工作往往并不是真的去求抽样分布的数学形式,而是根据

34、具体需要,确定特定问题的统计检学形式,而是根据具体需要,确定特定问题的统计检学形式,而是根据具体需要,确定特定问题的统计检学形式,而是根据具体需要,确定特定问题的统计检验应该采用哪种分布的现成的数学用表。验应该采用哪种分布的现成的数学用表。验应该采用哪种分布的现成的数学用表。验应该采用哪种分布的现成的数学用表。 8/25/202413 3 3 3 3选择显著性水平和否定域选择显著性水平和否定域选择显著性水平和否定域选择显著性水平和否定域 在统计检验中,那些不大可能的结果称为否定域。在统计检验中,那些不大可能的结果称为否定域。在统计检验中,那些不大可能的结果称为否定域。在统计检验中,那些不大可能

35、的结果称为否定域。如果这类结果真的发生了,我们将否定假设;反之就不如果这类结果真的发生了,我们将否定假设;反之就不如果这类结果真的发生了,我们将否定假设;反之就不如果这类结果真的发生了,我们将否定假设;反之就不否定假设。否定假设。否定假设。否定假设。 在统计检验中,通常把被检验的那个假设称为零假在统计检验中,通常把被检验的那个假设称为零假在统计检验中,通常把被检验的那个假设称为零假在统计检验中,通常把被检验的那个假设称为零假设(用符号设(用符号设(用符号设(用符号HH0 0表示),并用它和其他备择假设表示),并用它和其他备择假设表示),并用它和其他备择假设表示),并用它和其他备择假设( (用符

36、号用符号用符号用符号HH1 1表示表示表示表示) )相对比。相对比。相对比。相对比。零假设与备择假设零假设与备择假设否定域否定域8/25/202414 在统计检验中,无论是拒绝或者接受原假设,都不在统计检验中,无论是拒绝或者接受原假设,都不在统计检验中,无论是拒绝或者接受原假设,都不在统计检验中,无论是拒绝或者接受原假设,都不可能做到百分之百的正确,都有一定的错误。第一类错可能做到百分之百的正确,都有一定的错误。第一类错可能做到百分之百的正确,都有一定的错误。第一类错可能做到百分之百的正确,都有一定的错误。第一类错误是,零假设误是,零假设误是,零假设误是,零假设HH0 0实际上是正确的,却被否

37、定了。第二类实际上是正确的,却被否定了。第二类实际上是正确的,却被否定了。第二类实际上是正确的,却被否定了。第二类错误则是,错误则是,错误则是,错误则是,HH0 0实际上是错的,却没有被否定。实际上是错的,却没有被否定。实际上是错的,却没有被否定。实际上是错的,却没有被否定。 遗憾的是,不管我们如何选择否定域,都不可能完遗憾的是,不管我们如何选择否定域,都不可能完遗憾的是,不管我们如何选择否定域,都不可能完遗憾的是,不管我们如何选择否定域,都不可能完全避免第一类错误和第二类错误,也不可能同时把犯两全避免第一类错误和第二类错误,也不可能同时把犯两全避免第一类错误和第二类错误,也不可能同时把犯两全

38、避免第一类错误和第二类错误,也不可能同时把犯两类错误的危险压缩到最小。对任何一个给定的检验而类错误的危险压缩到最小。对任何一个给定的检验而类错误的危险压缩到最小。对任何一个给定的检验而类错误的危险压缩到最小。对任何一个给定的检验而言,第一类错误的危险越小,第二类错误的概率就越言,第一类错误的危险越小,第二类错误的概率就越言,第一类错误的危险越小,第二类错误的概率就越言,第一类错误的危险越小,第二类错误的概率就越大;反之亦然。一般来讲,不可能具体估计出第二类错大;反之亦然。一般来讲,不可能具体估计出第二类错大;反之亦然。一般来讲,不可能具体估计出第二类错大;反之亦然。一般来讲,不可能具体估计出第

39、二类错误的概率值。第一类错误则不然,犯第一类错误的概率误的概率值。第一类错误则不然,犯第一类错误的概率误的概率值。第一类错误则不然,犯第一类错误的概率误的概率值。第一类错误则不然,犯第一类错误的概率是否定域内各种结果的概率之和。是否定域内各种结果的概率之和。是否定域内各种结果的概率之和。是否定域内各种结果的概率之和。 两类错误及其关系两类错误及其关系8/25/202415 被我们事先选定的可以犯第一类错误的概率,被我们事先选定的可以犯第一类错误的概率,被我们事先选定的可以犯第一类错误的概率,被我们事先选定的可以犯第一类错误的概率,叫做检验的显著性水平叫做检验的显著性水平叫做检验的显著性水平叫做

40、检验的显著性水平( (用用用用 表示表示表示表示) ),它决定了否定,它决定了否定,它决定了否定,它决定了否定域的大小。因此,有人也把第一类错误称之域的大小。因此,有人也把第一类错误称之域的大小。因此,有人也把第一类错误称之域的大小。因此,有人也把第一类错误称之 错错错错误误误误 。相应地第二类错误被人称为。相应地第二类错误被人称为。相应地第二类错误被人称为。相应地第二类错误被人称为 错误。错误。错误。错误。 在原假设成立的条件下,统计检验中所规定的在原假设成立的条件下,统计检验中所规定的在原假设成立的条件下,统计检验中所规定的在原假设成立的条件下,统计检验中所规定的小概率标准一般取为小概率标

41、准一般取为小概率标准一般取为小概率标准一般取为=0.05=0.05或或或或=0.01=0.01。 由由由由 所决定的否定域与接受域之间的分界值被所决定的否定域与接受域之间的分界值被所决定的否定域与接受域之间的分界值被所决定的否定域与接受域之间的分界值被称为临界值,称为临界值,称为临界值,称为临界值, 如如如如Z Z 。 如果抽样分布是连续的,否定域可以建立在想如果抽样分布是连续的,否定域可以建立在想如果抽样分布是连续的,否定域可以建立在想如果抽样分布是连续的,否定域可以建立在想要建立的任何水平上,否定域的大小可以和显著性要建立的任何水平上,否定域的大小可以和显著性要建立的任何水平上,否定域的大

42、小可以和显著性要建立的任何水平上,否定域的大小可以和显著性水平的要求一致起来(后面的正态检验就如此)。水平的要求一致起来(后面的正态检验就如此)。水平的要求一致起来(后面的正态检验就如此)。水平的要求一致起来(后面的正态检验就如此)。如果抽样分布是非连续的,就要用累计概率的方法如果抽样分布是非连续的,就要用累计概率的方法如果抽样分布是非连续的,就要用累计概率的方法如果抽样分布是非连续的,就要用累计概率的方法找出一组构成否定域的结果。找出一组构成否定域的结果。找出一组构成否定域的结果。找出一组构成否定域的结果。显著性水平显著性水平8/25/202416 根据否定域位置根据否定域位置根据否定域位置

43、根据否定域位置的不同,可以将假设的不同,可以将假设的不同,可以将假设的不同,可以将假设检验分为双侧检验和检验分为双侧检验和检验分为双侧检验和检验分为双侧检验和单侧检验。单侧检验。单侧检验。单侧检验。 在统计中,在统计中,必须把否定域必须把否定域分配到抽样分分配到抽样分布的两端的检布的两端的检验,被称为双验,被称为双侧检验。侧检验。 在统计中,可以事先能在统计中,可以事先能预测偏差方向,因而可以预测偏差方向,因而可以把否定域集中到抽样分布把否定域集中到抽样分布更合适的一端的检验,被更合适的一端的检验,被称为单侧检验。称为单侧检验。 双侧检验和单侧检验双侧检验和单侧检验8/25/202417 奈曼

44、奈曼奈曼奈曼皮尔逊皮尔逊皮尔逊皮尔逊 ( (NeymanNeymanPearson)Pearson)提出了一个提出了一个提出了一个提出了一个原则原则原则原则 “ “在控制犯第一类错误的概率不超过指定值在控制犯第一类错误的概率不超过指定值在控制犯第一类错误的概率不超过指定值在控制犯第一类错误的概率不超过指定值 的的的的条件下条件下条件下条件下, , 尽量使犯第二类错误尽量使犯第二类错误尽量使犯第二类错误尽量使犯第二类错误 小小小小” ”按这种法则做出按这种法则做出按这种法则做出按这种法则做出的的的的检验称为检验称为检验称为检验称为“ “显著性检验显著性检验显著性检验显著性检验” ”, , 称为显

45、著性水平或检验称为显著性水平或检验称为显著性水平或检验称为显著性水平或检验水平。水平。水平。水平。 在同样显著性水平的条件下,单侧检验比双侧检在同样显著性水平的条件下,单侧检验比双侧检在同样显著性水平的条件下,单侧检验比双侧检在同样显著性水平的条件下,单侧检验比双侧检验更合适。因为否定域被集中到抽样分布更合适的一验更合适。因为否定域被集中到抽样分布更合适的一验更合适。因为否定域被集中到抽样分布更合适的一验更合适。因为否定域被集中到抽样分布更合适的一侧,这样在犯第一类错误的危险不变的情况下,减少侧,这样在犯第一类错误的危险不变的情况下,减少侧,这样在犯第一类错误的危险不变的情况下,减少侧,这样在

46、犯第一类错误的危险不变的情况下,减少了犯第二类错误的危险。了犯第二类错误的危险。了犯第二类错误的危险。了犯第二类错误的危险。 8/25/2024184 4 4 4计算检验统计量计算检验统计量计算检验统计量计算检验统计量 在完成了上述工作之后,接下来就是做一次与理想试验在完成了上述工作之后,接下来就是做一次与理想试验在完成了上述工作之后,接下来就是做一次与理想试验在完成了上述工作之后,接下来就是做一次与理想试验尽量相同的实际抽样尽量相同的实际抽样尽量相同的实际抽样尽量相同的实际抽样( (比如实际做一次重复抛掷硬币的试验比如实际做一次重复抛掷硬币的试验比如实际做一次重复抛掷硬币的试验比如实际做一次

47、重复抛掷硬币的试验) ),并从获取的样本资料算出检验统计量。检验统计量是关于样本并从获取的样本资料算出检验统计量。检验统计量是关于样本并从获取的样本资料算出检验统计量。检验统计量是关于样本并从获取的样本资料算出检验统计量。检验统计量是关于样本的一个综合指标,但与我们后面参数估计中将要讨论的统计量的一个综合指标,但与我们后面参数估计中将要讨论的统计量的一个综合指标,但与我们后面参数估计中将要讨论的统计量的一个综合指标,但与我们后面参数估计中将要讨论的统计量有所不同,它不用作估测,而只用作检验。有所不同,它不用作估测,而只用作检验。有所不同,它不用作估测,而只用作检验。有所不同,它不用作估测,而只

48、用作检验。 5 5 5 5判定判定判定判定 假设检验系指拒绝或保留零假设的判断,又称显著性检假设检验系指拒绝或保留零假设的判断,又称显著性检假设检验系指拒绝或保留零假设的判断,又称显著性检假设检验系指拒绝或保留零假设的判断,又称显著性检定。在选择否定域并计算检验统计量之后,我们完成最后一道定。在选择否定域并计算检验统计量之后,我们完成最后一道定。在选择否定域并计算检验统计量之后,我们完成最后一道定。在选择否定域并计算检验统计量之后,我们完成最后一道手续,即根据试验或样本结果决定假设的取与舍。如果结果落手续,即根据试验或样本结果决定假设的取与舍。如果结果落手续,即根据试验或样本结果决定假设的取与

49、舍。如果结果落手续,即根据试验或样本结果决定假设的取与舍。如果结果落在否定域内,我们将在已知犯第一类错误概率的条件下,否定在否定域内,我们将在已知犯第一类错误概率的条件下,否定在否定域内,我们将在已知犯第一类错误概率的条件下,否定在否定域内,我们将在已知犯第一类错误概率的条件下,否定零假设。反之,如果结果落在否定域外,则不否定零假设,与零假设。反之,如果结果落在否定域外,则不否定零假设,与零假设。反之,如果结果落在否定域外,则不否定零假设,与零假设。反之,如果结果落在否定域外,则不否定零假设,与此同时,我们就有了犯第二类错误的危险。此同时,我们就有了犯第二类错误的危险。此同时,我们就有了犯第二

50、类错误的危险。此同时,我们就有了犯第二类错误的危险。 8/25/202419 例例例例 若想通过抛掷若想通过抛掷若想通过抛掷若想通过抛掷1010次硬币的实验来检验这个硬次硬币的实验来检验这个硬次硬币的实验来检验这个硬次硬币的实验来检验这个硬币无偏的零假设,通过双侧检验币无偏的零假设,通过双侧检验币无偏的零假设,通过双侧检验币无偏的零假设,通过双侧检验0.100.10显著性水平,请显著性水平,请显著性水平,请显著性水平,请指出否定域。如果单侧检验指出否定域。如果单侧检验指出否定域。如果单侧检验指出否定域。如果单侧检验(p0.5)p0.4)p0.4)8/25/202420第三节第三节 正态分布正态

51、分布n n 如果说二项分布是离散型随机变量最具典型意义如果说二项分布是离散型随机变量最具典型意义如果说二项分布是离散型随机变量最具典型意义如果说二项分布是离散型随机变量最具典型意义的概率分布,那么连续型随机变量最具典型意义的概率的概率分布,那么连续型随机变量最具典型意义的概率的概率分布,那么连续型随机变量最具典型意义的概率的概率分布,那么连续型随机变量最具典型意义的概率分布就是正态分布了。一般地讲,若影响某一变量的随分布就是正态分布了。一般地讲,若影响某一变量的随分布就是正态分布了。一般地讲,若影响某一变量的随分布就是正态分布了。一般地讲,若影响某一变量的随机因素很多,而每个因素所起的作用不太

52、大且相互独机因素很多,而每个因素所起的作用不太大且相互独机因素很多,而每个因素所起的作用不太大且相互独机因素很多,而每个因素所起的作用不太大且相互独立,则这个变量服从正态分布。更为重要的是,不论总立,则这个变量服从正态分布。更为重要的是,不论总立,则这个变量服从正态分布。更为重要的是,不论总立,则这个变量服从正态分布。更为重要的是,不论总体是否服从正态分布,只要样本容量体是否服从正态分布,只要样本容量体是否服从正态分布,只要样本容量体是否服从正态分布,只要样本容量n n足够大,样本平足够大,样本平足够大,样本平足够大,样本平均数的抽样分布就趋于正态分布。均数的抽样分布就趋于正态分布。均数的抽样

53、分布就趋于正态分布。均数的抽样分布就趋于正态分布。n n 正态分布是最重要的概率分布:(正态分布是最重要的概率分布:(正态分布是最重要的概率分布:(正态分布是最重要的概率分布:(1 1)许多自然现)许多自然现)许多自然现)许多自然现象和社会现象,都可用正态分布加以叙述;(象和社会现象,都可用正态分布加以叙述;(象和社会现象,都可用正态分布加以叙述;(象和社会现象,都可用正态分布加以叙述;(2 2)当样)当样)当样)当样本足够大时,都可用正态近似法解决变量的概率分布问本足够大时,都可用正态近似法解决变量的概率分布问本足够大时,都可用正态近似法解决变量的概率分布问本足够大时,都可用正态近似法解决变

54、量的概率分布问题;(题;(题;(题;(3 3)许多统计量的抽样分布呈正态分布。)许多统计量的抽样分布呈正态分布。)许多统计量的抽样分布呈正态分布。)许多统计量的抽样分布呈正态分布。8/25/2024211. 1. 正态分布的数学形式正态分布的数学形式正态分布的数学形式正态分布的数学形式正态分布性质:正态分布性质:正态分布性质:正态分布性质: (1 1 1 1)正态曲线以)正态曲线以)正态曲线以)正态曲线以x=x=x=x=呈钟型对称呈钟型对称呈钟型对称呈钟型对称 均值均值均值均值= = = =中位数中位数中位数中位数= = = =众数众数众数众数 (2 2 2 2)在)在)在)在x=x=x=x=

55、处,概率密度最大;当区间离处,概率密度最大;当区间离处,概率密度最大;当区间离处,概率密度最大;当区间离越远,越远,越远,越远,x x x x落在这个区间的概率越小。落在这个区间的概率越小。落在这个区间的概率越小。落在这个区间的概率越小。 8/25/202422 (3 3)正态曲线的外形由)正态曲线的外形由)正态曲线的外形由)正态曲线的外形由 值确定。对于固定的值确定。对于固定的值确定。对于固定的值确定。对于固定的 值,不同均值值,不同均值值,不同均值值,不同均值 的正态曲线的外形完全相同,差别的正态曲线的外形完全相同,差别的正态曲线的外形完全相同,差别的正态曲线的外形完全相同,差别只在于曲线

56、在横轴方向上整体平移了一个位置只在于曲线在横轴方向上整体平移了一个位置只在于曲线在横轴方向上整体平移了一个位置只在于曲线在横轴方向上整体平移了一个位置 。 (5 5)E(X)= E(X)= D(X)= D(X)= 2 2 (4 4)对于固定的)对于固定的)对于固定的)对于固定的 值,改变值,改变值,改变值,改变 值,值,值,值, 值越小,正态曲线越值越小,正态曲线越值越小,正态曲线越值越小,正态曲线越陡峭;陡峭;陡峭;陡峭; 值越大,正值越大,正值越大,正值越大,正态曲线越低平。态曲线越低平。态曲线越低平。态曲线越低平。 (总之,正态分布曲线总之,正态分布曲线总之,正态分布曲线总之,正态分布曲

57、线的位置是由的位置是由的位置是由的位置是由决定的,而正态决定的,而正态决定的,而正态决定的,而正态分布曲线的分布曲线的分布曲线的分布曲线的“高、矮、胖、瘦高、矮、胖、瘦高、矮、胖、瘦高、矮、胖、瘦” ” ” ” 由由由由决定的。决定的。决定的。决定的。) 8/25/202423 2. 2. 标准正态分布标准正态分布标准正态分布标准正态分布 Z Z Z Z分数(标准正态变量)分数(标准正态变量)分数(标准正态变量)分数(标准正态变量)用用用用Z Z Z Z分数表达的标准正态分分数表达的标准正态分分数表达的标准正态分分数表达的标准正态分布,其概率密度为布,其概率密度为布,其概率密度为布,其概率密度

58、为一般正态分布的表示一般正态分布的表示一般正态分布的表示一般正态分布的表示标准正态分布的表示标准正态分布的表示标准正态分布的表示标准正态分布的表示8/25/2024243. 3. 正态曲线下的面积正态曲线下的面积正态曲线下的面积正态曲线下的面积 但积分毕竟太麻烦了,更何况许多人对积分运算不熟悉,为但积分毕竟太麻烦了,更何况许多人对积分运算不熟悉,为但积分毕竟太麻烦了,更何况许多人对积分运算不熟悉,为但积分毕竟太麻烦了,更何况许多人对积分运算不熟悉,为此须计算出现成的数值表供使用者查找。由于正态曲线的优良性此须计算出现成的数值表供使用者查找。由于正态曲线的优良性此须计算出现成的数值表供使用者查找

59、。由于正态曲线的优良性此须计算出现成的数值表供使用者查找。由于正态曲线的优良性质,这项工作可以卓有成效地完成:质,这项工作可以卓有成效地完成:质,这项工作可以卓有成效地完成:质,这项工作可以卓有成效地完成:经过经过经过经过X X的标准分的标准分的标准分的标准分 ,可以将任何正态分布,可以将任何正态分布,可以将任何正态分布,可以将任何正态分布N N( ( , 2 2) )转换成标准正态分布转换成标准正态分布转换成标准正态分布转换成标准正态分布N N(0(0,1)1);运用分布函数的定义,并利用正态曲线的对称性,通运用分布函数的定义,并利用正态曲线的对称性,通运用分布函数的定义,并利用正态曲线的对

60、称性,通运用分布函数的定义,并利用正态曲线的对称性,通过下式(分布函数)可以计算编制出正态分布表过下式(分布函数)可以计算编制出正态分布表过下式(分布函数)可以计算编制出正态分布表过下式(分布函数)可以计算编制出正态分布表( (见附见附见附见附4)4)。 8/25/202425 采用标准正态变量表达正态分布,使标准差得到了进一步阐采用标准正态变量表达正态分布,使标准差得到了进一步阐明。我们看到,标准差是计算总体单位分布及其标志值变异范围的明。我们看到,标准差是计算总体单位分布及其标志值变异范围的主要依据,下图说明了这一点。主要依据,下图说明了这一点。n n(1 1)变量值在)变量值在)变量值在

61、)变量值在【 -, , + 】之间的概率为之间的概率为之间的概率为之间的概率为0.68260.6826。n n(2 2)变量值在)变量值在)变量值在)变量值在【 -2,-2, +2+2 】之间的概率为之间的概率为之间的概率为之间的概率为0.95460.9546。n n(3 3)变量值在)变量值在)变量值在)变量值在【 -3,-3, +3+3 】之间的概率为之间的概率为之间的概率为之间的概率为0.99730.9973。8/25/202426 例例例例 设随机变设随机变设随机变设随机变量量量量X X服从正态分布服从正态分布服从正态分布服从正态分布N(168N(168,122)122),试求,试求,

62、试求,试求P(XP(X143)143)。 总之,决定任意两点间的面积都完全是可能的。比如总之,决定任意两点间的面积都完全是可能的。比如向均值两侧移向均值两侧移1.961.96个标准差,曲线下方便包含了大约个标准差,曲线下方便包含了大约9595的面积;如移动的面积;如移动2.582.58个标准差,则面积几乎是个标准差,则面积几乎是9999。附录。附录4 4已编制了关于已编制了关于Z Z和标准正态曲线所含面积之间关系的精确数和标准正态曲线所含面积之间关系的精确数值表,即值表,即Z Z从从0 0到到+变化,相应区间含的面积从变化,相应区间含的面积从0 0变至变至0.50.5。8/25/202427

63、解解解解 已知已知已知已知 168168, 1212 z z 是负值,表示是负值,表示是负值,表示是负值,表示X X的取值处于均值左边。由于曲线的取值处于均值左边。由于曲线的取值处于均值左边。由于曲线的取值处于均值左边。由于曲线完全对称,所以使用正态分布表时可以忽略完全对称,所以使用正态分布表时可以忽略完全对称,所以使用正态分布表时可以忽略完全对称,所以使用正态分布表时可以忽略 z z 的正负号。的正负号。的正负号。的正负号。查表可知,正态曲线在均值与查表可知,正态曲线在均值与查表可知,正态曲线在均值与查表可知,正态曲线在均值与z z2.082.08之间所含面积是之间所含面积是之间所含面积是之

64、间所含面积是0.48120.4812。由于总面积的一半是。由于总面积的一半是。由于总面积的一半是。由于总面积的一半是0.50.5,因,因,因,因P(X143)P(X143)可以由可以由可以由可以由下面计算求得下面计算求得下面计算求得下面计算求得 P(X143)P(X143)0.5P(0Z2.08) 0.5P(0Z2.08) 0.50.4812 0.50.4812 1.881.88 这说明,这说明,这说明,这说明,X X的取值小于或等于的取值小于或等于的取值小于或等于的取值小于或等于143143的概率大约是的概率大约是的概率大约是的概率大约是2 2。由于即将讨论的正态检验几乎都要涉及概率分布的尾

65、端,由于即将讨论的正态检验几乎都要涉及概率分布的尾端,由于即将讨论的正态检验几乎都要涉及概率分布的尾端,由于即将讨论的正态检验几乎都要涉及概率分布的尾端,所以此例说明的是一个非常普遍的问题。所以此例说明的是一个非常普遍的问题。所以此例说明的是一个非常普遍的问题。所以此例说明的是一个非常普遍的问题。 8/25/202428 4. 4. 二项分布的正态近似法二项分布的正态近似法二项分布的正态近似法二项分布的正态近似法 通过前面的讨论,我们已经知道二项分布受成功通过前面的讨论,我们已经知道二项分布受成功事件概率事件概率p p和重复次数和重复次数n n两个参数的影响,只要确定了两个参数的影响,只要确定

66、了p p和和n n,二项分布也随之确定了。二项分布也随之确定了。 但是,二项分布的应用但是,二项分布的应用价值实际上受到了价值实际上受到了n n的很大限制。也就是说,只有当的很大限制。也就是说,只有当n n较小时,我们才能比较方便地计算二项分布。所幸的较小时,我们才能比较方便地计算二项分布。所幸的是,二项分布是以正态分布为极限的。所以当是,二项分布是以正态分布为极限的。所以当n n很大时,很大时,只要只要p p或或q q不近于零,我们就可以用正态近似来解决二不近于零,我们就可以用正态近似来解决二项分布的计算问题。即以项分布的计算问题。即以n pn p 、n p qn p q 2 2,将将B B

67、( (x x;n n,p p) )视为视为N N( (n n p p,n pn p q q) )进行计算。在社会统计进行计算。在社会统计中,当中,当n n 30 30,n pn p、n n q q均不小于均不小于5 5时,对二项分布作正时,对二项分布作正态近似是可靠的。态近似是可靠的。 8/25/202429 第四节第四节 中心极限定理中心极限定理 一旦统计的学习进入到推论统计,我们就必须同时与三一旦统计的学习进入到推论统计,我们就必须同时与三一旦统计的学习进入到推论统计,我们就必须同时与三一旦统计的学习进入到推论统计,我们就必须同时与三种不同的分布概念打交道,即总体分布、样本分布、抽样分种不

68、同的分布概念打交道,即总体分布、样本分布、抽样分种不同的分布概念打交道,即总体分布、样本分布、抽样分种不同的分布概念打交道,即总体分布、样本分布、抽样分布。为了不产生混淆,视分布不同,将统计指标的符号加以区布。为了不产生混淆,视分布不同,将统计指标的符号加以区布。为了不产生混淆,视分布不同,将统计指标的符号加以区布。为了不产生混淆,视分布不同,将统计指标的符号加以区别是完全必要的。对那些反映标志值集中趋势和离中趋势的综别是完全必要的。对那些反映标志值集中趋势和离中趋势的综别是完全必要的。对那些反映标志值集中趋势和离中趋势的综别是完全必要的。对那些反映标志值集中趋势和离中趋势的综合指标,尤其对均

69、值和标准差合指标,尤其对均值和标准差合指标,尤其对均值和标准差合指标,尤其对均值和标准差( (或方差或方差或方差或方差) )。均值均值均值均值标准差标准差标准差标准差总体分布总体分布总体分布总体分布样本分布样本分布样本分布样本分布抽样分布抽样分布抽样分布抽样分布 抽样分布特指样本统计量作为随机变量的概率分布。用数学语言来说,抽样分布是运用数理统计的方法,把具体概率赋予样本的所有可能结果的一种理论分布。 在一个总体中可以产生无数个样本,所以样本统计量(比如均值 )必定是随机变量。 这样就提出一个问题:如果样本统计量作为随机变量,它的概率分布是什么样呢?8/25/202430 1 1中心极限定理中

70、心极限定理中心极限定理中心极限定理 我们知道,概率论中用来阐明大量随机现象平均我们知道,概率论中用来阐明大量随机现象平均我们知道,概率论中用来阐明大量随机现象平均我们知道,概率论中用来阐明大量随机现象平均结果的稳定性的定理,是著名的结果的稳定性的定理,是著名的结果的稳定性的定理,是著名的结果的稳定性的定理,是著名的大数定理大数定理大数定理大数定理。其具体内。其具体内。其具体内。其具体内容是:频率稳定于概率,平均值稳定于期望值。但容是:频率稳定于概率,平均值稳定于期望值。但容是:频率稳定于概率,平均值稳定于期望值。但容是:频率稳定于概率,平均值稳定于期望值。但是,大量随机现象的稳定性不仅表现在平

71、均结果上,是,大量随机现象的稳定性不仅表现在平均结果上,是,大量随机现象的稳定性不仅表现在平均结果上,是,大量随机现象的稳定性不仅表现在平均结果上,同时也表现在分布上,这就是同时也表现在分布上,这就是同时也表现在分布上,这就是同时也表现在分布上,这就是中心极限定理中心极限定理中心极限定理中心极限定理所要阐明所要阐明所要阐明所要阐明的内容。显然,推论统计需要有一座能够架通抽样调的内容。显然,推论统计需要有一座能够架通抽样调的内容。显然,推论统计需要有一座能够架通抽样调的内容。显然,推论统计需要有一座能够架通抽样调查和抽样分布的桥梁。查和抽样分布的桥梁。查和抽样分布的桥梁。查和抽样分布的桥梁。中心

72、极限定理中心极限定理中心极限定理中心极限定理告诉我们:如果告诉我们:如果告诉我们:如果告诉我们:如果从任何一个具有均值从任何一个具有均值从任何一个具有均值从任何一个具有均值 和方差和方差和方差和方差 2 2的总体的总体的总体的总体( (可以具有任可以具有任可以具有任可以具有任何分布形式何分布形式何分布形式何分布形式) )中重复抽取容量为中重复抽取容量为中重复抽取容量为中重复抽取容量为n n的随机样本,那么当的随机样本,那么当的随机样本,那么当的随机样本,那么当n n变得很大时,样本均值的抽样分布接近正态,并具变得很大时,样本均值的抽样分布接近正态,并具变得很大时,样本均值的抽样分布接近正态,并

73、具变得很大时,样本均值的抽样分布接近正态,并具有均值有均值有均值有均值 和方差和方差和方差和方差 。 8/25/202431 (2)(2)由于抽样分布的标由于抽样分布的标由于抽样分布的标由于抽样分布的标准准准准差要比总体标准差小,并且差要比总体标准差小,并且差要比总体标准差小,并且差要比总体标准差小,并且 ,所以如右图所,所以如右图所,所以如右图所,所以如右图所示,样本容量越大,抽样分示,样本容量越大,抽样分示,样本容量越大,抽样分示,样本容量越大,抽样分布的峰态愈陡峭,由样本结布的峰态愈陡峭,由样本结布的峰态愈陡峭,由样本结布的峰态愈陡峭,由样本结果来推断总体参数的可靠性果来推断总体参数的可

74、靠性果来推断总体参数的可靠性果来推断总体参数的可靠性也随之提高。也随之提高。也随之提高。也随之提高。 无疑,中心极限定理大大拓展了正态分布的适用面,同时我无疑,中心极限定理大大拓展了正态分布的适用面,同时我无疑,中心极限定理大大拓展了正态分布的适用面,同时我无疑,中心极限定理大大拓展了正态分布的适用面,同时我们得到了以下重要信息:们得到了以下重要信息:们得到了以下重要信息:们得到了以下重要信息: (1)(1)虽然样本的均值可能和总体均值有差别,但我们可期望虽然样本的均值可能和总体均值有差别,但我们可期望虽然样本的均值可能和总体均值有差别,但我们可期望虽然样本的均值可能和总体均值有差别,但我们可

75、期望这些将聚集在这些将聚集在这些将聚集在这些将聚集在 的周围。因此均值抽样分布的算术平均数能和总的周围。因此均值抽样分布的算术平均数能和总的周围。因此均值抽样分布的算术平均数能和总的周围。因此均值抽样分布的算术平均数能和总体的均值很好地重合,这就是为什么总体均值和抽样分布的均值体的均值很好地重合,这就是为什么总体均值和抽样分布的均值体的均值很好地重合,这就是为什么总体均值和抽样分布的均值体的均值很好地重合,这就是为什么总体均值和抽样分布的均值用同一个用同一个用同一个用同一个 来来来来表示的缘故。表示的缘故。表示的缘故。表示的缘故。8/25/202432 统计检验应用正态分布和二项分布有两点区别

76、:统计检验应用正态分布和二项分布有两点区别:统计检验应用正态分布和二项分布有两点区别:统计检验应用正态分布和二项分布有两点区别:抽样分抽样分抽样分抽样分布布布布在这里是连续的而非离散的,否定域的大小可以和显著性水平的在这里是连续的而非离散的,否定域的大小可以和显著性水平的在这里是连续的而非离散的,否定域的大小可以和显著性水平的在这里是连续的而非离散的,否定域的大小可以和显著性水平的要求精确地一致起来。要求精确地一致起来。要求精确地一致起来。要求精确地一致起来。计算检验统计量不再像在应用二项分计算检验统计量不再像在应用二项分计算检验统计量不再像在应用二项分计算检验统计量不再像在应用二项分布布布布

77、时那样,可以不劳而获了。很显然,为了能使用现成的正态分布时那样,可以不劳而获了。很显然,为了能使用现成的正态分布时那样,可以不劳而获了。很显然,为了能使用现成的正态分布时那样,可以不劳而获了。很显然,为了能使用现成的正态分布表,关键是要从样本资料中计算出在表,关键是要从样本资料中计算出在表,关键是要从样本资料中计算出在表,关键是要从样本资料中计算出在N N(0(0,1)1)形式下的统计量形式下的统计量形式下的统计量形式下的统计量Z Z,再根据再根据再根据再根据Z Z是否落在否定城内而对被检验假设的取舍作出决定。是否落在否定城内而对被检验假设的取舍作出决定。是否落在否定城内而对被检验假设的取舍作

78、出决定。是否落在否定城内而对被检验假设的取舍作出决定。 在上一节我们曾引出在上一节我们曾引出在上一节我们曾引出在上一节我们曾引出 。Z Z 的这种形式适用于的这种形式适用于的这种形式适用于的这种形式适用于N N( ( , 2 2) )的总体,但并不适用于取正态的抽样分布。正如我们的总体,但并不适用于取正态的抽样分布。正如我们的总体,但并不适用于取正态的抽样分布。正如我们的总体,但并不适用于取正态的抽样分布。正如我们反复强调的那样,统计检验单纯依靠样本自身是得不出结果的,反复强调的那样,统计检验单纯依靠样本自身是得不出结果的,反复强调的那样,统计检验单纯依靠样本自身是得不出结果的,反复强调的那样

79、,统计检验单纯依靠样本自身是得不出结果的,必须首先在一系列假设的基础上求出抽样分布。如果这些假设实必须首先在一系列假设的基础上求出抽样分布。如果这些假设实必须首先在一系列假设的基础上求出抽样分布。如果这些假设实必须首先在一系列假设的基础上求出抽样分布。如果这些假设实际上正确,那么抽样分布将告诉我们得到一个给定的的可能性是际上正确,那么抽样分布将告诉我们得到一个给定的的可能性是际上正确,那么抽样分布将告诉我们得到一个给定的的可能性是际上正确,那么抽样分布将告诉我们得到一个给定的的可能性是多少。在抽样分布中,随机变量的取值是每个多少。在抽样分布中,随机变量的取值是每个多少。在抽样分布中,随机变量的

80、取值是每个多少。在抽样分布中,随机变量的取值是每个 ,均值是,均值是,均值是,均值是 ,标准差是标准差是标准差是标准差是 。因此。因此。因此。因此 Z Z 如果作为检验统计量,应该用如果作为检验统计量,应该用如果作为检验统计量,应该用如果作为检验统计量,应该用替换替换替换替换X X,用,用,用,用 替换替换替换替换 , 不动,因而有不动,因而有不动,因而有不动,因而有 。8/25/202433 一个完整的假设应该包括零假设和备一个完整的假设应该包括零假设和备一个完整的假设应该包括零假设和备一个完整的假设应该包括零假设和备择假设。在择假设。在择假设。在择假设。在Z Z检验中,假设有三种写法检验中

81、,假设有三种写法检验中,假设有三种写法检验中,假设有三种写法:n n第一种:第一种:H H0 0: : =90 =90 H H1: 1: 90 90n n第二种:第二种:H H0 0: : =90 =90 H H1: 1: 9090 90双侧检验双侧检验单侧检验(右)单侧检验(右)单侧检验(左)单侧检验(左)8/25/202434思考题思考题n n1 1、如何理解两类错误及其关系?、如何理解两类错误及其关系?n n2 2、如何理解小概率原理在假设检验中的、如何理解小概率原理在假设检验中的重要性?重要性?n n3 3、假设检验的基本原理和步骤是什么?、假设检验的基本原理和步骤是什么?n n4 4

82、、什么是原假设域备择假设?、什么是原假设域备择假设?n n5 5、如何理解双侧检验与单侧检验?、如何理解双侧检验与单侧检验?8/25/202435 例例例例 一位研究者试图检验某一社会调查所运用一位研究者试图检验某一社会调查所运用一位研究者试图检验某一社会调查所运用一位研究者试图检验某一社会调查所运用的抽样程序,该项调查是由一些缺乏经验的访问员进的抽样程序,该项调查是由一些缺乏经验的访问员进的抽样程序,该项调查是由一些缺乏经验的访问员进的抽样程序,该项调查是由一些缺乏经验的访问员进行的。研究者怀疑属于干部和知识分子的家庭抽得过行的。研究者怀疑属于干部和知识分子的家庭抽得过行的。研究者怀疑属于干

83、部和知识分子的家庭抽得过行的。研究者怀疑属于干部和知识分子的家庭抽得过多。过去的统计资料表明,该街区的家庭收入是多。过去的统计资料表明,该街区的家庭收入是多。过去的统计资料表明,该街区的家庭收入是多。过去的统计资料表明,该街区的家庭收入是75007500元,标准差是元,标准差是元,标准差是元,标准差是15001500元;此次调查共抽取元;此次调查共抽取元;此次调查共抽取元;此次调查共抽取100100个家庭,样个家庭,样个家庭,样个家庭,样本平均收入是本平均收入是本平均收入是本平均收入是79007900元。问:该研究人员是否有理由怀元。问:该研究人员是否有理由怀元。问:该研究人员是否有理由怀元。

84、问:该研究人员是否有理由怀疑该样本有偏估?(选用疑该样本有偏估?(选用疑该样本有偏估?(选用疑该样本有偏估?(选用=0.05=0.05)第五节第五节第五节第五节 总体均值和成数的单样本检验总体均值和成数的单样本检验总体均值和成数的单样本检验总体均值和成数的单样本检验1 1 已知,对总体均值的检验已知,对总体均值的检验已知,对总体均值的检验已知,对总体均值的检验实际上是要检验“随机抽样”这个零假设 8/25/202436 解解解解 根据题意,可做如下假设,并做单侧检验根据题意,可做如下假设,并做单侧检验根据题意,可做如下假设,并做单侧检验根据题意,可做如下假设,并做单侧检验 因因因因=0.05=

85、0.05,查表得,查表得,查表得,查表得Z Z 0.050.05=1.65=1.65,故否定域为故否定域为故否定域为故否定域为根据中心极限定理,检验统计量根据中心极限定理,检验统计量根据中心极限定理,检验统计量根据中心极限定理,检验统计量计算得计算得计算得计算得 检验统计量检验统计量检验统计量检验统计量Z Z的计算表明,样本均值比总体均值大的计算表明,样本均值比总体均值大的计算表明,样本均值比总体均值大的计算表明,样本均值比总体均值大2 26767个个个个标准差(标准差(标准差(标准差( ),超过了显著性水平规定的临界值,调查者应该),超过了显著性水平规定的临界值,调查者应该),超过了显著性水

86、平规定的临界值,调查者应该),超过了显著性水平规定的临界值,调查者应该否定否定否定否定“ “随机抽样随机抽样随机抽样随机抽样” ”的零假设。也就是说,由于抽样在程序上不合的零假设。也就是说,由于抽样在程序上不合的零假设。也就是说,由于抽样在程序上不合的零假设。也就是说,由于抽样在程序上不合要要要要求,这项社会调查有必要重新组织。求,这项社会调查有必要重新组织。求,这项社会调查有必要重新组织。求,这项社会调查有必要重新组织。 8/25/202437 中心极限定理实际解决了大样本均值的检验问中心极限定理实际解决了大样本均值的检验问中心极限定理实际解决了大样本均值的检验问中心极限定理实际解决了大样本

87、均值的检验问题。假定样本比较大题。假定样本比较大题。假定样本比较大题。假定样本比较大(n(n5050,这在社会调查中一般,这在社会调查中一般,这在社会调查中一般,这在社会调查中一般都能得到满足都能得到满足都能得到满足都能得到满足) ),样本均值的抽样分布就与总体分布,样本均值的抽样分布就与总体分布,样本均值的抽样分布就与总体分布,样本均值的抽样分布就与总体分布无关,而服从正态分布。当无关,而服从正态分布。当无关,而服从正态分布。当无关,而服从正态分布。当HH0 0成立时,样本均值的成立时,样本均值的成立时,样本均值的成立时,样本均值的观察值比较集中地分布在总体均值观察值比较集中地分布在总体均值

88、观察值比较集中地分布在总体均值观察值比较集中地分布在总体均值 周围;当周围;当周围;当周围;当HH0 0不不不不成立时,成立时,成立时,成立时, 将对将对将对将对 有明显偏离的趋势。因而,我们有明显偏离的趋势。因而,我们有明显偏离的趋势。因而,我们有明显偏离的趋势。因而,我们可以在选定的显著性水平上,通过计算检验统计量可以在选定的显著性水平上,通过计算检验统计量可以在选定的显著性水平上,通过计算检验统计量可以在选定的显著性水平上,通过计算检验统计量Z Z,对零假设进行检定。,对零假设进行检定。,对零假设进行检定。,对零假设进行检定。 注:当注:当注:当注:当 未知时,只要样本量很大,就可用未知

89、时,只要样本量很大,就可用未知时,只要样本量很大,就可用未知时,只要样本量很大,就可用S S来代替来代替来代替来代替 。但对于小样本,。但对于小样本,。但对于小样本,。但对于小样本,Z Z检验就要用检验就要用检验就要用检验就要用 t t 检验来检验来检验来检验来替代了,而且还必须严格限于正态总体。替代了,而且还必须严格限于正态总体。替代了,而且还必须严格限于正态总体。替代了,而且还必须严格限于正态总体。8/25/202438 解解解解 根据题意,可作如下的假设,并做双侧检验根据题意,可作如下的假设,并做双侧检验根据题意,可作如下的假设,并做双侧检验根据题意,可作如下的假设,并做双侧检验 HH0

90、 0: 23302330元元元元 HH1 1: 23302330元元元元因因因因 0.050.05,查正态分布表得,查正态分布表得,查正态分布表得,查正态分布表得Z Z /2/21.961.96,故否定域,故否定域,故否定域,故否定域| |Z|Z|1.96 1.96 计算检验统计量计算检验统计量计算检验统计量计算检验统计量 Z Z 1.201.201 19696 所以,不能认为该单位人均月收入不是所以,不能认为该单位人均月收入不是所以,不能认为该单位人均月收入不是所以,不能认为该单位人均月收入不是23302330元,即不能元,即不能元,即不能元,即不能认为该统计报表有误。认为该统计报表有误。认

91、为该统计报表有误。认为该统计报表有误。 例例例例 某单位统计报表显示,人均月收入为某单位统计报表显示,人均月收入为某单位统计报表显示,人均月收入为某单位统计报表显示,人均月收入为23302330元,为了验证元,为了验证元,为了验证元,为了验证该统该统该统该统计报表的正确性,作了共计报表的正确性,作了共计报表的正确性,作了共计报表的正确性,作了共8181人的抽样调查,样本人均月收入人的抽样调查,样本人均月收入人的抽样调查,样本人均月收入人的抽样调查,样本人均月收入为为为为23502350元,标准差为元,标准差为元,标准差为元,标准差为150150元,问能否说明该统计报表显示的人均元,问能否说明该

92、统计报表显示的人均元,问能否说明该统计报表显示的人均元,问能否说明该统计报表显示的人均 收入的数字有误收入的数字有误收入的数字有误收入的数字有误( (取显著性水平取显著性水平取显著性水平取显著性水平 0.05)0.05)。 此乃“总体均值”零假设的检验8/25/202439提醒:提醒: 单侧单侧 Z Z 双侧双侧 Z Z /2 /20.050.050.010.010.0010.0011.651.652.332.333.093.091.961.962.582.583.303.308/25/202440 2. 2.小样本总体均值的检验(学生小样本总体均值的检验(学生小样本总体均值的检验(学生小样本

93、总体均值的检验(学生t t分布)分布)分布)分布) 中心极限定理解决了大样本均值的检验问题。但是中心极限定理解决了大样本均值的检验问题。但是中心极限定理解决了大样本均值的检验问题。但是中心极限定理解决了大样本均值的检验问题。但是当当当当n n较小时,用这种方法求出的概率可能是错误的,有较小时,用这种方法求出的概率可能是错误的,有较小时,用这种方法求出的概率可能是错误的,有较小时,用这种方法求出的概率可能是错误的,有必要做某种修正。于是有人设计了另一种检验统计量必要做某种修正。于是有人设计了另一种检验统计量必要做某种修正。于是有人设计了另一种检验统计量必要做某种修正。于是有人设计了另一种检验统计

94、量 这个统计量最初是由戈塞特这个统计量最初是由戈塞特(1876(1876一一1937)1937)用笔名用笔名“ “学生学生” ”发表,所以这个统计量的抽样分布称为学生发表,所以这个统计量的抽样分布称为学生t t分布。比较分布。比较t t和和Z Z,我们注意到它们的分子相同,而分,我们注意到它们的分子相同,而分母却稍有不同:母却稍有不同: 为为S S所代替所代替( (这一点无须解释这一点无须解释) );根号下是根号下是n n11。8/25/202441 当当当当Z Z为为为为t t替代时,虽用因子替代时,虽用因子替代时,虽用因子替代时,虽用因子n nII所导致的修正看起所导致的修正看起所导致的修

95、正看起所导致的修正看起来不大,但在样本容量较小时,这种修正就会起很大来不大,但在样本容量较小时,这种修正就会起很大来不大,但在样本容量较小时,这种修正就会起很大来不大,但在样本容量较小时,这种修正就会起很大作用了。所以当不知道作用了。所以当不知道作用了。所以当不知道作用了。所以当不知道 值、且样本容量较小时,我值、且样本容量较小时,我值、且样本容量较小时,我值、且样本容量较小时,我们应该考虑应用们应该考虑应用们应该考虑应用们应该考虑应用t t分布而不是分布而不是分布而不是分布而不是Z Z分布。分布。分布。分布。 采用采用n1的的原因:样本数原因:样本数据的离散程度据的离散程度小于总体数据小于总

96、体数据的离散程度。的离散程度。 n1实际为自实际为自由度数由度数k 。8/25/202442通过下式可以编制出通过下式可以编制出通过下式可以编制出通过下式可以编制出t t 分布表分布表分布表分布表( (见附录见附录见附录见附录5)5) 注意注意注意注意t t (k k)写法的含义,它表示自由度数为)写法的含义,它表示自由度数为)写法的含义,它表示自由度数为)写法的含义,它表示自由度数为k k的的的的t t分分分分布当分布函数布当分布函数布当分布函数布当分布函数 时随机变量时随机变量时随机变量时随机变量t t的临界值。的临界值。的临界值。的临界值。当当当当n n变大,变大,变大,变大,t t 分

97、布将越来越接近正态分布,应用分布将越来越接近正态分布,应用分布将越来越接近正态分布,应用分布将越来越接近正态分布,应用t t分布还是分布还是分布还是分布还是Z Z分布就无所谓了。事实上随着分布就无所谓了。事实上随着分布就无所谓了。事实上随着分布就无所谓了。事实上随着n n变大,变大,变大,变大,S S逐渐变成逐渐变成逐渐变成逐渐变成 的的的的精确估计量,因而分母项无论使用精确估计量,因而分母项无论使用精确估计量,因而分母项无论使用精确估计量,因而分母项无论使用S S还是还是还是还是 ,差别都非,差别都非,差别都非,差别都非常小。但特别要留意,使用常小。但特别要留意,使用常小。但特别要留意,使用

98、常小。但特别要留意,使用t t 分布的条件比使用分布的条件比使用分布的条件比使用分布的条件比使用Z Z分布的分布的分布的分布的条件苛刻,即必须假定总体为正态。条件苛刻,即必须假定总体为正态。条件苛刻,即必须假定总体为正态。条件苛刻,即必须假定总体为正态。 8/25/202443 例例例例 已知初婚年龄服从正态分布。根据已知初婚年龄服从正态分布。根据已知初婚年龄服从正态分布。根据已知初婚年龄服从正态分布。根据1010人的调人的调人的调人的调查有查有查有查有 = 23.5= 23.5岁,岁,岁,岁,S=3S=3岁,问是否可以认为该地区的平岁,问是否可以认为该地区的平岁,问是否可以认为该地区的平岁,

99、问是否可以认为该地区的平均初婚年龄已超过均初婚年龄已超过均初婚年龄已超过均初婚年龄已超过2020岁?(岁?(岁?(岁?(=0.01=0.01) 解解解解 H H0 0: = =2020;HH1 1: 2020 因为因为因为因为n n小,又不知小,又不知小,又不知小,又不知 值,因此用值,因此用值,因此用值,因此用t t检验检验检验检验 对自由度对自由度对自由度对自由度9 9来讲,单侧检验和显著性水平来讲,单侧检验和显著性水平来讲,单侧检验和显著性水平来讲,单侧检验和显著性水平0.010.01,查,查,查,查表知否定域为表知否定域为表知否定域为表知否定域为t t值等于或大于值等于或大于值等于或大

100、于值等于或大于 2.8212.821。再计算检验统计量。再计算检验统计量。再计算检验统计量。再计算检验统计量 因此拒绝因此拒绝H0,即可以认为在显著性水平为即可以认为在显著性水平为0.01的的条件下,该地区的初婚年龄已超过条件下,该地区的初婚年龄已超过20岁。岁。8/25/202444 3. 3.大样本成数的检验大样本成数的检验大样本成数的检验大样本成数的检验 有时,需要对总体中具有某种特征的单位在总体中有时,需要对总体中具有某种特征的单位在总体中有时,需要对总体中具有某种特征的单位在总体中有时,需要对总体中具有某种特征的单位在总体中所占的的比例所占的的比例所占的的比例所占的的比例 p p(即

101、总体成数)作显著性检验,如人口(即总体成数)作显著性检验,如人口(即总体成数)作显著性检验,如人口(即总体成数)作显著性检验,如人口中的失业率、学龄儿童中的失学率等等。成数检验与二中的失业率、学龄儿童中的失学率等等。成数检验与二中的失业率、学龄儿童中的失学率等等。成数检验与二中的失业率、学龄儿童中的失学率等等。成数检验与二项检验的联系是不言而愈的。因为在二项检验中,随机项检验的联系是不言而愈的。因为在二项检验中,随机项检验的联系是不言而愈的。因为在二项检验中,随机项检验的联系是不言而愈的。因为在二项检验中,随机变量是样本的变量是样本的变量是样本的变量是样本的“ “成功成功成功成功” ”次数次数

102、次数次数x x。而在成数检验中,随机。而在成数检验中,随机。而在成数检验中,随机。而在成数检验中,随机变变变变量是样本的量是样本的量是样本的量是样本的“ “成功成功成功成功” ”比例比例比例比例 (即样本成数),这样在(即样本成数),这样在(即样本成数),这样在(即样本成数),这样在 n n 一定的情况下,显然有一定的情况下,显然有一定的情况下,显然有一定的情况下,显然有 8/25/202445 既然既然 是一个随机变量,那么把具体概率赋予样是一个随机变量,那么把具体概率赋予样本成数的每一个取值,我们就得到了样本成数的抽样本成数的每一个取值,我们就得到了样本成数的抽样分布。根据中心极限定理,我

103、们不难想见,当分布。根据中心极限定理,我们不难想见,当n足够大足够大时,样本成数的抽样分布也服从正态分布。由于数学时,样本成数的抽样分布也服从正态分布。由于数学上很容易证明上很容易证明 , ,这样一来,这样一来,对于大样本对于大样本(n30,np5),成数的检验统计量,成数的检验统计量 Z 可表可表示为示为8/25/202446 例例 某地区成年男性中吸烟者占某地区成年男性中吸烟者占64%64%,经过戒烟宣传后进,经过戒烟宣传后进行抽样调查,发现行抽样调查,发现100100名被调查者中,有名被调查者中,有5555人是吸烟者,试问戒人是吸烟者,试问戒烟宣传是否有成效(烟宣传是否有成效(=0.05

104、=0.05) 解解解解 已知已知已知已知n n1001003030,npnpl000.64l000.6464645 5,故可使用,故可使用,故可使用,故可使用正态检验。又知正态检验。又知正态检验。又知正态检验。又知 0.550.55,p p0.640.64,q q0.360.36,则,则,则,则 HH0 0: p p= =0.640.64 H H1 1: p p0.640.64 据题意,选择单侧检验,因据题意,选择单侧检验,因据题意,选择单侧检验,因据题意,选择单侧检验,因 0.050.05,查正态分布表得否定域为,查正态分布表得否定域为,查正态分布表得否定域为,查正态分布表得否定域为 | |

105、Z Z|1|16565 。再。再计算检验统计量计算检验统计量计算检验统计量计算检验统计量 因此,否定零假设,即认为戒烟宣传收到了显著成效。因此,否定零假设,即认为戒烟宣传收到了显著成效。因此,否定零假设,即认为戒烟宣传收到了显著成效。因此,否定零假设,即认为戒烟宣传收到了显著成效。8/25/202447练习:练习:练习:练习: 1. 1. 为了检验统计报表的正确性,作了共为了检验统计报表的正确性,作了共为了检验统计报表的正确性,作了共为了检验统计报表的正确性,作了共5050人的抽人的抽人的抽人的抽样调查,人均收入为样调查,人均收入为样调查,人均收入为样调查,人均收入为871871元,标准差为元

106、,标准差为元,标准差为元,标准差为2121元,问能否证元,问能否证元,问能否证元,问能否证明统计报表中人均收入明统计报表中人均收入明统计报表中人均收入明统计报表中人均收入880880元是正确的?元是正确的?元是正确的?元是正确的? (=0.05=0.05) 2. 2. 许多人在周末睡懒觉以弥补工作日的睡眠不许多人在周末睡懒觉以弥补工作日的睡眠不许多人在周末睡懒觉以弥补工作日的睡眠不许多人在周末睡懒觉以弥补工作日的睡眠不足。最佳睡眠协会的报告说,我们之中有足。最佳睡眠协会的报告说,我们之中有足。最佳睡眠协会的报告说,我们之中有足。最佳睡眠协会的报告说,我们之中有61%61%的人在周的人在周的人在

107、周的人在周末每夜睡眠多于末每夜睡眠多于末每夜睡眠多于末每夜睡眠多于7 7小时。从小时。从小时。从小时。从350350个成年人的一组随机样本个成年人的一组随机样本个成年人的一组随机样本个成年人的一组随机样本发现发现发现发现235235人在上周末有多于人在上周末有多于人在上周末有多于人在上周末有多于7 7小时的睡眠。以小时的睡眠。以小时的睡眠。以小时的睡眠。以0.050.05的显著的显著的显著的显著水平,这证据证明有水平,这证据证明有水平,这证据证明有水平,这证据证明有61%61%以上该周末每夜多于以上该周末每夜多于以上该周末每夜多于以上该周末每夜多于7 7小时的小时的小时的小时的睡眠吗?睡眠吗?

108、睡眠吗?睡眠吗? 3. 3. 原有的研究表明,上海家庭中不和的占原有的研究表明,上海家庭中不和的占原有的研究表明,上海家庭中不和的占原有的研究表明,上海家庭中不和的占3030。从。从。从。从上海随机抽取上海随机抽取上海随机抽取上海随机抽取2020名户家庭,调查得出名户家庭,调查得出名户家庭,调查得出名户家庭,调查得出2020的家庭不和。的家庭不和。的家庭不和。的家庭不和。问能否得出上海家庭关系改善的结论?问能否得出上海家庭关系改善的结论?问能否得出上海家庭关系改善的结论?问能否得出上海家庭关系改善的结论? (=0.05=0.05) 8/25/202448 4. 4.一家保险公司说,客户索赔的一

109、家保险公司说,客户索赔的一家保险公司说,客户索赔的一家保险公司说,客户索赔的90%90%在在在在3030天以内天以内天以内天以内办好。为检验公司的这种说法,消协选取了办好。为检验公司的这种说法,消协选取了办好。为检验公司的这种说法,消协选取了办好。为检验公司的这种说法,消协选取了7575次公司次公司次公司次公司索赔的一组随机样本,发现索赔的一组随机样本,发现索赔的一组随机样本,发现索赔的一组随机样本,发现5555次索赔在次索赔在次索赔在次索赔在3030天内办好,天内办好,天内办好,天内办好,他们有充分理由支持他们有充分理由支持他们有充分理由支持他们有充分理由支持“ “在在在在3030天内办好索

110、赔小于天内办好索赔小于天内办好索赔小于天内办好索赔小于90%”90%”的的的的论点吗?(论点吗?(论点吗?(论点吗?( =0.05=0.05) 5. 5. 通过试管受精(通过试管受精(通过试管受精(通过试管受精(IVF)IVF)怀孕的第一个婴儿怀孕的第一个婴儿怀孕的第一个婴儿怀孕的第一个婴儿19781978年年年年在英格兰出生。在此后的在英格兰出生。在此后的在英格兰出生。在此后的在英格兰出生。在此后的2020年间,年间,年间,年间,10001000万妇女因为不万妇女因为不万妇女因为不万妇女因为不育接受了这种护理,这种方法的平均成功率为育接受了这种护理,这种方法的平均成功率为育接受了这种护理,这

111、种方法的平均成功率为育接受了这种护理,这种方法的平均成功率为22.5%22.5%,但是随着技术的不断进步,其成功率还在不断上升。但是随着技术的不断进步,其成功率还在不断上升。但是随着技术的不断进步,其成功率还在不断上升。但是随着技术的不断进步,其成功率还在不断上升。假定使用假定使用假定使用假定使用IVFIVF方法企图克服不育的方法企图克服不育的方法企图克服不育的方法企图克服不育的200200个妇女的一项最个妇女的一项最个妇女的一项最个妇女的一项最新研究证明,新研究证明,新研究证明,新研究证明,6161个是成功怀孕的。此结果证明样本的个是成功怀孕的。此结果证明样本的个是成功怀孕的。此结果证明样本

112、的个是成功怀孕的。此结果证明样本的成功率比基于历史成功率所期望的更大吗(成功率比基于历史成功率所期望的更大吗(成功率比基于历史成功率所期望的更大吗(成功率比基于历史成功率所期望的更大吗( =0.0=0.05 5)8/25/202449n n 6. 6. 某研究员为证实知识分子家庭的平均子某研究员为证实知识分子家庭的平均子女数低于工人家庭的平均子女数(女数低于工人家庭的平均子女数(2.52.5人),人),随机抽取了随机抽取了100100户知识分子家庭进行调查,发户知识分子家庭进行调查,发现,平均子女数为现,平均子女数为2.12.1人,标准差为人,标准差为1.11.1人,上人,上述看法能否得以证实?(述看法能否得以证实?(=0.05=0.05)n n 7. 7. 据原有资料,某城市居民彩电的拥有率据原有资料,某城市居民彩电的拥有率为为6060,现根据最新,现根据最新100100户的抽样调查,彩电户的抽样调查,彩电的拥有率为的拥有率为6262。问能否认为彩电拥有率有所。问能否认为彩电拥有率有所增长?(增长?(=0.05=0.05) 8/25/202450

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号