九章资料的统计分析ppt课件

上传人:cl****1 文档编号:567956362 上传时间:2024-07-22 格式:PPT 页数:94 大小:1.79MB
返回 下载 相关 举报
九章资料的统计分析ppt课件_第1页
第1页 / 共94页
九章资料的统计分析ppt课件_第2页
第2页 / 共94页
九章资料的统计分析ppt课件_第3页
第3页 / 共94页
九章资料的统计分析ppt课件_第4页
第4页 / 共94页
九章资料的统计分析ppt课件_第5页
第5页 / 共94页
点击查看更多>>
资源描述

《九章资料的统计分析ppt课件》由会员分享,可在线阅读,更多相关《九章资料的统计分析ppt课件(94页珍藏版)》请在金锄头文库上搜索。

1、第九章第九章 资料的统计分析资料的统计分析 在调查结束后,我们必须对收集到的资料进行认真仔细在调查结束后,我们必须对收集到的资料进行认真仔细的整理。而整理的目的是为了分析,没有对资料的分析,的整理。而整理的目的是为了分析,没有对资料的分析,我们就不可能有对研究对象的总体把握,也不可能写出好的我们就不可能有对研究对象的总体把握,也不可能写出好的研究报告。研究报告。 当然,作为社会调查研究对象的社会现象有其质和量两当然,作为社会调查研究对象的社会现象有其质和量两方面,我们对整理好的资料也必须展开定性和定量两方面的方面,我们对整理好的资料也必须展开定性和定量两方面的分析,缺一不可。但是,定性分析是以

2、研究者的理论功底为分析,缺一不可。但是,定性分析是以研究者的理论功底为基础,主要靠个人的悟性。定量分析就不同了,它是我们每基础,主要靠个人的悟性。定量分析就不同了,它是我们每个人通过学习都可以统一掌握的技术。所以学习社会研究方个人通过学习都可以统一掌握的技术。所以学习社会研究方法,课堂教学在资料分析方面重点讲得是统计分析,而对定法,课堂教学在资料分析方面重点讲得是统计分析,而对定性分析,本书是以穿插于有关章节的方式并以情境启发的方性分析,本书是以穿插于有关章节的方式并以情境启发的方式来加以讨论的。式来加以讨论的。第一节第一节第一节第一节 统计调查资料及其整理统计调查资料及其整理统计调查资料及其

3、整理统计调查资料及其整理 一、统计分组和频数分布一、统计分组和频数分布一、统计分组和频数分布一、统计分组和频数分布 统计整理是与统计分组相联系的。所谓统计分组,就是将情况相同或相近的数据资料加以分门别类的归并,使之简单明晰,以便为统计分析中提取各种有用信息打下基础。 经过调查收集上来的资料虽然是大量的,却很可能是杂乱无章的,用它来直接做分析往往有困难。统计整理是对调查数据资料的条理化、系统化和有序化,通过它,社会调查研究才能进入统计分析阶段。 统计分组有两方面的含义,对总体(或样本)而言是统计分组有两方面的含义,对总体(或样本)而言是统计分组有两方面的含义,对总体(或样本)而言是统计分组有两方

4、面的含义,对总体(或样本)而言是“ “分分分分” ”,即将总体中各个单位按照它们的差异性(如身高的差,即将总体中各个单位按照它们的差异性(如身高的差,即将总体中各个单位按照它们的差异性(如身高的差,即将总体中各个单位按照它们的差异性(如身高的差异)区分为若干部分;对总体单位而言是异)区分为若干部分;对总体单位而言是异)区分为若干部分;对总体单位而言是异)区分为若干部分;对总体单位而言是“ “合合合合” ”,即将相近,即将相近,即将相近,即将相近似的单位组合起来。这样,本来杂乱无章的数据便有序化了。似的单位组合起来。这样,本来杂乱无章的数据便有序化了。似的单位组合起来。这样,本来杂乱无章的数据便

5、有序化了。似的单位组合起来。这样,本来杂乱无章的数据便有序化了。 频数分布是统计分组的结果,频数分布是统计分组的结果,频数分布是统计分组的结果,频数分布是统计分组的结果,它是指众多的调查数据在各个组它是指众多的调查数据在各个组它是指众多的调查数据在各个组它是指众多的调查数据在各个组(各类别、各等级或各区间)出(各类别、各等级或各区间)出(各类别、各等级或各区间)出(各类别、各等级或各区间)出现或发生的次数。频数分布是对现或发生的次数。频数分布是对现或发生的次数。频数分布是对现或发生的次数。频数分布是对客观事物自然形成的分布状态的客观事物自然形成的分布状态的客观事物自然形成的分布状态的客观事物自

6、然形成的分布状态的集中反映和描述集中反映和描述集中反映和描述集中反映和描述。 60名男性青年的身高表名男性青年的身高表 (原始资料)(原始资料) 单位:厘米单位:厘米 161 179 173 162 161 169 166 155 177 165 165 171 165 168 176 174 163 173 159 170 170 169 169 170 174 169 171 167 164 169 178 160 168 166 163 158 169 172 178 171 152 176 167 171 161 176 168 181 175 159 162 165 168 164

7、179 157 173 166 172 167 现在我们用现在我们用从某大学大一男从某大学大一男同学中抽取出来同学中抽取出来的的6060人的身高资人的身高资料来编制频数分料来编制频数分布表,布表,6060名男同名男同学身高(以厘米学身高(以厘米计)的原始资料计)的原始资料如右:如右: 60名男性青年的身高表名男性青年的身高表 (序列资料)(序列资料)单位:厘米单位:厘米 152 160 163 165 167 169 170 171 174 177 155 161 163 165 167 169 170 172 174 178 157 161 164 166 168 169 170 172 1

8、75 178 158 161 164 166 168 169 171 173 176 179 159 162 165 166 168 169 171 173 176 179 159 162 165 167 168 169 171 173 176 181 很显然,面很显然,面对这一堆原始数对这一堆原始数据,如果我们不据,如果我们不作简化处理,是作简化处理,是不容易从中看出不容易从中看出什么规律性的。什么规律性的。为此,我们先将为此,我们先将它们由低到高排它们由低到高排成序列资料:成序列资料: 身高组身高组(cm)(cm)人数(人数( ) 15015415015415415815415815816

9、2158162162166162166166170166170170174170174174178174178178182178182 1 1 2 2 7 7101016161212 7 7 5 5合计合计6060 将原始资料编排成序列资料,实际上是在进行统计汇总。由于身将原始资料编排成序列资料,实际上是在进行统计汇总。由于身将原始资料编排成序列资料,实际上是在进行统计汇总。由于身将原始资料编排成序列资料,实际上是在进行统计汇总。由于身高(高(高(高(X X)是连续变量,我们如果选)是连续变量,我们如果选)是连续变量,我们如果选)是连续变量,我们如果选4cm4cm为间距,我们可以直接把序列资为

10、间距,我们可以直接把序列资为间距,我们可以直接把序列资为间距,我们可以直接把序列资料编制成为含有料编制成为含有料编制成为含有料编制成为含有8 8个组的个组的个组的个组的频数分布表(频数用频数分布表(频数用频数分布表(频数用频数分布表(频数用f f 表示)。表示)。表示)。表示)。如此一来,原如此一来,原如此一来,原如此一来,原来来来来无序的原始资料就变为无序的原始资料就变为无序的原始资料就变为无序的原始资料就变为现在有序的分组资料。与现在有序的分组资料。与现在有序的分组资料。与现在有序的分组资料。与此同时,学生总体中身高此同时,学生总体中身高此同时,学生总体中身高此同时,学生总体中身高的分布状

11、况也清晰地呈现的分布状况也清晰地呈现的分布状况也清晰地呈现的分布状况也清晰地呈现出来。(注:由于身高是出来。(注:由于身高是出来。(注:由于身高是出来。(注:由于身高是连续变量,汇总时使用了连续变量,汇总时使用了连续变量,汇总时使用了连续变量,汇总时使用了“ “上组限不包括在内上组限不包括在内上组限不包括在内上组限不包括在内” ”的的的的处理原则。处理原则。处理原则。处理原则。) ) 某校大一某校大一60名男生身高频数分布表名男生身高频数分布表 身高组身高组(cm)(cm)人数(人数( % % ) 150154150154154158154158158162158162162166162166

12、166170166170170174170174174178174178178182178182 1.71.7 3.3 3.311.7 11.7 16.716.726.626.620.020.0 11.7 11.7 8.3 8.3合计合计100.0100.0二、频率分布与总体内部结构二、频率分布与总体内部结构二、频率分布与总体内部结构二、频率分布与总体内部结构 分组资料虽然简单明了,但不能直接看出各组人数占这分组资料虽然简单明了,但不能直接看出各组人数占这分组资料虽然简单明了,但不能直接看出各组人数占这分组资料虽然简单明了,但不能直接看出各组人数占这6060人的比人的比人的比人的比重,从而显示

13、出总体内部结构。为了实现这个要求,就要在分组资料重,从而显示出总体内部结构。为了实现这个要求,就要在分组资料重,从而显示出总体内部结构。为了实现这个要求,就要在分组资料重,从而显示出总体内部结构。为了实现这个要求,就要在分组资料的基础上派生出频率分布表(频率用的基础上派生出频率分布表(频率用的基础上派生出频率分布表(频率用的基础上派生出频率分布表(频率用P P表示)。表示)。表示)。表示)。 频率就是各组人数占总体人数的比重,即PfN。比重都小于1,经常用百分数来表达,它反映了对象总体的内部结构。 某校大一某校大一60名男生身高频率分布表名男生身高频率分布表 累计频数(累计频数(F F)n n

14、向上累计向上累计以变量数以变量数列首组的频数为始点,逐列首组的频数为始点,逐个累计各组的频数,展示个累计各组的频数,展示小于该组上限的频数和。小于该组上限的频数和。n n向下累计向下累计以变量数以变量数列末组的频数为始点,逐列末组的频数为始点,逐个累计各组的频数,展示个累计各组的频数,展示大于该组下限的频数和。大于该组下限的频数和。 以以以以上上上上我我我我们们们们看看看看到到到到了了了了三三三三种种种种形形形形式式式式的的的的资资资资料料料料:原原原原始始始始资资资资料料料料、次次次次序序序序资资资资料料料料和和和和分分分分组组组组资资资资料料料料,这这这这反反反反映映映映了了了了对对对对资

15、资资资料料料料进进进进行行行行整整整整理理理理和和和和简简简简化化化化的的的的顺顺顺顺序序序序。这这这这三三三三种种种种形形形形式式式式是是是是依依依依次次次次逐逐逐逐步步步步简简简简化化化化和和和和条条条条理理理理化化化化的的的的,使使使使人们看起来越来越容易、越来越清楚。人们看起来越来越容易、越来越清楚。人们看起来越来越容易、越来越清楚。人们看起来越来越容易、越来越清楚。 三、图示法三、图示法三、图示法三、图示法 把无序的原始资料整理成频数分布表,是表示统计把无序的原始资料整理成频数分布表,是表示统计资料的一种有效方式,我们可以称为列表法。其实,用资料的一种有效方式,我们可以称为列表法。其

16、实,用图示法来表示统计资料比列表法更能一目了然。我们可图示法来表示统计资料比列表法更能一目了然。我们可以根据整理好的频数分布(或频率分布和累积百分数分以根据整理好的频数分布(或频率分布和累积百分数分布)绘制出相应的统计图。最常用的有直方图、条形布)绘制出相应的统计图。最常用的有直方图、条形图、折线图、曲线图等。图、折线图、曲线图等。 对于连续变量的分布,可以用矩形图表示。矩形高对于连续变量的分布,可以用矩形图表示。矩形高对于连续变量的分布,可以用矩形图表示。矩形高对于连续变量的分布,可以用矩形图表示。矩形高度表示各组的频数或频率。在等距分组的条件下,很显度表示各组的频数或频率。在等距分组的条件

17、下,很显度表示各组的频数或频率。在等距分组的条件下,很显度表示各组的频数或频率。在等距分组的条件下,很显然,各矩形的面积与其高度成正比。因此,各矩形的面然,各矩形的面积与其高度成正比。因此,各矩形的面然,各矩形的面积与其高度成正比。因此,各矩形的面然,各矩形的面积与其高度成正比。因此,各矩形的面积同样可以用来表示各组的频数和频率,而且更加形象积同样可以用来表示各组的频数和频率,而且更加形象积同样可以用来表示各组的频数和频率,而且更加形象积同样可以用来表示各组的频数和频率,而且更加形象直观(如前图)。直观(如前图)。直观(如前图)。直观(如前图)。1 1矩形图矩形图 方条图适用于表示离散变量的资

18、料。方条图与矩形图基方条图适用于表示离散变量的资料。方条图与矩形图基方条图适用于表示离散变量的资料。方条图与矩形图基方条图适用于表示离散变量的资料。方条图与矩形图基本相同,其高度表示各组的频数(或频率)。对于定类变量本相同,其高度表示各组的频数(或频率)。对于定类变量本相同,其高度表示各组的频数(或频率)。对于定类变量本相同,其高度表示各组的频数(或频率)。对于定类变量和定序变量的测量,它的宽度是没有意义的,各方条之间要和定序变量的测量,它的宽度是没有意义的,各方条之间要和定序变量的测量,它的宽度是没有意义的,各方条之间要和定序变量的测量,它的宽度是没有意义的,各方条之间要留有一定的距离。留有

19、一定的距离。留有一定的距离。留有一定的距离。2 2方条图方条图3 3 3 3折线图折线图折线图折线图 表示频数(或频率)分布的另一种相似的图形是折线表示频数(或频率)分布的另一种相似的图形是折线图。直接把矩形图各矩形顶部的中点用直线连接起来,并图。直接把矩形图各矩形顶部的中点用直线连接起来,并把原来的矩形抹掉,就得到了折线图。把原来的矩形抹掉,就得到了折线图。 在在在在许许许许多多多多并并并并非非非非十十十十分分分分严严严严格格格格的的的的场场场场合合合合,人人人人们们们们往往往往往往往往乐乐乐乐于于于于把把把把频频频频数数数数分分分分布布布布的的的的矩矩矩矩形形形形图图图图和和和和折折折折线

20、线线线图图图图修修修修匀匀匀匀成成成成平平平平滑滑滑滑曲曲曲曲线线线线,这这这这样样样样看看看看起起起起来来来来更更更更美美美美观观观观。例例例例如如如如,19011901年年年年至至至至19851985年年年年,全全全全世世世世界界界界已已已已有有有有300300多多多多位位位位科科科科学学学学家家家家获获获获得得得得过过过过诺诺诺诺贝贝贝贝尔尔尔尔物物物物理理理理奖奖奖奖、化化化化学学学学奖奖奖奖和和和和生生生生物物物物医医医医学学学学奖奖奖奖。对对对对这这这这些些些些科科科科学学学学家家家家取取取取得得得得成成成成果果果果的的的的年年年年龄龄龄龄进进进进行行行行统统统统计计计计,结结结结

21、果果果果如如如如下下下下表表表表。再再再再以以以以年年年年龄龄龄龄为为为为横横横横坐坐坐坐标标标标,人人人人数数数数为为为为纵纵纵纵坐坐坐坐标标标标,使使使使可可可可制制制制成成成成“ “获获获获诺诺诺诺贝贝贝贝尔尔尔尔奖奖奖奖的的的的年龄曲线年龄曲线年龄曲线年龄曲线” ”(见下图(见下图(见下图(见下图9-39-3)。)。)。)。年龄年龄年龄年龄获奖人数获奖人数获奖人数获奖人数2525岁以下岁以下岁以下岁以下25302530303530353540354040454045455045505050岁以上岁以上岁以上岁以上1515343470706868535337372828合计合计合计合计3

22、053054 4曲线图曲线图第二节第二节 统计分析一:描述统计统计分析一:描述统计 所谓描述统计就是讨论所谓描述统计就是讨论所谓描述统计就是讨论所谓描述统计就是讨论范围仅以搜集资料本身为范围仅以搜集资料本身为范围仅以搜集资料本身为范围仅以搜集资料本身为限,而不予以扩大。包括推限,而不予以扩大。包括推限,而不予以扩大。包括推限,而不予以扩大。包括推论统计在内,没有描述统计论统计在内,没有描述统计论统计在内,没有描述统计论统计在内,没有描述统计作为基础,想要运用好也是作为基础,想要运用好也是作为基础,想要运用好也是作为基础,想要运用好也是不可能的。描述统计所用数不可能的。描述统计所用数不可能的。描

23、述统计所用数不可能的。描述统计所用数学较少,实用性又很强,因学较少,实用性又很强,因学较少,实用性又很强,因学较少,实用性又很强,因此在社会调查研究中使用的此在社会调查研究中使用的此在社会调查研究中使用的此在社会调查研究中使用的机会很多。机会很多。机会很多。机会很多。 调调调调查查查查数数数数据据据据资资资资料料料料经经经经分分分分类类类类整整整整理理理理后后后后,已已已已经经经经使使使使杂杂杂杂乱乱乱乱无无无无章章章章的的的的原原原原始始始始数数数数据据据据资资资资料料料料成成成成为为为为有有有有系系系系统统统统、有有有有条条条条理理理理的的的的数数数数据据据据资资资资料料料料,这这这这就就

24、就就为为为为统统统统计计计计分分分分析析析析中中中中提提提提取取取取各各各各种种种种有有有有用用用用信信信信息息息息打打打打下下下下了了了了基基基基础础础础。而而而而在在在在社社社社会会会会研研研研究究究究的定量分析中,描述统计是基础。的定量分析中,描述统计是基础。的定量分析中,描述统计是基础。的定量分析中,描述统计是基础。一、集中趋势统计量一、集中趋势统计量一、集中趋势统计量一、集中趋势统计量 统计分析首先要解决的第一个问题是,要用一统计指标来统计分析首先要解决的第一个问题是,要用一统计指标来统计分析首先要解决的第一个问题是,要用一统计指标来统计分析首先要解决的第一个问题是,要用一统计指标来

25、代表一系列的数据。这个具有代表性的统计指标,能够概括这代表一系列的数据。这个具有代表性的统计指标,能够概括这代表一系列的数据。这个具有代表性的统计指标,能够概括这代表一系列的数据。这个具有代表性的统计指标,能够概括这一系列数据的特征,集中反映这一系列数据的一般水平。一系列数据的特征,集中反映这一系列数据的一般水平。一系列数据的特征,集中反映这一系列数据的一般水平。一系列数据的特征,集中反映这一系列数据的一般水平。主要内容算术平均数中位数众数1 1算术平均数(算术平均数(算术平均数(算术平均数( ) 简单算术平均数简单算术平均数简单算术平均数简单算术平均数( (对于未分组资料对于未分组资料) )

26、注意:对求和符号,此时流动脚标的变动范围是注意:对求和符号,此时流动脚标的变动范围是注意:对求和符号,此时流动脚标的变动范围是注意:对求和符号,此时流动脚标的变动范围是1, 2, 3, ,1, 2, 3, ,N N ,N N是总体单位数。是总体单位数。是总体单位数。是总体单位数。 例例例例 求求求求7474、8585、6969、9l9l、8787、7474、6969这些数字的这些数字的这些数字的这些数字的算术平均数。算术平均数。算术平均数。算术平均数。 解解解解 78.478.4 加权算术平均数加权算术平均数加权算术平均数加权算术平均数( (对于分组资料对于分组资料) ) 注意:对求和符号,此

27、时流动脚标的变动范围是注意:对求和符号,此时流动脚标的变动范围是注意:对求和符号,此时流动脚标的变动范围是注意:对求和符号,此时流动脚标的变动范围是1,2,3 ,1,2,3 ,n n,n n是组数,而是组数,而是组数,而是组数,而不是总体单位数。不是总体单位数。不是总体单位数。不是总体单位数。 很显然,算术平均数不仅受各变量值很显然,算术平均数不仅受各变量值很显然,算术平均数不仅受各变量值很显然,算术平均数不仅受各变量值( ( ( (X X X X) ) ) )大小的影响,大小的影响,大小的影响,大小的影响,而且受各组单位数而且受各组单位数而且受各组单位数而且受各组单位数( ( ( (频数频数

28、频数频数) ) ) )的影响。由于对于总体的影响要的影响。由于对于总体的影响要的影响。由于对于总体的影响要的影响。由于对于总体的影响要由频数由频数由频数由频数( ( ( ( f f f f ) ) ) )大小所决定,所以大小所决定,所以大小所决定,所以大小所决定,所以 f f f f 也被称为权数。值得注也被称为权数。值得注也被称为权数。值得注也被称为权数。值得注意的是,在统计计算中,权数不仅用来衡量总体中各标志意的是,在统计计算中,权数不仅用来衡量总体中各标志意的是,在统计计算中,权数不仅用来衡量总体中各标志意的是,在统计计算中,权数不仅用来衡量总体中各标志值在总体中作用,同时反映了指标的结

29、构,所以它有两种值在总体中作用,同时反映了指标的结构,所以它有两种值在总体中作用,同时反映了指标的结构,所以它有两种值在总体中作用,同时反映了指标的结构,所以它有两种表现形式:绝对数(频数)和相对数(频率)。这样一表现形式:绝对数(频数)和相对数(频率)。这样一表现形式:绝对数(频数)和相对数(频率)。这样一表现形式:绝对数(频数)和相对数(频率)。这样一来,在统计学中,凡对应于分组资料的计算式,都被称为来,在统计学中,凡对应于分组资料的计算式,都被称为来,在统计学中,凡对应于分组资料的计算式,都被称为来,在统计学中,凡对应于分组资料的计算式,都被称为加权式。加权式。加权式。加权式。 注意:分

30、组资料有注意:分组资料有单项式单项式和和组距式组距式两种。计算加权两种。计算加权算术平均数,只有对每个变量值可分为一组的离散变量算术平均数,只有对每个变量值可分为一组的离散变量的分组资料(即单项式分组资料,参见下表)才能得到的分组资料(即单项式分组资料,参见下表)才能得到精确的结果。精确的结果。 例例例例 求下表求下表求下表求下表( ( ( (单项数列单项数列单项数列单项数列) ) ) )所示数据的算术平均数所示数据的算术平均数所示数据的算术平均数所示数据的算术平均数 。人口数人口数人口数人口数(X X)户数户数户数户数(f)(f)f Xf X频率频率频率频率(P)(P)2 23 34 45

31、56 67 78 85 58 8161610106 64 41 1101024246464505036362828 8 80.100.100.160.160.320.320.200.200.120.120.080.080.020.02合计合计合计合计50502202201.001.00 对于对于对于对于组距数列(组距数列(组距数列(组距数列(参见下表)参见下表) ,要用每一组的组中值,要用每一组的组中值,要用每一组的组中值,要用每一组的组中值权充该组统一的变量值。权充该组统一的变量值。权充该组统一的变量值。权充该组统一的变量值。 例例例例 求下表(求下表(求下表(求下表(组距数列)组距数列)组

32、距数列)组距数列)所示数据的算术平均数所示数据的算术平均数所示数据的算术平均数所示数据的算术平均数 。间距间距频数频数(f f) 组中值(组中值(X)X)P Pf Xf XP XP X150154150154154158154158158162158162162166162166166170166170170174170174174178174178178182178182 1 1 2 2 7 7101016161212 7 7 5 5 1521521561561601601641641681681721721761761801800.0170.0170.0330.0330.1170.1170

33、.1670.1670.2660.2660.2000.2000.1170.1170.0830.083 152152 312 3121120112016401640268826882064206412321232 900 900 2.5842.584 5.184 5.18418.72018.72027.38827.38844.68844.68834.40034.40020.59220.59214.94014.940合计合计 60601.0001.000 10108 10108 168.496168.496 算术平均数的性质算术平均数的性质各变量值与算术平均数的离差之和等于各变量值与算术平均数的离差

34、之和等于0。各变量值对算术平均数的平方和,小于它们对任各变量值对算术平均数的平方和,小于它们对任何他数偏差的平方和何他数偏差的平方和算术平均数受抽样变动影响较小。算术平均数受抽样变动影响较小。分组资料如遇有开放组距时,不经特殊处理分组资料如遇有开放组距时,不经特殊处理不能进行算术平均数的计算。不能进行算术平均数的计算。受极端值影响较大。受极端值影响较大。2 2中位数(中位数(中位数(中位数( MMd d) ) 把总体单位把总体单位某一数量标志的某一数量标志的各个数值按大小各个数值按大小顺序排列,位于顺序排列,位于正中处的变量值,正中处的变量值,即为中位数,用即为中位数,用MMd d表示。表示。

35、 MMd d可用于定序、定距、定比资料。 对未分组资料对未分组资料对未分组资料对未分组资料(1)(1)、先把所有数据按大、先把所有数据按大小顺序排列,如果总体单小顺序排列,如果总体单位数为奇数,则取第位数为奇数,则取第(N+1N+1)/2 /2 位上的变量值位上的变量值为中位数为中位数; ;(2 2)、如果总体单位数)、如果总体单位数为偶数。因为居中的数值为偶数。因为居中的数值不存在,按惯例,取第不存在,按惯例,取第 N/2N/2位和第(位和第(N+1N+1)/2 /2 位位上的两个变量值的平均作上的两个变量值的平均作为中位数。为中位数。数。数。数。数。n n 例例例例 求求求求5454545

36、4,65656565,78787878,66666666,43434343这些数字的中位数。这些数字的中位数。这些数字的中位数。这些数字的中位数。n n 例例例例 求求求求54545454,65656565,78787878,66666666,43434343,38 38 38 38 这些数字的中这些数字的中这些数字的中这些数字的中位数。位数。位数。位数。你会吗? 例 求72、81、86、69、57这些数字的中位数。 解 先将这几个数字由小到大排序:57、69、72、81、86,然后把居中那个数拿出来,于是 Md72(1)单项数列单项数列 根据根据N/2在累计频数分布中找到中位数所在组,在累计

37、频数分布中找到中位数所在组,该组变量值就是该组变量值就是MMd d 。中位数对于分组资料对于分组资料(2 2)组距数列组距数列组距数列组距数列按中位数所在组的下限:按中位数所在组的下限:按中位数所在组的下限:按中位数所在组的下限:按中位数所在组的上限:按中位数所在组的上限:按中位数所在组的上限:按中位数所在组的上限: 当根据组距数列求中位数时,要采用所谓的比当根据组距数列求中位数时,要采用所谓的比例插值法:先根据例插值法:先根据N N2 2在累计频数分布中找到中位在累计频数分布中找到中位数所在组,然后假定该组中各变量值是均匀分布的,数所在组,然后假定该组中各变量值是均匀分布的,再用以下任何一种

38、方法求出中位数再用以下任何一种方法求出中位数( (注意:此处用注意:此处用的是向上累计的是向上累计) )。 例例 调查大一男生调查大一男生6060人的身高如前表,求他人的身高如前表,求他们身高的中位数。们身高的中位数。 解解 第一种方法第一种方法 166166 4 4 1681685(5(厘米厘米) ) 请你用第二种方法来做一下 中位数的性质中位数的性质 (1)各变量值对中位数之差的绝对值总和,各变量值对中位数之差的绝对值总和,小于它们对任何其他数的绝对值总和。小于它们对任何其他数的绝对值总和。 (2)中位数不受极端值的影响。中位数不受极端值的影响。 (3)分组资料有不确定组距时,仍可求得分组

39、资料有不确定组距时,仍可求得中位数。中位数。 (4)中位数受抽样变动的影响较算术平均中位数受抽样变动的影响较算术平均数略大。数略大。3 3众数众数众数众数(Mo)(Mo) 众数是在一组资料中,出现次数众数是在一组资料中,出现次数众数是在一组资料中,出现次数众数是在一组资料中,出现次数( (或频或频或频或频数数数数) )呈现出呈现出呈现出呈现出“ “峰峰峰峰” ”值的那些变量值,用值的那些变量值,用值的那些变量值,用值的那些变量值,用MMo o表示。表示。表示。表示。 众数只与次数有关,可以用于定类、定序、众数只与次数有关,可以用于定类、定序、定距、定比资料。定距、定比资料。 对于未分组资料对于

40、未分组资料对于未分组资料对于未分组资料 直接观察。首先,将所有数据顺序排列;然后,只直接观察。首先,将所有数据顺序排列;然后,只要观察到某些变量值要观察到某些变量值( (与相邻变量值相比较与相邻变量值相比较) )出现的次数出现的次数( (或频数或频数) )呈现呈现“ “峰峰” ”值,这些变量值就是众数。值,这些变量值就是众数。 对于分组资料对于分组资料对于分组资料对于分组资料 单项式:单项式:单项式:单项式:观察频数分布观察频数分布 ( (或频率分布或频率分布 ) ) 组距式:组距式:组距式:组距式: Lo为众数组下限; 为众数组频数与前一组频数之差; 为众数组频数与后一组频数之差; ho为众

41、数组组距。 例例例例 就就就就7272、8181、5656、8686、8181、5757这几个数字求众数。这几个数字求众数。这几个数字求众数。这几个数字求众数。 解解解解 按照众数的定义识别,众数是按照众数的定义识别,众数是按照众数的定义识别,众数是按照众数的定义识别,众数是8181。 例例 调查大一男生调查大一男生6060人的身高情况如前表,求他们身人的身高情况如前表,求他们身 高的众数。高的众数。 解解 因为是组距式分组资料,运用前式计算因为是组距式分组资料,运用前式计算 为什么众数有时不存在,有时有两个以上? 二、离中趋势统计量二、离中趋势统计量 主要内容主要内容:(:(1 1)全距全距

42、;(2 2)异众比率)异众比率 ;(;(3 3)标)标准差。准差。 所谓离中趋势,是指数列中各变量值之间的差距和离散程度。离势小,平均数的代表性高;离势大,平均数代表性低。 例如有例如有A A、B B、C C、D D四组学生各四组学生各5 5人的成绩如下:人的成绩如下: A A组:组:60 60 ,6060,6060,6060,6060 B B组:组:5858,5959,6060,6161,6262 C C组:组:4040,5050,6060,7070,8080 D D组:组:8080,8080,8080,8080,8080 数据显示,平均数相同,离势可能不同;平均数据显示,平均数相同,离势可

43、能不同;平均数不同,离势可能相同。数不同,离势可能相同。 1. 全距全距(R) R =Xmax Xmin 例例 求求7474,8484,6969,9191,8787,7474,6969这些数这些数字字的全距。的全距。 解解 把数字按顺序重新排列:把数字按顺序重新排列:6969,6969,7474,7474,8484,8787,9191,显然有,显然有 R =Xmax Xmin 91 6922 全距(全距(R R):最大值和最小值之差。也叫):最大值和最小值之差。也叫极差极差。全距越大,表示变动越大。全距越大,表示变动越大。优点:优点:缺点:缺点:计算简单、计算简单、计算简单、计算简单、直观。直

44、观。直观。直观。 (1 1)受极端值影响大;)受极端值影响大;)受极端值影响大;)受极端值影响大; (2 2) 没有量度中间各个单位间没有量度中间各个单位间没有量度中间各个单位间没有量度中间各个单位间的差异性,数据利用率的差异性,数据利用率的差异性,数据利用率的差异性,数据利用率 低,信息丧低,信息丧低,信息丧低,信息丧失严重;失严重;失严重;失严重; (3 3)受抽样变动影响大,大样)受抽样变动影响大,大样)受抽样变动影响大,大样)受抽样变动影响大,大样本全距比小样本全距大。本全距比小样本全距大。本全距比小样本全距大。本全距比小样本全距大。 2. 2. 异众比率异众比率异众比率异众比率( (

45、V VR R) ) 所谓异众比率,是指非众数的频数与总体单位数所谓异众比率,是指非众数的频数与总体单位数的比值,用的比值,用V VR R来表示来表示 其中:其中: 为众数的频数;为众数的频数; 是总体单位数是总体单位数 异众比率能表明众数所异众比率能表明众数所异众比率能表明众数所异众比率能表明众数所不能代表的那一部分变不能代表的那一部分变不能代表的那一部分变不能代表的那一部分变量值在总体中的比重。量值在总体中的比重。量值在总体中的比重。量值在总体中的比重。 例例例例 调查某小区调查某小区调查某小区调查某小区50505050户家庭的人口情况如表户家庭的人口情况如表户家庭的人口情况如表户家庭的人口

46、情况如表9.59.59.59.5,求,求,求,求异众比率。异众比率。异众比率。异众比率。 解解解解 3. 标准差(标准差(标准差(标准差(S)S) 在统计分析中,对于定距变量,用标在统计分析中,对于定距变量,用标在统计分析中,对于定距变量,用标在统计分析中,对于定距变量,用标准差来作为离中趋势统计量是最基本的做准差来作为离中趋势统计量是最基本的做准差来作为离中趋势统计量是最基本的做准差来作为离中趋势统计量是最基本的做法。这是指在一组数据中,各数值之间的法。这是指在一组数据中,各数值之间的法。这是指在一组数据中,各数值之间的法。这是指在一组数据中,各数值之间的差距是不相等的,有的差距大,有的差距

47、差距是不相等的,有的差距大,有的差距差距是不相等的,有的差距大,有的差距差距是不相等的,有的差距大,有的差距小,以它们之间平均相差多少作为标准来小,以它们之间平均相差多少作为标准来小,以它们之间平均相差多少作为标准来小,以它们之间平均相差多少作为标准来衡量一组数据的离散程度,即标准差。更衡量一组数据的离散程度,即标准差。更衡量一组数据的离散程度,即标准差。更衡量一组数据的离散程度,即标准差。更准确地讲,标准差用于衡量各数值相对于准确地讲,标准差用于衡量各数值相对于准确地讲,标准差用于衡量各数值相对于准确地讲,标准差用于衡量各数值相对于算术平均数的平均偏离程度。算术平均数的平均偏离程度。算术平均

48、数的平均偏离程度。算术平均数的平均偏离程度。 对于未分组资科对于未分组资科对于未分组资科对于未分组资科 一个数据与该组数据的算术平均数 的差叫离差。当一个数据大于 时,离差是正值,反之则为负值。为了消除离差正负号的影响,可求所有离差平方的算术平均,这是所谓的均方差,简称方差( )。将方差开平方后所得的值就是标准差。 方差方差: 标准差标准差: 例例例例 求求求求7272、8181、8686、6969、57 57 这些数字的标准差。这些数字的标准差。这些数字的标准差。这些数字的标准差。对于分组资料对于分组资料对于分组资料对于分组资料 计算左边数列的标准差 例例例例 调查大一男生调查大一男生调查大

49、一男生调查大一男生6060人的身高情况如前表所示,求他们身高的人的身高情况如前表所示,求他们身高的人的身高情况如前表所示,求他们身高的人的身高情况如前表所示,求他们身高的标准差。标准差。标准差。标准差。 解解解解 因为是分组资料,运用(因为是分组资料,运用(因为是分组资料,运用(因为是分组资料,运用(9.109.10)式,计算参见下表)式,计算参见下表)式,计算参见下表)式,计算参见下表 值得注意的是,计算分组资料的标准差,也可以依据值得注意的是,计算分组资料的标准差,也可以依据频率分布来进行计算式由此可以写成:频率分布来进行计算式由此可以写成: 或者或者第三节第三节 统计分析二:推论统计统计

50、分析二:推论统计 所谓推论统计,所谓推论统计,所谓推论统计,所谓推论统计,主要是依据概率论,主要是依据概率论,主要是依据概率论,主要是依据概率论,研究如何依据有限资研究如何依据有限资研究如何依据有限资研究如何依据有限资料对总体性质作推断,料对总体性质作推断,料对总体性质作推断,料对总体性质作推断,从而使统计的功能大从而使统计的功能大从而使统计的功能大从而使统计的功能大为扩充。为扩充。为扩充。为扩充。 在在在在社社社社会会会会研研研研究究究究中中中中,抽抽抽抽样样样样调调调调查查查查被被被被公公公公认认认认为为为为是是是是一一一一种种种种最最最最完完完完善善善善、最最最最有有有有科科科科学学学学

51、根根根根据据据据的的的的调调调调查查查查方方方方法法法法。然然然然而而而而它它它它在在在在数数数数学学学学上上上上要要要要求求求求比比比比较较较较高高高高,一一一一定定定定要要要要有有有有推推推推论论论论统统统统计计计计。那那那那种种种种认认认认为为为为样样样样本本本本理理理理所所所所当当当当然然然然能能能能够够够够代代代代表表表表总总总总体的看法是没有根据的。体的看法是没有根据的。体的看法是没有根据的。体的看法是没有根据的。 一、一、一、一、 概率与概率分布概率与概率分布概率与概率分布概率与概率分布 随机现象具有一定随机现象具有一定条件呈现多种可能结条件呈现多种可能结果的特性。果的特性。 人

52、们把随机现象的结人们把随机现象的结果以及这些结果的集合体果以及这些结果的集合体称作随机事件。称作随机事件。 概率是与随机现象相联系的一个概念。所谓随概率是与随机现象相联系的一个概念。所谓随机现象,是指事先不能精确预言其结果的现象,如即机现象,是指事先不能精确预言其结果的现象,如即将出生的婴儿是男还是女?一枚硬币落地后其正面是将出生的婴儿是男还是女?一枚硬币落地后其正面是朝上还是朝下朝上还是朝下? ?等等。所有这些现象都有一个共同的等等。所有这些现象都有一个共同的特点,那就是在给定的条件下,观察所得的结果不止特点,那就是在给定的条件下,观察所得的结果不止一个。随机现象具有非确定性,但内中也有一定

53、的规一个。随机现象具有非确定性,但内中也有一定的规律性。例如,事先我们虽不能准确预言一个婴儿出生律性。例如,事先我们虽不能准确预言一个婴儿出生后的性别,但大量观察,我们会发现妇女生男生女的后的性别,但大量观察,我们会发现妇女生男生女的可能性几乎一样大,都是可能性几乎一样大,都是0.50.5,这就是概率。,这就是概率。 在推论统计中,概率和概率分布有着如同在描述在推论统计中,概率和概率分布有着如同在描述在推论统计中,概率和概率分布有着如同在描述在推论统计中,概率和概率分布有着如同在描述统计中频率和频率分布那样的联系。现在我们了解了统计中频率和频率分布那样的联系。现在我们了解了统计中频率和频率分布

54、那样的联系。现在我们了解了统计中频率和频率分布那样的联系。现在我们了解了概率,但作为随机现象的全面研究这还很不够。概率概率,但作为随机现象的全面研究这还很不够。概率概率,但作为随机现象的全面研究这还很不够。概率概率,但作为随机现象的全面研究这还很不够。概率仅仅告知了随机现象某一局部结果发生的可能性有多仅仅告知了随机现象某一局部结果发生的可能性有多仅仅告知了随机现象某一局部结果发生的可能性有多仅仅告知了随机现象某一局部结果发生的可能性有多大,概率分布则要在满足完备性大,概率分布则要在满足完备性大,概率分布则要在满足完备性大,概率分布则要在满足完备性( (穷举穷举穷举穷举) )和互不相容性和互不相

55、容性和互不相容性和互不相容性( (互斥互斥互斥互斥) )的前提下,回答随机现象一共会出现多少种结的前提下,回答随机现象一共会出现多少种结的前提下,回答随机现象一共会出现多少种结的前提下,回答随机现象一共会出现多少种结果,以及每种结果所伴随的概率是多少。果,以及每种结果所伴随的概率是多少。果,以及每种结果所伴随的概率是多少。果,以及每种结果所伴随的概率是多少。 以抛掷十枚硬币的试验为例,概率分布不仅要回答一共会发生11种结果(从没有一枚硬币面朝上到所有十枚硬币面全朝上),而且要回答全部11种结果发生的概率各是多少。解决了这两个问题,我们的讨论便从概率过渡到了概率分布。在推论统计中,我们是用先验的

56、方法就每种结果算出其发生概率的,将它们一一列入右表中,我们就得到了著名的二项分布。硬币面朝硬币面朝上数上数x x 概率概率P P( (X X= =x x) ) 0 01 12 23 34 45 56 67 78 89 91010 .001 .001 .010 .010 .044 .044 .117 .117 .205 .205 .246 .246 .205 .205 .117 .117 .044 .044 .010 .010 .001 .001 合合 计计 1.0001.000 X X = = x x i i x x1 1 x x 2 2 x x 3 3 x x i i x x n n 合计合

57、计合计合计 P P( (X X= = x x i i ) ) P P1 1 P P2 2 P P3 3 P Pi i P Pn n 推而论之,在随机变量的取值满足“穷举”和“互斥”这两个原则的前提下,概率分布的一般形式如下表所示。 现在我们把这里所讲的概率分布与前面所讲的频数分布、频率分布作一比较,就会发现它们(特别是频率分布与概率分布)非常相象。当然概率分布与频率分布也有重要区别:频率分布是经资料整理而来的,概率分布却是先验的;频率分布随样本不同而有所不同,概率分布却是唯一的;频率分布有对应的频数分布,概率分布则没有。因此频率分布被称为随机变量的统计分布或经验分布,而概率分布则被称为随机变量

58、的理论分布。 二、分布函数二、分布函数二、分布函数二、分布函数 但是我们要特别注意,上表实际上只对离散型随机变但是我们要特别注意,上表实际上只对离散型随机变但是我们要特别注意,上表实际上只对离散型随机变但是我们要特别注意,上表实际上只对离散型随机变量适用。因为离散型随机变量量适用。因为离散型随机变量量适用。因为离散型随机变量量适用。因为离散型随机变量X X的取值是可数的。如果对的取值是可数的。如果对的取值是可数的。如果对的取值是可数的。如果对X X的每个可能取值的每个可能取值的每个可能取值的每个可能取值xixi计算其实现的概率计算其实现的概率计算其实现的概率计算其实现的概率PiPi ,我们便得

59、到了离,我们便得到了离,我们便得到了离,我们便得到了离散型随机变量的概率分布,即散型随机变量的概率分布,即散型随机变量的概率分布,即散型随机变量的概率分布,即 像上面抛掷硬币的试验一样,有许多随机现象只包含像上面抛掷硬币的试验一样,有许多随机现象只包含像上面抛掷硬币的试验一样,有许多随机现象只包含像上面抛掷硬币的试验一样,有许多随机现象只包含两个结果,如男与女、是与非、生与死、同意与不同意、两个结果,如男与女、是与非、生与死、同意与不同意、两个结果,如男与女、是与非、生与死、同意与不同意、两个结果,如男与女、是与非、生与死、同意与不同意、赞成与反对等等。通常,我们把其中比较关注那个结果称赞成与

60、反对等等。通常,我们把其中比较关注那个结果称赞成与反对等等。通常,我们把其中比较关注那个结果称赞成与反对等等。通常,我们把其中比较关注那个结果称为为为为“ “成功成功成功成功” ”,另一个结果则称为,另一个结果则称为,另一个结果则称为,另一个结果则称为“ “失败失败失败失败” ”。每当试验如同。每当试验如同。每当试验如同。每当试验如同抛掷抛掷抛掷抛掷硬币,是在相同的条件下重复硬币,是在相同的条件下重复硬币,是在相同的条件下重复硬币,是在相同的条件下重复n n次,考虑的是次,考虑的是次,考虑的是次,考虑的是“ “成功成功成功成功” ”的概的概的概的概率率率率p p(“ “失败失败失败失败” ”的

61、概率的概率的概率的概率q q11p p),且各次试验相互独立,我),且各次试验相互独立,我),且各次试验相互独立,我),且各次试验相互独立,我们都可以得到由二项分布所示的概率分布。二项分布是最们都可以得到由二项分布所示的概率分布。二项分布是最们都可以得到由二项分布所示的概率分布。二项分布是最们都可以得到由二项分布所示的概率分布。二项分布是最著名的离散型随机变量的概率分布,它的数学表达式是著名的离散型随机变量的概率分布,它的数学表达式是著名的离散型随机变量的概率分布,它的数学表达式是著名的离散型随机变量的概率分布,它的数学表达式是 连续型随机变量的取值充满某一区间,因而取某一数值讨论连续型随机变

62、量的取值充满某一区间,因而取某一数值讨论连续型随机变量的取值充满某一区间,因而取某一数值讨论连续型随机变量的取值充满某一区间,因而取某一数值讨论其概率是无意义的。为此,我们引进概率密度其概率是无意义的。为此,我们引进概率密度其概率是无意义的。为此,我们引进概率密度其概率是无意义的。为此,我们引进概率密度 的概念来表的概念来表的概念来表的概念来表达连续型随机变量的概率分布。达连续型随机变量的概率分布。达连续型随机变量的概率分布。达连续型随机变量的概率分布。 以频率密度为纵坐标,以频率密度为纵坐标,可以作出频率分布直方图。可以作出频率分布直方图。类似地,以概率密度类似地,以概率密度 为为纵坐标,可

63、以作出概率密度纵坐标,可以作出概率密度曲线。所不同的是,概率密曲线。所不同的是,概率密度由于对组距求了度由于对组距求了x0x0的的极限,其图形乃平滑曲线。极限,其图形乃平滑曲线。(x)j 这样一来,随机变量X取值在区间x1 ,x2上的概率等于概率密度曲线 下面x1与x2两点之间面积,即 所以所以所以所以有概率密有概率密有概率密有概率密度的性质度的性质度的性质度的性质因为概率不可能是负的,且因为概率不可能是负的,且因为概率不可能是负的,且因为概率不可能是负的,且 为了从数学上能够统一对随机变量的概率进行研究为了从数学上能够统一对随机变量的概率进行研究引入分布函数引入分布函数 的概念,它被定义为的

64、概念,它被定义为 有了分布函数,就可以很容易得到随机变量有了分布函数,就可以很容易得到随机变量X X取值在取值在任意区间任意区间xx1 1 ,x x2 2 上的概率,即上的概率,即 连续型随机变量连续型随机变量连续型随机变量连续型随机变量离散型随机变量离散型随机变量离散型随机变量离散型随机变量 和和和和 ( (离散变量离散变量离散变量离散变量) )或或或或 ( (连续变量连续变量连续变量连续变量) )的关系,就像的关系,就像的关系,就像的关系,就像向上累计频率和频率的关系一样。不同之处在于,向上累计频率和频率的关系一样。不同之处在于,向上累计频率和频率的关系一样。不同之处在于,向上累计频率和频

65、率的关系一样。不同之处在于, 累计的是概率。累计的是概率。累计的是概率。累计的是概率。但使用分布函数的好处是很明显的,它不仅在数学上统一了对离散型但使用分布函数的好处是很明显的,它不仅在数学上统一了对离散型但使用分布函数的好处是很明显的,它不仅在数学上统一了对离散型但使用分布函数的好处是很明显的,它不仅在数学上统一了对离散型随机变量和连续型随机变量概率的研究,而且由于它计算概率的起点随机变量和连续型随机变量概率的研究,而且由于它计算概率的起点随机变量和连续型随机变量概率的研究,而且由于它计算概率的起点随机变量和连续型随机变量概率的研究,而且由于它计算概率的起点都固定为都固定为都固定为都固定为,

66、因而可以把概率值换算成表,以易于求得任何区间的,因而可以把概率值换算成表,以易于求得任何区间的,因而可以把概率值换算成表,以易于求得任何区间的,因而可以把概率值换算成表,以易于求得任何区间的概率,从而达到计算快捷和应用广泛之目的。概率,从而达到计算快捷和应用广泛之目的。概率,从而达到计算快捷和应用广泛之目的。概率,从而达到计算快捷和应用广泛之目的。 例例例例 求两颗骰子点数的分布函数。求两颗骰子点数的分布函数。求两颗骰子点数的分布函数。求两颗骰子点数的分布函数。 X X2 23 34 45 56 67 78 89 9101011111212合计合计合计合计P(X)P(X)F(X)F(X) 例例

67、例例 某特定社区人口的某特定社区人口的某特定社区人口的某特定社区人口的10%10%是少数民族,现随机是少数民族,现随机是少数民族,现随机是少数民族,现随机抽取抽取抽取抽取6 6人,问其中恰好人,问其中恰好人,问其中恰好人,问其中恰好2 2人是少数民族的概率是多少?人是少数民族的概率是多少?人是少数民族的概率是多少?人是少数民族的概率是多少? 解解解解 根据附表根据附表根据附表根据附表3 3求得求得求得求得 B B (2 (2;6 6,0.1)0.1)F F(2) (2) F F(3(3 ) ) 0.11430.01590.11430.01590.09840.0984 三、数学期望与变异数三、数

68、学期望与变异数三、数学期望与变异数三、数学期望与变异数 在前面统计分组的讨论中,我们在得到频数在前面统计分组的讨论中,我们在得到频数在前面统计分组的讨论中,我们在得到频数在前面统计分组的讨论中,我们在得到频数( (或频率或频率或频率或频率) )分布分布分布分布后,为了对变量有系统概括的认识,分别研究了集中趋势和离中后,为了对变量有系统概括的认识,分别研究了集中趋势和离中后,为了对变量有系统概括的认识,分别研究了集中趋势和离中后,为了对变量有系统概括的认识,分别研究了集中趋势和离中趋势。而对集中趋势和离中趋势量度,我们分别得到了平均指标趋势。而对集中趋势和离中趋势量度,我们分别得到了平均指标趋势

69、。而对集中趋势和离中趋势量度,我们分别得到了平均指标趋势。而对集中趋势和离中趋势量度,我们分别得到了平均指标和变异指标,其中最有代表性的是算术平均数和标准差。很显和变异指标,其中最有代表性的是算术平均数和标准差。很显和变异指标,其中最有代表性的是算术平均数和标准差。很显和变异指标,其中最有代表性的是算术平均数和标准差。很显然,现在当我们面对随机变量的理论分布时,也要对随机变量的然,现在当我们面对随机变量的理论分布时,也要对随机变量的然,现在当我们面对随机变量的理论分布时,也要对随机变量的然,现在当我们面对随机变量的理论分布时,也要对随机变量的集中趋势和离中趋势作概括性的描述,这就引出集中趋势和

70、离中趋势作概括性的描述,这就引出集中趋势和离中趋势作概括性的描述,这就引出集中趋势和离中趋势作概括性的描述,这就引出数学期望数学期望数学期望数学期望和和和和变异变异变异变异数数数数这两个概念。这两个概念。这两个概念。这两个概念。 所谓所谓所谓所谓数学期望数学期望数学期望数学期望,是反映随机变量,是反映随机变量,是反映随机变量,是反映随机变量X X取值的集中趋势的理论均取值的集中趋势的理论均取值的集中趋势的理论均取值的集中趋势的理论均值值值值( (算术平均算术平均算术平均算术平均) ),记作,记作,记作,记作E E( (X X) )。离散型随机变量离散型随机变量离散型随机变量离散型随机变量 连续

71、型随机变量连续型随机变量连续型随机变量连续型随机变量 例例例例 一家保险公司在投保的一家保险公司在投保的一家保险公司在投保的一家保险公司在投保的5050万元人寿保险的保单中,估计每万元人寿保险的保单中,估计每万元人寿保险的保单中,估计每万元人寿保险的保单中,估计每1000 1000 保单每年有保单每年有保单每年有保单每年有1515个理赔,若每一保单每年的营运成本及利润的期个理赔,若每一保单每年的营运成本及利润的期个理赔,若每一保单每年的营运成本及利润的期个理赔,若每一保单每年的营运成本及利润的期望值为望值为望值为望值为200200元,试求每一保单的保费。元,试求每一保单的保费。元,试求每一保单

72、的保费。元,试求每一保单的保费。 解解解解 依题意知,利润的期望值依题意知,利润的期望值依题意知,利润的期望值依题意知,利润的期望值 E E( (X X) )200(200(元元元元) ) 设设设设x x1 1表示保费,表示保费,表示保费,表示保费,x x2 2为理赔费为理赔费为理赔费为理赔费 x x2 2-(500000-(500000- x x1 1) ),则可得,则可得,则可得,则可得 所以,所以,所以,所以,x x1 17700(7700(元元元元) )。即每一保单每年的保费应定在。即每一保单每年的保费应定在。即每一保单每年的保费应定在。即每一保单每年的保费应定在77007700元。元

73、。元。元。 数学期望也常常记为数学期望也常常记为数学期望也常常记为数学期望也常常记为 ,在推论统计中同总体均值的记号,而,在推论统计中同总体均值的记号,而,在推论统计中同总体均值的记号,而,在推论统计中同总体均值的记号,而 则则则则在推论统计中被作为样本均值的记号。数学期望和总体均值一样,都是唯在推论统计中被作为样本均值的记号。数学期望和总体均值一样,都是唯在推论统计中被作为样本均值的记号。数学期望和总体均值一样,都是唯在推论统计中被作为样本均值的记号。数学期望和总体均值一样,都是唯一的,不过它是一个先验的理论值。由于它是用随机变量各取值分别乘以一的,不过它是一个先验的理论值。由于它是用随机变

74、量各取值分别乘以一的,不过它是一个先验的理论值。由于它是用随机变量各取值分别乘以一的,不过它是一个先验的理论值。由于它是用随机变量各取值分别乘以取值的概率来计算的,因此数学期望又可称为随机变量的加权算术平均取值的概率来计算的,因此数学期望又可称为随机变量的加权算术平均取值的概率来计算的,因此数学期望又可称为随机变量的加权算术平均取值的概率来计算的,因此数学期望又可称为随机变量的加权算术平均数。样本均值依据统计数据计算而来,但它具有随机性。在统计推论中,数。样本均值依据统计数据计算而来,但它具有随机性。在统计推论中,数。样本均值依据统计数据计算而来,但它具有随机性。在统计推论中,数。样本均值依据

75、统计数据计算而来,但它具有随机性。在统计推论中,E E( (X X) ) , 是是是是“ “估计估计估计估计” ”。和和 都是为都是为服务的,服务的,E(X)是是“期望期望”数学期望的几个基本性质:数学期望的几个基本性质:(1)常数)常数c的期望等于该常数,即的期望等于该常数,即 E(c)c(2)常数)常数c与随机变量与随机变量X之积的期望等于之积的期望等于X的期望与的期望与c的积,的积,即即 E(cX)cE(X)(3)两个随机变量之和的期望等于它们的期望之和,)两个随机变量之和的期望等于它们的期望之和,即即 E (X+Y)E(X)+ E(Y) (4)两个独立随机变量乘积的期望等于它们的期望之

76、积,)两个独立随机变量乘积的期望等于它们的期望之积,即即E(XY)E(X)E(Y) 数学期望反映了随机变量的集中趋势,但仅知道集中趋势还不数学期望反映了随机变量的集中趋势,但仅知道集中趋势还不数学期望反映了随机变量的集中趋势,但仅知道集中趋势还不数学期望反映了随机变量的集中趋势,但仅知道集中趋势还不够,还应该知道随机变量在均值周围的离散程度,即离中趋势。够,还应该知道随机变量在均值周围的离散程度,即离中趋势。够,还应该知道随机变量在均值周围的离散程度,即离中趋势。够,还应该知道随机变量在均值周围的离散程度,即离中趋势。变变变变异数异数异数异数是综合反映随机变量取值分散程度的指标,其功能相当于描

77、述是综合反映随机变量取值分散程度的指标,其功能相当于描述是综合反映随机变量取值分散程度的指标,其功能相当于描述是综合反映随机变量取值分散程度的指标,其功能相当于描述统计中已讨论过的方差及标准差,记用统计中已讨论过的方差及标准差,记用统计中已讨论过的方差及标准差,记用统计中已讨论过的方差及标准差,记用D D( (X X) )。 离散型随机变量离散型随机变量离散型随机变量离散型随机变量 连续型随机变量连续型随机变量连续型随机变量连续型随机变量 由于变异数的单位是随机变量单位的平方。为由于变异数的单位是随机变量单位的平方。为了使随机变量变异指标的单位与其本身的单位相了使随机变量变异指标的单位与其本身

78、的单位相同,将同,将D(X)D(X)开方开方( (取正值取正值) )称作随机变量称作随机变量X X的标准的标准差差;同时为了更明确的表示;同时为了更明确的表示D(X) D(X) 与标准差之与标准差之间只是开方关系,索性把间只是开方关系,索性把D(X)D(X)写成写成2 2,并直接,并直接称称D(X)D(X)为随机变量为随机变量X X的方差。于是有的方差。于是有 很显然随机变量很显然随机变量很显然随机变量很显然随机变量X X的变异数也可以写成的变异数也可以写成的变异数也可以写成的变异数也可以写成 简化公式简化公式简化公式简化公式 当然不难理解,在推论统计中随机变量变异数的记号常当然不难理解,在推

79、论统计中随机变量变异数的记号常当然不难理解,在推论统计中随机变量变异数的记号常当然不难理解,在推论统计中随机变量变异数的记号常常同常同常同常同总体方差总体方差总体方差总体方差的记号,即用的记号,即用的记号,即用的记号,即用 2 2表示之。而表示之。而表示之。而表示之。而S S2 2 则被作为则被作为则被作为则被作为样本方样本方样本方样本方差差差差的记号。变异数和总体方差一样,都是唯一的,不过它是的记号。变异数和总体方差一样,都是唯一的,不过它是的记号。变异数和总体方差一样,都是唯一的,不过它是的记号。变异数和总体方差一样,都是唯一的,不过它是一个先验的理论值。样本方差一个先验的理论值。样本方差

80、一个先验的理论值。样本方差一个先验的理论值。样本方差S S2 2 依据统计数据计算而来,但依据统计数据计算而来,但依据统计数据计算而来,但依据统计数据计算而来,但它具有随机性。它具有随机性。它具有随机性。它具有随机性。试求两颗骰子点数试求两颗骰子点数的变异数的变异数D(X) 变异数的几个基本性质:变异数的几个基本性质:变异数的几个基本性质:变异数的几个基本性质: (1)常数常数c的方差等于的方差等于0,即,即D(c)0 (2)常数常数c与随机变量与随机变量X之积的方差,等于随机变量之积的方差,等于随机变量X的方差的方差c2倍,即倍,即D(cX)c2D(X) (3)随机变量与常数之和的方差等于随

81、机变量的方差,随机变量与常数之和的方差等于随机变量的方差,即即D(X+c)D(X) (4)两个独立随机变量之和的方差等于它们的方差和,两个独立随机变量之和的方差等于它们的方差和,即即D(X+Y)D(X) +D(Y)四、假设检验与二项分布的应用四、假设检验与二项分布的应用四、假设检验与二项分布的应用四、假设检验与二项分布的应用 对于一枚硬币被重复抛掷对于一枚硬币被重复抛掷对于一枚硬币被重复抛掷对于一枚硬币被重复抛掷1010次的二项试验,经验告诉我们,一次的二项试验,经验告诉我们,一次的二项试验,经验告诉我们,一次的二项试验,经验告诉我们,一共有共有共有共有1111种可能的结果,而且实现这些结果的

82、机会是大不相同的。研种可能的结果,而且实现这些结果的机会是大不相同的。研种可能的结果,而且实现这些结果的机会是大不相同的。研种可能的结果,而且实现这些结果的机会是大不相同的。研究者实际上从来不用经验的方法求得概率分布,因为通常我们只对究者实际上从来不用经验的方法求得概率分布,因为通常我们只对究者实际上从来不用经验的方法求得概率分布,因为通常我们只对究者实际上从来不用经验的方法求得概率分布,因为通常我们只对一项试验进行一次或几次,抽取样本也是一个或至多不过几个。二一项试验进行一次或几次,抽取样本也是一个或至多不过几个。二一项试验进行一次或几次,抽取样本也是一个或至多不过几个。二一项试验进行一次或

83、几次,抽取样本也是一个或至多不过几个。二项分布是用数学或演绎推理的方法求得的一种理论分布。既然如项分布是用数学或演绎推理的方法求得的一种理论分布。既然如项分布是用数学或演绎推理的方法求得的一种理论分布。既然如项分布是用数学或演绎推理的方法求得的一种理论分布。既然如此,如果实际抽样得到的结果偏巧就是概率分布预示的最不可能出此,如果实际抽样得到的结果偏巧就是概率分布预示的最不可能出此,如果实际抽样得到的结果偏巧就是概率分布预示的最不可能出此,如果实际抽样得到的结果偏巧就是概率分布预示的最不可能出现的结果,那么我们是认定纯属巧合,还是开始对用数学或演绎推现的结果,那么我们是认定纯属巧合,还是开始对用

84、数学或演绎推现的结果,那么我们是认定纯属巧合,还是开始对用数学或演绎推现的结果,那么我们是认定纯属巧合,还是开始对用数学或演绎推理方法求得的概率以及理想试验的种种前提假设产生怀疑理方法求得的概率以及理想试验的种种前提假设产生怀疑理方法求得的概率以及理想试验的种种前提假设产生怀疑理方法求得的概率以及理想试验的种种前提假设产生怀疑? ?更准确地更准确地更准确地更准确地说,在一枚硬币被重复抛掷说,在一枚硬币被重复抛掷说,在一枚硬币被重复抛掷说,在一枚硬币被重复抛掷1010次的这个二项试验中,究竟出现什么次的这个二项试验中,究竟出现什么次的这个二项试验中,究竟出现什么次的这个二项试验中,究竟出现什么结

85、果时,我们应该对二项分布及其前提假设产生怀疑呢结果时,我们应该对二项分布及其前提假设产生怀疑呢结果时,我们应该对二项分布及其前提假设产生怀疑呢结果时,我们应该对二项分布及其前提假设产生怀疑呢? ?是不是只要是不是只要是不是只要是不是只要不是得到不是得到不是得到不是得到5 5次成功次成功次成功次成功5 5次失败(次失败(次失败(次失败(x x5 5)这个最大可能性结果时就开始怀)这个最大可能性结果时就开始怀)这个最大可能性结果时就开始怀)这个最大可能性结果时就开始怀疑,还是仅当出现疑,还是仅当出现疑,还是仅当出现疑,还是仅当出现1010次成功或一次也不成功(次成功或一次也不成功(次成功或一次也不

86、成功(次成功或一次也不成功(x x1010或或或或x x0 0)这两个)这两个)这两个)这两个极端情况时才产生怀疑呢极端情况时才产生怀疑呢极端情况时才产生怀疑呢极端情况时才产生怀疑呢? ?这就是假设检验的核心问题。这就是假设检验的核心问题。这就是假设检验的核心问题。这就是假设检验的核心问题。 (1)建立假设建立假设(2)求抽样分求抽样分布布(4)计算检验统计计算检验统计量量(3)选择显著选择显著性水平和否定性水平和否定域域(5)判定判定所所包有含统的计步检骤验 概率分布不是一种研究者从资料中看到的分布,我们讨论它,不是出于对数学的爱好,而是因为统计推论的有关工作需要它。现在,我们要进入系统讨论

87、统计假设检验的实际步骤的阶段。所有的统计检验都包含某些特定的步骤,这里先列示如下: 1 1建立假设建立假设建立假设建立假设 统计检验是将抽样结果和抽样分布相对照而作出判统计检验是将抽样结果和抽样分布相对照而作出判统计检验是将抽样结果和抽样分布相对照而作出判统计检验是将抽样结果和抽样分布相对照而作出判断的工作。取得抽样结果,依据描述性统计的方法就足断的工作。取得抽样结果,依据描述性统计的方法就足断的工作。取得抽样结果,依据描述性统计的方法就足断的工作。取得抽样结果,依据描述性统计的方法就足够了。抽样分布则不然,它无法从资料中得到,非利用够了。抽样分布则不然,它无法从资料中得到,非利用够了。抽样分

88、布则不然,它无法从资料中得到,非利用够了。抽样分布则不然,它无法从资料中得到,非利用概率论不可。而不对待概括的总体和使用的抽样程序做概率论不可。而不对待概括的总体和使用的抽样程序做概率论不可。而不对待概括的总体和使用的抽样程序做概率论不可。而不对待概括的总体和使用的抽样程序做某种必要的假设,这项工作将无法进行。比如通过掷硬某种必要的假设,这项工作将无法进行。比如通过掷硬某种必要的假设,这项工作将无法进行。比如通过掷硬某种必要的假设,这项工作将无法进行。比如通过掷硬币的实验得到二项分布,必须假设:币的实验得到二项分布,必须假设:币的实验得到二项分布,必须假设:币的实验得到二项分布,必须假设:样本

89、是随机的,样本是随机的,样本是随机的,样本是随机的,试验中各次抛掷相互独立;试验中各次抛掷相互独立;试验中各次抛掷相互独立;试验中各次抛掷相互独立;硬币是无偏的硬币是无偏的硬币是无偏的硬币是无偏的( (或称是诚或称是诚或称是诚或称是诚实的实的实的实的) ),即,即,即,即p pq q0.50.5。概括地说,必须首先就研究总。概括地说,必须首先就研究总。概括地说,必须首先就研究总。概括地说,必须首先就研究总体和抽样方案都做出假设,再加上概率论,我们就可以体和抽样方案都做出假设,再加上概率论,我们就可以体和抽样方案都做出假设,再加上概率论,我们就可以体和抽样方案都做出假设,再加上概率论,我们就可以

90、对各种可能结果做具体的概率陈述了。对各种可能结果做具体的概率陈述了。对各种可能结果做具体的概率陈述了。对各种可能结果做具体的概率陈述了。 2 2求抽样分布求抽样分布求抽样分布求抽样分布 在做了必要的假设之后,我们就能用数学推理在做了必要的假设之后,我们就能用数学推理在做了必要的假设之后,我们就能用数学推理在做了必要的假设之后,我们就能用数学推理过程来求抽样分布了。比如在这一章开头,在硬币重过程来求抽样分布了。比如在这一章开头,在硬币重过程来求抽样分布了。比如在这一章开头,在硬币重过程来求抽样分布了。比如在这一章开头,在硬币重复抛掷复抛掷复抛掷复抛掷n n次的理想实验中,我们计算了成功次数为次的

91、理想实验中,我们计算了成功次数为次的理想实验中,我们计算了成功次数为次的理想实验中,我们计算了成功次数为x x的的的的宏观结果所具有的概率,得到二项分布。如果前提假宏观结果所具有的概率,得到二项分布。如果前提假宏观结果所具有的概率,得到二项分布。如果前提假宏观结果所具有的概率,得到二项分布。如果前提假设变动了,还可以求出其他形式的概率分布,如正态设变动了,还可以求出其他形式的概率分布,如正态设变动了,还可以求出其他形式的概率分布,如正态设变动了,还可以求出其他形式的概率分布,如正态分布、泊松分布、卡方分布等等,它们都有特定的方分布、泊松分布、卡方分布等等,它们都有特定的方分布、泊松分布、卡方分

92、布等等,它们都有特定的方分布、泊松分布、卡方分布等等,它们都有特定的方程式。由于数学上已经取得的成果,实际上统计工作程式。由于数学上已经取得的成果,实际上统计工作程式。由于数学上已经取得的成果,实际上统计工作程式。由于数学上已经取得的成果,实际上统计工作者要做的这项工作往往并不是真的去求抽样分布的数者要做的这项工作往往并不是真的去求抽样分布的数者要做的这项工作往往并不是真的去求抽样分布的数者要做的这项工作往往并不是真的去求抽样分布的数学形式,而是根据具体需要,确定特定问题的统计检学形式,而是根据具体需要,确定特定问题的统计检学形式,而是根据具体需要,确定特定问题的统计检学形式,而是根据具体需要

93、,确定特定问题的统计检验应该采用哪种分布的现成的数学用表。验应该采用哪种分布的现成的数学用表。验应该采用哪种分布的现成的数学用表。验应该采用哪种分布的现成的数学用表。 3 3选择显著性水平和否定域选择显著性水平和否定域选择显著性水平和否定域选择显著性水平和否定域 在统计检验中,那些不大可能的结果称为否定域。在统计检验中,那些不大可能的结果称为否定域。在统计检验中,那些不大可能的结果称为否定域。在统计检验中,那些不大可能的结果称为否定域。如果这类结果真的发生了,我们将否定假设;反之就不如果这类结果真的发生了,我们将否定假设;反之就不如果这类结果真的发生了,我们将否定假设;反之就不如果这类结果真的

94、发生了,我们将否定假设;反之就不否定假设。否定假设。否定假设。否定假设。 在统计检验中,通常把被检验的那个假设称为零假在统计检验中,通常把被检验的那个假设称为零假在统计检验中,通常把被检验的那个假设称为零假在统计检验中,通常把被检验的那个假设称为零假设(用符号设(用符号设(用符号设(用符号HH0 0表示),并用它和其他备择假设表示),并用它和其他备择假设表示),并用它和其他备择假设表示),并用它和其他备择假设( (用符号用符号用符号用符号HH1 1表示表示表示表示) )相对比。相对比。相对比。相对比。零假设与备择假设零假设与备择假设否定域否定域 在统计检验中,无论是拒绝或者接受原假设,都不在统

95、计检验中,无论是拒绝或者接受原假设,都不在统计检验中,无论是拒绝或者接受原假设,都不在统计检验中,无论是拒绝或者接受原假设,都不可能做到百分之百的正确,都有一定的错误。第一类错可能做到百分之百的正确,都有一定的错误。第一类错可能做到百分之百的正确,都有一定的错误。第一类错可能做到百分之百的正确,都有一定的错误。第一类错误是,零假设误是,零假设误是,零假设误是,零假设HH0 0实际上是正确的,却被否定了。第二类实际上是正确的,却被否定了。第二类实际上是正确的,却被否定了。第二类实际上是正确的,却被否定了。第二类错误则是,错误则是,错误则是,错误则是,HH0 0实际上是错的,却没有被否定。实际上是

96、错的,却没有被否定。实际上是错的,却没有被否定。实际上是错的,却没有被否定。 遗憾的是,不管我们如何选择否定域,都不可能完遗憾的是,不管我们如何选择否定域,都不可能完遗憾的是,不管我们如何选择否定域,都不可能完遗憾的是,不管我们如何选择否定域,都不可能完全避免第一类错误和第二类错误,也不可能同时把犯两全避免第一类错误和第二类错误,也不可能同时把犯两全避免第一类错误和第二类错误,也不可能同时把犯两全避免第一类错误和第二类错误,也不可能同时把犯两类错误的危险压缩到最小。对任何一个给定的检验而类错误的危险压缩到最小。对任何一个给定的检验而类错误的危险压缩到最小。对任何一个给定的检验而类错误的危险压缩

97、到最小。对任何一个给定的检验而言,第一类错误的危险越小,第二类错误的概率就越言,第一类错误的危险越小,第二类错误的概率就越言,第一类错误的危险越小,第二类错误的概率就越言,第一类错误的危险越小,第二类错误的概率就越大;反之亦然。一般来讲,不可能具体估计出第二类错大;反之亦然。一般来讲,不可能具体估计出第二类错大;反之亦然。一般来讲,不可能具体估计出第二类错大;反之亦然。一般来讲,不可能具体估计出第二类错误的概率值。第一类错误则不然,犯第一类错误的概率误的概率值。第一类错误则不然,犯第一类错误的概率误的概率值。第一类错误则不然,犯第一类错误的概率误的概率值。第一类错误则不然,犯第一类错误的概率是

98、否定域内各种结果的概率之和。是否定域内各种结果的概率之和。是否定域内各种结果的概率之和。是否定域内各种结果的概率之和。 两类错误及其关系两类错误及其关系 被我们事先选定的可以犯第一类错误的概率,被我们事先选定的可以犯第一类错误的概率,被我们事先选定的可以犯第一类错误的概率,被我们事先选定的可以犯第一类错误的概率,叫做检验的显著性水平叫做检验的显著性水平叫做检验的显著性水平叫做检验的显著性水平( (用用用用 表示表示表示表示) ),它决定了否定,它决定了否定,它决定了否定,它决定了否定域的大小。因此,有人也把第一类错误称之域的大小。因此,有人也把第一类错误称之域的大小。因此,有人也把第一类错误称

99、之域的大小。因此,有人也把第一类错误称之 错错错错误误误误 。相应地第二类错误被人称为。相应地第二类错误被人称为。相应地第二类错误被人称为。相应地第二类错误被人称为 错误。错误。错误。错误。 在原假设成立的条件下,统计检验中所规定的在原假设成立的条件下,统计检验中所规定的在原假设成立的条件下,统计检验中所规定的在原假设成立的条件下,统计检验中所规定的小概率标准一般取为小概率标准一般取为小概率标准一般取为小概率标准一般取为=0.05=0.05或或或或=0.01=0.01。 由由由由 所决定的否定域与接受域之间的分界值被所决定的否定域与接受域之间的分界值被所决定的否定域与接受域之间的分界值被所决定

100、的否定域与接受域之间的分界值被称为临界值,称为临界值,称为临界值,称为临界值, 如如如如Z Z 。 如果抽样分布是连续的,否定域可以建立在想如果抽样分布是连续的,否定域可以建立在想如果抽样分布是连续的,否定域可以建立在想如果抽样分布是连续的,否定域可以建立在想要建立的任何水平上,否定域的大小可以和显著性要建立的任何水平上,否定域的大小可以和显著性要建立的任何水平上,否定域的大小可以和显著性要建立的任何水平上,否定域的大小可以和显著性水平的要求一致起来(后面的正态检验就如此)。水平的要求一致起来(后面的正态检验就如此)。水平的要求一致起来(后面的正态检验就如此)。水平的要求一致起来(后面的正态检

101、验就如此)。如果抽样分布是非连续的,就要用累计概率的方法如果抽样分布是非连续的,就要用累计概率的方法如果抽样分布是非连续的,就要用累计概率的方法如果抽样分布是非连续的,就要用累计概率的方法找出一组构成否定域的结果。找出一组构成否定域的结果。找出一组构成否定域的结果。找出一组构成否定域的结果。显著性水平显著性水平 根据否定域位置根据否定域位置根据否定域位置根据否定域位置的不同,可以将假设的不同,可以将假设的不同,可以将假设的不同,可以将假设检验分为双侧检验和检验分为双侧检验和检验分为双侧检验和检验分为双侧检验和单侧检验。单侧检验。单侧检验。单侧检验。 在统计中,在统计中,必须把否定域必须把否定域

102、分配到抽样分分配到抽样分布的两端的检布的两端的检验,被称为双验,被称为双侧检验。侧检验。 在统计中,可以事先能在统计中,可以事先能预测偏差方向,因而可以预测偏差方向,因而可以把否定域集中到抽样分布把否定域集中到抽样分布更合适的一端的检验,被更合适的一端的检验,被称为单侧检验。称为单侧检验。 双侧检验和单侧检验双侧检验和单侧检验4 4 4 4计算检验统计量计算检验统计量计算检验统计量计算检验统计量 在完成了上述工作之后,接下来就是做一次与理想试验在完成了上述工作之后,接下来就是做一次与理想试验在完成了上述工作之后,接下来就是做一次与理想试验在完成了上述工作之后,接下来就是做一次与理想试验尽量相同

103、的实际抽样尽量相同的实际抽样尽量相同的实际抽样尽量相同的实际抽样( (比如实际做一次重复抛掷硬币的试验比如实际做一次重复抛掷硬币的试验比如实际做一次重复抛掷硬币的试验比如实际做一次重复抛掷硬币的试验) ),并从获取的样本资料算出检验统计量。检验统计量是关于样本并从获取的样本资料算出检验统计量。检验统计量是关于样本并从获取的样本资料算出检验统计量。检验统计量是关于样本并从获取的样本资料算出检验统计量。检验统计量是关于样本的一个综合指标,但与我们后面参数估计中将要讨论的统计量的一个综合指标,但与我们后面参数估计中将要讨论的统计量的一个综合指标,但与我们后面参数估计中将要讨论的统计量的一个综合指标,

104、但与我们后面参数估计中将要讨论的统计量有所不同,它不用作估测,而只用作检验。有所不同,它不用作估测,而只用作检验。有所不同,它不用作估测,而只用作检验。有所不同,它不用作估测,而只用作检验。 5 5 5 5判定判定判定判定 假设检验系指拒绝或保留零假设的判断,又称显著性检假设检验系指拒绝或保留零假设的判断,又称显著性检假设检验系指拒绝或保留零假设的判断,又称显著性检假设检验系指拒绝或保留零假设的判断,又称显著性检定。在选择否定域并计算检验统计量之后,我们完成最后一道定。在选择否定域并计算检验统计量之后,我们完成最后一道定。在选择否定域并计算检验统计量之后,我们完成最后一道定。在选择否定域并计算

105、检验统计量之后,我们完成最后一道手续,即根据试验或样本结果决定假设的取与舍。如果结果落手续,即根据试验或样本结果决定假设的取与舍。如果结果落手续,即根据试验或样本结果决定假设的取与舍。如果结果落手续,即根据试验或样本结果决定假设的取与舍。如果结果落在否定域内,我们将在已知犯第一类错误概率的条件下,否定在否定域内,我们将在已知犯第一类错误概率的条件下,否定在否定域内,我们将在已知犯第一类错误概率的条件下,否定在否定域内,我们将在已知犯第一类错误概率的条件下,否定零假设。反之,如果结果落在否定域外,则不否定零假设,与零假设。反之,如果结果落在否定域外,则不否定零假设,与零假设。反之,如果结果落在否

106、定域外,则不否定零假设,与零假设。反之,如果结果落在否定域外,则不否定零假设,与此同时,我们就有了犯第二类错误的危险。此同时,我们就有了犯第二类错误的危险。此同时,我们就有了犯第二类错误的危险。此同时,我们就有了犯第二类错误的危险。 例例例例 若想通过抛掷若想通过抛掷若想通过抛掷若想通过抛掷1010次硬币的实验来检验这个次硬币的实验来检验这个次硬币的实验来检验这个次硬币的实验来检验这个硬硬硬硬币无偏的零假设,通过双侧检验币无偏的零假设,通过双侧检验币无偏的零假设,通过双侧检验币无偏的零假设,通过双侧检验0.100.10显著性水平,请显著性水平,请显著性水平,请显著性水平,请指出否定域。如果单侧

107、检验指出否定域。如果单侧检验指出否定域。如果单侧检验指出否定域。如果单侧检验(p0.5)p0.4)p0.4)五、正态分布与标准正态分布五、正态分布与标准正态分布五、正态分布与标准正态分布五、正态分布与标准正态分布 如果说二项分布是离散型随机变量最具典型意义的如果说二项分布是离散型随机变量最具典型意义的如果说二项分布是离散型随机变量最具典型意义的如果说二项分布是离散型随机变量最具典型意义的概率分布,那么连续型随机变量最具典型意义的概率分概率分布,那么连续型随机变量最具典型意义的概率分概率分布,那么连续型随机变量最具典型意义的概率分概率分布,那么连续型随机变量最具典型意义的概率分布就是正态分布了。

108、实践中常见的一类连续型随机变布就是正态分布了。实践中常见的一类连续型随机变布就是正态分布了。实践中常见的一类连续型随机变布就是正态分布了。实践中常见的一类连续型随机变量,多数服从或近似服从正态分布。例如测量误差、智量,多数服从或近似服从正态分布。例如测量误差、智量,多数服从或近似服从正态分布。例如测量误差、智量,多数服从或近似服从正态分布。例如测量误差、智商以及人体的身高体重、运动员的成绩等等,都可以用商以及人体的身高体重、运动员的成绩等等,都可以用商以及人体的身高体重、运动员的成绩等等,都可以用商以及人体的身高体重、运动员的成绩等等,都可以用正态分布进行描述。一般地讲,若影响某一变量的随机正

109、态分布进行描述。一般地讲,若影响某一变量的随机正态分布进行描述。一般地讲,若影响某一变量的随机正态分布进行描述。一般地讲,若影响某一变量的随机因素很多,而每个因素所起的作用不太大且相互独立,因素很多,而每个因素所起的作用不太大且相互独立,因素很多,而每个因素所起的作用不太大且相互独立,因素很多,而每个因素所起的作用不太大且相互独立,则这个变量服从正态分布。更为重要的是,正态分布还则这个变量服从正态分布。更为重要的是,正态分布还则这个变量服从正态分布。更为重要的是,正态分布还则这个变量服从正态分布。更为重要的是,正态分布还是抽样理论和统计推断的基础。是抽样理论和统计推断的基础。是抽样理论和统计推

110、断的基础。是抽样理论和统计推断的基础。 1. 1. 正态分布的数学形式正态分布的数学形式正态分布的数学形式正态分布的数学形式正态分布性质:正态分布性质:正态分布性质:正态分布性质: (1 1 1 1)正态曲线以)正态曲线以)正态曲线以)正态曲线以x=x=x=x=呈钟型对称呈钟型对称呈钟型对称呈钟型对称 均值均值均值均值= = = =中位数中位数中位数中位数= = = =众数众数众数众数 (2 2 2 2)在)在)在)在x=x=x=x=处,概率密度最大;当区间离处,概率密度最大;当区间离处,概率密度最大;当区间离处,概率密度最大;当区间离越远,越远,越远,越远,x x x x落在这个区间的概率越

111、小。落在这个区间的概率越小。落在这个区间的概率越小。落在这个区间的概率越小。 (3 3)正态曲线的外形由)正态曲线的外形由)正态曲线的外形由)正态曲线的外形由 值确定。对于固定的值确定。对于固定的值确定。对于固定的值确定。对于固定的 值,不同均值值,不同均值值,不同均值值,不同均值 的正态曲线的外形完全相同,差别的正态曲线的外形完全相同,差别的正态曲线的外形完全相同,差别的正态曲线的外形完全相同,差别只在于曲线在横轴方向上整体平移了一个位置只在于曲线在横轴方向上整体平移了一个位置只在于曲线在横轴方向上整体平移了一个位置只在于曲线在横轴方向上整体平移了一个位置 。 (5 5)E(X)= E(X)

112、= D(X)= D(X)= 2 2 (4 4)对于固定的)对于固定的)对于固定的)对于固定的 值,改变值,改变值,改变值,改变 值,值,值,值, 值越小,正态曲线越值越小,正态曲线越值越小,正态曲线越值越小,正态曲线越陡峭;陡峭;陡峭;陡峭; 值越大,正值越大,正值越大,正值越大,正态曲线越低平。态曲线越低平。态曲线越低平。态曲线越低平。 (总之,正态分布曲线总之,正态分布曲线总之,正态分布曲线总之,正态分布曲线的位置是由的位置是由的位置是由的位置是由决定的,而正态决定的,而正态决定的,而正态决定的,而正态分布曲线的分布曲线的分布曲线的分布曲线的“高、矮、胖、瘦高、矮、胖、瘦高、矮、胖、瘦高、

113、矮、胖、瘦” ” ” ” 由由由由决定的。决定的。决定的。决定的。) 2. 2. 标准正态分布标准正态分布标准正态分布标准正态分布 Z Z Z Z分数(标准正态变量)分数(标准正态变量)分数(标准正态变量)分数(标准正态变量)用用用用Z Z Z Z分数表达的标准正态分分数表达的标准正态分分数表达的标准正态分分数表达的标准正态分布,其概率密度为布,其概率密度为布,其概率密度为布,其概率密度为一般正态分布的表示一般正态分布的表示一般正态分布的表示一般正态分布的表示标准正态分布的表示标准正态分布的表示标准正态分布的表示标准正态分布的表示3. 3. 正态曲线下的面积正态曲线下的面积正态曲线下的面积正态

114、曲线下的面积 但积分毕竟太麻烦了,更何况许多人对积分运算不熟悉,为但积分毕竟太麻烦了,更何况许多人对积分运算不熟悉,为但积分毕竟太麻烦了,更何况许多人对积分运算不熟悉,为但积分毕竟太麻烦了,更何况许多人对积分运算不熟悉,为此须计算出现成的数值表供使用者查找。由于正态曲线的优良性此须计算出现成的数值表供使用者查找。由于正态曲线的优良性此须计算出现成的数值表供使用者查找。由于正态曲线的优良性此须计算出现成的数值表供使用者查找。由于正态曲线的优良性质,这项工作可以卓有成效地完成:质,这项工作可以卓有成效地完成:质,这项工作可以卓有成效地完成:质,这项工作可以卓有成效地完成:经过经过经过经过X X的标

115、准分的标准分的标准分的标准分 ,可以将任何正态分布,可以将任何正态分布,可以将任何正态分布,可以将任何正态分布N N( ( , 2 2) )转换成标准正态分布转换成标准正态分布转换成标准正态分布转换成标准正态分布N N(0(0,1)1);运用分布函数的定义,并利用正态曲线的对称性,通运用分布函数的定义,并利用正态曲线的对称性,通运用分布函数的定义,并利用正态曲线的对称性,通运用分布函数的定义,并利用正态曲线的对称性,通过下式(分布函数)可以计算编制出正态分布表过下式(分布函数)可以计算编制出正态分布表过下式(分布函数)可以计算编制出正态分布表过下式(分布函数)可以计算编制出正态分布表( (见附

116、见附见附见附4)4)。 采用标准正态变量表达正态分布,使标准差得到了进一步阐采用标准正态变量表达正态分布,使标准差得到了进一步阐明。我们看到,标准差是计算总体单位分布及其标志值变异范围的明。我们看到,标准差是计算总体单位分布及其标志值变异范围的主要依据,下图说明了这一点。主要依据,下图说明了这一点。n n(1 1)变量值在)变量值在)变量值在)变量值在【 -, , + 】之间的概率为之间的概率为之间的概率为之间的概率为0.68260.6826。n n(2 2)变量值在)变量值在)变量值在)变量值在【 -2,-2, +2+2 】之间的概率为之间的概率为之间的概率为之间的概率为0.95460.95

117、46。n n(3 3)变量值在)变量值在)变量值在)变量值在【 -3,-3, +3+3 】之间的概率为之间的概率为之间的概率为之间的概率为0.99730.9973。 例例例例 设随机变设随机变设随机变设随机变量量量量X X服从正态分布服从正态分布服从正态分布服从正态分布N(168N(168,1212 ) ),试求,试求,试求,试求P(XP(X143)143)。 总之,决定任意两点间的面积都完全是可能的。比如向均值两侧移1.96个标准差,曲线下方便包含了大约95的面积;如移动2.58个标准差,则面积几乎是99。附录4已编制了关于Z和标准正态曲线所含面积之间关系的精确数值表,即Z从0到+变化,相应

118、区间含的面积从0变至0.5。 解解解解 已知已知已知已知 168168, 1212 z z 是负值,表示是负值,表示是负值,表示是负值,表示X X的取值处于均值左边。由于曲线的取值处于均值左边。由于曲线的取值处于均值左边。由于曲线的取值处于均值左边。由于曲线完全对称,所以使用正态分布表时可以忽略完全对称,所以使用正态分布表时可以忽略完全对称,所以使用正态分布表时可以忽略完全对称,所以使用正态分布表时可以忽略 z z 的正负号。的正负号。的正负号。的正负号。查表可知,正态曲线在均值与查表可知,正态曲线在均值与查表可知,正态曲线在均值与查表可知,正态曲线在均值与z z2.082.08之间所含面积是

119、之间所含面积是之间所含面积是之间所含面积是0.48120.4812。由于总面积的一半是。由于总面积的一半是。由于总面积的一半是。由于总面积的一半是0.50.5,因,因,因,因P(X143)P(X143)可以由可以由可以由可以由下面计算求得下面计算求得下面计算求得下面计算求得 P(X143)P(X143)0.5P(0Z2.08) 0.5P(0Z2.08) 0.50.4812 0.50.4812 1.881.88 这说明,这说明,这说明,这说明,X X的取值小于或等于的取值小于或等于的取值小于或等于的取值小于或等于143143的概率大约是的概率大约是的概率大约是的概率大约是2 2。由于即将讨论的正

120、态检验几乎都要涉及概率分布的尾端,由于即将讨论的正态检验几乎都要涉及概率分布的尾端,由于即将讨论的正态检验几乎都要涉及概率分布的尾端,由于即将讨论的正态检验几乎都要涉及概率分布的尾端,所以此例说明的是一个非常普遍的问题。所以此例说明的是一个非常普遍的问题。所以此例说明的是一个非常普遍的问题。所以此例说明的是一个非常普遍的问题。 六、中心极限定理与正态检验六、中心极限定理与正态检验六、中心极限定理与正态检验六、中心极限定理与正态检验 一旦统计的学习进入到推论统计,我们就必须同时与三一旦统计的学习进入到推论统计,我们就必须同时与三一旦统计的学习进入到推论统计,我们就必须同时与三一旦统计的学习进入到

121、推论统计,我们就必须同时与三种不同的分布概念打交道,即总体分布、样本分布、抽样分种不同的分布概念打交道,即总体分布、样本分布、抽样分种不同的分布概念打交道,即总体分布、样本分布、抽样分种不同的分布概念打交道,即总体分布、样本分布、抽样分布。为了不产生混淆,视分布不同,将统计指标的符号加以区布。为了不产生混淆,视分布不同,将统计指标的符号加以区布。为了不产生混淆,视分布不同,将统计指标的符号加以区布。为了不产生混淆,视分布不同,将统计指标的符号加以区别是完全必要的。对那些反映标志值集中趋势和离中趋势的综别是完全必要的。对那些反映标志值集中趋势和离中趋势的综别是完全必要的。对那些反映标志值集中趋势

122、和离中趋势的综别是完全必要的。对那些反映标志值集中趋势和离中趋势的综合指标,尤其对均值和标准差合指标,尤其对均值和标准差合指标,尤其对均值和标准差合指标,尤其对均值和标准差( (或方差或方差或方差或方差) )。均值均值均值均值标准差标准差标准差标准差总体分布总体分布总体分布总体分布样本分布样本分布样本分布样本分布抽样分布抽样分布抽样分布抽样分布 抽样分布特指样本统计量作为随机变量的概率分布。用数学语言来说,抽样分布是运用数理统计的方法,把具体概率赋予样本的所有可能结果的一种理论分布。 在一个总体中可以产生无数个样本,所以样本统计量(比如均值 )必定是随机变量。 这样就提出一个问题:如果样本统计

123、量作为随机变量,它的概率分布是什么样呢? 我们知道,概率论中用来阐明大量随机现象平均我们知道,概率论中用来阐明大量随机现象平均我们知道,概率论中用来阐明大量随机现象平均我们知道,概率论中用来阐明大量随机现象平均结果的稳定性的定理,是著名的结果的稳定性的定理,是著名的结果的稳定性的定理,是著名的结果的稳定性的定理,是著名的大数定理大数定理大数定理大数定理。其具体内。其具体内。其具体内。其具体内容是:频率稳定于概率,平均值稳定于期望值。但容是:频率稳定于概率,平均值稳定于期望值。但容是:频率稳定于概率,平均值稳定于期望值。但容是:频率稳定于概率,平均值稳定于期望值。但是,大量随机现象的稳定性不仅表

124、现在平均结果上,是,大量随机现象的稳定性不仅表现在平均结果上,是,大量随机现象的稳定性不仅表现在平均结果上,是,大量随机现象的稳定性不仅表现在平均结果上,同时也表现在分布上,这就是同时也表现在分布上,这就是同时也表现在分布上,这就是同时也表现在分布上,这就是中心极限定理中心极限定理中心极限定理中心极限定理所要阐明所要阐明所要阐明所要阐明的内容。显然,推论统计需要有一座能够架通抽样调的内容。显然,推论统计需要有一座能够架通抽样调的内容。显然,推论统计需要有一座能够架通抽样调的内容。显然,推论统计需要有一座能够架通抽样调查和抽样分布的桥梁。查和抽样分布的桥梁。查和抽样分布的桥梁。查和抽样分布的桥梁

125、。中心极限定理中心极限定理中心极限定理中心极限定理告诉我们:如果告诉我们:如果告诉我们:如果告诉我们:如果从任何一个具有均值从任何一个具有均值从任何一个具有均值从任何一个具有均值 和方差和方差和方差和方差 2 2的总体的总体的总体的总体( (可以具有任可以具有任可以具有任可以具有任何分布形式何分布形式何分布形式何分布形式) )中重复抽取容量为中重复抽取容量为中重复抽取容量为中重复抽取容量为n n的随机样本,那么当的随机样本,那么当的随机样本,那么当的随机样本,那么当n n变得很大时,样本均值的抽样分布接近正态,并具变得很大时,样本均值的抽样分布接近正态,并具变得很大时,样本均值的抽样分布接近正

126、态,并具变得很大时,样本均值的抽样分布接近正态,并具有均值有均值有均值有均值 和方差和方差和方差和方差 。 (2)(2)由于抽样分布的标由于抽样分布的标由于抽样分布的标由于抽样分布的标准准准准差要比总体标准差小,并且差要比总体标准差小,并且差要比总体标准差小,并且差要比总体标准差小,并且 ,所以如右图所,所以如右图所,所以如右图所,所以如右图所示,样本容量越大,抽样分示,样本容量越大,抽样分示,样本容量越大,抽样分示,样本容量越大,抽样分布的峰态愈陡峭,由样本结布的峰态愈陡峭,由样本结布的峰态愈陡峭,由样本结布的峰态愈陡峭,由样本结果来推断总体参数的可靠性果来推断总体参数的可靠性果来推断总体参

127、数的可靠性果来推断总体参数的可靠性也随之提高。也随之提高。也随之提高。也随之提高。 无疑,中心极限定理大大拓展了正态分布的适用面,同时我无疑,中心极限定理大大拓展了正态分布的适用面,同时我无疑,中心极限定理大大拓展了正态分布的适用面,同时我无疑,中心极限定理大大拓展了正态分布的适用面,同时我们得到了以下重要信息:们得到了以下重要信息:们得到了以下重要信息:们得到了以下重要信息: (1)(1)虽然样本的均值可能和总体均值有差别,但我们可期望虽然样本的均值可能和总体均值有差别,但我们可期望虽然样本的均值可能和总体均值有差别,但我们可期望虽然样本的均值可能和总体均值有差别,但我们可期望这些将聚集在这

128、些将聚集在这些将聚集在这些将聚集在 的周围。因此均值抽样分布的算术平均数能和总的周围。因此均值抽样分布的算术平均数能和总的周围。因此均值抽样分布的算术平均数能和总的周围。因此均值抽样分布的算术平均数能和总体的均值很好地重合,这就是为什么总体均值和抽样分布的均值体的均值很好地重合,这就是为什么总体均值和抽样分布的均值体的均值很好地重合,这就是为什么总体均值和抽样分布的均值体的均值很好地重合,这就是为什么总体均值和抽样分布的均值用同一个用同一个用同一个用同一个 来来来来表示的缘故。表示的缘故。表示的缘故。表示的缘故。 统计检验应用正态分布和二项分布有两点区别:统计检验应用正态分布和二项分布有两点区

129、别:统计检验应用正态分布和二项分布有两点区别:统计检验应用正态分布和二项分布有两点区别:抽样分布抽样分布抽样分布抽样分布在这里是连续的而非离散的,否定域的大小可以和显著性水平的在这里是连续的而非离散的,否定域的大小可以和显著性水平的在这里是连续的而非离散的,否定域的大小可以和显著性水平的在这里是连续的而非离散的,否定域的大小可以和显著性水平的要求精确地一致起来。要求精确地一致起来。要求精确地一致起来。要求精确地一致起来。计算检验统计量不再像在应用二项分布计算检验统计量不再像在应用二项分布计算检验统计量不再像在应用二项分布计算检验统计量不再像在应用二项分布时那样,可以不劳而获了。很显然,为了能使

130、用现成的正态分布时那样,可以不劳而获了。很显然,为了能使用现成的正态分布时那样,可以不劳而获了。很显然,为了能使用现成的正态分布时那样,可以不劳而获了。很显然,为了能使用现成的正态分布表,关键是要从样本资料中计算出在表,关键是要从样本资料中计算出在表,关键是要从样本资料中计算出在表,关键是要从样本资料中计算出在N N(0(0,1)1)形式下的统计量形式下的统计量形式下的统计量形式下的统计量Z Z,再根据再根据再根据再根据Z Z是否落在否定城内而对被检验假设的取舍作出决定。是否落在否定城内而对被检验假设的取舍作出决定。是否落在否定城内而对被检验假设的取舍作出决定。是否落在否定城内而对被检验假设的

131、取舍作出决定。 在上一节我们曾引出在上一节我们曾引出在上一节我们曾引出在上一节我们曾引出 。Z Z 的这种形式适用于的这种形式适用于的这种形式适用于的这种形式适用于N N( ( , 2 2) )的总体,但并不适用于取正态的抽样分布。正如我们的总体,但并不适用于取正态的抽样分布。正如我们的总体,但并不适用于取正态的抽样分布。正如我们的总体,但并不适用于取正态的抽样分布。正如我们反复强调的那样,统计检验单纯依靠样本自身是得不出结果的,反复强调的那样,统计检验单纯依靠样本自身是得不出结果的,反复强调的那样,统计检验单纯依靠样本自身是得不出结果的,反复强调的那样,统计检验单纯依靠样本自身是得不出结果的

132、,必须首先在一系列假设的基础上求出抽样分布。如果这些假设实必须首先在一系列假设的基础上求出抽样分布。如果这些假设实必须首先在一系列假设的基础上求出抽样分布。如果这些假设实必须首先在一系列假设的基础上求出抽样分布。如果这些假设实际上正确,那么抽样分布将告诉我们得到一个给定的的可能性是际上正确,那么抽样分布将告诉我们得到一个给定的的可能性是际上正确,那么抽样分布将告诉我们得到一个给定的的可能性是际上正确,那么抽样分布将告诉我们得到一个给定的的可能性是多少。在抽样分布中,随机变量的取值是每个多少。在抽样分布中,随机变量的取值是每个多少。在抽样分布中,随机变量的取值是每个多少。在抽样分布中,随机变量的

133、取值是每个 ,均值是,均值是,均值是,均值是 ,标准差是标准差是标准差是标准差是 。因此。因此。因此。因此 Z Z 如果作为检验统计量,应该用如果作为检验统计量,应该用如果作为检验统计量,应该用如果作为检验统计量,应该用替换替换替换替换X X,用,用,用,用 替换替换替换替换 , 不动,因而有不动,因而有不动,因而有不动,因而有 。 例例例例 一位研究者试图检验某一社会调查所运用的抽样程序,该一位研究者试图检验某一社会调查所运用的抽样程序,该一位研究者试图检验某一社会调查所运用的抽样程序,该一位研究者试图检验某一社会调查所运用的抽样程序,该项调查是由一些缺乏经验的访问员进行的。研究者怀疑属于干

134、部和项调查是由一些缺乏经验的访问员进行的。研究者怀疑属于干部和项调查是由一些缺乏经验的访问员进行的。研究者怀疑属于干部和项调查是由一些缺乏经验的访问员进行的。研究者怀疑属于干部和知识分子的家庭抽得过多。过去的统计资料表明,该街区的家庭收知识分子的家庭抽得过多。过去的统计资料表明,该街区的家庭收知识分子的家庭抽得过多。过去的统计资料表明,该街区的家庭收知识分子的家庭抽得过多。过去的统计资料表明,该街区的家庭收入是入是入是入是75007500元,标准差是元,标准差是元,标准差是元,标准差是15001500元;此次调查共抽取元;此次调查共抽取元;此次调查共抽取元;此次调查共抽取100100个家庭,样

135、本平个家庭,样本平个家庭,样本平个家庭,样本平均收入是均收入是均收入是均收入是79007900元。问:该研究人员是否有理由怀疑该样本有偏估?元。问:该研究人员是否有理由怀疑该样本有偏估?元。问:该研究人员是否有理由怀疑该样本有偏估?元。问:该研究人员是否有理由怀疑该样本有偏估?(选用(选用(选用(选用=0.05=0.05) 现在我们来看中心极限定理在假设检验中的应用。虽然不必现在我们来看中心极限定理在假设检验中的应用。虽然不必现在我们来看中心极限定理在假设检验中的应用。虽然不必现在我们来看中心极限定理在假设检验中的应用。虽然不必每一次都明写出来,但本章前面所述的检验程序的每一步都不能缺每一次都

136、明写出来,但本章前面所述的检验程序的每一步都不能缺每一次都明写出来,但本章前面所述的检验程序的每一步都不能缺每一次都明写出来,但本章前面所述的检验程序的每一步都不能缺少。把从样本调查中得到的检验统计量与假设的总体均值作比较,少。把从样本调查中得到的检验统计量与假设的总体均值作比较,少。把从样本调查中得到的检验统计量与假设的总体均值作比较,少。把从样本调查中得到的检验统计量与假设的总体均值作比较,我们很快发现了正态分布的重要的实用价值。我们很快发现了正态分布的重要的实用价值。我们很快发现了正态分布的重要的实用价值。我们很快发现了正态分布的重要的实用价值。1 1 已知,对总体均值的检验已知,对总体

137、均值的检验已知,对总体均值的检验已知,对总体均值的检验实际上是要检验“随机抽样”这个零假设 例例例例 一位研究者试图检验某一社会调查所运用一位研究者试图检验某一社会调查所运用一位研究者试图检验某一社会调查所运用一位研究者试图检验某一社会调查所运用的抽样程序,该项调查是由一些缺乏经验的访问员进的抽样程序,该项调查是由一些缺乏经验的访问员进的抽样程序,该项调查是由一些缺乏经验的访问员进的抽样程序,该项调查是由一些缺乏经验的访问员进行的。研究者怀疑属于干部和知识分子的家庭抽得过行的。研究者怀疑属于干部和知识分子的家庭抽得过行的。研究者怀疑属于干部和知识分子的家庭抽得过行的。研究者怀疑属于干部和知识分

138、子的家庭抽得过多。过去的统计资料表明,该街区的家庭收入是多。过去的统计资料表明,该街区的家庭收入是多。过去的统计资料表明,该街区的家庭收入是多。过去的统计资料表明,该街区的家庭收入是75007500元,标准差是元,标准差是元,标准差是元,标准差是15001500元;此次调查共抽取元;此次调查共抽取元;此次调查共抽取元;此次调查共抽取100100个家庭,样个家庭,样个家庭,样个家庭,样本平均收入是本平均收入是本平均收入是本平均收入是79007900元。问:该研究人员是否有理由怀元。问:该研究人员是否有理由怀元。问:该研究人员是否有理由怀元。问:该研究人员是否有理由怀疑该样本有偏估?(选用疑该样本

139、有偏估?(选用疑该样本有偏估?(选用疑该样本有偏估?(选用=0.05=0.05)第五节第五节 总体均值和成数的单样本检验总体均值和成数的单样本检验1 1 已知,对总体均值的检验已知,对总体均值的检验已知,对总体均值的检验已知,对总体均值的检验实际上是要检验“随机抽样”这个零假设 解解解解 根据题意,可做如下假设,并做单侧检验根据题意,可做如下假设,并做单侧检验根据题意,可做如下假设,并做单侧检验根据题意,可做如下假设,并做单侧检验 因因因因=0.05=0.05,查表得,查表得,查表得,查表得Z Z 0.050.05=1.65=1.65,故否定域为故否定域为故否定域为故否定域为根据中心极限定理,

140、检验统计量根据中心极限定理,检验统计量根据中心极限定理,检验统计量根据中心极限定理,检验统计量计算得计算得计算得计算得 检验统计量检验统计量检验统计量检验统计量Z Z的计算表明,样本均值比总体均值大的计算表明,样本均值比总体均值大的计算表明,样本均值比总体均值大的计算表明,样本均值比总体均值大2 26767个个个个标准差(标准差(标准差(标准差( ),超过了显著性水平规定的临界值,调查者应该),超过了显著性水平规定的临界值,调查者应该),超过了显著性水平规定的临界值,调查者应该),超过了显著性水平规定的临界值,调查者应该否定否定否定否定“ “随机抽样随机抽样随机抽样随机抽样” ”的零假设。也就

141、是说,由于抽样在程序上不合的零假设。也就是说,由于抽样在程序上不合的零假设。也就是说,由于抽样在程序上不合的零假设。也就是说,由于抽样在程序上不合要要要要求,这项社会调查有必要重新组织。求,这项社会调查有必要重新组织。求,这项社会调查有必要重新组织。求,这项社会调查有必要重新组织。 中心极限定理实际解决了大样本均值的检验问中心极限定理实际解决了大样本均值的检验问中心极限定理实际解决了大样本均值的检验问中心极限定理实际解决了大样本均值的检验问题。假定样本比较大题。假定样本比较大题。假定样本比较大题。假定样本比较大(n(n5050,这在社会调查中一般,这在社会调查中一般,这在社会调查中一般,这在社

142、会调查中一般都能得到满足都能得到满足都能得到满足都能得到满足) ),样本均值的抽样分布就与总体分布,样本均值的抽样分布就与总体分布,样本均值的抽样分布就与总体分布,样本均值的抽样分布就与总体分布无关,而服从正态分布。当无关,而服从正态分布。当无关,而服从正态分布。当无关,而服从正态分布。当HH0 0成立时,样本均值的成立时,样本均值的成立时,样本均值的成立时,样本均值的观察值比较集中地分布在总体均值观察值比较集中地分布在总体均值观察值比较集中地分布在总体均值观察值比较集中地分布在总体均值 周围;当周围;当周围;当周围;当HH0 0不不不不成立时,成立时,成立时,成立时, 将对将对将对将对 有明

143、显偏离的趋势。因而,我们有明显偏离的趋势。因而,我们有明显偏离的趋势。因而,我们有明显偏离的趋势。因而,我们可以在选定的显著性水平上,通过计算检验统计量可以在选定的显著性水平上,通过计算检验统计量可以在选定的显著性水平上,通过计算检验统计量可以在选定的显著性水平上,通过计算检验统计量Z Z,对零假设进行检定。,对零假设进行检定。,对零假设进行检定。,对零假设进行检定。 注:当注:当注:当注:当 未知时,只要样本量很大,就可用未知时,只要样本量很大,就可用未知时,只要样本量很大,就可用未知时,只要样本量很大,就可用S S来代替来代替来代替来代替 。但对于小样本,。但对于小样本,。但对于小样本,。

144、但对于小样本,Z Z检验就要用检验就要用检验就要用检验就要用 t t 检验来检验来检验来检验来替代了,而且还必须严格限于正态总体。替代了,而且还必须严格限于正态总体。替代了,而且还必须严格限于正态总体。替代了,而且还必须严格限于正态总体。 解解解解 根据题意,可作如下的假设,并做双侧检验根据题意,可作如下的假设,并做双侧检验根据题意,可作如下的假设,并做双侧检验根据题意,可作如下的假设,并做双侧检验 HH0 0: 23302330元元元元 HH1 1: 23302330元元元元因因因因 0.050.05,查正态分布表得,查正态分布表得,查正态分布表得,查正态分布表得Z Z /2/21.961.

145、96,故否定域,故否定域,故否定域,故否定域| |Z|Z|1.96 1.96 计算检验统计量计算检验统计量计算检验统计量计算检验统计量 Z Z 1.201.201 19696 所以,不能认为该单位人均月收入不是所以,不能认为该单位人均月收入不是所以,不能认为该单位人均月收入不是所以,不能认为该单位人均月收入不是23302330元,即不能元,即不能元,即不能元,即不能认为该统计报表有误。五、正态分布与标准正态分布认为该统计报表有误。五、正态分布与标准正态分布认为该统计报表有误。五、正态分布与标准正态分布认为该统计报表有误。五、正态分布与标准正态分布 例例例例 某单位统计报表显示,人均月收入为某单

146、位统计报表显示,人均月收入为某单位统计报表显示,人均月收入为某单位统计报表显示,人均月收入为23302330元,为了验证元,为了验证元,为了验证元,为了验证该统计报表的正确性,作了共该统计报表的正确性,作了共该统计报表的正确性,作了共该统计报表的正确性,作了共8181人的抽样调查,样本人均月收入人的抽样调查,样本人均月收入人的抽样调查,样本人均月收入人的抽样调查,样本人均月收入为为为为23502350元,标准差为元,标准差为元,标准差为元,标准差为150150元,问能否说明该统计报表显示的人均元,问能否说明该统计报表显示的人均元,问能否说明该统计报表显示的人均元,问能否说明该统计报表显示的人均

147、 收入的数字有误收入的数字有误收入的数字有误收入的数字有误( (取显著性水平取显著性水平取显著性水平取显著性水平 0.05)0.05)。 此乃“总体均值”零假设的检验七、点估计与区间估计七、点估计与区间估计七、点估计与区间估计七、点估计与区间估计 在在在在推推推推论论论论统统统统计计计计中中中中,相相相相对对对对于于于于假假假假设设设设检检检检验验验验,参参参参数数数数估估估估计计计计要要要要容容容容易易易易理理理理解解解解得得得得多多多多。所所所所谓谓谓谓参参参参数数数数估估估估计计计计,即即即即由由由由样样样样本本本本的的的的指指指指标标标标数数数数值值值值推推推推断断断断总总总总体体体体

148、的的的的相相相相应应应应的的的的指指指指标标标标数数数数值值值值,它它它它包包包包括括括括点点点点估估估估计计计计和和和和区区区区间间间间估估估估计计计计。例例例例如如如如,某某某某高高高高校校校校大大大大一一一一6060名名名名男男男男生生生生如如如如果果果果是是是是一一一一个个个个随随随随机机机机产产产产生生生生的的的的样样样样本本本本,那那那那么么么么我我我我们们们们肯肯肯肯定定定定是是是是在在在在做做做做抽抽抽抽样样样样调调调调查查查查,即即即即这这这这个个个个样样样样本本本本是是是是从从从从该该该该校校校校全全全全部部部部大大大大一一一一男男男男生生生生这这这这个个个个总总总总体体体

149、体中中中中通通通通过过过过随随随随机机机机抽抽抽抽样样样样产产产产生生生生的的的的。这这这这样样样样一一一一来来来来,那那那那一一一一组组组组调调调调查查查查来来来来的的的的身身身身高高高高数数数数据据据据以以以以及及及及通通通通过过过过这这这这一一一一组组组组数数数数据据据据计计计计算算算算出出出出来来来来的的的的平平平平均均均均身身身身高高高高等等等等就就就就对对对对总总总总体体体体有有有有很很很很好好好好的的的的代代代代表表表表性性性性。换换换换句句句句话话话话说说说说,我我我我们们们们计计计计算算算算出出出出这这这这6060个个个个男男男男生生生生的的的的平平平平均均均均身身身身高高高

150、高是是是是168.5168.5厘厘厘厘米米米米,那那那那么么么么根根根根据据据据大大大大数数数数定定定定理理理理我我我我们们们们可可可可以以以以用用用用这这这这个个个个统统统统计计计计量量量量来来来来估估估估计计计计全全全全校校校校大大大大一一一一男男男男生生生生的的的的平平平平均身高。这体现出了抽样调查的基本意义。均身高。这体现出了抽样调查的基本意义。均身高。这体现出了抽样调查的基本意义。均身高。这体现出了抽样调查的基本意义。 不过,这一参数估计只是点估计。所谓点估计,就不过,这一参数估计只是点估计。所谓点估计,就不过,这一参数估计只是点估计。所谓点估计,就不过,这一参数估计只是点估计。所谓

151、点估计,就是根据样本数据算出一个单一的估计值,用来估计总体是根据样本数据算出一个单一的估计值,用来估计总体是根据样本数据算出一个单一的估计值,用来估计总体是根据样本数据算出一个单一的估计值,用来估计总体的参数值。点估计很方便,但当我们要关心这一估计的的参数值。点估计很方便,但当我们要关心这一估计的的参数值。点估计很方便,但当我们要关心这一估计的的参数值。点估计很方便,但当我们要关心这一估计的可靠性时,问题就出来了。也就是说,我们根据样本均可靠性时,问题就出来了。也就是说,我们根据样本均可靠性时,问题就出来了。也就是说,我们根据样本均可靠性时,问题就出来了。也就是说,我们根据样本均值是不可能肯定

152、该校大一男生的平均身高就是值是不可能肯定该校大一男生的平均身高就是值是不可能肯定该校大一男生的平均身高就是值是不可能肯定该校大一男生的平均身高就是168.5168.5厘米厘米厘米厘米的。这样一来,区间估计的重要性就显现出来了。的。这样一来,区间估计的重要性就显现出来了。的。这样一来,区间估计的重要性就显现出来了。的。这样一来,区间估计的重要性就显现出来了。 所谓区间估计,就是计算抽样平均误差,指出估计所谓区间估计,就是计算抽样平均误差,指出估计所谓区间估计,就是计算抽样平均误差,指出估计所谓区间估计,就是计算抽样平均误差,指出估计的可信程度,进而在点估计的基础上,确定总体参数的的可信程度,进而

153、在点估计的基础上,确定总体参数的的可信程度,进而在点估计的基础上,确定总体参数的的可信程度,进而在点估计的基础上,确定总体参数的所在范围或区间。很显然,如果我们在所在范围或区间。很显然,如果我们在所在范围或区间。很显然,如果我们在所在范围或区间。很显然,如果我们在168.5168.5厘米上下加厘米上下加厘米上下加厘米上下加减一个(比如减一个(比如减一个(比如减一个(比如0.50.5厘米),现在估计全校大一男生的平均厘米),现在估计全校大一男生的平均厘米),现在估计全校大一男生的平均厘米),现在估计全校大一男生的平均身高在身高在身高在身高在168 169168 169厘米之间,那么估计到的把握就

154、会一下厘米之间,那么估计到的把握就会一下厘米之间,那么估计到的把握就会一下厘米之间,那么估计到的把握就会一下子提高许多。子提高许多。子提高许多。子提高许多。一、有关区间估计的几个概念一、有关区间估计的几个概念一、有关区间估计的几个概念一、有关区间估计的几个概念1. 1. 置信区间置信区间置信区间置信区间:区间估计是求所谓置信区间的方法。置:区间估计是求所谓置信区间的方法。置:区间估计是求所谓置信区间的方法。置:区间估计是求所谓置信区间的方法。置信区间就是我们为了增加参数被估计到的信心而在信区间就是我们为了增加参数被估计到的信心而在信区间就是我们为了增加参数被估计到的信心而在信区间就是我们为了增

155、加参数被估计到的信心而在点估计两边设置的估计区间。点估计两边设置的估计区间。点估计两边设置的估计区间。点估计两边设置的估计区间。2. 2. 显著性水平显著性水平显著性水平显著性水平 :用置信区间来估计的不可靠程度。:用置信区间来估计的不可靠程度。:用置信区间来估计的不可靠程度。:用置信区间来估计的不可靠程度。 区间估计的任务是,在点估计值的两侧设置一区间估计的任务是,在点估计值的两侧设置一个区间,使得总体参数被估计到的概率大大增加。个区间,使得总体参数被估计到的概率大大增加。可靠性和精确性可靠性和精确性(即信度和效度即信度和效度)在区间估计中是相在区间估计中是相互矛盾的两个方面。互矛盾的两个方

156、面。 3. 3. 置信度置信度置信度置信度(水平)(水平)(水平)(水平) :用置信区间估计的可靠性:用置信区间估计的可靠性:用置信区间估计的可靠性:用置信区间估计的可靠性(把握度)(把握度)(把握度)(把握度)4. 4. 抽样平均误差抽样平均误差抽样平均误差抽样平均误差 与与与与概率度概率度概率度概率度 Z Z 抽样平均误差抽样平均误差抽样平均误差抽样平均误差 :样本均值抽样分布的标准差。:样本均值抽样分布的标准差。:样本均值抽样分布的标准差。:样本均值抽样分布的标准差。反映在参数周围抽样平均值的平均变异程度。反映在参数周围抽样平均值的平均变异程度。反映在参数周围抽样平均值的平均变异程度。反

157、映在参数周围抽样平均值的平均变异程度。 越大,样本均值越分散。越大,样本均值越分散。越大,样本均值越分散。越大,样本均值越分散。 概率度:概率度:概率度:概率度:Z Z在参数估计中被称为概率度,其大小在参数估计中被称为概率度,其大小在参数估计中被称为概率度,其大小在参数估计中被称为概率度,其大小由由由由 决定决定决定决定. . 显著性水平、置信水平、概率度之间显著性水平、置信水平、概率度之间显著性水平、置信水平、概率度之间显著性水平、置信水平、概率度之间的关系:的关系:的关系:的关系: =0.10=0.10时,时,时,时, =0.90=0.90,Z Z /2/2=1.65=1.65 =0.05

158、 =0.05时,时,时,时, =0.95=0.95,Z Z /2/2=1.96=1.96 =0.01 =0.01时,时,时,时, =0.99=0.99,Z Z /2/2=2.58=2.58 区间估计的做法:区间估计的做法:区间估计的做法:区间估计的做法:从点估计值开始,向两侧展从点估计值开始,向两侧展从点估计值开始,向两侧展从点估计值开始,向两侧展开一定倍数的抽样平均误差,并估计总体参数很可能开一定倍数的抽样平均误差,并估计总体参数很可能开一定倍数的抽样平均误差,并估计总体参数很可能开一定倍数的抽样平均误差,并估计总体参数很可能就包含在这个区间之内。就包含在这个区间之内。就包含在这个区间之内。

159、就包含在这个区间之内。对参数对参数对参数对参数 的区间估计的步骤:的区间估计的步骤:的区间估计的步骤:的区间估计的步骤: 1. 1. 首先从总体抽取一个样本,根据收集的样本资首先从总体抽取一个样本,根据收集的样本资首先从总体抽取一个样本,根据收集的样本资首先从总体抽取一个样本,根据收集的样本资料求出它料求出它料求出它料求出它 的均值。的均值。的均值。的均值。 2. 2. 根据合乎实际的置信水平查表求得概率度根据合乎实际的置信水平查表求得概率度根据合乎实际的置信水平查表求得概率度根据合乎实际的置信水平查表求得概率度 3. 3. 根据总体标准差和样本容量求出抽样平均误差根据总体标准差和样本容量求出

160、抽样平均误差根据总体标准差和样本容量求出抽样平均误差根据总体标准差和样本容量求出抽样平均误差 4. 4. 以均值为基准,向两侧展开以均值为基准,向两侧展开以均值为基准,向两侧展开以均值为基准,向两侧展开 倍抽样平均误差倍抽样平均误差倍抽样平均误差倍抽样平均误差的区间。的区间。的区间。的区间。 例例例例 从某校随机地抽取从某校随机地抽取从某校随机地抽取从某校随机地抽取100100名男学生,测得平均身名男学生,测得平均身名男学生,测得平均身名男学生,测得平均身高为高为高为高为170170厘米,标准差为厘米,标准差为厘米,标准差为厘米,标准差为7.57.5厘米,试求该校学生平均身厘米,试求该校学生平

161、均身厘米,试求该校学生平均身厘米,试求该校学生平均身高高高高9595的置信区间。的置信区间。的置信区间。的置信区间。 解解解解 按题意,此为大样本,且总体方差未知,又按题意,此为大样本,且总体方差未知,又按题意,此为大样本,且总体方差未知,又按题意,此为大样本,且总体方差未知,又 100100, 170170, 7.57.5, 0.950.95查表得查表得查表得查表得 1.961.96,代入公式有,代入公式有,代入公式有,代入公式有 1701.96 1701.96 1701.471701.47因此,有因此,有因此,有因此,有9595的把握,该校学生的平均身高在的把握,该校学生的平均身高在的把握,该校学生的平均身高在的把握,该校学生的平均身高在168.5 171.5168.5 171.5厘米之间。厘米之间。厘米之间。厘米之间。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号