《221用样本的频率估计总体》由会员分享,可在线阅读,更多相关《221用样本的频率估计总体(46页珍藏版)》请在金锄头文库上搜索。
1、 -用样本的频率分布估计用样本的频率分布估计 总体分布总体分布2.2 用样本估计总体用样本估计总体复习复习一、简单随机抽样的概念一、简单随机抽样的概念 简单随机抽样的两种方法:简单随机抽样的两种方法: 抽签法抽签法 随机数表法随机数表法二、系统抽样和分层抽样二、系统抽样和分层抽样那么,接下来的工作怎么做呢?那么,接下来的工作怎么做呢? 我们收集后,必须从中寻找所包含的信我们收集后,必须从中寻找所包含的信息,使我们可以从样本估计总体。因为抽息,使我们可以从样本估计总体。因为抽出的数据很多且杂乱,我们无法直接从原出的数据很多且杂乱,我们无法直接从原始数据理解它们的含义,所以我们通过图、始数据理解它
2、们的含义,所以我们通过图、表、计算来分析数据,帮助我们找到数据表、计算来分析数据,帮助我们找到数据中的规律。中的规律。用样本估计总体用样本估计总体用样本估计总体(两种)用样本估计总体(两种): 一种是:用样本的频率分布估计总体的一种是:用样本的频率分布估计总体的分布。分布。 另一种是:用样本的数字特征(平均数另一种是:用样本的数字特征(平均数标准差等)估计总体的数字特征。标准差等)估计总体的数字特征。我国是世界上严重缺水的国家之一,我国是世界上严重缺水的国家之一,城市缺水问题较为突出。城市缺水问题较为突出。20002000年全国主要城市中缺水情况排在前年全国主要城市中缺水情况排在前1010位的
3、城市位的城市 某市政府为了节约生活用水,计划在本市试某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用行居民生活用水定额管理,即确定一个居民月用水量标准水量标准a , 用水量不超过用水量不超过a的部分按平价收费,的部分按平价收费,超过超过a的部分按议价收费。的部分按议价收费。 如果希望大部分居民的日常生活不受影响,那如果希望大部分居民的日常生活不受影响,那 么标准么标准a定为多少比较合理呢定为多少比较合理呢? 为了较合理地确定这个标准,为了较合理地确定这个标准,你认为你认为需要做需要做 哪些工作?哪些工作?问题问题1 问题问题2 由上表,大家可以得到什么信息?由上
4、表,大家可以得到什么信息? 通过抽样,我们获得了通过抽样,我们获得了100100位居民某年的月平均用位居民某年的月平均用 水量水量( (单位:单位:t) t) ,如下表:,如下表: 问题问题3 初中学过什么处理多项数据的方法?初中学过什么处理多项数据的方法? 1.1.求极差求极差: 步骤:步骤: 2.2.决定组距与组数决定组距与组数:组数组数= = 4.3 4.3 - - 0.2 = 4.10.2 = 4.14.14.10.50.5 = 8.2 = 8.2组距组距极差极差= =3.3.将数据分组将数据分组0 0,0.50.5 ) ),0.50.5,1 1 ) ),4 4,4.54.5 我们曾在
5、初中学过我们曾在初中学过频数频数分布表和分布表和频数频数分分布直方图,请同学们动手操作。布直方图,请同学们动手操作。分组分组频数累计(划记)频数累计(划记)频数频数0, 0.5)0.5, 1)1, 1.5)1.5, 2)2, 2.5)2.5, 3)3, 3.5)3.5, 4)4, 4.5合计频数累计(划记)频数累计(划记)正正正正正正正正丅正正正正正正正正丅频数频数48152225146421004.4.画画频数频数分布表分布表频数频数(个个)月平均用水量月平均用水量(t)2724211816139630 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5.5.画画频数频数分布直方图分
6、布直方图分组分组频数累计(划记)频数累计(划记)频数频数0, 0.5)40.5, 1)正81, 1.5)正正正151.5, 2)正正正正丅222, 2.5)正正正正正252.5, 3)正正143, 3.5)正63.5, 4)44, 4.5丅2合计100分组分组频数累计(划记)频数累计(划记)频数频数0, 0.5)40.5, 1)正81, 1.5)正正正151.5, 2)正正正正丅222, 2.5)正正正正正252.5, 3)正正143, 3.5)正63.5, 4)44, 4.5丅2合计100频率频率频率频率0.040.080.150.220.250.140.060.040.021分组分组频数累
7、计(划记)频数累计(划记)频数频数0, 0.5)40.5, 1)正81, 1.5)正正正151.5, 2)正正正正丅222, 2.5)正正正正正252.5, 3)正正143, 3.5)正63.5, 4)44, 4.5丅2合计100频率频率频率频率/组距组距频率频率0.040.080.150.220.250.140.060.040.021频率频率/组距组距0.080.160.30.440.500.280.120.080.04100100位居民月平均用水量的位居民月平均用水量的频率频率分布表分布表4.4.列列频率频率分布表分布表分组分组频数累计(划记)频数累计(划记)频数频数0, 0.5)40.5
8、, 1)正81, 1.5)正正正151.5, 2)正正正正丅222, 2.5)正正正正正252.5, 3)正正143, 3.5)正63.5, 4)44, 4.5丅2合计100频率频率频率频率/组距组距频率频率0.040.080.150.220.250.140.060.040.021频率频率/组距组距0.080.160.30.440.500.280.120.080.04100100位居民月平均用水量的位居民月平均用水量的频率频率分布表分布表4.4.列列频率频率分布表分布表频率频率/组组距距月平均用水量月平均用水量/t0.500.400.300.200.10 0 0.5 1 1.5 2 2.5 3
9、 3.5 4 4.5 5.5.画画频率频率分布直方图分布直方图思考:从左往右思考:从左往右看,前看,前2 2个长方个长方形的面积表示什形的面积表示什么意义?么意义?总结画频率分布直方图的频率分布直方图的操作步骤1.求求极差极差,即数据中最大值与最小值的差即数据中最大值与最小值的差2.决定决定组距组距与与组数组数 :组数:组数=极差极差/组距组距3.将将数据分组数据分组, 通常对组内数值所在区间,取通常对组内数值所在区间,取左闭右左闭右开开区间区间 , 最后一组取闭区间最后一组取闭区间4.登记登记频数频数,计算计算频率和频率组距频率和频率组距 , 列出列出频率分布表频率分布表5.画出画出频率分布
10、直方图频率分布直方图(纵轴表示(纵轴表示频率组距频率组距)频率频率/组组距距月平均用水量月平均用水量/t0.500.400.300.200.10 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 问题问题5 5 你能从你能从图中分析出样本图中分析出样本的哪些信息?的哪些信息?问题问题6 你认为频率分布直方图的优缺点是你认为频率分布直方图的优缺点是什么?什么?问题问题7 请同学们尝试以另外的组距重新作图请同学们尝试以另外的组距重新作图. . 同样一组数据,如果组距不同,得到的图同样一组数据,如果组距不同,得到的图的形状也会不同。不同的形状给人以不同的印的形状也会不同。不同的形状给人以不
11、同的印象,这种印象有时会影响我们对总体的判断。象,这种印象有时会影响我们对总体的判断。问题问题8 8 如果当地政府希望使如果当地政府希望使85% 85% 以上的以上的居民每月的用水量不超出标准,根据频率居民每月的用水量不超出标准,根据频率分布表和频率分布直方图,你能对制定月分布表和频率分布直方图,你能对制定月用水量标准提出建议吗?用水量标准提出建议吗?频率频率/组组距距月平均用水量月平均用水量/t0.500.400.300.200.10 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 分组分组0, 0.5)0.5, 1)1, 1.5)1.5, 2)2, 2.5)2.5, 3)3,
12、3.5)3.5, 4)4, 4.5合计频率频率0.040.080.150.220.250.140.060.040.021问题问题9 9 你认为你认为3 3吨这个标准一定能够吨这个标准一定能够保证保证8585以上的居民用水不超标吗?以上的居民用水不超标吗?如果不一定,那么哪些环节可能导致如果不一定,那么哪些环节可能导致结论的差别?结论的差别? 前面学了前面学了频率分布图和频率分布直方图频率分布图和频率分布直方图来解决问题,我们再学习第二种用频率估计来解决问题,我们再学习第二种用频率估计总体的方法:总体的方法:频率分布折线图和总体密度频率分布折线图和总体密度曲曲线。线。频率频率组距组距0.50.4
13、0.30.20.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O月均用水量月均用水量/t频率频率组距组距0.50.40.30.20.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O月均用水量月均用水量/t月均用水量月均用水量/t频率频率组距组距a bO月均用水量月均用水量/t频率频率组距组距a bO总体密度曲线月均用水量月均用水量/t频率频率组距组距a bO月均用水量月均用水量/t频率频率组距组距a bO总体密度曲线总体在区间总体在区间(a,b)内取)内取值的百分比值的百分比. 1、有的总体没有密度曲线(如总体是、有的总体没有密度曲线(如总体是掷骰子试验的所有可能出现的
14、结果)。掷骰子试验的所有可能出现的结果)。2、总体密度曲线和总体分布相互唯一、总体密度曲线和总体分布相互唯一确定。如果总体分布已知,就可以得到确定。如果总体分布已知,就可以得到密度曲线的函数表达式,从而用函数的密度曲线的函数表达式,从而用函数的理论去研究它。理论去研究它。注意:注意:想一想想一想:当总体的个数比较少或样本数据不:当总体的个数比较少或样本数据不密集时,是否存在整体密度曲线,为什么?密集时,是否存在整体密度曲线,为什么? 不存在,因为组距不能任意缩小。不存在,因为组距不能任意缩小。方法三:茎叶法方法三:茎叶法 我们结合下面的例子来说明茎叶图的方我们结合下面的例子来说明茎叶图的方法,
15、以及从茎叶图中提取样本数据信息的方法,以及从茎叶图中提取样本数据信息的方法。法。 某赛季甲、乙两名篮球运动员每场比赛的得某赛季甲、乙两名篮球运动员每场比赛的得分情况如下:分情况如下: 甲运动员得分:甲运动员得分:13,51,23,8,26,38,16, 33,14,28,39; 乙运动员得分:乙运动员得分:49,24,12,31,50,31,44, 36,15,37,25,36,39. 甲运动员得分:甲运动员得分:13,51,23,8,26,38,16, 33,14,28,39; 乙运动员得分:乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.甲甲 乙
16、乙 84 6 3 3 6 83 8 9 10123452 55 41 6 1 6 7 94 90分析:从图上看,乙运动员的得分基本上是对称分析:从图上看,乙运动员的得分基本上是对称的,的,“叶叶”的分布是的分布是“单峰的单峰的”,中位数是,中位数是36;甲运动员的得分(除了一个特殊得分甲运动员的得分(除了一个特殊得分51外),也外),也大致对称,大致对称,“叶叶”的分布也是的分布也是“单峰的单峰的”,中位,中位数是数是26,由此可以看出,乙运动员的成绩更好。,由此可以看出,乙运动员的成绩更好。另外,从叶在茎上的分布情况看,乙运动员的得另外,从叶在茎上的分布情况看,乙运动员的得分更集中于峰值附近,说明乙运动员的发挥更稳分更集中于峰值附近,说明乙运动员的发挥更稳定。定。0123480 50 5 71 1 53茎茎叶叶用样本的频率分布估计总体分布的三种方法用样本的频率分布估计总体分布的三种方法一一 频率分布图和频率分布直方图频率分布图和频率分布直方图二二频率分布折线图和总体密度曲线频率分布折线图和总体密度曲线三三三三 莖叶图莖叶图(stem-and-leaf display)