用样本估计总体2

上传人:夏** 文档编号:568332289 上传时间:2024-07-24 格式:PPT 页数:35 大小:2.49MB
返回 下载 相关 举报
用样本估计总体2_第1页
第1页 / 共35页
用样本估计总体2_第2页
第2页 / 共35页
用样本估计总体2_第3页
第3页 / 共35页
用样本估计总体2_第4页
第4页 / 共35页
用样本估计总体2_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《用样本估计总体2》由会员分享,可在线阅读,更多相关《用样本估计总体2(35页珍藏版)》请在金锄头文库上搜索。

1、前面我们研究了通过抽样来收集数据的方法前面我们研究了通过抽样来收集数据的方法, ,了解了提高样本代表性的一些具体方法了解了提高样本代表性的一些具体方法, ,数据数据被收集后被收集后, ,必须从中寻找所包含的讯息必须从中寻找所包含的讯息, ,以便我以便我们能通过们能通过样本样本来估计来估计总体总体样本的特征直接反映了总体的特征样本的特征直接反映了总体的特征,我们通常我们通常用样本来用样本来频率频率和和素质特征素质特征来评估总体的特征来评估总体的特征联合国报告曾经预言,联合国报告曾经预言,21世纪淡水将成为全世界最紧张的自世纪淡水将成为全世界最紧张的自然资源。我国是一个水资源相对匮乏的国家,同时由

2、于经济然资源。我国是一个水资源相对匮乏的国家,同时由于经济发展所带来的水污染和用水需矛盾的突显,水危机已成为最发展所带来的水污染和用水需矛盾的突显,水危机已成为最严峻的现实问题,极大地阻碍了经济的发展。据统计,由于严峻的现实问题,极大地阻碍了经济的发展。据统计,由于供水不足,城市工业每年损失达到供水不足,城市工业每年损失达到1200亿元人民币;由于城亿元人民币;由于城市水污染造成的经济损失估计相当于国家当年财政收入的市水污染造成的经济损失估计相当于国家当年财政收入的6%;另一方面,饮用水的短缺和水污染也已危及居民的生活和;另一方面,饮用水的短缺和水污染也已危及居民的生活和健康,影响到社会的安定

3、。因此,解决水危机已被政府提上健康,影响到社会的安定。因此,解决水危机已被政府提上日程,水价改革成为解决这一问题的手段之一日程,水价改革成为解决这一问题的手段之一 黄河断流黄河断流落落后后的的洗洗车车方方式式“滴滴水水”成成灾灾2005年年9月,广州市市政园林局有关负责人在向省政月,广州市市政园林局有关负责人在向省政协协“创建节水型城市创建节水型城市”视察团汇报时表示,为实现居视察团汇报时表示,为实现居民生活用水阶梯式计量水价管理,有关部门已编制了民生活用水阶梯式计量水价管理,有关部门已编制了广州市居民自来水计量系统改造实施方案广州市居民自来水计量系统改造实施方案和和阶阶梯式计量水价实施方案梯

4、式计量水价实施方案,明年开始对符合条件的居,明年开始对符合条件的居民实施民实施阶梯水价阶梯水价,5年内全部实施。同时,为了改变广年内全部实施。同时,为了改变广州节水型用水器具使用率偏低的状况,市节水办计划州节水型用水器具使用率偏低的状况,市节水办计划明年实施用水器具改造。明年实施用水器具改造。 阶梯水价阶梯水价是指用水单位超出用水计是指用水单位超出用水计划或定额部分的水量,除按实用水划或定额部分的水量,除按实用水量向城市供水企业缴纳水费外,超量向城市供水企业缴纳水费外,超计划用水部分,按以下标准另行向计划用水部分,按以下标准另行向城市供水行政主管部门交纳加价水城市供水行政主管部门交纳加价水费:

5、(一)超计划百分之二十以内费:(一)超计划百分之二十以内(含百分之二十,下同)水量,超(含百分之二十,下同)水量,超用水量按现行水价加价两倍收费。用水量按现行水价加价两倍收费。(二)超计划百分之二十以上百分(二)超计划百分之二十以上百分之四十以内水量,超用水量按现行之四十以内水量,超用水量按现行水价加价四倍收费。(三)超计划水价加价四倍收费。(三)超计划百分之四十以上的,超用水量按现百分之四十以上的,超用水量按现行水价加价五倍收费行水价加价五倍收费 广州广州2006年年1月月1日广州市物价局日广州市物价局1日公布,日公布,广州市政府已批准新水价从广州市政府已批准新水价从1日起正式实日起正式实施

6、。居民生活用水由原来的施。居民生活用水由原来的0.9元元/立方米立方米提升到提升到1.32元元/立方米,工业用水和经营服立方米,工业用水和经营服务用水也分别由每立方米务用水也分别由每立方米1.25元和元和1.85元元涨至涨至1.83元和元和2.71元,综合水价达到元,综合水价达到1.69元元/立方米,但暂时不实行阶梯水价立方米,但暂时不实行阶梯水价针对这一情况针对这一情况,确定确定配额水量配额水量a为多少时比较合理为多少时比较合理?你认为为你认为为了较为合理的确定这一标准了较为合理的确定这一标准,你认为需要做哪些工作你认为需要做哪些工作?水价太高水价太高,影响居民日常生活影响居民日常生活,水水

7、价太低价太低,不利于节约用水不利于节约用水.为了确为了确定这一配额定这一配额a,必须首先了解全市必须首先了解全市日常用水量的分布情况日常用水量的分布情况由于城市住户较多由于城市住户较多,因此我们采用抽查的方式进行因此我们采用抽查的方式进行,下面下面是对是对100户进行抽查的结果户进行抽查的结果:样本容量可以根据实际情况适样本容量可以根据实际情况适当选择当选择,并不一定越大越好并不一定越大越好.这这100100户用水量在户用水量在0.24.30.24.3之间之间, ,除此之外除此之外, ,我们很难得我们很难得到其他信息到其他信息, ,一次我们必须对数据的一次我们必须对数据的潜在信息潜在信息进行分

8、析进行分析在初中在初中,我们学习了哪些分析数据的方法我们学习了哪些分析数据的方法?人类辨识影像的能力要优於辨识文字与数字的能力人类辨识影像的能力要优於辨识文字与数字的能力 ,因此我们采用图形的方式来展现数据时,常常不,因此我们采用图形的方式来展现数据时,常常不我们直接观察数据要来的快。我们直接观察数据要来的快。一幅好的图胜一幅好的图胜过一千个字过一千个字下面我们将要学习到的是下面我们将要学习到的是频率分布表频率分布表和和频率分布图频率分布图从比例的角度从比例的角度来分析数据来分析数据频率分布频率分布(frequency distribution)的基本步骤是的基本步骤是:1.求求极差极差:最大

9、数与最小数的差最大数与最小数的差,反反映了数据的映了数据的变化范围变化范围4.3-0.2=4.12.决定决定组距组距和和组数组数组距和组数没有固定的标准组距和组数没有固定的标准,常常需要尝试和选择的过程常常需要尝试和选择的过程,一般数据较少一般数据较少(100以内以内)时时,分成分成512组组3.数据分组数据分组:数据的分组也不是越多越好数据的分组也不是越多越好,为了方便为了方便,我们力求我们力求“取整取整”因此,分成因此,分成9组较合适组较合适以以0.5为组距分组时。可以分成为组距分组时。可以分成9组:组:0,0.5),0.5,1.0),4,4.5)当样本容量当样本容量n很大时,分组数很大时

10、,分组数k应该在(应该在(1+3.3lgn)附近)附近4.列频率分布表列频率分布表利用利用 计算出各组数据的频率计算出各组数据的频率(可以利用可以利用EXCEL来完成作图来完成作图)5.作频率分布直方图作频率分布直方图因此所有小长方形的面积和为因此所有小长方形的面积和为1说明:说明:1.随机性:频率分布直方图是由样本决定,它会随着样本随机性:频率分布直方图是由样本决定,它会随着样本的改变而变化的改变而变化2.规律性:根据频率与概率的关系,若固定分组数,随着样规律性:根据频率与概率的关系,若固定分组数,随着样本用量的增加,各个频率段会稳定在总体的相应频率段上本用量的增加,各个频率段会稳定在总体的

11、相应频率段上3.特别的,若按特别的,若按9组分组,则频率直方图稳定于总体组分组,则频率直方图稳定于总体密度函数密度函数,我们可以用我们可以用频率分布折线图频率分布折线图来表示来表示一般的一般的,随着样本容量的增加随着样本容量的增加,作图时组数也相应的变大作图时组数也相应的变大,相应的相应的频率分布折线图会越来越接近一条光滑曲线频率分布折线图会越来越接近一条光滑曲线总体密度曲线总体密度曲线总体密度曲线反映了总体在各个范围内取值的百分比总体密度曲线反映了总体在各个范围内取值的百分比,它比频它比频率分布直方图提供更加精细的信息率分布直方图提供更加精细的信息例如图中阴影部分的面积就表示总体在例如图中阴

12、影部分的面积就表示总体在a ,b内的百分比内的百分比除了上面的几种处理方式外除了上面的几种处理方式外,我们还有一种用来表示数据的我们还有一种用来表示数据的图图茎叶图茎叶图(stem-and-leap display)例例 某赛季甲、乙两名篮球运动员每场比赛某赛季甲、乙两名篮球运动员每场比赛得分情况如下。得分情况如下。 甲的得分:甲的得分:12,15,24,25,31,31,36,36,37,39,44,49,50。 乙的得分:乙的得分:8,13,14,16,23,26,28,33,38,39,51。 上述的数据可以用下图来表示,中间数字上述的数据可以用下图来表示,中间数字表示得分的十位数,两边

13、数字分别表示两个表示得分的十位数,两边数字分别表示两个人各场比赛得分的个位数人各场比赛得分的个位数从这个茎叶图上可以看出,甲运动员的得分情从这个茎叶图上可以看出,甲运动员的得分情况是大致对称的,中位数是况是大致对称的,中位数是36;乙运动员的得;乙运动员的得分情况除一个特殊得分外,也大致对称,中位分情况除一个特殊得分外,也大致对称,中位数是数是26。因此甲运动员发挥比较稳定,总体得。因此甲运动员发挥比较稳定,总体得分情况比乙好分情况比乙好 十位数十位数个个位位数数个位数个位数用茎叶图表示有两个突出的优点用茎叶图表示有两个突出的优点:但茎叶图只能表示两位的整数,虽然可以表示两个但茎叶图只能表示两

14、位的整数,虽然可以表示两个人的比赛结果(或两个以上的记录),但没有直方人的比赛结果(或两个以上的记录),但没有直方图那么直观、清晰。图那么直观、清晰。2.茎叶图可以在比赛时随时记录,方便茎叶图可以在比赛时随时记录,方便记录与表示记录与表示1.从统计图上没有信息的损失,所有的从统计图上没有信息的损失,所有的信息都可以从这个茎叶图中得到信息都可以从这个茎叶图中得到美容业作为一个新型的行业,正在迅速的崛起,美容业作为一个新型的行业,正在迅速的崛起,尤其受到女性的喜爱,请你设计一个方案调查尤其受到女性的喜爱,请你设计一个方案调查女性美容的目的,作出频率分布直方图和折线女性美容的目的,作出频率分布直方图

15、和折线图图,汇总并与同学们交流汇总并与同学们交流频率分布直方图和频率分布折线图虽然频率分布直方图和频率分布折线图虽然能够很好的反映总体的分布情况能够很好的反映总体的分布情况,但为了但为了更好的把握总体更好的把握总体,我们还需要通过样本的我们还需要通过样本的数据对总体的数字特征进行研究数据对总体的数字特征进行研究我们通常用我们通常用集中趋势集中趋势和和离散程度离散程度来表示来表示众数众数:就是一组数据中出现次数最多的数:就是一组数据中出现次数最多的数 集中趋势用什么表示比较好?离散程度呢?集中趋势用什么表示比较好?离散程度呢?1集中趋势集中趋势我们可以用我们可以用众数、中位数、平均数或加众数、中

16、位数、平均数或加权平均数权平均数来反映来反映由图可以看出月均用水在由图可以看出月均用水在2.25t(最高的矩形中点最高的矩形中点)的用户最的用户最多多,但它没有告诉我们多多少但它没有告诉我们多多少.中位数中位数:就是一组数据按照:就是一组数据按照从小到大从小到大或或从大到小从大到小的的顺序进行排列时,处于顺序进行排列时,处于中间位置中间位置的数的数 奇数奇数个数时,中位数有个数时,中位数有1个个偶数偶数个数时,中位数有个数时,中位数有2个个1 3 5 7 9的中位数是的中位数是52 6 8 4 5 9的中位数是的中位数是5和和6中位数不受个别极端数据的影响中位数不受个别极端数据的影响,在某种情

17、况下在某种情况下,这是一个优点这是一个优点,但它对极值的不敏感有时也会成为缺点但它对极值的不敏感有时也会成为缺点,你能举例说明吗你能举例说明吗?平均数平均数:就是一组数据的:就是一组数据的平均平均,设有,设有n个数据,个数据,x1 ,x2, ,xn,这组数据的平均数为:这组数据的平均数为:特别地,如果上面特别地,如果上面n个数据中不同数据个数据中不同数据x1,x2,xn的的个数分别为个数分别为k1,k2,kn,那么它们的平均数为,那么它们的平均数为 加权平均数加权平均数:就是一组数据的:就是一组数据的加权加权平均设有平均设有n个数据个数据x1,x2,xn,它们的权分别为,它们的权分别为l1,l

18、2,ln,这组数据的加权平均数为:,这组数据的加权平均数为: 加权是一组数据中加权是一组数据中某一个数的频数某一个数的频数 由此可以看出,平均数是加权平均数的一个由此可以看出,平均数是加权平均数的一个特例特例,也就是说,它们的权都是也就是说,它们的权都是1/n 平均数受每个数据的影响平均数受每个数据的影响,尤其是极端数据对平均数影响较大,尤其是极端数据对平均数影响较大,因此在实际操作时,常常想方设法较少误差,你能举出具体因此在实际操作时,常常想方设法较少误差,你能举出具体的例子吗?的例子吗?某公司员工的月工资情况如表:某公司员工的月工资情况如表:职员职员c c工程师工程师应聘者应聘者职员D我的

19、工资是2000我的工资是1500我的工我的工资是资是4000我的可以拿到?如如果果你你是是应应聘聘者者,你你如如何何看看待待这这些些数数据据?月工资/元80005000400020001000800700600500员工数/人12461282052(1)分别计算该公司员工月工资的平均数、中位数和众数。分别计算该公司员工月工资的平均数、中位数和众数。(2)公司经理会选取上面哪个来代表该公司员工的月工资情公司经理会选取上面哪个来代表该公司员工的月工资情况,税务官呢?工会领导呢?况,税务官呢?工会领导呢?分析:分析:1.根据平均数、中位数的计算公式,可以算出平均数根据平均数、中位数的计算公式,可以算

20、出平均数为:为:1373元,中位数为:元,中位数为:800元,众数为:元,众数为:700元元2.不同身份的人代表不同阶层人的利益,对公司领导平均数不同身份的人代表不同阶层人的利益,对公司领导平均数好,对税务官中位数比较好,对工会领导众数即使他的选择好,对税务官中位数比较好,对工会领导众数即使他的选择极差极差:就是一组数据中最大数与最小数之间的差:就是一组数据中最大数与最小数之间的差 居民用水的极差就是:居民用水的极差就是:4.3-0.24.12离散程度离散程度用用极差极差和和标准差标准差或或方差方差来反映来反映方差方差:就是一组数据中所有数与平均数的:就是一组数据中所有数与平均数的差差的平方和

21、的平方和的的平均数平均数设有设有n个数据个数据x1,x2,xn,这组数据的方差为:,这组数据的方差为: 标准差标准差:样本数据到平均数的一种样本数据到平均数的一种平均距离平均距离,一般用一般用s来表示来表示.例画出下列样本的直方图,说明它们的异同点例画出下列样本的直方图,说明它们的异同点(1)5,5,5,5,5,5,5,5,5(2)4,4,4,5,5,5,6,6,6(3)3,3,4,4,5,6,6,7,7(4)2,2,2,2,5,8,8,8,8解解 四组样本的直方图为四组样本的直方图为:说明说明:1.平均数都是平均数都是:2.标准差分别为标准差分别为:0.00,0.82,1.49,2.8353

22、.平均数是总体的重心平均数是总体的重心所在所在,标均差表明总体标均差表明总体的离散程度的离散程度,其他的信其他的信息就息就丢失丢失了了,因此因此不能不能完全刻画总体的全貌完全刻画总体的全貌.1.样本众数通常用来表示分类变量的中心样本众数通常用来表示分类变量的中心,容易计算容易计算,但反映但反映总体的信息较少总体的信息较少2.中位数仅利用了中间数据的性质中位数仅利用了中间数据的性质,当样本数据质量较差时当样本数据质量较差时,应该用抗极端数据强的数据表示中心值应该用抗极端数据强的数据表示中心值.(例如利用计算机模例如利用计算机模拟样本拟样本)3.平均数比中位数和众数反映了更多的信息平均数比中位数和

23、众数反映了更多的信息,但但“极端数据极端数据”可能使它产生较大的误差可能使它产生较大的误差4.如果样本平均数大于样本中位数,则表示数据中存在较多如果样本平均数大于样本中位数,则表示数据中存在较多较大的极端数,反之,存在较多较小的极端数,它们一起较大的极端数,反之,存在较多较小的极端数,它们一起可以反映样本中极端数据的信息可以反映样本中极端数据的信息小结小结用用样样本本评评估估总总体体频率分布频率分布数字特征值数字特征值频率分布直方图频率分布直方图频率分布折线图频率分布折线图茎叶图茎叶图总体密度曲线总体密度曲线离散程度离散程度集中趋势集中趋势平均值平均值中位数中位数众数众数标均差标均差方差方差极差极差调查试验调查试验调查我市某汽车配件生产企业调查我市某汽车配件生产企业,看看他们的师傅看看他们的师傅是怎样了解和检查零件质量的是怎样了解和检查零件质量的?结合课本结合课本p69例例2的的分析方法分析方法,并利用他们的并利用他们的抽样方法抽样方法,抽查一部,抽查一部机器的零件数据进行分析机器的零件数据进行分析;请你查阅相关资料请你查阅相关资料,说说明他们这样检查的科学性和合理性明他们这样检查的科学性和合理性

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号