南京大学统计学课件ch5参数估计与假设检验1

上传人:大米 文档编号:575926239 上传时间:2024-08-19 格式:PPT 页数:47 大小:217.01KB
返回 下载 相关 举报
南京大学统计学课件ch5参数估计与假设检验1_第1页
第1页 / 共47页
南京大学统计学课件ch5参数估计与假设检验1_第2页
第2页 / 共47页
南京大学统计学课件ch5参数估计与假设检验1_第3页
第3页 / 共47页
南京大学统计学课件ch5参数估计与假设检验1_第4页
第4页 / 共47页
南京大学统计学课件ch5参数估计与假设检验1_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《南京大学统计学课件ch5参数估计与假设检验1》由会员分享,可在线阅读,更多相关《南京大学统计学课件ch5参数估计与假设检验1(47页珍藏版)》请在金锄头文库上搜索。

1、第五章第五章 统计估计与假设检验统计估计与假设检验 n第一节第一节统计估计与置信区间统计估计与置信区间n第二节第二节假设检验假设检验1本章内容本章内容n统计估计与置信区间统计估计与置信区间点估计点估计区间估计(求置信区间)区间估计(求置信区间)n假设检定(假设检验)假设检定(假设检验)双尾检验、单尾检验双尾检验、单尾检验置信区间检验法、临界值检验法、置信区间检验法、临界值检验法、p-值检值检验法(后两种是常用的方法)验法(后两种是常用的方法)2第一节第一节 统计估计与置信区间统计估计与置信区间n一、统计估计概述一、统计估计概述1、统计估计就是对总体参数进行估计,包括点估计、统计估计就是对总体参

2、数进行估计,包括点估计和区间估计。和区间估计。2、点估计就是在不考虑抽样误差的条件下,直接用、点估计就是在不考虑抽样误差的条件下,直接用样本统计量作为总体参数的估计值。样本统计量作为总体参数的估计值。3、区间估计就是通过样本统计量来推测总体未知参、区间估计就是通过样本统计量来推测总体未知参数的可能范围。它是根据概率论和抽样原理,以一数的可能范围。它是根据概率论和抽样原理,以一定的概率即可信程度来保证总体参数落在某一区间定的概率即可信程度来保证总体参数落在某一区间内。由于区间估计这种推断方法给出估计误差的允内。由于区间估计这种推断方法给出估计误差的允许范围和推断的可信程度,弥补了点估计的绝对性许

3、范围和推断的可信程度,弥补了点估计的绝对性缺陷,所以广泛地被用于对总体参数的估计。缺陷,所以广泛地被用于对总体参数的估计。3区间估计区间估计n区间估计主要用于用样本平均数估计总体平区间估计主要用于用样本平均数估计总体平均数;用样本成数估计总体成数。均数;用样本成数估计总体成数。n区间估计的实质就是确定总体参数(总体平区间估计的实质就是确定总体参数(总体平均数、总体成数)的置信区间。均数、总体成数)的置信区间。4样本统计量样本统计量样本统计量样本统计量 ( (点估计点估计点估计点估计) )置信区间置信区间置信区间置信区间置信下限置信下限置信下限置信下限置信上限置信上限置信上限置信上限我们用我们用

4、95%的置信水平得到某班学生考试成绩的置信区间为的置信水平得到某班学生考试成绩的置信区间为60-80分,如何理解?分,如何理解?该班同学平均成绩的置信区间是该班同学平均成绩的置信区间是60-80分,置信度为分,置信度为95%。5n例:随机抽样例:随机抽样1000位北京男性位北京男性市民后,样本平均身高为市民后,样本平均身高为172公公分,样本标准差为分,样本标准差为30公分,在公分,在95%的置信水平下,北京男性的置信水平下,北京男性市民的平均身高为何?市民的平均身高为何?6n95%置信区间置信区间7n这就表示在这就表示在95%的置信水平的置信水平下,北京男性市民的平均身高下,北京男性市民的平

5、均身高是在是在170.14与与173.86公分之间,公分之间,其抽样误差为其抽样误差为公分。公分。8n99%置信区间置信区间9n这就表示在这就表示在99%的置信水平的置信水平下,北京男性市民的平均身高下,北京男性市民的平均身高是在是在169.55与与174.45公分之间,公分之间,其抽样误差为其抽样误差为公分公分。10n例:美国某家医院随机抽样例:美国某家医院随机抽样1024个案例,其平均医疗费用为个案例,其平均医疗费用为$810,样本标准差为,样本标准差为$64n建构建构90%的的置信区间置信区间n建构建构95%的的置信区间置信区间n建构建构99%的的置信区间置信区间11n例:从选民中随机抽

6、取例:从选民中随机抽取100名进行调查,结果名进行调查,结果显示对候选人的支持率为显示对候选人的支持率为80%,求在,求在95%的的置信度下,候选人支持率的置信区间。置信度下,候选人支持率的置信区间。n置信区间为,即置信区间为,即72.16%87.84%12n区间估计的逻辑是以概率区间估计的逻辑是以概率抽样方法自母体抽取一个抽样方法自母体抽取一个样本,计算其平均数(点样本,计算其平均数(点估计值)估计值),依照所要求的,依照所要求的置信水平,加减置信水平,加减Z 个个所得到的区间所得到的区间。13 n95%和和99%就是就是“置信置信水平水平”n就是抽样极限就是抽样极限误差误差n置信水平愈高,

7、置信区间置信水平愈高,置信区间也就愈宽也就愈宽,但太宽的置信,但太宽的置信区间会失去实际的效用区间会失去实际的效用14n值:代表值:代表“不包含不包含”母母体特性的概率,也就是结论体特性的概率,也就是结论是错误的概率。又称为显著是错误的概率。又称为显著程度(程度(significancelevel)n在在95%的置信水平下,的置信水平下,=10.95=0.05n在在99%的置信水平下,的置信水平下,=10.99=0.0115n“判别值判别值”(criticalvalue):与与值相对应的值相对应的z值值n95%置信区间的判别值:置信区间的判别值:n99%置信区间的判别值:置信区间的判别值:16

8、n上述的置信区间也可以上述的置信区间也可以t 分分数来建构:数来建构:n置信区间置信区间17n以以t 分数来建构置信区间分数来建构置信区间:n例:设例:设N=1000,=.0518n一个控制抽样误差的方法是一个控制抽样误差的方法是从样本数着手从样本数着手n但是,当样本数超过一定数但是,当样本数超过一定数目后,标准误减少得很有限,目后,标准误减少得很有限,抽样成本会随着样本数增大抽样成本会随着样本数增大19第二节第二节 假设检验假设检验假设检验是统计推断的另一种方式,它与区间假设检验是统计推断的另一种方式,它与区间估计的差别主要在于:区间估计是用给定的估计的差别主要在于:区间估计是用给定的大概率

9、推断出总体参数的范围,而假设检验大概率推断出总体参数的范围,而假设检验是以小概率为标准,对总体的状况所做出的是以小概率为标准,对总体的状况所做出的假设进行判断。假设检验与区间估计结合起假设进行判断。假设检验与区间估计结合起来,构成完整的统计推断内容。来,构成完整的统计推断内容。20n小概率原理:即指概率很小的事件在一次试小概率原理:即指概率很小的事件在一次试验中实际上不可能出现。这种事件称为验中实际上不可能出现。这种事件称为“实实际不可能事件际不可能事件”。21n例例1:消费者协会接到消费者投诉,指控品牌:消费者协会接到消费者投诉,指控品牌纸包装饮料存在容量不足,有欺骗消费者之纸包装饮料存在容

10、量不足,有欺骗消费者之嫌。包装上标明的容量为嫌。包装上标明的容量为250毫升。消费者协毫升。消费者协会从市场上随机抽取会从市场上随机抽取50盒该品牌纸包装饮品,盒该品牌纸包装饮品,测试发现平均含量为测试发现平均含量为248毫升,小于毫升,小于250毫升。毫升。这是生产中正常的波动,还是厂商的有意行这是生产中正常的波动,还是厂商的有意行为?消费者协会能否根据该样本数据,判定为?消费者协会能否根据该样本数据,判定饮料厂商欺骗了消费者呢?饮料厂商欺骗了消费者呢?22n消费者协会实际要进行的是一项统计检验工消费者协会实际要进行的是一项统计检验工作。检验总体平均作。检验总体平均=250是否成立。这就是一

11、是否成立。这就是一个原假设个原假设(nullhypothesis),通常用通常用表示,表示,即:即:=25023n与原假设对立的是备选假设与原假设对立的是备选假设(alternativehypothesis),备选假设是在原假设被否定时备选假设是在原假设被否定时另一种可能成立的结论。备选假设比原假设另一种可能成立的结论。备选假设比原假设还重要,一般把期望出现的结论作为备选假还重要,一般把期望出现的结论作为备选假设。设。24n构造一个统计量来决定是构造一个统计量来决定是“接受原假设,拒绝备选接受原假设,拒绝备选假设假设”,还是,还是“拒绝原假设,接受备选假设拒绝原假设,接受备选假设”。对。对不同

12、的问题,要选择不同的检验统计量。检验统计不同的问题,要选择不同的检验统计量。检验统计量确定后,就要利用该统计的分布以及由实际问题量确定后,就要利用该统计的分布以及由实际问题中所确定的显著性水平,来进一步确定检验统计量中所确定的显著性水平,来进一步确定检验统计量拒绝原假设的取值范围,即拒绝域。在给定的显著拒绝原假设的取值范围,即拒绝域。在给定的显著性水平性水平下,检验统计量的可能取值范围被分成两部下,检验统计量的可能取值范围被分成两部分:小概率区域与大概率区域。小概率区域就是概分:小概率区域与大概率区域。小概率区域就是概率不超过显著性水平率不超过显著性水平的区域,是原假设的拒绝区域;的区域,是原

13、假设的拒绝区域;大概率区域是概率为大概率区域是概率为1-的区域,是原假设的接受区的区域,是原假设的接受区域。域。25二、两种类型的错误二、两种类型的错误 接受接受拒绝拒绝真实真实判断正确判断正确弃弃真真错错误误( (第第一一类类错错误误或或错错误误) )不真实不真实取取伪伪错错误误( (第第二二类类错误或错误或错误错误) )判断正确判断正确26总体参数检验总体参数检验n单侧检验与双侧检验单侧检验与双侧检验/21/2-Z/2 Z/2 Z 0 0 Z双侧检验左侧检验右侧检验27n用单侧检验还是双侧检验,使用左侧检验还用单侧检验还是双侧检验,使用左侧检验还是右侧检验,决定于备选假设中的不等式形是右侧

14、检验,决定于备选假设中的不等式形式与方向。与式与方向。与“不相等不相等”对应的是双侧检验,对应的是双侧检验,与与“小于小于”相对应的是左侧检验,与相对应的是左侧检验,与“大于大于”相对应的是右侧检验。相对应的是右侧检验。28n在例在例1中,按历史资料,总体的标准差是中,按历史资料,总体的标准差是4毫毫升。我们通过检验总体均值是否等于升。我们通过检验总体均值是否等于250毫升,毫升,来判断饮料厂商是否欺骗了消费者。程序如来判断饮料厂商是否欺骗了消费者。程序如下:下:29n第一步:确定原假设与备选假设。第一步:确定原假设与备选假设。n:=250;:250n以上的备选假设是总体均值小于以上的备选假设

15、是总体均值小于250毫升,因毫升,因为消费者协会希望通过样本数据推断出厂商为消费者协会希望通过样本数据推断出厂商的欺骗行为的欺骗行为(大于大于250毫升一般不会发生毫升一般不会发生)。因。因此使用左侧检验。此使用左侧检验。30n第二步:构造出检验统计量。第二步:构造出检验统计量。n我们知道,如果总体的标准差已知,则正态我们知道,如果总体的标准差已知,则正态总体总体(正常情况下,生产饮料的容量服从正态正常情况下,生产饮料的容量服从正态分布分布)的抽样平均数,也服从正态分布,对它的抽样平均数,也服从正态分布,对它进行标准化变换,可得到:进行标准化变换,可得到:nn可用可用z作为检验统计量。作为检验

16、统计量。31n第三步:确定显著性水平,确定拒绝域。第三步:确定显著性水平,确定拒绝域。n通常显著水平由实际问题确定,我们这里取通常显著水平由实际问题确定,我们这里取=0.05,左侧检验,拒绝域安排在左边,查标左侧检验,拒绝域安排在左边,查标准正态分布表得临界值:准正态分布表得临界值:n-=-1.645,拒绝域是,拒绝域是z30%。n以上的备选假设是企业自我声明的结论,我以上的备选假设是企业自我声明的结论,我们希望该企业说的是实话。因此使用右侧检们希望该企业说的是实话。因此使用右侧检验。验。38n第二步:构造第二步:构造z检验统计量。检验统计量。n第三步:确定拒绝域。第三步:确定拒绝域。n显著水

17、平显著水平=0.05,查标准正态分布表得临界值:查标准正态分布表得临界值:=1.645,拒绝域是拒绝域是z1.645。39n第四步:计算检验统计量的数值。第四步:计算检验统计量的数值。n样本成数样本成数p=220/600=0.37,总体假设的成数总体假设的成数=0.3,代入代入z检验统计量得:检验统计量得:40n第五步:判断。第五步:判断。n检验统计量的样本取值检验统计量的样本取值z=3.51.645,落入拒落入拒绝域。拒绝原假设,接受备选假设,认为样绝域。拒绝原假设,接受备选假设,认为样本数据证明该企业声明属实。本数据证明该企业声明属实。41习题:某市原来成年男性中吸烟者占习题:某市原来成年

18、男性中吸烟者占64%,经,经过戒烟宣传后进行抽样调查,发现过戒烟宣传后进行抽样调查,发现100名被调名被调查者中,有查者中,有55人是吸烟者,试问戒烟宣传是人是吸烟者,试问戒烟宣传是否收到明显成效?(否收到明显成效?(=0.05)42p-值检验值检验np-值检验就是通过计算值检验就是通过计算p-值,再将它与显著性值,再将它与显著性水平水平作比较,决定拒绝还是接受原假设。所作比较,决定拒绝还是接受原假设。所谓谓p-值就是拒绝原假设所需的最低显著性水平。值就是拒绝原假设所需的最低显著性水平。p-值判断的原则是:如果值判断的原则是:如果p-值小于给定的显著值小于给定的显著性水平性水平,则拒绝原假设;

19、否则,接受原假设。则拒绝原假设;否则,接受原假设。或者,更直观来说就是:如果或者,更直观来说就是:如果p-值很小,拒绝值很小,拒绝原假设,原假设,p-值很大,接受原假设。请大家注意值很大,接受原假设。请大家注意的是这里的的是这里的p-值是指概率,不要与成数指标相值是指概率,不要与成数指标相混淆。混淆。43n例例1:利用:利用p-值检验重新检验例值检验重新检验例1。n解:解:n第一、第二步与例第一、第二步与例1完全相同,故省略之。完全相同,故省略之。n第三步:计算样本统计的数值。第三步:计算样本统计的数值。n样本平均数样本平均数,n=50,代入检验统计量代入检验统计量得:得:44n第四步:计算第

20、四步:计算p-值。值。n使用左侧检验,使用左侧检验,p-值值=。查标准正态。查标准正态分布表得:分布表得:np-值值=0.000145n第五步:判断。第五步:判断。np-值小于给出的显著性水平值小于给出的显著性水平(0.05),拒绝原假,拒绝原假设,接受备选假设,与例设,接受备选假设,与例1的结论相同。的结论相同。46n已知某种电子元件的使用寿命服从已知某种电子元件的使用寿命服从标准差为标准差为100小时的正态分布,要求小时的正态分布,要求平均寿命不得低于平均寿命不得低于1000小时。现在小时。现在从一批这种电子元件中随机抽取从一批这种电子元件中随机抽取50件,测得平均寿命为件,测得平均寿命为972小时。试在小时。试在0.05的显著性水平下的显著性水平下,检验这批元件检验这批元件是否合格。是否合格。47

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号