概论论语数理统计教程第7章假设检验

上传人:j****9 文档编号:60254910 上传时间:2018-11-15 格式:PPT 页数:155 大小:3.06MB
返回 下载 相关 举报
概论论语数理统计教程第7章假设检验_第1页
第1页 / 共155页
概论论语数理统计教程第7章假设检验_第2页
第2页 / 共155页
概论论语数理统计教程第7章假设检验_第3页
第3页 / 共155页
概论论语数理统计教程第7章假设检验_第4页
第4页 / 共155页
概论论语数理统计教程第7章假设检验_第5页
第5页 / 共155页
点击查看更多>>
资源描述

《概论论语数理统计教程第7章假设检验》由会员分享,可在线阅读,更多相关《概论论语数理统计教程第7章假设检验(155页珍藏版)》请在金锄头文库上搜索。

1、,假设检验,参数假设检验,非参数假设检验,这类问题称作假设检验问题 .,总体分布已 知,检验关 于未知参数 的某个假设,总体分布未知时的假设检验问题,我们将讨论不同于参数估计的另一类重要的统计推断问题. 这就是根据样本的信息检验关于总体的某个假设是否正确.,第7章 假设检验,7.1 假设检验的基本思想和概念,例1 工厂中自动打包机打包,每包重量,每包重应为50kg,由于机器存在误差,打包重量并不 是50kg,现从中任取9包,测得 问:打包机工作是否正常?,例2 学生的考试成绩是否服从正态分布?,例3 某研究所推出一种感冒特效药,为证明其疗效, 选择200名患者为志愿者。将他们均分为两组,分别

2、不服药或服药,观察 三日后痊愈的情况,得出下列 数据:,问:新药是否有明显疗效?,例1例3所要解决的问题可转化下述问题:,例1,例2,例3,生产流水线上罐装可乐不断地封装,然后装箱外运. 怎么知道这批罐装可乐的容量是否合格呢?,把每一罐都打开倒入量杯, 看看容量是否合于标准.,罐装可乐的容量按标准应在 350毫升和360毫升之间.,一、基本概念和思想,每隔一定时间,抽查若干罐 .,如每隔1小时,抽查5罐,得5个容量的值 ,根据这些值来判断生产是否正常.,如发现不正常,就应停产,找出原因,排除故障,然后再生产;如没有问题,就继续按规定时间再抽样,以此监督生产,保证质量.,通常的办法是进行抽样检查

3、.,在正常生产条件下,由于种种随机因素的影响,每罐可乐的容量应在355毫升上下波动. 这些因素中没有哪一个占有特殊重要的地位. 因此,根据中心极限定理,假定每罐容量服从正态分布是合理的.,现在我们就来讨论这个问题.,罐装可乐的容量按标准应在 350毫升和360毫升之间.,它的对立假设是:,称H0为原假设(或零假设);,称H1为备选假设(或对立假设).,H1:,这样,我们可以认为 是取自正态 总体 的样本,,现在要检验的假设是:,那么,如何判断原假设H0 是否成立呢?,较大、较小是一个相对的概念,合理的界限在何处?应由什么原则来确定?,问题归结为对差异作定量的分析,以确定其性质.,差异可能是由抽

4、样的随机性引起的,称为,“抽样误差”或 随机误差,这种误差反映偶然、非本质的因素所引起的随机 波动.,然而,这种随机性的波动是有一定限度的,如果差异超过了这个限度,则我们就不能用抽样的随机性来解释了.,必须认为这个差异反映了事物的本质差别,即反映了生产已不正常.,问题是,根据所观察到的差异,如何判断它究竟是由于偶然性在起作用,还是生产确实不正常?,即差异是“抽样误差”还是“系统误差”所引起的?,这里需要给出一个量的界限 .,问题是:如何给出这个量的界限?,这里用到人们在实践中普遍采用的一个原则:,小概率事件在一次试验中基本上不会发生 .,现在回到我们前面罐装可乐的例中:,在提出原假设H0后,如

5、何作出接受和拒绝H0的结论呢?,在假设检验中,我们称这个小概率为显著性水平,用 表示.,常取,的选择要根据实际情况而定。,提出假设,选检验统计量, N(0,1),由于 已知,,对给定的显著性水平 ,可以在N(0,1)表中查到分位点的值 ,使,故我们可以取拒绝域为:,W:,如果由样本值算得该统计量的实测值落入区域W,则拒绝H0 ;否则,不能拒绝H0 .,如果H0 是对的,那么衡量差异大小的某个统计量落入区域 W(拒绝域) 是个小概率事件. 如果该统计量的实测值落入W,也就是说, H0 成立下的小概率事件发生了,那么就认为H0不可信而否定它. 否则我们就不能否定H0 (只好接受它).,这里所依据的

6、逻辑是:,不否定H0并不是肯定H0一定对,而只是说差异还不够显著,还没有达到足以否定H0的程度 .,所以假设检验又叫,“显著性检验”,如果显著性水平 取得很小,则拒绝域 也会比较小.,其产生的后果是: H0难于被拒绝.,如果在 很小的情况下H0仍被拒绝了,则说明实际情况很可能与之有显著差异.,基于这个理由,人们常把 时拒绝H0称为是显著的,而把在 时拒绝H0称为是高度显著的.,在上面的例子的叙述中,我们已经初步介绍了假设检验的基本思想和方法 .,下面,我们给出假设检验的一般步骤 .,二、假设检验的一般步骤,Step1 : 根据问题提出原假设 和备择假设,Step2 : 选取检验统计量 且其抽样

7、分 布中不含任何未知参数,可以查表或通过计算得其 分位数(临界值),Step3 : 对于给定的显著性水平 找临界值,从而确定 拒绝域,使,Step4 : 判定。若,假设检验会不会犯错误呢?,由于作出结论的依据是下述,小概率原理,小概率事件在一次试验中基本上不会发生 .,三、假设检验的两类错误,如果H0成立,但统计量的实测值落入否定域,从而作出否定H0的结论,那就犯了“以真为假”的错误 .,如果H0不成立,但统计量的实测值未落入否定域,从而没有作出否定H0的结论,即接受了错误的H0,那就犯了“以假为真”的错误 .,请看下表,假设检验的两类错误,P拒绝H0 |H0为真= ,P接受H0 |H0不真=

8、 .,犯两类错误的概率:,显著性水平 为犯第一类错误的概率.,两类错误是互相关联的, 当样本容量固定时,一类错误概率的减少导致另一类错误概率的增加.,要同时降低两类错误的概率 或者要在 不变的条件下降低 ,需要增加样本容量.,两类错误的概率的关系,提出 假设,根据统计调查的目的, 提出 原假设H0 和备选假设H1,作出 决策,抽取 样本,检验 假设,对差异进行定量的分析, 确定其性质(是随机误差 还是系统误差. 为给出两 者界限,找一检验统计量T, 在H0成立下其分布已知.),拒绝还是不能 拒绝H0,显著性 水平,P(T W)= -犯第一 类错误的概率, W为拒绝域,总 结,检验法,7.2 参

9、数的假设检验,一、,例 1 在上节例1中,取=0.01。 问检验打包机的 工作是否正常?,注: 1)检验步骤与1相同; 2)单侧(单尾)检验与双侧(双尾)检验。,例 2,假设某次考试数学分数,一中的16名学生其平均成绩为101.85分,试判断该校 的数学成绩是否优于全市平均水平?(=0.05),随机抽查市,二、 检验法,故的拒绝域为,例3某工厂生产的一种螺钉,标准要求长度是32.5mm. 实际生产的产品,其长度 假定服从正态分布 未知,现从该厂生产的一批产品中抽取6件, 得尺寸数据如下:,32.56, 29.66, 31.64, 30.00, 31.87, 31.03,问这批产品是否合格?,分

10、析:这批产品(螺钉长度)的全体组成问题的总体 . 现在要检验 是否为32.5.,提出原假设和备择假设,第一步:,第二步:,能衡量差异大小且分布已知,第三步:,即“ ”是一个小概率事件 .,小概率事件在一次 试验中基本上不会 发生 .,得否定域 W:,故不能拒绝H0 .,第四步:,将样本值代入算出统计量 t 的实测值,| t |=2.9974.0322,没有落入 拒绝域,例 4 在漂白工艺中,要考察湿度对针织品断裂强度的 影响,在70与80下分别作了八次实验,测得断裂 强度数据如下: 70 20.5 18.8 19.8 20.9 21.5 19.5 21.0 21.2 80 17.7 20.3

11、20.0 18.8 19.0 21.1 20.1 19.1 据经验针织品地断裂强度服从正态分布,问:70下 的断裂强度与80下的断裂强度有无显著性差异?,三、 检验法,例5 某砖厂生产的红砖质量比较稳定,抗压强度的方 差为64,今从一批新砖中任抽10块作抗压强度试验, 得数据如下: 578 572 570 568 572 570 572 596 584 570 问是否可相信这批砖的抗压强度的方差也为64? ( ),由于,拒绝域为,四、 检验法,F 检验法是两正态总体值,方差是否相等和两方差比较进行检验。如第三节例 4 中当检验针织品的断裂强度有无显著差异时,其方差 看作是相等的,这往往是凭经验

12、而言。严格来说,这 是需要经过检验的。,未知的情况下,对其,拒绝域,见课本总结表,五、小结,7.3 正态母体参数的置信区间,对于总体的未知参数 ,利用点估计可求得其近似值,但,点估计本身既没有反应这种近似值的精确度,又不知道它 的误差范围,因此希望估计出一个范围,并希望知道参数,真值落在这个范围内的可信程度。,一、置信区间的定义,-置信下限,-置信上限,-置信区间的观测值,可靠度与精度是一对矛盾,一般是 在保证可靠度的条件下尽可能提高 精度.,2. 要求 以很大的可能被包含在区间,内,就是说,概率 要尽可能大 .,即要求估计尽量可靠.,3. 估计的精度要尽可能的高. 如要求区间长度,尽可能短,

13、或能体现该要求的其它准则.,在求置信区间时,要查表求分位点.,二、置信区间的求法,若 为连续型随机变量 , 则有,所求置信区间为,或者,取,所求置信区间为, N(0, 1),选 的点估计为 ,明确问题,是求什么 参数的置信区间? 置信水平是多少?,解,寻找一个待估参数和 统计量的函数 ,要求 其分布为已知.,有了分布,就可以求出 U取值于任意区间的概率.,对给定的置信水平,查正态分布表得,对于给定的置信水平, 根据U的分布,确定一 个区间, 使得U取值于该区间的概率为置信水平.,使,从中解得,对给定的置信水平,查正态分布表得,使,于是所求 的 置信区间为,从例1解题的过程,我们归纳出求置信区间

14、的一般步骤如下:,1. 明确问题, 是求什么参数的置信区间?,置信水平 是多少?,2. 寻找参数 的一个良好的点估计 T( ),3. 寻找一个待估参数 和估计量 T 的函数 U(T, ),且其分布为已知.,P(a U(T, )b) =,5. 对“aU(T, )b”作等价变形,得到如下形式:,可见,确定区间估计很关键的是要寻找一个 待估参数 和估计量T 的函数U(T, ), 且U(T, ) 的分布为已知, 不依赖于任何未知参数 .,而这与总体分布有关,所以,总体分布的形式是 否已知,是怎样的类型,至关重要.,需要指出的是,给定样本,给定置信水平 ,置信区间也不是唯一的.,对同一个参数,我们可以构

15、造许多置信区间.,由标准正态分布表,对任意a、b,我们可以求得 P( aUb) .,N(0, 1),由 P(-1.75U2.33)=0.95,这个区间比前面一个要长一些.,我们总是希望置信区间尽可能短.,类似地,我们可得到若干个不同的置信区间.,任意两个数a和b,只要它们的纵标包含f(u) 下95%的面积,就确定一个95%的置信区间.,在概率密度为单峰且对称的情形,当a =-b时求得的置信区间的长度为最短.,a =-b,即使在概率密度不对称的情形,如 分布, F分布,习惯上仍取对称的分位点来计算未知参数的置信区间.,我们可以得到未知参数的的任何置信水平小于 1 的置信区间,并且置信水平越高,相应的置信区间平均长度越长.,也就是说,要想得到的区间估计可靠度高, 区间长度就长,估计的精度就差.这是一对矛盾.,实用中应在保证足够可靠的前提下,尽量使 得区间的长度短一些 .,三、 正态总体下的区间估计,由前面推导过程可知,,取统计量,对于对于给定的置信度,,查t分布表,使,从而,,于是得到一个,的置信区间,因而得到初生男婴平均体重的95%置信区间为(2820,3300),所以取样本函数,对于对于给定的置信度,,查 分布表,使,即,于是得,的 置信区间,取,有,从而, 的置信区间为,函数,取函数,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号