《数理统计之假设检验教材课件》由会员分享,可在线阅读,更多相关《数理统计之假设检验教材课件(99页珍藏版)》请在金锄头文库上搜索。
1、 第四章 假设检验基本要求基本要求理解假设检验的概念及其基本思想。理解假设检验的概念及其基本思想。理解拒绝域、临界值、显著水平等概念。理解拒绝域、临界值、显著水平等概念。掌握假设检验的基本步骤。掌握假设检验的基本步骤。了解假设检验可能产生的两类错误。了解假设检验可能产生的两类错误。一一假设检验基本概念假设检验基本概念 例例,对某产品进行了工艺改造,对某产品进行了工艺改造或研制了新产品,或研制了新产品,要比较原产品和新产品在某一项要比较原产品和新产品在某一项指标上的差异,指标上的差异,这样我们面临选择是否接受假设这样我们面临选择是否接受假设必须作一些试验,也就是抽样。必须作一些试验,也就是抽样。
2、根据得到的样本观察值根据得到的样本观察值来作出决定。来作出决定。 假设检验问题就是假设检验问题就是根据样本的信息,检验根据样本的信息,检验关于总体的某个假设是否正确关于总体的某个假设是否正确。“新产品的某一项指标优于老产品新产品的某一项指标优于老产品”。v假设检验是一种统计推断方法 为了了解总体的某些性质,首先作出某种假设,然后进行试验,取得样本,根据样本值,构造统计方法,判断是否接受这个假设,即检验这种假设是否合理,合理则接受,否则拒绝。小概率事件在一次试验中发生的概率记为小概率事件在一次试验中发生的概率记为,一般取一般取在假设检验中在假设检验中,称称为为显著水平、检验水平显著水平、检验水平
3、。解决办法与基本思想v1 明确所要处理的问题,答案只能是“是”或“否”v2 取得样本,同时要知道样本的分布v3 把“是”转化到分布上得到一个命题或假设v4 根据样本值,按照一定的规则,作出接受或拒绝假设的决定。v基本思想(规则或前提) 小概率事件在一次试验中几乎不会发生。 带概率性质的反证法带概率性质的反证法 u 通常的反证法设定一个假设以后通常的反证法设定一个假设以后, ,如果出现的如果出现的事实与之矛盾事实与之矛盾,(,(即如果这个假设是正确的即如果这个假设是正确的话话, ,出现出现一个概率等于一个概率等于0 0的事件的事件) )则绝对地否定假设则绝对地否定假设. .u 带概率性质的反证法
4、的逻辑是带概率性质的反证法的逻辑是: : 如果假设如果假设H H0 0是正确的是正确的话话, ,一次试验出现一个一次试验出现一个概率很小的事件概率很小的事件, ,则以很大的把握否定假设则以很大的把握否定假设H H0 0. . 检验一个检验一个H H0 0时时, ,是根据检验统计量来判决是是根据检验统计量来判决是否接受否接受H H0 0的的, ,而检验统计量是随机的而检验统计量是随机的, ,这就有可能这就有可能判决错误判决错误. .这种错误有以下两类这种错误有以下两类: : H H0 0事实上是正确的事实上是正确的, ,但被我们拒绝了但被我们拒绝了, ,称犯了称犯了“弃真弃真”的的( (或称第一
5、类或称第一类) )错误错误. . H H0 0事实上是不正确的事实上是不正确的, ,但被我们接受了但被我们接受了, ,称犯称犯了了“存伪存伪”的的( (或称第二类或称第二类) )错误错误. . 假设检验的两类错误假设检验的两类错误H0为真为真实际情况实际情况决定决定拒绝拒绝H0接受接受H0H0不真不真第一类错误第一类错误正确正确正确正确第二类错误第二类错误P拒绝拒绝H0|H0为真为真= ,P接受接受H0|H0不真不真= . 犯两类错误的概率犯两类错误的概率:显著性水平显著性水平 为犯第一类错误的概率为犯第一类错误的概率. 当样本容量当样本容量n固定时,一类错误概率的减少固定时,一类错误概率的减
6、少导致另一类错误概率的增加导致另一类错误概率的增加.要同时降低两类错要同时降低两类错误误,必须增加样本容量必须增加样本容量. 在统计学中在统计学中, ,通常控制犯第一类错误的概率通常控制犯第一类错误的概率. .一般事先选定一个数一般事先选定一个数 ,(0,(0 1),0,若,若就认为有较大偏差;就认为有较大偏差;则认为则认为 不真,拒绝不真,拒绝 则接受则接受 若若显著性检验:显著性检验: P拒绝拒绝 | 为真为真拒绝域拒绝域由样本值求出由样本值求出这说明这说明小概率事件竟在一次试验中发生了小概率事件竟在一次试验中发生了,故拒绝故拒绝H0, 可以接受可以接受H1。即即认为折断力大小有差别认为折
7、断力大小有差别提出原假设和备择假设提出原假设和备择假设 第一步:第一步:已知已知已知,已知,第二步:第二步:选取统计量选取统计量检验假设的过程分为六个步骤:的过程分为六个步骤:第三步:第三步:拒绝域为拒绝域为第四步:第四步:查表确定临界值查表确定临界值第六步:判断第六步:判断则否定则否定H0,接受,接受H1则则H0相容,接受相容,接受H00第五步:计算第五步:计算 /2 /2X(x)接受域接受域P(|Z|z/2)=拒绝域拒绝域拒绝域拒绝域 z/2 - z/2双侧统计检验双侧统计检验Z检验检验某车间用一台包装机包装葡萄糖某车间用一台包装机包装葡萄糖. .包得的袋装糖包得的袋装糖当机器正常时当机器
8、正常时, ,某日开工后为检验包装机是否正常某日开工后为检验包装机是否正常, ,包装的糖包装的糖9 9袋袋, ,称得净重为称得净重为( (公斤公斤):):0.497 0.506 0.518 0.524 0.4980.497 0.506 0.518 0.524 0.4980.511 0.520 0.515 0.5120.511 0.520 0.515 0.512问机器是否正常问机器是否正常? ?例2重是一个随机变量重是一个随机变量X, , 且且其均值为其均值为=0.5=0.5公斤公斤, , 标准差标准差=0.015=0.015公斤公斤. .随机地抽取它所随机地抽取它所解解:先提出假设先提出假设(
9、=0.05=0.05)选取统计量:选取统计量:拒绝域:拒绝域:计算得计算得于是拒绝于是拒绝 ,认为包装机工作不正常。认为包装机工作不正常。 选择假设选择假设H1表示表示Z可能大于可能大于0,也可能小于也可能小于0这称为这称为双边假设检验双边假设检验。单边检验单边检验右边检验右边检验左边检验左边检验右边检验右边检验查表确定临界值查表确定临界值(4)取)取 (2)选取统计量:)选取统计量:(3)拒绝域为)拒绝域为 (5)计算)计算 则拒绝则拒绝 ,接受,接受反之,接受反之,接受 左边检验左边检验查表确定临界值查表确定临界值(4)取)取 (2)选取统计量:)选取统计量:(3)拒绝域为)拒绝域为 (5
10、)计算)计算 则拒绝则拒绝 ,接受,接受反之,接受反之,接受 例例3(2)选取统计量:)选取统计量:某大学男生身高某大学男生身高 今测得今测得9名男生身高名男生身高 平均为平均为 问是否可以认为该校男生平均身高问是否可以认为该校男生平均身高 超过超过170cm呢?呢? (3)拒绝域为)拒绝域为 解解 查表确定临界值查表确定临界值(4)取)取 (5)计算)计算 可以认为该校男生平均身高超过可以认为该校男生平均身高超过170cm. 则拒绝则拒绝 ,如题目问:是否有明显提高如题目问:是否有明显提高 是否有明显下降是否有明显下降 (2)选取统计量:)选取统计量:(3)拒绝域为拒绝域为例例4 设某厂灯泡
11、平均寿命为设某厂灯泡平均寿命为2000小时小时,标准差为标准差为250小时小时 从技术改造后的灯泡中随机抽取从技术改造后的灯泡中随机抽取 n=25只,测得平均只,测得平均 寿命为寿命为2250小时小时,问此产品寿命是否较前有显著提高问此产品寿命是否较前有显著提高. 查表确定临界值查表确定临界值(4)取)取 (5)计算)计算 则拒绝则拒绝 ,即认为这些产品较以往有显著提高即认为这些产品较以往有显著提高. 提出原假设和备择假设提出原假设和备择假设 第一步:第一步:第二步:第二步: 选取统计量选取统计量第四步:第四步:查表确定临界值查表确定临界值第三步:第三步:拒绝域为拒绝域为未知时,未知时, 的检
12、验的检验 未知未知 ,可用样本方差,可用样本方差代替代替 选择假设选择假设H1表示表示Z可能大于可能大于0,也可能小于也可能小于0这称为双边假设检验。这称为双边假设检验。第六步:判断第六步:判断则否定则否定H0,接受,接受H1则则H0相容,接受相容,接受H00第五步:计算第五步:计算显著差别?爆破压力显著差别?爆破压力X服从正态分布服从正态分布 =0.05=0.05解解: : 提出假设提出假设 H H0 0: =549=549; H H1 1:549549对一批新的某种液体存储罐进行耐裂试验对一批新的某种液体存储罐进行耐裂试验, ,重复测量重复测量5 5次次, ,测得爆破压力数据为(单位斤测得
13、爆破压力数据为(单位斤/ /寸寸2 2): :545 545 530 550 545545 545 530 550 545过去该种液体存储罐的平均爆破压力为过去该种液体存储罐的平均爆破压力为549549斤寸斤寸( (可可看作真值看作真值),),因为未知方差因为未知方差2 2,故采用,故采用t t检验法。检验法。取统计量取统计量例5试问这批新罐的平均爆破压力与过去有无试问这批新罐的平均爆破压力与过去有无由样本算得由样本算得这里这里接受接受H0。新罐的平均爆破压力与过去无显著差别。新罐的平均爆破压力与过去无显著差别。拒绝域拒绝域查表查表32.56, 29.66, 31.64, 30.00, 31.
14、87, 31.0332.56, 29.66, 31.64, 30.00, 31.87, 31.03例6解解(1)(1)(2)(2)(3)(3)拒绝域拒绝域取统计量取统计量 某工厂生产一种螺钉某工厂生产一种螺钉,标准要求是长度是标准要求是长度是32.5毫米毫米,实际生产的产品其长度实际生产的产品其长度X服从正态分布服从正态分布 未知,现从该厂生产的一批产品中抽取未知,现从该厂生产的一批产品中抽取6件,得件,得 尺寸数据如下:尺寸数据如下: 问这批产品是否合格?问这批产品是否合格? (5 5) 将样本值代入算出统计量将样本值代入算出统计量 T T0 0的实测值的实测值, ,没有落入没有落入拒绝域拒
15、绝域故接受故接受 为真,即可认为产品是合格的。为真,即可认为产品是合格的。 (4)(4)查表查表右边检验右边检验查表确定临界值查表确定临界值(4)取)取 (2)选取统计量:)选取统计量:(3)拒绝域为)拒绝域为 (5)计算)计算 则拒绝则拒绝 ,接受,接受反之,接受反之,接受 左边检验左边检验查表确定临界值查表确定临界值(4)取)取 (2)选取统计量:)选取统计量:(3)拒绝域为)拒绝域为 (5)计算)计算 则拒绝则拒绝 ,接受,接受反之,接受反之,接受 4.28;4.40;4.42;4.35;4.37.如果标准差不变如果标准差不变,解解:拒绝拒绝H0例1某日测得某日测得5炉铁水含碳量如下炉铁
16、水含碳量如下:该日铁水的平均含碳量是否显著偏低该日铁水的平均含碳量是否显著偏低? =0.05已知某炼铁厂的铁水含碳量已知某炼铁厂的铁水含碳量 在正常情况下在正常情况下(2 2)取统计量)取统计量某次考试的考生成绩某次考试的考生成绩从中随机地抽取从中随机地抽取3636位考生的成绩位考生的成绩, ,平均成绩为平均成绩为63.563.5分,分,未知,未知,例2标准差标准差 s s =15=15分分,问在显著水平问在显著水平0.050.05下是否可以认为下是否可以认为全体考生的平均成绩为全体考生的平均成绩为7070分?分?求求的置信水平为的置信水平为0.950.95的置信区间。的置信区间。拒绝域为拒绝
17、域为解解 先提出假设先提出假设计算计算故落在拒绝域之内,拒绝故落在拒绝域之内,拒绝H0 ,接受,接受H1即不能认为全体考生的平均成绩为即不能认为全体考生的平均成绩为70分。分。 的置信水平为的置信水平为0.95的置信区间为的置信区间为设总体设总体已知时,已知时, 的检验的检验 提出原假设和备选假设提出原假设和备选假设 第一步:第一步:第二步:第二步: 在假设成立前提下取统计量在假设成立前提下取统计量第三步:第三步:拒绝域为拒绝域为第四步第四步第五步第五步计算计算最后最后设总体设总体为为X 的的样本。对样本。对2 作显著性检验作显著性检验(,其中,其中检验)检验)引例引例 已知某种延期药静止燃烧
18、时间已知某种延期药静止燃烧时间今从一批延期药中任取今从一批延期药中任取10副测得静止燃烧时间(单位副测得静止燃烧时间(单位秒)数据为秒)数据为问:是否可信这批延期药的静止燃烧时间问:是否可信这批延期药的静止燃烧时间T的方差为的方差为未知时,未知时, 的检验的检验 解 提出假设取统计量取统计量为为 的无偏估计,的无偏估计,的观察值应集中在的观察值应集中在1附近附近 说明说明和和在在H0成立的条件下都是成立的条件下都是小概率事件。小概率事件。因此,在样本值在样本值下计算下计算若若或或则则拒绝拒绝H0。若若则则接受接受H0。根据样本值算得根据样本值算得双边假设检验双边假设检验的拒绝域为的拒绝域为或或
19、则则接受接受H0 。即可信延期药的静止燃烧时间即可信延期药的静止燃烧时间T的方差为的方差为显然显然由上例可得由上例可得提出原假设和备择假设提出原假设和备择假设 第一步:第一步:第二步:第二步:取统计量取统计量的过程分为六个步骤:的过程分为六个步骤:第三步:第三步:拒绝域为拒绝域为第六步:判断,若第六步:判断,若则拒绝则拒绝H0,接受,接受H1第五步:计算第五步:计算反之则接受反之则接受H0。第四步:第四步:查表确定临界值查表确定临界值接受域接受域Xf(x)/2/212拒绝域拒绝域拒绝域拒绝域( =0.05)某次统考后随机抽查某次统考后随机抽查26份试卷份试卷, 测得平均成绩测得平均成绩成绩标准
20、差是否为成绩标准差是否为已知该次考试成绩已知该次考试成绩例2(2)选取统计量选取统计量(3)拒绝域为拒绝域为解解(1) 假设假设分,样本方差分,样本方差 试分析该次考试试分析该次考试 分左右。分左右。 (4)查表确定临界值查表确定临界值(5)计算计算故接受故接受H0。即可认为该次考试成绩标准差为即可认为该次考试成绩标准差为分左右。分左右。 三 两个正态总体参数的假设检验分别是这两个样本的均值分别是这两个样本的均值,且且 X 与与 Y 独立独立,X1 , X2 , ,是取自是取自X 的样本的样本,Y 的样本的样本,分别是这两个样本的样本方差分别是这两个样本的样本方差, 则有则有Y1,Y2,是取自
21、是取自和和 分别是分别是且且X X与与Y Y独立独立, ,X X1 1, ,X X2 2,是取自是取自X的样本的样本, ,取自取自Y Y的样本的样本, ,分别是样本方差分别是样本方差, ,均值均值, ,1. 1. Y Y1 1, ,Y Y2 2,是是样本样本提出假设提出假设检验两正态总体均值相等独立独立 H H0 0成立时取统计量,成立时取统计量,取统计量,取统计量,拒绝域的形式拒绝域的形式对给定对给定查表确定查表确定则否定则否定H0,接受,接受H1则接受则接受H0即认为两个正态母体均值无显著差异即认为两个正态母体均值无显著差异即认为两个正态母体均值有显著差异,显著性水平即认为两个正态母体均值
22、有显著差异,显著性水平为为由样本值由样本值 代入算出统计量代入算出统计量且且X与与Y独立独立,1. 提出假设提出假设 检验两正态总体均值之差检验两正态总体均值之差取统计量取统计量给定给定 查表查表2. 提出假设提出假设取统计量取统计量拒绝域的形式拒绝域的形式给定给定算出统计量算出统计量则否定则否定H0,接受,接受H1则接受则接受H0即认为两个正态母体均值无显著差异即认为两个正态母体均值无显著差异取统计量,取统计量,其余步骤相同其余步骤相同例例3 3 某苗圃用两种育苗方案对杨树进行育苗试验某苗圃用两种育苗方案对杨树进行育苗试验, , 已知在两组育苗试验中苗高的标准差分别为已知在两组育苗试验中苗高
23、的标准差分别为cm, cm, cm. cm. cm, cm, 设杨树苗高服从正态分布设杨树苗高服从正态分布, , 试在显著性水平试在显著性水平下下, , 判断两种试验方案对平均苗高有无显著影响?判断两种试验方案对平均苗高有无显著影响?现各抽取现各抽取80株作为样本株作为样本, 算得苗高的样本均值分别算得苗高的样本均值分别为为cm.解解 设方案一的苗高为设方案一的苗高为方案二的苗高为方案二的苗高为则则检验假设检验假设选取检验统计量选取检验统计量 该拒绝域为该拒绝域为现在现在, , , , 统计量统计量的值的值因为因为所以拒绝原假设所以拒绝原假设即这两种试验方案对苗高有显著影响即这两种试验方案对苗
24、高有显著影响. . 拒绝域拒绝域拒绝域拒绝域未知,未知, 的单边检验的单边检验 五、五、 检验两正态总体方差相等检验两正态总体方差相等 F检验检验取统计量取统计量分别是样本方差分别是样本方差,(4)(4)查表查表则否定则否定H H0 0,接受,接受H1(2)选取统计量选取统计量(3)(3)拒绝域拒绝域(5)计算)计算 拒绝域拒绝域拒绝域拒绝域例例1 1 两家银行分别对两家银行分别对2121个储户和个储户和1616个储户的年存款余个储户的年存款余额进行抽样调查,测得其平均年存款余额分别为额进行抽样调查,测得其平均年存款余额分别为元和元和元元. .样本标准差相应为样本标准差相应为元和元和试比较两家
25、银行的储户的平均年存款余额有无显著试比较两家银行的储户的平均年存款余额有无显著差异。(取显著性水平差异。(取显著性水平)元。假设年存款余额服从正态分布,元。假设年存款余额服从正态分布,解解 设设两家两家银银行的行的储户储户的平均年存款余的平均年存款余额额分分别为别为X,Y, ,则则 为为了使用了使用检验检验, 依依题题意要意要检验检验与与是否相等,但方差未知是否相等,但方差未知 ,首先需要检验首先需要检验与与是否相等。是否相等。拒绝域拒绝域查表查表选取统计量选取统计量(1 1)检验假设)检验假设F F的值为的值为因为因为所以接受所以接受选取统计量选取统计量(2 2)检验假设)检验假设(3)(3
26、)拒绝域拒绝域(4)(4)查表查表统计量统计量t 的值为的值为 因为因为,所以拒绝,所以拒绝这说明两家银行的储户的平均年存款余额有显著差异这说明两家银行的储户的平均年存款余额有显著差异 正如在数学上我们不能用一个例正如在数学上我们不能用一个例子去证明一个结论一样,用一个子去证明一个结论一样,用一个样本(例子)不能证明一个命题样本(例子)不能证明一个命题(假设)是成立的,但可以用一(假设)是成立的,但可以用一个例子(样本)推翻一个命题。个例子(样本)推翻一个命题。非正态总体参数的假设检验v1)总体不服从正态分布v2)不知道总体服从什么分布 当n很大时,由中心极限定理保证,不管总体服从什么分布,样
27、本均值都服从正态分布,采用大容量样本,按正态分布处理 大样本一般取n50,n100设总体 X 服从参数为 p 的(0-1)分布, 即 设 为 X 的样本, 检验假设 1 1(0-1)(0-1)分布参数的假设检验分布参数的假设检验由于 因此由中心极限定理可知, 当 成立且样本容量 n充分大时,统计量 服从标准正态分布N(0,1). 拒绝域为 近似地例例1 1 某种产品在通常情况下次品率为5%. 现在从生产出的一批产品中随机地抽取50件进行检验, 发现有4件次品. 问能否认为这批产品的次品率为5%? (=0.05)解解 设这批产品的次品率为 p. 在这批产品中任 任意取一件产品,定义随机变量 X
28、如下 检验假设 该假设检验问题的拒绝域为 现在 统计量U的值为 =接受假设 =可以认为这批产品的次品率为5% 2.2.总体均值的假设检验总体均值的假设检验假设总体X 的均值为, 方差为 为 X 的样本,检验假设 由中心极限定理知,当样本容量n充分大时, 近似地服从标准正态分布N(0,1) 由于样本方差 为 的无偏估计量, 可以用 近似代替 ,并且当 为真 且样本容量n充分大时,统计量 仍近似地服从标准正态分布N(0,1) 拒绝域为 例例2 2 某电器元件的平均电阻一直保持在2.64. 改变加工工艺后, 测得100个元件的电阻, 计算得平均电阻为 2.58 , 样本标准差为0.04 . 在显著性
29、水平 =0.05下, 判断新工艺对此元件的平均电阻有无显著影响. 解解 设该电器元件的电阻为X, 其均值为 检验假设 拒绝域为 现在 统计量U的值为 =拒绝假设 接受假设 新工艺对电子元件的平均电阻有显著影响. 3.3.两个总体均值的假设检验两个总体均值的假设检验 设总体 和 相互独立, 的样本, 是 是 Y 的样本. 记 设总体 X的均值为 ,方差为 总体 Y的均值为 ,方差为 的拒绝域. 由中心极限定理知,当样本容量 和 都充分大时, 近似地服从标准正态分布 由于样本方差 和 分别为 和 的无偏估计量,因此 可以分别用 和 近似代替 和 ,并且当 求假设检验问题 和 近似地服从标准正态分布
30、 ,从而当原假设 成立时, 统计量 仍近似地服从标准正态分布. 都充分大时, =当 成立且 都充分大时, 统计量U的值应该在零附近摆动,当 过大时就认为 不成立. =该假设检验问题的拒绝域为 例例3 两台机床加工同一中轴承,现在从他们加工的轴承中分别随机地抽取200根和100根,测量其椭圆度(单位:mm),经计算得 能否认为这两台机床加工的轴承的平均椭圆度是相同的(=0.05)解解设这两台机床加工的轴承的椭圆度分别为X,Y 且 检验假设 由于题目给出的两个样本都是大样本,因此该假设检验问题的拒绝域为 现在 =拒绝原假设 即认为这两台机床加工的轴承的平均椭圆度是不相同的. 非参数假设检验v一、拟
31、合优度检验 1 多项分布的检验法 设总体设取m个可能值的离散型随机变量,不妨假定取值为1,2,m. 且v检验假设 v定理4.1 当H0为真时,即(p10,p20,pm0)是总体的真实概率分布时v当n充分大时,可以近似认为v当总体X不具有多项分布,但其分布函数具有明确表达式F(x),检验假设v2 分布中含有未知参数的 拟合优度检验法注意:拟合优度检验要求注意:拟合优度检验要求n必须足够大,且必须足够大,且npi不不太小(太小(10以上)以上),否则应适当合并区间否则应适当合并区间一般解题步骤v1)找出样本的最大值、最小值,确定样本的取值范围v2) 确定分组数k(等间距)v3)确定v4)列出样本观察值的分组频数表,两端样本点较少的可适当合并;v5)画出直方图;6)估计分布;7)假设检验 柯尔莫哥洛夫检验斯米尔诺夫检验v比较两个总体的分布函数是否相同