《显著性检验PPT课件》由会员分享,可在线阅读,更多相关《显著性检验PPT课件(113页珍藏版)》请在金锄头文库上搜索。
1、第四章第四章 显著性检验显著性检验小概率事件实际不可能性原理小概率事件实际不可能性原理1.1.2 统计假设检验的基本原理统计假设检验的基本原理在统计学上,在统计学上,在统计学上,在统计学上,把小概率事件在一次试验中看成把小概率事件在一次试验中看成把小概率事件在一次试验中看成把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不是实际不可能发生的事件称为小概率事件实际不是实际不可能发生的事件称为小概率事件实际不是实际不可能发生的事件称为小概率事件实际不可能性原理,亦称为小概率原理可能性原理,亦称为小概率原理可能性原理,亦称为小概率原理可能性原理,亦称为小概率原理。小概率事件实际不
2、可能性原理是统计学上进行小概率事件实际不可能性原理是统计学上进行小概率事件实际不可能性原理是统计学上进行小概率事件实际不可能性原理是统计学上进行假设检验(显著性检验)的基本依据。假设检验(显著性检验)的基本依据。假设检验(显著性检验)的基本依据。假设检验(显著性检验)的基本依据。 概率小于概率小于概率小于概率小于0.050.050.050.05称之为小概率事件。称之为小概率事件。称之为小概率事件。称之为小概率事件。 1.1.3 统计假设检验的基本原理及步骤统计假设检验的基本原理及步骤 1. 根据研究目的,对研究总体提出假设根据研究目的,对研究总体提出假设 无效假设无效假设无效假设无效假设(nu
3、ll hypothesisnull hypothesis) 是被检验的假设,通过检验可能被接受,也可是被检验的假设,通过检验可能被接受,也可是被检验的假设,通过检验可能被接受,也可是被检验的假设,通过检验可能被接受,也可能被否定。能被否定。能被否定。能被否定。与与与与HH0 0对应的假设,只有是在无效假设被否定对应的假设,只有是在无效假设被否定对应的假设,只有是在无效假设被否定对应的假设,只有是在无效假设被否定后才可接受的假设。无充分理由是不能轻率后才可接受的假设。无充分理由是不能轻率后才可接受的假设。无充分理由是不能轻率后才可接受的假设。无充分理由是不能轻率接受的。接受的。接受的。接受的。备
4、择假设(备择假设(备择假设(备择假设(alternative hypothesisalternative hypothesis)一般情况下=0.051.1.3 统计假设检验的基本原理及步骤统计假设检验的基本原理及步骤 2. 确定显著水平确定显著水平 3. 3. 计算概率计算概率在在 成立的前提下,构造合适的统计量,由该统计量的抽样分布计算样本统成立的前提下,构造合适的统计量,由该统计量的抽样分布计算样本统计量的概率计量的概率 对前例分析,无效假设对前例分析,无效假设对前例分析,无效假设对前例分析,无效假设H H0 0: 成立,试验成立,试验成立,试验成立,试验的表面效应是随机误差引起的。那么,
5、可以把试验的表面效应是随机误差引起的。那么,可以把试验的表面效应是随机误差引起的。那么,可以把试验的表面效应是随机误差引起的。那么,可以把试验中所获得的中所获得的中所获得的中所获得的 看成是从看成是从看成是从看成是从 总体中抽取的一个样本总体中抽取的一个样本总体中抽取的一个样本总体中抽取的一个样本平均数,由样本平均数的抽样分布理论可知,平均数,由样本平均数的抽样分布理论可知,平均数,由样本平均数的抽样分布理论可知,平均数,由样本平均数的抽样分布理论可知, N N( 0 0,2 2n n)。)。)。)。1.1.3 统计假设检验的基本原理及步骤统计假设检验的基本原理及步骤=0 0根据根据小概率事件
6、实际不可能原理小概率事件实际不可能原理,当试验的表,当试验的表面效应是试验误差的概率小于面效应是试验误差的概率小于0.050.05时,认为在时,认为在一次试验中试验表面效应是试验误差实际上是一次试验中试验表面效应是试验误差实际上是不可能的,因而否定不可能的,因而否定H H0 0,接受,接受H HA A,即认为试验,即认为试验的处理效应是存在的。的处理效应是存在的。4.统计推断统计推断 根据根据“小概率事件实际不可能性原理小概率事件实际不可能性原理”否定否定或接受无效假设或接受无效假设1.1.3 统计假设检验的基本原理及步骤统计假设检验的基本原理及步骤三、显著水平与两种类型的错误三、显著水平与两
7、种类型的错误 ( (一一) )显著水平显著水平 用来否定或接受无效假设的概率标准叫用来否定或接受无效假设的概率标准叫显著水平显著水平,记作。在生物学,记作。在生物学研究中常取研究中常取=0.05,称,称 为为 5% 显显 著著 水水 平;或平;或=0.01,称,称 为为 1% 显显 著著 水水 平或极显著水平。平或极显著水平。 对于上述例子的检验来说,若对于上述例子的检验来说,若 u 1.96 ,则说明试验的表面差异属于试验误差,则说明试验的表面差异属于试验误差的概率的概率p0.05,即表面差异属于试验误差的,即表面差异属于试验误差的可能性大,不能否定。统计学上把可能性大,不能否定。统计学上把
8、这一检验结果表述为:这一检验结果表述为:“总体平均数与总体平均数与差异不显著差异不显著”,在计算所得的,在计算所得的u 值的右上方标值的右上方标记记“”或不标记符号;或不标记符号;若若|,则说明试验的,则说明试验的表面差异属于试验误差的概率表面差异属于试验误差的概率p在在0.010.05之间,即之间,即0.01p0.05,表面差,表面差异异 属属 于于 试试 验误差的可能性较小,应否定验误差的可能性较小,应否定H0:,接受:,接受HA:。统计学上:。统计学上把这一检验结果表述为:把这一检验结果表述为:“总体平均数总体平均数与与 差异显著差异显著 ”,在计算所得的值的右,在计算所得的值的右上方标
9、记上方标记“*”;若若|2.58,则说明试验的表面差异,则说明试验的表面差异属于试验误差的概率属于试验误差的概率p不超过不超过0.01,即,即p 0.01,表面差异属于试验误差的可能性更,表面差异属于试验误差的可能性更小,应否定小,应否定HH0 0:,接受,接受HHAA:。统。统计学上把这一检验结果表述为:计学上把这一检验结果表述为:“总体平均数总体平均数与与差异极显著差异极显著 ”,在计算所得的,在计算所得的 值的值的右上方标记右上方标记“* *”。可以看到,是否否定无效可以看到,是否否定无效假设假设假设假设 ,是用实际计算出的检验统计数的绝对值与显著是用实际计算出的检验统计数的绝对值与显著
10、水平对应的临界值比较:水平对应的临界值比较: 若若|,则在,则在 水平上否定水平上否定 若若| ,则,则 不不 能能 在在 水水 平平 上上 否否定定 。 区间区间 和和 称为水称为水平平 上的否定域,而区间上的否定域,而区间 则则称为称为 水平上的接受域。水平上的接受域。 因为在显著性检验中,否定或接受因为在显著性检验中,否定或接受无效假设的依据是无效假设的依据是“小概率事件实际不小概率事件实际不可能性原理可能性原理”,所以我们下的结论不可,所以我们下的结论不可能有百分之百的把握。能有百分之百的把握。( (二二) )两类错误两类错误 例如,经检例如,经检 验获得验获得“差异显著差异显著”的结
11、论,的结论,我们有我们有95%的把握否定无效假设的把握否定无效假设H0,同时要,同时要冒冒5%下错结论的风险;经下错结论的风险;经 检验获得检验获得“差异差异极显著极显著”的结论,我们有的结论,我们有99%的把握否定无的把握否定无效假设效假设H0,同时要冒,同时要冒1%下错结论的风险;而下错结论的风险;而经经 检验获得检验获得“差异不显著差异不显著”的结论,在统计学的结论,在统计学上是指上是指“没有理由没有理由”否定无效假设否定无效假设H0,同样也,同样也要冒下错结论的风险。要冒下错结论的风险。 显著性检验可能出现两种类型的错误:显著性检验可能出现两种类型的错误:型错误型错误 与与型错误。型错
12、误。 型错误又称为错误,就是把非真实的差异错判为是真实的差异,即型错误又称为错误,就是把非真实的差异错判为是真实的差异,即实际上实际上H0正确,检验结果为否定正确,检验结果为否定H0。犯犯类型错误的可能性一般不会超过所选用类型错误的可能性一般不会超过所选用的显著水平;的显著水平;型错误又称为错误,就是把真实的型错误又称为错误,就是把真实的差异错判为是非真实的差异,即实际上差异错判为是非真实的差异,即实际上HA正确,检验结果却未能否定正确,检验结果却未能否定H0。 犯犯类型类型错误的可能性记为错误的可能性记为,一般是随着的,一般是随着的减小或试验误差的增大而增大,所以减小或试验误差的增大而增大,
13、所以越小或试验误差越大,就越容易将试验的真越小或试验误差越大,就越容易将试验的真实差异错判为试验误差。实差异错判为试验误差。 因此,如果经因此,如果经 检验获得检验获得“差异显著差异显著”或或“差异极显著差异极显著”,我们有,我们有95%或或99%的把的把握认为,这两个样本所在的总体平均数不相同,握认为,这两个样本所在的总体平均数不相同, 判断错误的可能性不超过判断错误的可能性不超过5%或或1%;若经若经 检验获得检验获得“差异不显著差异不显著”, 我们只能认为在本我们只能认为在本次试验条件下,次试验条件下, 这两个样本所在的总体平均数这两个样本所在的总体平均数没有差异的假设没有差异的假设 H
14、0: 未被否定未被否定,这有两,这有两种可能存在:种可能存在: 或者是这两个总体平均数确实没或者是这两个总体平均数确实没有差异,有差异, 或者是这两个总体平均数有差异而因或者是这两个总体平均数有差异而因为试验误差大被掩盖了为试验误差大被掩盖了。因而,不能仅凭统计推断就简单地作因而,不能仅凭统计推断就简单地作出绝对肯定或绝对否定的结论。出绝对肯定或绝对否定的结论。 “有很大有很大的可靠性,但有一定的错误率的可靠性,但有一定的错误率” 这是统计这是统计推断的基本特点。推断的基本特点。 显著性检验的两类错误归纳如下:显著性检验的两类错误归纳如下:表表4-1 显著性检验的两类错误显著性检验的两类错误为
15、了降低犯两类错误的概率,一般从选取为了降低犯两类错误的概率,一般从选取适当的显著水平和增加试验重复次数来考适当的显著水平和增加试验重复次数来考虑。因为选取数值小的显著水平值可以降低虑。因为选取数值小的显著水平值可以降低犯犯类型错误的概率,但与此同时也增大了犯类型错误的概率,但与此同时也增大了犯型错误的概率,所以显著水平值的选用要型错误的概率,所以显著水平值的选用要同时考虑到犯两类错误的概率的大小。同时考虑到犯两类错误的概率的大小。对于田间试验,由于试验条件不容易控制完对于田间试验,由于试验条件不容易控制完全一致,试验误差较大,全一致,试验误差较大, 为了降低犯为了降低犯型型错误的概率,也有选取
16、显著水平为错误的概率,也有选取显著水平为0.100.10或或0.200.20。 通常采用适当通常采用适当增加试验处理的重复次数增加试验处理的重复次数(即(即样本容量),样本容量), 以降低试验误差,提高试验以降低试验误差,提高试验的精确度,的精确度, 降低犯降低犯型错误的概率。型错误的概率。 在在【例例41】中,对应于无效假设中,对应于无效假设 H0:的备择假设为的备择假设为HA:。:。 HA实际上包含了或这两种情况。此时,实际上包含了或这两种情况。此时,在水平上否定在水平上否定域为和,对称地分配在分布曲线的两侧尾部,每侧尾部的概率域为和,对称地分配在分布曲线的两侧尾部,每侧尾部的概率为为 。
17、这种。这种利用两尾概率进行的检验叫两尾检验利用两尾概率进行的检验叫两尾检验. 为为 水平两尾检验的临水平两尾检验的临界值。界值。四、两尾检验与一尾检验四、两尾检验与一尾检验双侧检验时双侧检验时双侧检验时双侧检验时H H0 0的接受域和否定域的接受域和否定域的接受域和否定域的接受域和否定域一尾检验一尾检验一尾检验一尾检验 H H H H0 0 0 0: = = 0 0H H H HA A A A: 0 0两尾检验的目的在于判断两尾检验的目的在于判断 与与 有无差有无差异,而不考虑异,而不考虑 与与 谁大谁小。谁大谁小。在有些情况下两尾检验不一定符合实际情况。在有些情况下两尾检验不一定符合实际情况
18、。例如,目前我国大豆育种工作者认为,大例如,目前我国大豆育种工作者认为,大豆籽粒蛋白质含量超过豆籽粒蛋白质含量超过45%( )的品种为高)的品种为高蛋白品种。如果进行样品含量检测蛋白品种。如果进行样品含量检测 ,我们关心,我们关心的是的是 所在的总体平均数所在的总体平均数 大于大于 。 此时的无效假设仍为此时的无效假设仍为H0: ,但备择,但备择假设则为假设则为HA: 。这时否定域位于。这时否定域位于 分布分布曲线的右尾,即曲线的右尾,即 。 例如当例如当 =0.05时,否定域为时,否定域为 。又如,国家规定稻米中某种农药成分的残又如,国家规定稻米中某种农药成分的残留物含量应低于留物含量应低于
19、0.1%( )。在抽检中,我)。在抽检中,我们关心的是们关心的是 所在的总体平均数所在的总体平均数 小于小于 (即(即该品种属于合格产品)。此时的无效假设仍为该品种属于合格产品)。此时的无效假设仍为H0: ,但备择假设则为,但备择假设则为HA: 。这这 时时 否否 定定 域域 位位 于于 分分 布布 曲曲 线线 的的 左尾,左尾,即即 。例如当。例如当 =0.05时,时, 分布的分布的否定域为否定域为 ,见,见图图4-2。一尾检验的一尾检验的 = =两尾检验的两尾检验的 =2.33=2.33。 这种利用一尾概率进行的检验叫一尾检验这种利用一尾概率进行的检验叫一尾检验 。此时。此时 为一尾检验的
20、临界为一尾检验的临界 值。显然,值。显然,一尾检验的一尾检验的 =两尾检验的两尾检验的 。例如,例如,一尾检验的一尾检验的=两尾检验的两尾检验的 =1.64=1.64, 实际应用中,如何选用两尾检验或一尾检实际应用中,如何选用两尾检验或一尾检验,应根据专业的要求在试验设计时就确定。验,应根据专业的要求在试验设计时就确定。 一般情况下,若事先不知道与谁大谁一般情况下,若事先不知道与谁大谁小,只是为了检验与小,只是为了检验与 是否存在差异,则选是否存在差异,则选用两尾检验;用两尾检验; 如果凭借一定的专业知识和经验如果凭借一定的专业知识和经验推测推测 应小于(或大于)时,则选用一尾检应小于(或大于
21、)时,则选用一尾检验。验。 第二节第二节 样本平均数与总体样本平均数与总体 平均数差异显著性检验平均数差异显著性检验在实际研究工作中常常要检验一个样本平均数与已知的总体平均数在实际研究工作中常常要检验一个样本平均数与已知的总体平均数是否有显著差异,即检验该样本是否来自某一总体。是否有显著差异,即检验该样本是否来自某一总体。 u u 检验(检验(u u-test-test),就是在假设检验中),就是在假设检验中利用利用标准正态分布标准正态分布来进行统计量的概率计算来进行统计量的概率计算的检验方法。的检验方法。ExcelExcel中统计函数(中统计函数(ZtestZtest)。 单个样本平均数的单
22、个样本平均数的u 检验检验u =(x-)由由由由抽样分布理论抽样分布理论可知,有两种情况的资料可以用可知,有两种情况的资料可以用可知,有两种情况的资料可以用可知,有两种情况的资料可以用u u u u检验方法进行分析:检验方法进行分析:检验方法进行分析:检验方法进行分析:1.1.1.1.样本资料服从样本资料服从样本资料服从样本资料服从N N N N(, , , ,2 2 2 2), , , ,并且总体方差并且总体方差并且总体方差并且总体方差2 2 2 2已知已知已知已知2.2.2.2.总体方差虽然未知,但样本为大样本(总体方差虽然未知,但样本为大样本(总体方差虽然未知,但样本为大样本(总体方差虽
23、然未知,但样本为大样本(n n n n30303030) 单个样本平均数的单个样本平均数的u 检验检验(一)如果总体如果总体 已知或已知或 未知但为大样未知但为大样本(本(n 30),则用),则用u 检验法。检验法。 n n例:糯玉米苏糯1号的鲜果穗重x-N(216.5,45.2)。现引进一高产品种奥特1号,在8个小区种植,得其鲜果穗重分别为:255.0,185.0,252.0,290.0,159.9,190.0,212.7,278.5,试问新引入品种的鲜果穗重与苏糯1号有无显著差异? 1.提出假设提出假设:216.5g:216.5g 3、 计算计算 u 值值 u 值计算公式为值计算公式为 ,
24、 2. 确定显著水平确定显著水平 =0.05 4统计推断统计推断 故故p0.05 ,不能否定,不能否定 表明新引进品种新果穗重与苏糯表明新引进品种新果穗重与苏糯1号差异不号差异不显著显著 。 1.96u=0.712:216.5g2.1.1 2.1.1 单个样本平均数的单个样本平均数的u u 检验检验以本例演示以本例演示ExcelExcel中统计函数中统计函数(ZtestZtest)的使用的使用 2 样本平均数的假设检验样本平均数的假设检验- u 检验检验u =(x-)(二)如果总体(二)如果总体 未知、且为小样本(未知、且为小样本(n 30),则用),则用t检验法。检验法。 t t 检验法,就
25、是在显著性检验时利用检验法,就是在显著性检验时利用 t t分布进行概率计算的检验方法分布进行概率计算的检验方法。 【例例4 43】 晚稻良种汕优晚稻良种汕优63的千粒重的千粒重 27.5g。 现育成一高产品种协优辐现育成一高产品种协优辐819,在在9个小区种植,得其千粒重为:个小区种植,得其千粒重为: 32.5、28.6、28.4、24.7、29.1、 27.2、29.8、33.3、29.7(g) 问新育成品种的千粒重与汕优问新育成品种的千粒重与汕优63有无显有无显著差异?著差异? 1.提出假设提出假设:27.5:27.5g 。 2、 计算计算t值值 t值计算公式为值计算公式为 , 此例,先计
26、算样本平均数此例,先计算样本平均数 、样本标准差、样本标准差S、样本均数标准误、样本均数标准误 如下:如下: 29.255 =2.587=2.587 =0.862 所以所以 = 2.036= 2.036 3统计推断统计推断 由由df=n-1=9-1=8查临界查临界t值,得:值,得: 计算所得的计算所得的 ,故,故p0.05 ,不能否定不能否定 ,表明新育成品种,表明新育成品种千粒重与当地良种汕优千粒重与当地良种汕优63的千粒重差异不的千粒重差异不显著显著 ,可以认为新育成品种千粒重与当地可以认为新育成品种千粒重与当地良种汕优良种汕优6363的千粒重相同的千粒重相同。 第三节两个样本平均数差异第
27、三节两个样本平均数差异显著性检验显著性检验两个样本平均数差异显著性检验,因两个样本平均数差异显著性检验,因试验设计不同试验设计不同 ,分为非配对设计和配对设,分为非配对设计和配对设计两种。检验方法有计两种。检验方法有u检验法和检验法和t检验法两检验法两种。种。 一、非配对设计两个样本平均数一、非配对设计两个样本平均数 差异显著性检验差异显著性检验非配对设计非配对设计是将试验单位完全随机地分为是将试验单位完全随机地分为两组,然后再随机地对两组分别实施两个不同两组,然后再随机地对两组分别实施两个不同处理处理;两组试验单位相互独立,所得观测值相;两组试验单位相互独立,所得观测值相互独立;两个处理的样
28、本容量可以相等,也可互独立;两个处理的样本容量可以相等,也可以不相等,所得数据称为非配对数据。这种设以不相等,所得数据称为非配对数据。这种设计适用于试验单位比较一致的情况。计适用于试验单位比较一致的情况。 【例例45】 测得马铃薯两个品种鲁引测得马铃薯两个品种鲁引1号号和大西洋的块茎干物质含量结果如和大西洋的块茎干物质含量结果如 表表 4-3 所所示。试检验两个品种马铃薯的块茎干物质含量示。试检验两个品种马铃薯的块茎干物质含量有无显著差异。有无显著差异。4-3 两个马铃薯品种干物质含量(两个马铃薯品种干物质含量(%)1、提出假设、提出假设 2、计算、计算t值值 t值计算公式为值计算公式为其中,
29、其中, 、 , 、 分别为两样本含分别为两样本含量、平均数;量、平均数; 为样本均数差数标准为样本均数差数标准误,计算公式为误,计算公式为 当当 时,时, 其中,其中, 、 分别为两样本均方。分别为两样本均方。 此例,此例, 18.193, 0.248, =6, =5于是于是 3、统计推断、统计推断 根据根据 ,查附表查附表3得:得: =2.262 因为计算得的因为计算得的 1.922 ,故,故p0.05,不能否定,不能否定H0: ,表明两个马,表明两个马铃薯品种的块茎干物质含量差异不显著,铃薯品种的块茎干物质含量差异不显著,可可以认为两个马铃薯品种的块茎干物质含量相以认为两个马铃薯品种的块茎
30、干物质含量相同同。 注意注意,两个样本平均数差异显著性检验的,两个样本平均数差异显著性检验的无效假设无效假设 与备择假设与备择假设 ,一般如前所述,一般如前所述,但也有例外。例如通过收益与成本的综合经济但也有例外。例如通过收益与成本的综合经济分析知道,施用高质量的肥料比施用普通肥料分析知道,施用高质量的肥料比施用普通肥料提高的成本需用产量提高提高的成本需用产量提高 个单位获得的收益个单位获得的收益来相抵,那么来相抵,那么在检验施用高质量的肥料比施用在检验施用高质量的肥料比施用普通肥料收益上是否有差异时普通肥料收益上是否有差异时 , 无效假设应无效假设应为为 ,备择假设为,备择假设为 (两尾检验
31、);(两尾检验);在检验施用高质量肥料的收益是否高于施在检验施用高质量肥料的收益是否高于施用普通肥料时用普通肥料时,无效假设应为,无效假设应为 ,备择假设为备择假设为 (一尾检验)。(一尾检验)。 此时,此时,t检验计算公式为:检验计算公式为:二、配对设计两个样本平均数二、配对设计两个样本平均数 差异显著性检验差异显著性检验配对设计配对设计是指先根据配对的要求将试验单是指先根据配对的要求将试验单位两两配对,然后将配成对子的两个试验单位位两两配对,然后将配成对子的两个试验单位随机实施某一处理。随机实施某一处理。 配对的要求配对的要求是是,配成对子的两个试验单位,配成对子的两个试验单位的初始条件尽
32、量一致,不同对子间试验单位的的初始条件尽量一致,不同对子间试验单位的初始条件允许有差异,每一个对子就是试验处初始条件允许有差异,每一个对子就是试验处理的一个重复。理的一个重复。 例如例如,在相邻两个小区、两个盆钵实施,在相邻两个小区、两个盆钵实施两种不同处理;在同一植株(或器官)的对两种不同处理;在同一植株(或器官)的对称部位上实施两种不同处理;在同一供试单称部位上实施两种不同处理;在同一供试单位上进行处理前和处理后的对比等,都是配位上进行处理前和处理后的对比等,都是配对试验设计,所得观测值称为对试验设计,所得观测值称为成对数据成对数据。 【例例47】 选取生长期、发育进度、植选取生长期、发育
33、进度、植株大小和其他方面皆比较一致的相邻的两块株大小和其他方面皆比较一致的相邻的两块地(每块地面积为地(每块地面积为666.7)的红心地瓜苗)的红心地瓜苗构成一组,共得构成一组,共得6组。组。 每组中一块地按标准每组中一块地按标准化栽培,另一块地进行绿色有机栽培,用来化栽培,另一块地进行绿色有机栽培,用来研究不同栽培措施对产量的影响,得每块地研究不同栽培措施对产量的影响,得每块地瓜产量如表瓜产量如表4-4所示,试检验两种栽培方式所示,试检验两种栽培方式差异是否显著。差异是否显著。表表表表4-4 4-4 两种栽培方法的地瓜产量两种栽培方法的地瓜产量两种栽培方法的地瓜产量两种栽培方法的地瓜产量 (
34、kg/666.7kg/666.7)采用两尾采用两尾t检验法。检验法。1、提出假设、提出假设 H0: ; HA: 。其中,其中,为第一个样本所在的总体平均数,为第一个样本所在的总体平均数,为第二个样本所在的总体平均数,为第二个样本所在的总体平均数, 为两个样本各对数据之差数为两个样本各对数据之差数所在的总体平均数,所在的总体平均数, 2、计算、计算t值值 计算公式为,计算公式为, 其中,其中, 为差数标准为差数标准误,为配对的对子数误,为配对的对子数 。 本例,本例,1770.8+1449.7+1400.6 +(59.3)+(208.7)+(300.3)=675.467391.525于是,于是,
35、 =1.725 3、统计推断、统计推断 查查 附附 表表 3,当,当 时时 , =2.571=2.571,计算所得的,计算所得的 1.725 1.725 ,故,故 p p 0.05 0.05 ,不,不 能能 否否 定定 H0: ,表明两种栽培方法的地瓜产,表明两种栽培方法的地瓜产量差异不显著,量差异不显著,可以认为两种栽培方法的地可以认为两种栽培方法的地瓜产量相同。瓜产量相同。第四节第四节 百分率资料的显著性检验百分率资料的显著性检验 由具有两个属性类别的质量性状利用统由具有两个属性类别的质量性状利用统计次数法得来的次数资料进而计算出的百分计次数法得来的次数资料进而计算出的百分率资料,如结实率
36、、发芽率、病株率、杂株率资料,如结实率、发芽率、病株率、杂株率以及一对性状的杂交后代中某一性状的植率以及一对性状的杂交后代中某一性状的植株占总株数的百分率等是株占总株数的百分率等是服从二项分布服从二项分布的。的。这类百分率资料的假设检验应按二项分布进这类百分率资料的假设检验应按二项分布进行。行。 当样本含量当样本含量n足够大足够大 , p不过小,不过小,np 和和nq均大于均大于5时,二项分布接近于正态分布,此时,二项分布接近于正态分布,此时可近似地采用时可近似地采用u检验法(称为正态近似法)检验法(称为正态近似法)对服从二项分布百分率资料进行差异显著性检对服从二项分布百分率资料进行差异显著性
37、检验。验。 适用于正态近似法所需的二项分布百分率适用于正态近似法所需的二项分布百分率资料的样本含量资料的样本含量n见见表表4-5。(样本百分本百分率率)(较小小组的次数)的次数)(样本容量)本容量)0.50.40.30.20.10.0515202440607030 50 80 200 600 1,400表表4-5 适用于正态近似法所需要的二项适用于正态近似法所需要的二项 分布百分率资料的样本容量分布百分率资料的样本容量n一、样本百分率与总体百分率一、样本百分率与总体百分率差异显著性检验差异显著性检验检验一个服从二项分布的样本百分率检验一个服从二项分布的样本百分率与已知的二项总体百分率与已知的二
38、项总体百分率p0 0差异是否显差异是否显著,其目的在于检验一个样本百分率著,其目的在于检验一个样本百分率 所所在二项总体百分率在二项总体百分率 p 是否与已知二项总体是否与已知二项总体百分率百分率p0相同相同 ,换句话说,检验该样本百,换句话说,检验该样本百分率分率 是否来自总体百分率为是否来自总体百分率为p0 的二项的二项总体。总体。 这里所讨论的百分率是服从二项分布的,这里所讨论的百分率是服从二项分布的,当满足当满足n n足够大,足够大,p p不过小,不过小,npnp和和nqnq均大于均大于5 5的条件时,可近似地采用的条件时,可近似地采用u u检验法,即正态检验法,即正态近似法来进行显著
39、性检验;若近似法来进行显著性检验;若npnp和和nqnq均大均大于于3030,不必对,不必对u u进行连续性矫正。进行连续性矫正。 【例例4 48 8】 用糯玉米和非糯玉米杂用糯玉米和非糯玉米杂交,预期交,预期F F1 1 植株上糯性花粉粒的百分率为植株上糯性花粉粒的百分率为 =0.50=0.50。现检视。现检视150150粒花粉,得糯性花粉粒花粉,得糯性花粉6868粒,糯性花粉粒百分率粒,糯性花粉粒百分率 =0.453=0.453,问此,问此结果和理论百分率结果和理论百分率 =0.50=0.50是否相符?是否相符? 本本 例例 的糯性花粉粒百分率服从二项分的糯性花粉粒百分率服从二项分布,但样
40、本容量布,但样本容量n=150n=150n=150n=150较大,较大,npnpnpnp=75 =75 =75 =75 、nqnq=75=75均均大于大于5(5(注意,此处假定注意,此处假定 , 来计算来计算npnp和和nqnq) ),所以采,所以采用正态近似法来进行显著性检验;且要回答用正态近似法来进行显著性检验;且要回答的问题是糯性花粉粒样本百分率的问题是糯性花粉粒样本百分率 =0.453=0.453=0.453=0.453与与理论百分率理论百分率 =0.50=0.50=0.50=0.50是否相符,故采用两尾是否相符,故采用两尾u u检验;由于检验;由于npnpnpnp=75=75=75=
41、75、nqnqnqnq=75=75=75=75均大于均大于30303030,不必对,不必对u u进进行连续性矫正。行连续性矫正。 检验步骤如下:检验步骤如下: 1 1、统计假设、统计假设H H0 0: H HA A: =0.50 =0.50 2 2、计算、计算u u值值 u u值的计算公式为:值的计算公式为:其中其中, , 为样本百分率,为样本百分率, =0.5=0.5为已知为已知总体百分率,总体百分率, 为样本百分率标准误:为样本百分率标准误: 其中,其中,n n为样本容量。为样本容量。 本例,本例,于是,于是, 3 3、统计推断、统计推断 计算所得的计算所得的 ,故,故p p0.050.0
42、5,不能否定,不能否定H H0 0: ,表明糯,表明糯性花粉样本百分率性花粉样本百分率 0.4530.453和和 差异不显著,差异不显著,可以认为糯性花粉粒样本百分可以认为糯性花粉粒样本百分率率 =0.453=0.453所在的总体百分率所在的总体百分率 与理论百分与理论百分率率 =0.50=0.50相同相同。 p p二、两二、两个样本百分率差异显著性检验个样本百分率差异显著性检验检检 验验 服服 从从 二二 项分布的两个样本百分项分布的两个样本百分率、差异是否显著,其目的在于检验两率、差异是否显著,其目的在于检验两个样本百分率个样本百分率 、 所在的两个总体百分所在的两个总体百分率、是否相同。
43、率、是否相同。 当两样本的当两样本的np、nq均大于均大于5时,可以时,可以采用正态近似法,即采用正态近似法,即u检验法进行检验;若检验法进行检验;若两样本的两样本的np和和nq均大于均大于30,不必对,不必对u进行进行连续性矫正。连续性矫正。 【例例4 49 9】 调查春大豆品种调查春大豆品种 A A的的 120120个豆荚(个豆荚( =120=120) ,其,其 中中 有有 瘪瘪 荚荚3838荚荚(f f1 1=38=38),瘪荚率),瘪荚率31.7%31.7%( );调查春大);调查春大豆品种豆品种B B的的135135个豆荚(个豆荚( =135=135),其),其 中有中有瘪荚瘪荚52
44、52荚(荚(f f2 2=52=52),瘪荚率),瘪荚率38.5%38.5%( )。)。试试 检检 验验 这两个品种的瘪荚率差异是否显这两个品种的瘪荚率差异是否显著?著? 本例为服从二项分布的百分率资料,样本例为服从二项分布的百分率资料,样本容量较大,本容量较大, =120, =135,且,且 均大于均大于5 (注意,假注意,假定定 成立,成立, 为合并样本百分率,由为合并样本百分率,由(4-22)式计算式计算),可以采用正态近似法,可以采用正态近似法 ,即即u检验法进行显著性检验,要回答的问题检验法进行显著性检验,要回答的问题是两个品种的瘪荚率差异是否显著是两个品种的瘪荚率差异是否显著 ,故
45、,故 采采用两尾用两尾u检验;由于检验;由于 , 均均大于大于30,不必对,不必对u进行连续性矫正。进行连续性矫正。 , 检验步骤如下:检验步骤如下: 1 1、统计假设、统计假设 H H0 0:;:;H HA A: 。2 2、计算、计算u u值值 u u值的计算公式为:值的计算公式为:其中,为两个样本其中,为两个样本百分率,为样本百分率差异标准误,百分率,为样本百分率差异标准误, 为合并合并样本百分本百分率率本例,本例,1 10.3530.3530.6470.647 于是,于是, 3 3、统计推断、统计推断 由于计算所得的由于计算所得的 =1.960.050.05,不能否定,不能否定H H0
46、0: ,表明两个品,表明两个品种的瘪荚率差异不显著,种的瘪荚率差异不显著,可以认为两个品种可以认为两个品种的瘪荚率相同。的瘪荚率相同。三、百分率资料显著性检验的连续性矫正三、百分率资料显著性检验的连续性矫正( (一一) ) 样本百分率与总体百分率差异显著性检验样本百分率与总体百分率差异显著性检验 的连续性矫正的连续性矫正 检验一个服从二项分布的样本百分率与已检验一个服从二项分布的样本百分率与已知的二项总体百分率差异是否显著知的二项总体百分率差异是否显著 ,当满足,当满足n n足够大,足够大,p p不过小,不过小,npnp和和nqnq均大于均大于5 5的条件时,的条件时,可近似地采用可近似地采用
47、 u u检验法,即正态近似法来进行检验法,即正态近似法来进行显著性检验;如果此时显著性检验;如果此时npnp和(或)和(或)nqnq小于或等小于或等于于3030,还须对,还须对u u进行连续性矫正。进行连续性矫正。 将连续性矫正后计算的值记为,将连续性矫正后计算的值记为,的计算公式为:的计算公式为: 检验的其它步骤同检验的其它步骤同【例例4 48 8】。 ( (二二) ) 两个样本百分率差异显著性检验的两个样本百分率差异显著性检验的连续性矫正连续性矫正 检验服从二项分布的两个样本百分率差检验服从二项分布的两个样本百分率差异是否显著,当两样本的异是否显著,当两样本的npnp、nqnq均大于均大于
48、5 5时,时,可以采用正态近似法,即可以采用正态近似法,即u u检验法进行检验;检验法进行检验;如果此时两样本的如果此时两样本的npnp和(或)和(或)nqnq小于或等于小于或等于3030,还须对,还须对u u进行连续性矫正。进行连续性矫正。 值的的计算公式算公式为: 检验的其它步骤同检验的其它步骤同【例例4 49 9】。【例例4 41010】调查大豆调查大豆A A品种品种2020荚,其中荚,其中三粒荚三粒荚1414荚,两粒以下荚荚,两粒以下荚 6 6荚,三粒荚百分荚,三粒荚百分率为率为0.700.70;B B品种品种2525荚,其中三粒荚荚,其中三粒荚7 7荚,两荚,两粒以下荚粒以下荚181
49、8荚,三粒荚百分率为荚,三粒荚百分率为0.467 0.467 。问。问两两 个个 大豆品种的三粒荚百分率差异是否显大豆品种的三粒荚百分率差异是否显著?著?由于本例由于本例 2020, 2525, 1414, 7 7 均大于均大于5 5,可以采用正,可以采用正态近似法,即态近似法,即u u检验法进行显著性检验,要回检验法进行显著性检验,要回答的问题是两个品种的三粒荚百分率差异是答的问题是两个品种的三粒荚百分率差异是否显著,故采用两尾否显著,故采用两尾u u检验;但由于小于检验;但由于小于3030,须对须对u u进行连续性矫正。进行连续性矫正。 检验步骤如下:检验步骤如下: 1 1、统计假设、统计
50、假设 H H0 0:;:;H HA A: 。2 2、计算值、计算值 因为因为 于是,于是, 3 3、统计推断、统计推断 由于计算所得的由于计算所得的 介于介于1.961.96与与2.582.58之之间,故间,故0.010.01p p0.050.05,否定,否定H H0 0:,两个:,两个大豆品种的三粒荚百分率差异显著,这里大豆品种的三粒荚百分率差异显著,这里表表现为现为A A品种的三粒荚百分率显著高于品种的三粒荚百分率显著高于B B品种品种。第五节参数的区间估计第五节参数的区间估计参数估计就是用样本统计数来估计总体参数估计就是用样本统计数来估计总体参数,有参数,有点估计点估计和和区间估计区间估
51、计之分。之分。 将样本统计数直接作为总体相应参数的将样本统计数直接作为总体相应参数的估计值叫点估计估计值叫点估计。点估计只给出了总体参数。点估计只给出了总体参数的估计值,没有考虑试验误差的影响,也没的估计值,没有考虑试验误差的影响,也没有指出估计的可靠程度。有指出估计的可靠程度。 区间估计是在一定概率保证下给出总体区间估计是在一定概率保证下给出总体参数的可能范围参数的可能范围 ,所给出的可能范围叫,所给出的可能范围叫置信置信区间区间 ,给出的概率保证称为,给出的概率保证称为置信度置信度或或置信概置信概率率 。 一、正态总体平均数的置信区间一、正态总体平均数的置信区间设有一来自正态总体的样本,包
52、含个观设有一来自正态总体的样本,包含个观测值,样本平均数,测值,样本平均数,标准误,总体平均数为。标准误,总体平均数为。 因为服从自由度为因为服从自由度为-1的分布,两尾概率为时,有:的分布,两尾概率为时,有:P(也就是说,也就是说, 在区间在区间 内取值的可内取值的可能性为能性为1- ,即:,即:对对 变形得:变形得:亦即亦即 ( 4-25( 4-25)式称为总体平均数)式称为总体平均数 置信度为置信度为1- 1- 的的置信区间置信区间, 称为称为置信半径置信半径; L L1 1 = = 和和L L2 2= = 分别称为分别称为置置信下限信下限和和置信上限置信上限; 置信上、下限之差称为置信
53、上、下限之差称为置信距置信距,置信距,置信距越小,估计的精确度越高。越小,估计的精确度越高。总体平均数的总体平均数的95%和和99%的置信的置信区间如下:区间如下: 【例例4 41111】 测得某高产测得某高产 、抗病小、抗病小麦品种的麦品种的8 8个千粒重,计算得千粒重平均数个千粒重,计算得千粒重平均数=45.2g=45.2g,标准误。试求该品,标准误。试求该品种小麦千粒重在置信度为种小麦千粒重在置信度为 9595 的置信区的置信区间。间。 查查 附附 表表 3 3 , 当当 dfdf = =(8-18-1)= 7 = 7 时,时,得,得, 故故9595的置信度区间为:的置信度区间为:(45
54、.245.245.245.22.3652.3652.3652.3650.580.580.580.58)g (45.2+2.365g (45.2+2.365g (45.2+2.365g (45.2+2.3650.58)g0.58)g0.58)g0.58)g 43.828g 46.572g43.828g 46.572g 说明说明置信度为置信度为9595时,该高产、抗病小麦时,该高产、抗病小麦品种的千粒重在品种的千粒重在43.82843.82846.572g46.572g之间之间。二、二项总体百分率二、二项总体百分率 的置信区间的置信区间 求总体百分率的置信区间有两种方法:求总体百分率的置信区间有两
55、种方法:正态近似法和查表法,这里仅介绍正态近似正态近似法和查表法,这里仅介绍正态近似法。法。 当当 ,p 时,总体百分率时,总体百分率p的的95%、99%置信区间为:置信区间为:其中,其中, 为样本百分率,为样本百分率, 为样本百为样本百分率标准误,分率标准误, 的计算公式为:的计算公式为: 【例例4 41212】 调查某品种水稻调查某品种水稻12001200株,受株,受二化螟危害的有二化螟危害的有200200株,即株,即 =200/1200=0.1667=200/1200=0.1667。试估计置信度为试估计置信度为95%95%的二化螟危害率的置信区间。的二化螟危害率的置信区间。 先计算样本百分率标准误先计算样本百分率标准误 ,得:,得: 置信下限置信下限L L1 1和置信上限和置信上限L L2 2为:为: L L1 1=0.1667=0.16671.961.960.0108=0.14550.0108=0.1455 L L2 2=0.1667+1.96=0.1667+1.960.0108=0.18790.0108=0.1879 即即水稻二化螟危害率的水稻二化螟危害率的95%95%置信区间为置信区间为14.55%14.55%18.79%18.79%。