统计学非参数假设检验.ppt

上传人:pu****.1 文档编号:570013189 上传时间:2024-08-01 格式:PPT 页数:24 大小:283KB
返回 下载 相关 举报
统计学非参数假设检验.ppt_第1页
第1页 / 共24页
统计学非参数假设检验.ppt_第2页
第2页 / 共24页
统计学非参数假设检验.ppt_第3页
第3页 / 共24页
统计学非参数假设检验.ppt_第4页
第4页 / 共24页
统计学非参数假设检验.ppt_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《统计学非参数假设检验.ppt》由会员分享,可在线阅读,更多相关《统计学非参数假设检验.ppt(24页珍藏版)》请在金锄头文库上搜索。

1、第六章第六章 非参数假设检验非参数假设检验 6.1 总体分布的非参数假设检验总体分布的非参数假设检验非参数假设检验(分布检验)所处理的问题是非参数假设检验(分布检验)所处理的问题是:(1)两个总体的分布未知,它们是否相同(用两组)两个总体的分布未知,它们是否相同(用两组样本来检验);样本来检验);(2)(由一组样本)猜出总体的分布(假设),然)(由一组样本)猜出总体的分布(假设),然后用(另一组)样本检验它是否正确。后用(另一组)样本检验它是否正确。 需要注意的问题是,两种分布是否相同,一般包需要注意的问题是,两种分布是否相同,一般包含了参数(均值、方差等)是否相同的问题。如果两含了参数(均值

2、、方差等)是否相同的问题。如果两个总体的分布函数形式相同,而参数不同,也将被判个总体的分布函数形式相同,而参数不同,也将被判别为概率分布不同。别为概率分布不同。 1、检验两个总体的分布是否相同:符号检验法(正负号个、检验两个总体的分布是否相同:符号检验法(正负号个数检验法)数检验法) 检验两个总体的分布是否相同的符号法又称正负号个数检验两个总体的分布是否相同的符号法又称正负号个数检验法。它所要处理的问题是:假设两个总体的分布检验法。它所要处理的问题是:假设两个总体的分布F(x)与与G(x)相同,用两个总体的容量相同的相同,用两个总体的容量相同的配对样本配对样本 x1,x2,, xn 与与y1,

3、y2, , yn 来检验它来检验它, 即检验假设即检验假设H0 : F(x) = G(x)是否成立是否成立 .设两个总体的样本相互独立设两个总体的样本相互独立, 当当 H0 : F(x) = G(x) 成立时成立时, 概概率率PXi Yi相同相同, i = 1,2, ,n.也就是说也就是说, 对于样本观测值而言对于样本观测值而言, xi - yi 0的个数的个数(记为记为n+), 应当与应当与xi - yi 0的个数记为的个数记为n+ , xi - yi 0的个数为的个数为n+ ” 的概率的概率: 这是一个二项分布这是一个二项分布, 记为记为 U B(m, p), 当当 xi - yi 0 时

4、时, Ui=1, 当当 xi - yi 0的个数为 r ”的概率为例的概率为例, , 对给定对给定的的 , , 在假设在假设p = 0.5 (H0假设假设)的前提下的前提下, 按照按照B(m, p) 的概的概率计算公式率计算公式, 对对 r 从小到大从小到大, 求累积概率求累积概率:(1) 小样本情况下小样本情况下, 正负号个数检验法的处理正负号个数检验法的处理确保确保k1的外侧概率小于等于的外侧概率小于等于 /2, /2, 从而求出从而求出k1. . 进而进而, , 在假设在假设p = 0.5 (H0假设假设) 的前提下的前提下, 按照按照B(m, p) 的概率计算公式的概率计算公式, 对对

5、 r 从小到大从小到大, 求累积概率求累积概率:确保确保 k2 的外侧概率小于等于的外侧概率小于等于 /2, /2, 从而求出从而求出k2 . . 如果实际的如果实际的“xi - yi 0的个数n+ ”在在( (k1 , ,k2) )中就中就接接受受H0 : : p = 0.5 ( 即即 F(x) = G(x) ), 否则拒绝否则拒绝H0 , ,认为认为p 0.5,即即 F(x) G(x) .(2) 大样本情况下大样本情况下, 正负号个数检验法的处理正负号个数检验法的处理在大在大样本情况下样本情况下( 即即 m p 10 ), 可以近似地用正态分可以近似地用正态分布来处理布来处理. 现在现在

6、p =0.5, 所以只要所以只要 m 20 即可即可. 用统计量用统计量:在在计算统计量计算统计量 Z 的值的值z 时时, 在式中要用在式中要用 u (即即n+ /m)代替代替U.于是于是, 我们又假设检验我们又假设检验: H0 : : p = 0.5 ( 即即 F(x) = G(x) ) H1 : : p 0.5 (即即 F(x) G(x) .对于显著性水平对于显著性水平 , 只要判断只要判断 | z |是否大于是否大于 z /2 ( 或者或者z的的显著性水平是否小于显著性水平是否小于 ), 就可以得出拒绝还是接受就可以得出拒绝还是接受H0: p = 0.5 ( 即即 F(x) = G(x)

7、 )了了. 是按照问题本身的属性,是按照问题本身的属性,“天然天然”配对的。也就是说,配对的。也就是说, 不能各自独立地颠倒顺序。不能各自独立地颠倒顺序。例:用两套问卷测量例:用两套问卷测量 20 个管理人员的素质,两套问卷的满个管理人员的素质,两套问卷的满分都是分都是200分,两套问卷测得的结果如表:分,两套问卷测得的结果如表:配对样本:配对样本:卷卷A147150152148155146149148151150卷卷B146151154147152147148146152150正负号检验的一个重要的前提是正负号检验的一个重要的前提是:样本:样本xi 或或 yi 不能各自独不能各自独立地颠倒顺

8、序。立地颠倒顺序。 卷卷A147148147150149149152147154153卷卷B146146148153147146148149152150例:用两套问卷测量例:用两套问卷测量 20 个管理人员的素质,两套问卷的个管理人员的素质,两套问卷的满分都是满分都是200分,测得结果如上表。问:两套问卷有无显分,测得结果如上表。问:两套问卷有无显著性差异(本质是两套问卷的结果的分布是否相同)?著性差异(本质是两套问卷的结果的分布是否相同)?解:依据关于正负号的二项分布解:依据关于正负号的二项分布B(m,p)来检验来检验 p 是是否为否为0.5 , 即即 H0 : : p = 0.5 ( 即即

9、 F(x) = G(x) ) H1 : : p 0.5 ( 即即 F(x) G(x) ) .如果接受如果接受 p = 0.5 的假设的假设, 就接受就接受F(x) = G(x)的假设的假设, 否否则就拒绝则就拒绝F(x) = G(x)的假设的假设. 这种解决问题的思路是这种解决问题的思路是: 把非参数检验的问题转化为参把非参数检验的问题转化为参数检验问题来处理数检验问题来处理. 根据上表根据上表, 算得正负号如下表算得正负号如下表:+-+-+-0+-+-+ 此时此时, 正负号的个数正负号的个数 m =19, 所要检验的参数所要检验的参数 p =0.5 , m p 10,我们这里按大样本类型来处

10、理我们这里按大样本类型来处理. 统计出正号的个数统计出正号的个数 n+ =12 . 设定随机变量设定随机变量 U , 若若xi - yi 0出现出现, 令令U = 1 , 若若xi - yi 0出现出现, 令令 U = 0 . 于是可以计算出于是可以计算出 z 统计量的值如下统计量的值如下:正负号检验法在下面问题中常见到应用正负号检验法在下面问题中常见到应用: 如如,消费者对两消费者对两种包装的评分种包装的评分, 或对两种产品品牌的评分或对两种产品品牌的评分; 学生对两门不学生对两门不同课程的成绩的反映同课程的成绩的反映 ( 评分评分 ), 企业对两种政策的反映企业对两种政策的反映(评评分分)

11、等等等等, 都存在两个总体的分布是否相同的检验问题都存在两个总体的分布是否相同的检验问题.若取若取 =0.05, 查表得查表得z /2=1.96, 有有-1.96 = - z /2 z =1.1473 z /2 = 1.96, 故故接受接受 H0 : : p = 0.5 , 即即 接受接受 F(x) = G(x), 也就是两套问卷的结果的分布是相同的也就是两套问卷的结果的分布是相同的.但有些问题是不适宜使用正负号检验法但有些问题是不适宜使用正负号检验法-“独立样本独立样本”的问题的问题. 如下例子如下例子。例例: 用两种激励方法用两种激励方法, 分别对同样工种的两个班组分别对同样工种的两个班组

12、(每个每个班组班组 7 个人个人)进行激励进行激励, 测得激励后业绩增长测得激励后业绩增长 (%), 数据如数据如表表:激励法激励法 A16.1017.0016.8016.5017.5018.0017.20激励法激励法 B17.0016.4015.8016.4016.0017.1016.90两种激励法分别实施于不同组工人的效果两种激励法分别实施于不同组工人的效果问问: 两种激励法的效果有无显著性差异两种激励法的效果有无显著性差异(两种激励方法两种激励方法的总体分布是否相同的总体分布是否相同)?该该检验问题可以用参数检验的方法来检验两种激励方检验问题可以用参数检验的方法来检验两种激励方法的平均效

13、果有无显著性差异法的平均效果有无显著性差异.2. 检验两个总体的分布是否相同的另一种方法检验两个总体的分布是否相同的另一种方法: Wilcoxon 秩和秩和检验法检验法 (序号和检验法序号和检验法) 设有两个总体的样本观测值设有两个总体的样本观测值 x1,x2,xn 与y1,y2 ,,ym , 可能可能 m n . 两组样本是可以各自独立颠倒两组样本是可以各自独立颠倒顺序的顺序的. 不妨设不妨设 n m , 把两组样本放在一起把两组样本放在一起, 按样本观测值的大按样本观测值的大小重新排序小重新排序, 那么每个观测值就有一个序号那么每个观测值就有一个序号, 称为称为秩秩. 把把样本个数少的这组

14、样本样本个数少的这组样本x1,x2,xn的序号的序号(秩秩) 加总起加总起来来, 记为记为 W . 如果两个总体的分布相同如果两个总体的分布相同, 那么样本那么样本x1,x2,xn与与y1,y2 ,,ym 应当是均匀混合的应当是均匀混合的, 也就是说也就是说, W 不能太小不能太小, 也不能太大也不能太大. W 太小太小, 说明样本说明样本x1,x2,xn较多地集中在左段较多地集中在左段. W 太大太大, 说明样本说明样本 x1,x2,xn 较多地集中在右段较多地集中在右段. 由于由于n m , W 应当比另一组样本的序号之和小一些应当比另一组样本的序号之和小一些. 也就是说也就是说, W应当

15、在某两个数字之间应当在某两个数字之间: W1 W W2. W1 , W2是由是由 n, m, (显著性水平显著性水平)所决定的所决定的. 威尔可逊威尔可逊 ( Wilcoxon ) 给出了给出了 W 的概率分布表的概率分布表, 对于给对于给定的显著性水平定的显著性水平 , 可以由威尔可逊概率分布表可以由威尔可逊概率分布表, 依据依据n, m, 查出查出 W1 , W2 . 若若W W1 或或 W W2 , 则拒绝则拒绝H0: : F(x) = G(x) (认为两认为两个总体分布不同个总体分布不同) 反之反之, 若若W1 W W2 , 则接受则接受H0: : F(x) = G(x) (认为两认为

16、两个总体分布相同个总体分布相同).3. 检验两个总体的分布是否相同的第三种方法检验两个总体的分布是否相同的第三种方法: Mann-Whitney 秩和秩和检验法检验法 ( 序号和检验法序号和检验法 )问题问题: 有两个总体的样本观测值有两个总体的样本观测值 x1,x2,xn 与y1,y2 ,ym , 可能可能m n . 两组样本是可以各自独立颠倒顺两组样本是可以各自独立颠倒顺序的序的. 检验这两组样本是否来自同一个总体检验这两组样本是否来自同一个总体 (或两组样本或两组样本的总体分布是否相同的总体分布是否相同). 同样同样, 把两组样本放在一起把两组样本放在一起, 按样本观测值的大小重新按样本

17、观测值的大小重新排序排序, 那么每个观测值就有一个序号那么每个观测值就有一个序号( 秩秩 ). 把第一组样本把第一组样本x1,x2,xn的序号的序号(秩秩) 加总起来加总起来, 记为记为 w1 .把第二组把第二组样本样本y1,y2 ,,ym的序号的序号(秩秩) 加总起来加总起来, 记为记为 w2 .Mann-Whitney U检验的统计量是检验的统计量是: U = min U1, U2 式中式中:对给定 , 查U 值表, 得 U. 若U U , 则总体分布相同.注意注意: 方法方法 (1), (2), (3) 是两个总体分布的比较是两个总体分布的比较, 与分布与分布的具体形式无关的具体形式无关

18、, 所以所以, 理论上可以用来检验两个任意形理论上可以用来检验两个任意形式的分布是否相同式的分布是否相同. 6.2 一个总体分布的非参数假设检验一个总体分布的非参数假设检验1、检验总体分布是否与猜想的分布、检验总体分布是否与猜想的分布 F(x) 相同相同: 拟合优度拟合优度 2 检验法检验法问题问题: 假设假设(猜测猜测)总体的概率密度函数为总体的概率密度函数为 f (x) ( 若总若总体为离散型体为离散型, 则假设总体的概率分布列为则假设总体的概率分布列为 P X = xi= Pi ), 用一组样本用一组样本 x1,x2,xn来检验假设是否成立来检验假设是否成立.作法作法: (1) 零假设零

19、假设H0 :总体的累积概率分布函数为总体的累积概率分布函数为 F(x) , 备择假设备择假设H1 :总体的累积概率分布函数不是总体的累积概率分布函数不是 F(x). (2) 在在数轴上选取数轴上选取 k-1 个分点个分点 t1,t2, t k-1 , 将数将数轴上分为轴上分为 k 个区间个区间(可以是不等区间可以是不等区间): 对随机变量取值数轴的分割对随机变量取值数轴的分割 t1t2tk-1,记记 pi为总体在第为总体在第 i 个区间上的概率值个区间上的概率值, 则有则有p1 = P (X t1) = F(t1)p2 = P (t1 X t2) = F(t2) - F(t1) pk-1 =

20、P (tk-2 tk-1) =1 - F(tk-1) 记记 ni 为为样本样本 x1,x2,xn 中落在区间中落在区间 i 中的个数(频中的个数(频次或频数),那么,频率次或频数),那么,频率ni /n (n 至少为至少为50, 最好最好100 以以上)与概率上)与概率 pi 之差应当很小,否则就应当拒绝假设之差应当很小,否则就应当拒绝假设H0 (总总体的累积概率分布函数为体的累积概率分布函数为 F(x) ).可以证明可以证明 (K. Pearson), 在在 H0 成立的条件下成立的条件下, 统计量统计量:服从服从 2(k-1-r) 分布分布, 其中其中 r 是总体中未知参数的个数是总体中未

21、知参数的个数. 在计算在计算 2 时时, 由于式中的由于式中的 pi 可用可用 (如如, 极大似然估极大似然估计量计量) 代替代替. 为了计算为了计算 , 常常需要用样本估计总体的某常常需要用样本估计总体的某些参数些参数, 例如例如, 假设总体服从正态分布假设总体服从正态分布, 就需要用样本估就需要用样本估计总体的均值与方差计总体的均值与方差, 有了这两个参数有了这两个参数, 就可以计算出各就可以计算出各个区间的概率个区间的概率 . 这里估计了总体的这里估计了总体的 2 个未知参数个未知参数, 所以所以 r 为为 2 , 相应的相应的 pi 分布的自由度就是分布的自由度就是 k-3. Pear

22、son 的的 2 公式公式, 也可以理解为也可以理解为(3) 对于给定的显著性水平对于给定的显著性水平 , 可由可由 2(k-1-r) 分布表分布表, 查查出临界值出临界值 2 . (4) 若有样本计算出来的若有样本计算出来的 2 2 (意味着意味着 2的分子大的分子大, 即即频率频率ni /n与与概率概率 pi 之差大之差大), 故拒绝故拒绝H0 , 否则接受否则接受H0 . 式中式中, ni 为为样本落在区间样本落在区间i 的频次的频次, ei 为样本落在区间为样本落在区间 i 的的“理想理想(预期预期)”频次频次, 也就是也就是: 由总体分布的概率计算出由总体分布的概率计算出来的频次来的

23、频次 npi . n为样本总数为样本总数. 如果理想分布如果理想分布 (总体的分布总体的分布) 为均匀分布为均匀分布, 可直接算可直接算出每个区间出每个区间(种类种类)理想的频次理想的频次 k/n, 由于由于n是是k 个类别个类别(每个每个类别可以理解为一个变量类别可以理解为一个变量) 取值之和取值之和, 把把 n 投入运算投入运算, 就就要减要减少一个自由度少一个自由度, 所以相应的所以相应的 2分布的自由度就是分布的自由度就是 k-1. 如果理想分布是其他需要估计参数的分布如果理想分布是其他需要估计参数的分布, 在用样在用样本计算总体参数的估计值时本计算总体参数的估计值时, 还要减少自由度

24、还要减少自由度, 如果有如果有 r 个参数个参数, 就要再减少就要再减少 r , 所以所以, 2 统计量的自由度是统计量的自由度是 k-1-r . 例例: 六个企业生产汽车六个企业生产汽车, (在一次观测中在一次观测中, 观测到观测到)每小时的每小时的产量如表所示产量如表所示:企业企业企业企业A企业企业B企业企业C企业企业D企业企业E企业企业F合计合计产量产量/小小时时416645564943300六个六个汽车厂家每小时的产量汽车厂家每小时的产量问问: 这些企业的生产能力这些企业的生产能力, 有无显著性差异有无显著性差异?解解: 记记 pi = P( X =i), i =1,2,3,4,5,6

25、. 如果这六个厂的生产能力如果这六个厂的生产能力都相同都相同, X 就应当服从均匀分布就应当服从均匀分布, 即即, 所有所有 pi 的都相等的都相等. 于于是是,我们有如下假设我们有如下假设: 零假设零假设H0 : pi = p , (即六个企业的生产能力服从均匀分布即六个企业的生产能力服从均匀分布) 备择假设备择假设H1 :六个企业的生产能力六个企业的生产能力 pi不全相等不全相等. 按照零假设按照零假设, 应有应有pi =1/6 . 本问题的本问题的 n =300 (总样本个数总样本个数). 于是于是, 我们可以算出各个企业我们可以算出各个企业 ( 1小时内小时内) 生产的汽车的生产的汽车

26、的理想数量理想数量, 即即, 理想的频次理想的频次 (由总体均匀分布计算出来的频由总体均匀分布计算出来的频次次). 理想频次都等于理想频次都等于 300 1/6 = 50 (每个厂家每小时生产每个厂家每小时生产的车辆数都相同的车辆数都相同). 按照公式按照公式: 先在表上先在表上计算计算 ni ei (见表见表), 然后然后, 再计算再计算 2 统计量的统计量的值值.可以计算出可以计算出: 2 = 8.96, 取显著性水平取显著性水平 为为0.05 , 查自由度为查自由度为5 的的 2 表表, 得得 2 = 11.0705, 2 2 , 所以所以, 接受零假设接受零假设, 这这六个企业生产能力

27、是相同的六个企业生产能力是相同的.企业企业企业企业A企业企业B企业企业C企业企业D企业企业E企业企业F合计合计产量产量 ni416645564943300理想产量理想产量ei=pi n50505050,5050ni - ei-916-56-1-7 2 统计量的计算统计量的计算2、检验总体分布是否与猜想的分布、检验总体分布是否与猜想的分布 F(x) 相同相同: 拟合优度拟合优度 k - s 检验法检验法 k - s 检验法是柯尔莫哥洛夫检验法是柯尔莫哥洛夫 (Kolmogorov) 斯米尔诺斯米尔诺夫夫(Smirnov)检验法的简称检验法的简称. 问题是问题是: 用一组样本用一组样本 x1,x2

28、,xn来检验关于某个来检验关于某个总体分布总体分布 F(x) 的假设是否成立的假设是否成立. 也就是说也就是说, 所假设的所假设的 F(x) 是一个已知的函数是一个已知的函数. 零假设零假设H0 :总体的累积概率分布函数为总体的累积概率分布函数为 F(x) , 备择假设备择假设H1 :总体的累积概率分布函数不是总体的累积概率分布函数不是 F(x). k s 检验法的基本思想是检验法的基本思想是:(1) 把不重复的样本观测值从小到大排列把不重复的样本观测值从小到大排列, 依据不重复依据不重复的样本观测值的频率的样本观测值的频率, 建立一个样本累积频率函数建立一个样本累积频率函数 Fn(x). F

29、n(x)是一个阶跃函数是一个阶跃函数.(2) 对于任何确定的对于任何确定的 n , 定义定义 D(n) 统计量统计量:(3) 对于任何确定的对于任何确定的 n , 统计量统计量 D(n) n 的的(累积累积)概率分概率分布函数为布函数为 PD(n) n , 记为记为 Q( , n).柯尔莫哥洛夫柯尔莫哥洛夫 (Kolmogorov) 和和 斯米尔诺夫求出了统计量斯米尔诺夫求出了统计量 D(n) n 的累积概率的极限分布的累积概率的极限分布Q( ), 并给出了并给出了Q( )的的概率表格概率表格 (不同的不同的 值及所对应的概率值及所对应的概率Q( )的值的值).于是于是, 对给定的对给定的 , 通过表中通过表中Q( ) 列列 (Q( )列的值列的值, 即即1- 的的值值), 查出查出1- , 对应地找到对应地找到 值值 (即即 的值的值 , 它表明它表明 处处的外侧概率为的外侧概率为 ). 对于计算出来的统计量对于计算出来的统计量 D(n) n 的值的值 d(n) n . 若若: d(n) n , 则则接受接受H0 :总体的累积概率分布函数为总体的累积概率分布函数为 F(x) .d(n) n , 则拒绝则拒绝H0 :总体的累积概率分布函数不是总体的累积概率分布函数不是 F(x).

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号