研九讲非参数假设检验1

上传人:宝路 文档编号:48257901 上传时间:2018-07-12 格式:PPT 页数:45 大小:1.24MB
返回 下载 相关 举报
研九讲非参数假设检验1_第1页
第1页 / 共45页
研九讲非参数假设检验1_第2页
第2页 / 共45页
研九讲非参数假设检验1_第3页
第3页 / 共45页
研九讲非参数假设检验1_第4页
第4页 / 共45页
研九讲非参数假设检验1_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《研九讲非参数假设检验1》由会员分享,可在线阅读,更多相关《研九讲非参数假设检验1(45页珍藏版)》请在金锄头文库上搜索。

1、3.5.2 非参数假设检验在实际问题中,有时会遇到不知道总体服从什么分布的情况。这时需要对总体分布进行假设检验。这种假设检验不是对参数的,称为非参数的假设检验。非参数的假设检验的方法很多,下面我们只介绍两种一、皮尔逊 拟合优度检验二、柯尔莫哥洛夫检验法在前面的课程中,我们已经了解了假设检验的基本思想,并讨论了当总体分布为正态时,关于其 中未知参数的假设检验问题 . 然而可能遇到这样的情形,总体服从何种理论分布并不知道,要求我们直接对总体分布提出 一个假设 .一 皮尔逊 拟合优度检验例如,从1500到1931年的432年间,每年爆发战 争的次数可以看作一个随机变量,椐统计,这432年 间共爆发了

2、299次战争,具体数据如下:战争次数X 0 1 2 3 4223 142 48 15 4 发生 X次战争的年数在概率论中,大家对泊松分布产生的一般条件已有所了解,容易想到,每年爆发战争的次数,可 以用一个泊松随机变量来近似描述 . 也就是说,我 们可以假设每年爆发战争次数分布X近似泊松分布.上面的数据能否证实X 具有 泊松分布的假设是正确的?现在的问题是:又如,某钟表厂对生产的钟进 行精确性检查,抽取100个钟作 试验,拨准后隔24小时以后进行检查,将每个钟的误差(快 或慢)按秒记录下来.问该厂生产的钟的误差 是否服从正态分布?再如,某工厂制造一批骰子,声 称它是均匀的.为检验骰子是否均匀,要

3、把骰子实地投掷若干次 ,统计各点出现的频率与1/6的差距.也就是说,在投掷中,出现1点 ,2点,6点的概率都应是 1/6.得到的数据能否说明“骰子均匀”的假设是可信的?问题是:K.皮尔逊这是一项很重要的工作,不少人把 它视为近代统计学的开端.解决这类问题的工具是英国统计学家K.皮尔 逊在1900年发表的一篇文章中引进的所谓 检 验法.检验法是在总体X 的分布未知时,根据来自总体的样本,检验关于总体分布 的假设的一种检验方法. 本节我们将介绍拟合检验法H0:总体X的分布函数为F(x) H1:总体X的分布函数不是F(x) 然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决定是否接受原假设.

4、 使用 对总体分布进行检验时,我们先提出原假设:检验法这种检验通常称作拟合优度检验,它是一种非参数假设检验.拟合优度检验在用 检验假设H0时,若在H0下分布类型已知,但其参数未知,这时需要先用极大似然 估计法估计参数,然后作检验. 检验法分布拟合的 的基本原理和步骤如下:检验法我们只介绍理论分布类型完全已知的情况(1)将n个样本值按大小顺序排列,取将a,b并等分成k个小区间(每个小区间内的样本点数不要小于5个),用 表示第i个小区间 上样本点的个数. 为频率原假设:fi 称为实测频数. ,画出频率的直方图,从直方图估 出总体X的分布,定出总体X的分布函数设 在H0成立的条件下,有研究 与 的差

5、异程度。或者说 与 的差异程度。标志着经验分布与理论分布之间的差异的大小.皮尔逊引进如下统计量表示经验分布与理论分布之间的差异:统计量 的分布是什么?在理论分布 已知的条件下, npi是常量实测频数理论频数2.根据所假设的理论分布,可以算出总体X的值落入每个Ai的概率 pi , 于是npi就是落入Ai的样本值的理论频数皮尔逊证明了如下定理:若原假设中的理论分布F(x)已经完全给定,那么当 时,统计量的分布渐近(k-1)个自由度的 分布.如果理论分布F(x)中有r个未知参数需用相应的估计量来代替,那么当 时,统计量 的分 布渐近 (k-r-1)个自由度的 分布.为了便于理解,我们对定理作一点直观

6、的说明.是k个近似正态的变量的平方和.这些变量之间存在着一个制约关系:故统计量 渐近(k-1)个自由度的 分布.在理论分布F(x)完全给定的情况下,每个pi 都是确 定的常数. 由棣莫佛拉普拉斯中心极限定理,当n 充分大时,实测频数 fi 渐近正态,因此在F(x)尚未完全给定的情况下,每个未知参数用相应的估计量代替,就相当于增加一个制约条件,因此,自由度也随之减少一个.若有r个未知参数需用相应的估计量来代替,自由度就减少r个.此时统计量 渐近(k-r-1)个自由度的 分布.根据这个定理,对给定的显著性水平 ,查 分布表可得临界值,使得如果根据所给的样本值 X1,X2, ,Xn算得统计量 的实测

7、值落入拒绝域,则拒绝原假设,否则就认为差 异不显著而接受原假设.得拒绝域:(不需估计参数)(估计r 个参数)皮尔逊定理是在n无限增大时推导出来的,因而 在使用时要注意 n要足够大,以及npi 不太小这两个 条件.根据计算实践,要求n不小于50,以及npi 都不 小于 5. 否则应适当合并区间,使npi满足这个要求 .让我们回到开始的一个例子,检验每年爆发 战争次数分布是否服从泊松分布.将有关计算结果列表如下:按参数为0.69的泊松分布,计算事件X=i 的概率pi , pi的估计是,i=0,1,2,3,4提出假设H0: X服从参数为 的泊松分布根据观察结果,得参数 的极大似然估计为x 0 1 2

8、 3 4 fi 223 142 48 15 40.58 0.31 0.18 0.01 0.02 n 216.7 149.5 51.6 12.0 2.16 0.1830.376 0.251 1.623战争次数 实测频数14.162.43因H0所假设的理论分布中有一个未知参数(?),故自由度为4-1-1=2.将n 5 的组予以合并,即将发生3次及4次战争的组归并为一组.故认为每年发生战争的次数X服从参数为 0.69的泊松分布.按 =0.05,自由度为4-1-1=2查 分布表得=5.991=2.435.991,由于统计量的实测值未落入否定域.奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验, 并

9、根据试验结果,运用他的数理知识, 发现了遗传的基本规律.在此,我们以遗传学上的一项伟大发现为例,说明统计方法在研究自然界和人类社会的规律性时,是起着积极的、主动的作用.孟德尔子二代子一代黄色纯系绿色纯系他的一组观察结果为:黄70,绿27近似为2.59:1,与理论值相近.根据他的理论,子二代中, 黄、绿之比 近似为3:1,由于随机性,观察结果与3:1总有些差距,因此有必要去考察某一大小的差异是否已构成否定3:1理论的充分根据,这就是如下的检验问题.这里,n=70+27=97, k=2,检验孟德尔的3:1理论:提出假设H0: p1=3/4, p2=1/4理论频数为: np1=72.75, np2=

10、24.25实测频数为70,27.由于统计量的实测值统计量自由度为 k-1=1=0.41583.841,按 =0.05,自由度为1,查 分布表得=3.841未落入否定域.故认为试验结果符合孟德尔的3:1理论.这些试验及其它一些试验,都显 示孟德尔的3: 1理论与实际是符合的. 这本身就是统计方法在科学中的一项 重要应用.用于客观地评价理论上的某个结论是否与观察结果相符,以作为该理论是否站得住脚的印证.3.5.2皮尔逊 拟合优度检验(二)理论分布带参数的情况在许多实际问题中,理论分布常常只是类型已知,但其中含有若干个未知参数。例如,这 时检验问题为分别为当H。成立时未知参数的点估计,记计算得到Pe

11、arson统计量RAFisher证明了对满足一定条件的点估计上述统计量 的极限分布为于是H。的否定域为由于按Fisher的条件去求点估计量往需要用数值方法求解。为此,在实际应用当中,常用很麻烦,往的极大似然估计代替这时统计量的极限分布不一定是这时仍取作为H。的否定域。现在我们以X为一维为例把Pearson 检验的具体做法归纳如下:(1)将总体X的值域(-,)划分为 个互不相交的区间 的大小和作直方图时一致,但注意使 每个 或 不能太小,一般不要小于5(2)在H。成立之下,求出未知参数的极大似然估计;(3)在H。 成立的条件下,计算 或 之值;(4)算出 中样本值的个数,并计算Pearson统计

12、量的值 ;(5)查 分布表,找出 或 (vi)若 或 则拒绝H。,否则接受H。例3.161991年某校工科研究生有60名以数理统计作为学位课,考试成绩如下:93 75 83 93 91 85 84 82 77 76 77 95 9489 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 8078 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55试问考试成绩是否服从正态分布解:设X为考试成绩,其分布函数为F(x),则检验问题为我们知道

13、成绩分不及格(60以下),及格(6070),中(7080),良(8090),优(90以上)故我们取 它们将实轴分成5个互不相交的区间,从而将样本分成5组 。在H。成立的条件下,参数 的极大似然估计为计算表示 服从正太分布因为所以我们把第一、二个区间合并成一个,这样共有4个不相交的区间,相应的样本分成4组,并列表查附表4得故接受H。认为考试成绩服从正态分布。 三 方法用于检验独立性每个人按其是否吸烟可分成两类,按其是否患有某种疾病也可分成两类。如要研究在某个行业工作的人中,吸烟与患肺癌是否有关,则可从这一群人中随机抽取若干个,一一记录其是否吸烟和是否患肺癌,用所得资料去进行统计分析。这类问题在应用上很常见,理论模型是:设随机向量(X,Y),X的可能取值是1,2,.,r,Y的可能取值是1,2,.,s.现在对(X,Y) 进行了n次独立观察,发现“X=i,Y=j”的次数为 ,要据此检验这个假设。若记F(x,y)为(X,Y)的联合分布函数, 为X的分布函数, 为Y的分布函数,则X与Y独立,就是对任意实数(x,y)有在这种问题中,常把数据排列为如下表这种表称为列联表(Contingency Table).表中如果独立性成立,则对一切i和j,有因此检验问题变成如果 已知,则我们可以按Pearson 统计量的建立方法,令 则由Pearson的结论知 以

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号