随机数序列的统计检验之x 2检验论文摘要:本文主要介绍了随机数序列的一种统计检验方法一一卡方检验(X2检验) 文章对随机数的定义以及随机数序列的分类进行了说明介绍,并介绍了两种应用 最为广泛的X2拟合优度检验法进一步地介绍了 X2检验在农业及医学方面的应 用,并客观评价了 X 2检验方法的优劣性引言 关于随机数的研究,从很早以前就有以前对于随机数的产生基本都 是一些比较古老的方法,例如古人喝酒时玩的掷骰子的游戏,其实就是一个产生 随机数的过程直到现在,仍然有很多统计学者,在前人的基础上发展创新,致 力于随机数的产生及检验的研究在当下,随机数的应用范围更为广泛,不仅是 类似于古人掷骰子的购买彩票的研究,更是广泛地应用到医学、农业等各个领域 并且随着计算机的应用与发展,计算机模拟的技术也逐步被深入研究和广泛应用 利用计算机来产生随机数已经成为一个新的课题相比于之前,计算机产生的随 机数在均匀性和随机性方面都更好,且模拟处理的问题更为广泛随着随机数应 用范围的扩大,对于随机数的均匀性、独立性、随机性等的检验也不可或缺,只 有通过了检验的随机数才能有更广大的利用空间本文介绍的就是随机数序列统计检验的其中一种方法一一X 2检验。
一) 随机序列的定义及分类在介绍随机数序列的X2检验之前,在这里先介绍一下随机数序列的定义和 分类[2]在连续型随机变量的分布中,最简单而且最基本的分布是单位均匀分布由 该分布抽取的简单子样称随机数序列,其中每一个体称为随机数其分布密度函 数为:|1, 0 < x < 1f(x)To,其他分布函数为 :0, x < 0F (x) = < x, 0 < x < 11, x > 1随机数列可以分为三种不同的类型:真随机数列,准随机数列,伪随机数列真随机数数列是不可预计的,所以不可能重复产生两个相同的真随机数数列 真随机数只能用某些随机物理过程来产生,如放射性衰变等准随机数序列并不具有随机性质,仅仅是它用来处理问题时能够得到正确结 果准随机数的概念是来自如下的事实:对伪随机数来说,要实现其严格数学意 义上的随机性,在理论上是不可能的,在实际应用中也没有这个必要关键是要 保证“随机”数数列具有能产生出所需要的结果的必要特性伪随机数序列是我们通常在实际应用的,是通过某些数学公式计算而产生的 这样的伪随机数从数学意义上讲已经一点不是随机的了但是,只要伪随机数能 够通过随机数的一系列的统计检验,我们就可以把它当作真随机数而放心地使用 这样我们就可以很经济地、重复地产生出随机数。
二) X2拟合优度检验法X2检验的方法中,最简单也用得最为广泛的是X2拟合优度检验法[1]该方法可分为两种类型进行讨论:1.多项分布的X2检验设总体X是仅取k个可能值的离散型随机变量,设X的可能值为1,2,…,k,P(X = i) = p , i = 1,2,..., k,艺 p =1且 i i=1 1 又设(Xr X2,...Xn)是从总体X抽得的简单随机样本;NI表示样本观察值中取值为「的个数,即样本中出现事件(X = i)的频 数定理 1 当 H : p = p , i = 1,2,..., k(p已知)成 立时, 按0 i i0 i0X 2= K(N -np )2 十(np )规定的检验统计量 X2 — X2(k- 1),n Tai i ii=1则由定理1知,对给定的检验水平a,可以取临界值X 2( k -1),当a 咒2= 2L(N -np )2 十(np ) > % 2(k -1)时拒绝 Hi i i a 0i=12.分布中含有未知参数的X2检验在实际问题中,更常见的一类问题是要检验总体分布是否具有确定的类型, 即检验假设h : f(x)= f(x;o e,…,e),e e,…,e e©0 0 1, 2 m 1, 2 m其中函数F的形式已知,参数空间©也已知。
0把 实 轴 划 分 成 k 个 互 不 相 交 的 区 间A = (一® a ], A = (a ,a ],..., A = (a , +s),a ,a ,..., a 是视具体情况选取的 k-1 个1 1 2 1 2 k k -1 1 2 k实数,且记p = F (a ,...,0 ) - F (a ;0,...,0 ), i = 2,3,..., k -1i 0 i 1 m 0 i -1 1 m用N表示样本XX ,..., X中落在A内的个数i 1, 2, n i定理2若假设H成立,则按式£ 2 =K(N-np)2十(np )给出的检验统计量0 i i ii=1% 2 ——L—> % 2(k - m -1)n ns则按定理2知对给定的检验水平a,取临界值% 2(k -m -1),当分2 >a% 2(k - m -1) 时拒绝假设 H ,反之接受假设 H a 0 0这里需要注意的是X 2拟合优度检验法是在n充分大时推导出来的,所以在 使用是必须注意n要足够的大,以及np不太小这两个条件我们一般的要求是ni不小于50,并且每个np都不小于5 (最好是大于10)i对于随机数的X2检验,只用把p = p{c < x < d} = f 1dx带入公式即可。
ic(三) 卡方检验的应用及评价 关于随机数序列代表的实际意义,使用卡方检验的方法,在实际生活中有相 当广泛的应用,这里介绍的,是使用EXCEL软件建立卡方检验的一些应用,包括 在农业统计⑶和临床数据分析⑷等方面而Microsoft Excel软件具有易学、易 用、易懂的特性,并且还提供了很多基本和经典的统计分析方法可通过添加“分析工具库”后利用“工具”菜单的“数据分析”功能来实现,但没有提供现成的卡方检验在农业统计的遗传学分析中,常用X2来检验所得实际结果是否与孟 德尔遗传的分离比例相符,如检测其与某种理论比例的适合性,其X2值可以直接用如下简式求出,见表1表1 检验两组资料与某种理论比例符合度的X2值公式理论比例(显性:隐形)X2公式1:1((1 A - a 1) -1)2/n2:1((1 A - 2a 1) -1.5)2/2n3:1((| A-3a|)-2)2/3n15:1((| A-15a|)-8)2/15n9:7((|7A-9a|)-8)2/63n13:3((|3A-13a|)-8)2/63nr:1[(1 A一 ra 1) - (r +1)/2]2 /在农业统计中,X2检验还可用于独立性检验。
例如研究小麦种子灭菌和麦穗发 病两个变数之间是否独立若相互独立,表示种子灭菌和发病高低无关,灭菌处 理对发病无影响;若不相互独立,则表示种子灭菌和发病高低有关,灭菌处理对 发病有影响这主要是采用RxC表进行独立性检验计算常用的有2x2表、2x3 表和3x3表等,在这里就不做介绍了而X2检验在临床数据分析方面,只需在四格表内填入数字即可,操作方便快捷,可直接给出X2检验的统计量和P值虽然随机序列的卡方检验具有很广泛的应用,但是其依然具有片面性[5] 那 是因为现有随机性检测规范没有系统地讨论统计检验和随机本质的联系, 也没 有严格论证样本量和结论可信度的联系,使其可操作性不强,难以指导实际的安 全性评估工作,甚至有可能误导实际的测试工作所以我们还有待对卡方检验进行改进[6]在随机数的卡方检验的广泛应用上,可以看出来数理统计知识内容在生活和 生产中都有着极其广泛而重要的应用而关于卡方检验,其实关于它的所有知识 内容都是起步于对卡方分布的定义所以说,数学知识的内容都可以由浅入深逐 步扩展,有待我们所有的学者去探索和发展,不要止步于前人的经验和理论,探 索无极限参考文献[1] 朱燕堂,赵选民,徐伟.概率论与数理统计.西安:西北工业大学出版社,1997.8:140-142[2] 张咏.随机数发生器和随机数检验性能研究.电子科技大学,2006.1:11-15[3] 谭永强,余华强,陈桥生,刘莹.利用 EXCEL 软件建立卡方检验分析模版在农业统计 中的作用.湖北农业科学,49 卷 12 期 ,2010.12:[4] 冯松,郑斌.利用EXCEL进行卡方检验为临床数据分析提供支持,2011.9[5] 石竑松,张翀斌,杨永生,高金萍.随机性检测及其片面性.清华大学学报(自然科学版),51 卷 10 期,2011College of Appilied[6] DAI Jia Jia,YANG Ai JunA .Modified Chi-Squared Goodness-of-Fit TestSciences,Vol.29,No.1,2009.1。