K-S分布检验和拟合优度χ2检验资料讲解

上传人:go****e 文档编号:137398171 上传时间:2020-07-08 格式:PPT 页数:44 大小:399KB
返回 下载 相关 举报
K-S分布检验和拟合优度χ2检验资料讲解_第1页
第1页 / 共44页
K-S分布检验和拟合优度χ2检验资料讲解_第2页
第2页 / 共44页
K-S分布检验和拟合优度χ2检验资料讲解_第3页
第3页 / 共44页
K-S分布检验和拟合优度χ2检验资料讲解_第4页
第4页 / 共44页
K-S分布检验和拟合优度χ2检验资料讲解_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《K-S分布检验和拟合优度χ2检验资料讲解》由会员分享,可在线阅读,更多相关《K-S分布检验和拟合优度χ2检验资料讲解(44页珍藏版)》请在金锄头文库上搜索。

1、,第八章 分布检验和拟合优度2检验,第八章 分布检验和拟合优度2检验,Kolmogorov-Smirnov 单样本检验及一些正态性检验,1,2,3,5,Kolmogorov-Smirnov 两样本分布检验,Pearson 2 拟合优度检验,第一节 KS单样本分布检验,一、适用范围 Kolmogorov-Smirnov检验常译为柯尔莫哥洛夫-斯米尔诺夫检验,简写为K-S检验,亦称D检验法,也是一种拟合优度检验法。K-S单样本检验主要用来检验一组样本数据的实际分布是否与某一指定的理论分布相符合。 二、基本原理和方法 1、基本原理: 这种检验主要是将理论分布下的累计频数分布与观察到的累计频数分布相比

2、较,找出它们间最大的差异点,并参照抽样分布,定出这样大的差异是否处于偶然。,2、方法,用 Fn(x)表示样本量为n的随机样本观察值的累计分布函数,且Fn(x) =i/n(i是等于或小于x的所有观察结果的数目,i=1,2,n)。F(x)表示理论分布的累计概率分布函数。K-S单样本检验通过样本的累计分布函数Fn(x)和理论分布函数F(x)的比较来做拟合优度检验。检验统计量是F(x)与Fn(x)间的最大偏差Dn: 若对每一个x值来说,Fn(x)与F(x)都十分接近,则表明实际样本的分布函数与理论分布函数的拟合程度很高。,三、检验步骤,1.建立假设组: H0:Fn(x)=F(x) H1:Fn(x)F(

3、x) 2.计算样本累计频率与理论分布累计概率的绝对差,令最大的绝对差为Dn; 3.用样本容量n和显著水平a在附表11中查出临界值Dna; 4.通过Dn与Dna的比较做出判断,若DnDna,则认为拟合是满意的。,四、实例,例8.1:正态拟合。 某织布厂工人执行的生产定额(织机每小时生产织物的米物)情况如表8-1,试检验这些样本数据能否作正态拟合? 表8-1 工人执行生产定额情况分组表,例8.1 正态拟合,解:首先,由于做正态拟合的均值、标准差未知,因此,先计算样本均值和标准差,再做正态拟合。通过对样本资料的计算得: =4.85;s=0.352,分别作为和的估计值,建立假设: H0:样本数据服从均

4、值为4.85,标准差为0.352的正态分布 H1:样本数据不服从均值为4.85,标准差为0.352的正态分布 计算资料列如表8-2:,表8-2,表8-2 正态拟合计算表,例8.1,根据表8-2中第(5)列数据,取最大绝对差数1ooo =0.025作为检验统计量。若取a=0.05,n=1000,从临界值表中查(检验表K-S)得: 。 因为1ooo0.043,故认为样本数据所提供的信息无法拒绝H0,即接受H0,认为可做正态分布的拟合。 检验法是一种精确分布的方法,不受观察次数多少的限制。这个方法可应用于分组或不分组的情形。检验量Dn也可用于检验随机样本是否抽自某特定的总体的问题。,第二节 K-S双

5、样本分布检验,一、适用范围 K-S双样本检验主要用来检验两个独立样本是否来自同一总体(或两样本的总体分布是否相同)。其单尾检验主要用来检验某一样本的总体值是否随机地大于(或小于)另一样本的总体值。 二、理论依据和方法 1、理论依据: 与K-S单样本检验相似,K-S双样本检验是通过两个样本的累计频数分布是否相当接近来判断Ho是否为真。如果两个样本间的累计概率分布的离差很大,这就意味着两样本来自不同的总体,就应拒绝Ho。,2、方法,如果令S1(x)表示第一个样本观察值的累计概率分布函数,S2(x)表示另一个样本观察值的累计概率分布函数,那么K-S双样本的单尾检验统计量为: K-S双样本的双尾检验统

6、计量为:,三、检验步骤,1、双尾检验假设:H0:S1(x)=S2(x) H1:S1(x)S2(x) 单尾检验假设: H0:S1(x)=S2(x)或H0:S1(x)=S2(x) H1:S1(x)S2(x) H1:S1(x)S2(x) 2、把两组样本分别排成累计频数分布(对两个分布用相同的间隔或分类,并利用尽可能多的间隔。 3、计算检验统计量D值,如是单尾检验,应按H1的方向计算D值。,三、检验步骤,4、显著性检验: 小样本情况下,及n1= n2=n,n30,用附表12。对于单尾检验和双尾检验,该表列出了不同显著性水平下的临界值。 大样本情况下,n1不一定等于n2,但都小于40的双尾检验,可用附表

7、12续表中的公式算出D的临界值。 当 n1和n2都较大,但又是单尾检验时,用算式,四、实例,例8.2(小样本)检验两矿的金属含量率是否相同。在甲、乙两矿坑中各抽取10个矿石样本,矿石中含有某种金属含量率(%)的资料如表8-3所示: 表7-3 解:这是一个双样本的K-S检验,根据题意,建立双侧检验假设组:,四、实例,1、列等距分组表,计算各组次数f甲、f乙 ,累计次数F甲、F乙,累计频率 、 及其差额。计算结果列如表8-4所示。 表7-4 例7.2的计算表,四、实例,2、确定检验统计量: 本例 D=5/10 3、检验与判断。由于n1=n2=10,属小样本,查附表12得临界值0.05=7/10,因

8、为D=5/107/10,所以接受Ho假设,认为两矿的金属含量率相同。 当样本容量较大时,一般当n1+ n235时,可用附表12续表中的公式计算临界值,只有当样本容量相当大时,检验统计量 才渐进服从自由度为2的2分布,此时可用2分布表查得临界值。,四、实例,例8.3(大样本) 用识别卡片的方法对98名男生进行智力测验。54名男生学习成绩高于中位数为第一组(n1=54),44名男生学习成绩低于中位数为第二组(n2=44),能否认为高分组的智力高于低分组? 表7-5,例8.3,解:这是双侧检验,建立双侧假设组: Ho:两组“认出”的卡片数相同; H1:两组“认出”的卡片数不同。 比较离差大小,得最大

9、离差: D=Max|1(x)-2(x)|=0.406 已知 n1=54,n2=44,都大于40,当=0.05时,进行双尾检验的临界值为 因为D=0.406Da,因此在0.05的显著性水平下拒绝Ho,即。两组学生的智力不相同。,例8.3,如建立单尾检验假设组: Ho:两组“认出”的卡片数相同; H1:高分组“认出”的卡片数多于低分组。 根据表8-5的数据计算得: D=Max1(x)-2(x)=-0.406 由于是大样本,故计算卡方统计量: 当=0.05,df=2时,查得临界值C=5.991。因X2=15.986C,故在5%的显著性水平下拒绝Ho,即高分组的学生智力显著高于低分组的学生。,第三节

10、卡方(2)拟合优度检验,一、什么是卡方(2)拟合优度检验 人们通常关心随机变量的概率分布,如:“随机变量服从参数为n=10和p=2的二项分布”,这样的命题假设可以用“拟合优度检验”来检验。即设计一个检验来比较从假设的分布中抽取的样本,看所假设的分布函数与样本数据是否“拟合”。 所以,拟合检验就是检验抽取样本的总体分布与某种特定分布的符合程度,也就是检验观察值与理论数之间的紧密程度。以2分布为依据的这种检验,称为2拟合优度检验,英国统计学家Pearson(皮尔逊)于1900年首先提出了卡方统计量。 1、数据:由随机变量X的N个观测组成。这N个观测可划分为k类,即把X的样本空间S划分成k个互不相交

11、的部分S1,S2,Sk,且Si与Sj相互独立。即 SiSj=,(ij), 记Oi为类i中的观测数,i=1,2,k.则,第三节 卡方(2)拟合优度检验,2、假设条件 1.样本是随机的 2.度量尺度至少是名义的 3、检验统计量 在零假设为真的条件下,令X的一个随机观测落入类i的概率为pi 。定义Ei为H0为真时观测值落入类i的期望观测数,即Ei=piN, i=1,2,k.给出如下卡方检验统计量:,第三节 卡方(2)拟合优度检验,4、零分布:由于 的精确分布难以求得,所以我们用自由度为k-1的卡方 分布来近似。 5、假设组: H0: pi =p (i=1,2,k.) H1: pi p (对某个i.)

12、 若 (自由度为k-1的卡方分布的1-a分位数),则拒绝H0,p-值近似等于p(X2(c-1)Q),这个概率可由附表10获得。,第三节 卡方(2)拟合优度检验,三、2检验的具体步骤,1.数据分组.根据样本观测值的范围划分为组; 2.求落在各组的频数i和频率Yi/ n 。 3.求理论概率i。当0成立时,出现在(bi-1,bi )内的概率i 4.计算检验统计量2。 5.求出拒绝域.根据给定的显著性水平和自由度k-r-1查2分布表(附表10),可得临界值C,统计量2的拒绝域为2C。 6.作出判断.若2C则拒绝0,否则接受0。,实例 单样本拟合检验,一、检验某固定比率的假设 例8.4:据标准规定,某批

13、工业产品中不良品的比例为10%,则可检验如下假设:0:P=0.1; 1:P0.1。 为此,我们在产品批中抽出100个作为样本,发现不合格品数(Y1)为16,则合格品数Y2=100-16=84。 当0成立时,不合格品的期望数应为nP1=10个,相应地,合格品的期望数n(1-P1)=90。则: k=,自由度为k-1=1,显著水平a0.05,查表10得临界值为3.841。由于n2a2,所以拒绝o假设。,二、检验某固定比率的假设,例8.5:检验随机变量在(,) 区间是否为均匀分布。假设如下: 0:在(0,1)区间为均匀分布(假设分10类,pi=1/10); 1:在(0,1)区间不是均匀分布(pip1/

14、10); 从未知总体中抽取50个样本。为了检验,我们可以将(0,1)区间分为10等份,即00.1,0.10.2,0.91.0。如果o为真,那么任何观察值落入类i的概率为1/10,任何小区间的期望观测数为(1/10)50=5。,实例 单样本拟合检验,例8.5,实际50个样本落入类i的观察如下: 区间 0-0.1 0.1-0.2 0.2-0.3 0.3-0.4 0.4-0.5 0.5-0.6 观测数 6 4 5 6 7 4 区间 0.6-0.7 0.7-0.8 0.8-0.9 0.9-1.0 观测数 6 5 3 4 检验统计量 查2分布表,自由度为,显著水平a=0.05时,查得a2=16.92,因

15、2=2.80a2 ,所以接受o假设,即观察值取自均匀分布。,三、检验多面体无偏性的假设,例8.6:以六面体的骰子为例。如果将一颗骰子抛掷120次,其结果如表8-4所示: 表8-4 根据题意,检验假设如下: o:这颗骰子是无偏的(pi=1/6); 1:这颗骰子是有偏的(pi1/6); 如果零假设为真,各点出现的期望次数 nP1=1/6120=20,实例 单样本拟合检验,三、检验多面体无偏性的假设,例8.6: 检验统计量为: 查2分布表,自由度k-1=6-1=5,取a=0.05,查得a2=11.07因20.052,故应拒绝o假设,认为这颗骰子是有偏的。,实例 总体分布拟合检验,一、正态分布拟合 例

16、8.7:一家钟表厂把检验钟表的精确度作为质量控制的一部分。该厂将700只手表效准后使之走24小时,然后记下每只表走快或走慢的秒数(数据见表5-3)。这些数据是否提供了充分的证据,说明观察值并非来自正态总体。 解:假设:0:样本数据来自正态总体分布; 1:样本数据并非来自正态总体分布。 表8-3中,K=11,实际观察频数Oi已知,预期频数Ei则尚需确定。,表53 700只手表时间误差的频数分布,一、正态分布拟合,1.预期频数Ei的计算 根据概率分布原理,我们可以通过求正态分布曲线下的面积来确定理论预期频数。为了计算正态分布曲线下的面积,利用公式Zo=(Xo-u)/将Xo标准化,求标准正态表上相应的面积(即频率)。 因为零假设中并没指定总体分布的均值(u)和标准差()。所以只有将样本均值 =54

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 幼儿/小学教育 > 其它小学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号