《分布检验和拟合优度2检验课件》由会员分享,可在线阅读,更多相关《分布检验和拟合优度2检验课件(44页珍藏版)》请在金锄头文库上搜索。
1、第八章第八章 分布检验和拟合优度分布检验和拟合优度2检验检验分布检验和拟合优度2检验第八章 分布检验和拟合优度2检验Kolmogorov-Smirnov单样本检验及一些正态性检验单样本检验及一些正态性检验1235Kolmogorov-Smirnov两样本分布检验两样本分布检验Pearson2 拟合优度检验拟合优度检验分布检验和拟合优度分布检验和拟合优度2检验检验第一节第一节 KS单样本分布检验单样本分布检验v一、适用范围一、适用范围vKolmogorov-Smirnov检验常译为柯尔莫哥洛夫检验常译为柯尔莫哥洛夫-斯斯米尔诺夫检验,简写为米尔诺夫检验,简写为K-S检验,亦称检验,亦称D检验法,
2、也检验法,也是一种拟合优度检验法。是一种拟合优度检验法。K-S单样本检验主要用来检单样本检验主要用来检验一组样本数据的实际分布是否与某一指定的理论分验一组样本数据的实际分布是否与某一指定的理论分布相符合。布相符合。v二、基本原理和方法二、基本原理和方法v1、基本原理:、基本原理:v这种检验主要是将理论分布下的累计频数分布与观这种检验主要是将理论分布下的累计频数分布与观察到的累计频数分布相比较,找出它们间最大的差异察到的累计频数分布相比较,找出它们间最大的差异点,并参照抽样分布,定出这样大的差异是否处于偶点,并参照抽样分布,定出这样大的差异是否处于偶然。然。分布检验和拟合优度分布检验和拟合优度2
3、检验检验2、方法、方法v用用Fn(x)表示样本量为表示样本量为n的随机样本观察值的累的随机样本观察值的累计分布函数,且计分布函数,且Fn(x)=i/n(i是等于或小于是等于或小于x的的所有观察结果的数目,所有观察结果的数目,i=1,2,n)。)。F(x)表示理论分布的累计概率分布函数。表示理论分布的累计概率分布函数。K-S单样本检验通过样本的累计分布函数单样本检验通过样本的累计分布函数Fn(x)和理和理论分布函数论分布函数F(x)的比较来做拟合优度检验。检的比较来做拟合优度检验。检验统计量是验统计量是F(x)与与Fn(x)间的最大偏差间的最大偏差Dn:v若对每一个若对每一个x值来说,值来说,F
4、n(x)与与F(x)都十分接近,则表都十分接近,则表明实际样本的分布函数与理论分布函数的拟合程度很明实际样本的分布函数与理论分布函数的拟合程度很高。高。分布检验和拟合优度分布检验和拟合优度2检验检验三、检验步骤三、检验步骤v1.建立假设组:建立假设组:vH0:Fn(x)=F(x)vH1:Fn(x)F(x)v2.计算样本累计频率与理论分布累计概率的计算样本累计频率与理论分布累计概率的绝对差,令最大的绝对差为绝对差,令最大的绝对差为Dn;v3.用样本容量用样本容量n和显著水平和显著水平a在附表在附表11中查出中查出临界值临界值Dna;v4.通过通过Dn与与Dna的比较做出判断,若的比较做出判断,若
5、DnDna,则认为拟合是满意的。,则认为拟合是满意的。分布检验和拟合优度分布检验和拟合优度2检验检验四、实例四、实例v例例8.1:正态拟合。:正态拟合。v某织布厂工人执行的生产定额(织机每小时生产织某织布厂工人执行的生产定额(织机每小时生产织物的米物)情况如表物的米物)情况如表8-1,试检验这些样本数据能否,试检验这些样本数据能否作正态拟合?作正态拟合?v表表8-1工人执行生产定额情况分组表工人执行生产定额情况分组表按定额执行情况分组工人数3.753.754.2520204.254.254.753723724.754.755.254984985.255.255.751031035.755.75
6、6.257 710001000分布检验和拟合优度分布检验和拟合优度2检验检验例例8.1 正态拟合正态拟合v解:首先,由于做正态拟合的均值、标准差解:首先,由于做正态拟合的均值、标准差未知,因此,先计算样本均值和标准差,再未知,因此,先计算样本均值和标准差,再做正态拟合。通过对样本资料的计算得:做正态拟合。通过对样本资料的计算得:=4.85;s=0.352,分别作为分别作为和和的估计值,的估计值,建立假设:建立假设:vH0:样本数据服从均值为:样本数据服从均值为4.85,标准差为,标准差为0.352的正态分布的正态分布vH1:样本数据不服从均值为:样本数据不服从均值为4.85,标准差为,标准差为
7、0.352的正态分布的正态分布v计算资料列如表计算资料列如表8-2:分布检验和拟合优度分布检验和拟合优度2检验检验表表8-2v表表8-2正态拟合计算表正态拟合计算表X的组限标 准 化标准正态概率累计概率 (理论概率) 累计工人数实 际 累计 频 率(2)-(4)的绝 对值甲甲乙乙(1)(2)(3)(4)(5)不足不足4.25-1.700.0450.0450.0450.04520200.0200.0200.0250.0254.25-4.75-1.70-0.280.3450.3900.3903923920.3920.3920.0020.0024.75-5.25-0.281.140.4830.483
8、0.8730.8738908900.8900.8900.0170.0175.25-5.751.142.560.1220.1220.9950.9959939930.9930.9930.0020.0025.75-6.252.56-+0.0050.0051.0001.000100010001.0001.0000.0000.000合合 计计1.0001.000-分布检验和拟合优度分布检验和拟合优度2检验检验例例8.1v根据表根据表8-2中第中第(5)列数据,取最大绝对差数列数据,取最大绝对差数1ooo=0.025作为检验统计量。若取作为检验统计量。若取a=0.05,n=1000,从临界值表中查得:,从
9、临界值表中查得:v。v因为因为1ooo0.043,故认为样本数据所提供的信息,故认为样本数据所提供的信息无法拒绝无法拒绝H0,即接受,即接受H0,认为可做正态分布的拟合。,认为可做正态分布的拟合。v检验法是一种精确分布的方法,不受观察次检验法是一种精确分布的方法,不受观察次数多少的限制。这个方法可应用于分组或不分组的数多少的限制。这个方法可应用于分组或不分组的情形。检验量情形。检验量Dn也可用于检验随机样本是否抽自某也可用于检验随机样本是否抽自某特定的总体的问题。特定的总体的问题。分布检验和拟合优度分布检验和拟合优度2检验检验第二节第二节 K-S双样本分布检验双样本分布检验v一、适用范围一、适
10、用范围vK-S双样本检验主要用来检验两个独立样本是否来自双样本检验主要用来检验两个独立样本是否来自同一总体(或两样本的总体分布是否相同)。其单尾同一总体(或两样本的总体分布是否相同)。其单尾检验主要用来检验某一样本的总体值是否随机地大于检验主要用来检验某一样本的总体值是否随机地大于(或小于)另一样本的总体值。(或小于)另一样本的总体值。v二、理论依据和方法二、理论依据和方法v1、理论依据:、理论依据:v与与K-S单样本检验相似,单样本检验相似,K-S双样本检验是通过两个双样本检验是通过两个样本的累计频数分布是否相当接近来判断样本的累计频数分布是否相当接近来判断Ho是否为是否为真。如果两个样本间
11、的累计概率分布的离差很大,这真。如果两个样本间的累计概率分布的离差很大,这就意味着两样本来自不就意味着两样本来自不同的总体,就应拒绝同的总体,就应拒绝Ho。分布检验和拟合优度分布检验和拟合优度2检验检验2、方法、方法v如果令如果令S1(x)表示第一个样本观察值)表示第一个样本观察值的累计概率分布函数,的累计概率分布函数,S2(x)表示另)表示另一个样本观察值的累计概率分布函数,一个样本观察值的累计概率分布函数,那么那么K-S双样本的单尾检验统计量为:双样本的单尾检验统计量为:vK-S双样本的双尾检验统计量为:双样本的双尾检验统计量为:分布检验和拟合优度分布检验和拟合优度2检验检验三、检验步骤三
12、、检验步骤v1、双尾检验假设:、双尾检验假设:H0:S1(x)=S2(x)vH1:S1(x)S2(x)v单尾检验假设:单尾检验假设:vH0:S1(x)=S2(x)或或H0:S1(x)=S2(x)vH1:S1(x)S2(x)H1:S1(x)S2(x)v2、把两组样本分别排成累计频数分布(对两、把两组样本分别排成累计频数分布(对两个分布用相同的间隔或分类,并利用尽可能多个分布用相同的间隔或分类,并利用尽可能多的间隔。的间隔。v3、计算检验统计量、计算检验统计量D值,如是单尾检验,应值,如是单尾检验,应按按H1的方向计算的方向计算D值。值。分布检验和拟合优度分布检验和拟合优度2检验检验三、检验步骤三
13、、检验步骤v4、显著性检验:、显著性检验:v小样本情况下,及小样本情况下,及n1=n2=n,n30,用附,用附表表12。对于单尾检验和双尾检验,该表列出了。对于单尾检验和双尾检验,该表列出了不同显著性水平下的临界值。不同显著性水平下的临界值。v大样本情况下,大样本情况下,n1不一定等于不一定等于n2,但都小于,但都小于40的双尾检验,可用附表的双尾检验,可用附表12续表中的公式算续表中的公式算出出D的临界值。的临界值。v当当n1和和n2都较大,但又是单尾检验时,用都较大,但又是单尾检验时,用算式算式分布检验和拟合优度分布检验和拟合优度2检验检验四、实例四、实例v例例8.2(小样本)检验两矿的金
14、属含量率是否(小样本)检验两矿的金属含量率是否相同。在甲、乙两矿坑中各抽取相同。在甲、乙两矿坑中各抽取10个矿石样本,个矿石样本,矿石中含有某种金属含量率(矿石中含有某种金属含量率(%)的资料如表)的资料如表8-3所示:所示:v表表7-3v解:这是一个双样本的解:这是一个双样本的K-S检验,根据题意,检验,根据题意,建立双侧检验假设组:建立双侧检验假设组:v甲矿3.1 1.2 2.9 3.0 0.6 2.8 1.6 1.7 3.2 1.7乙乙矿矿3.8 2.1 3.2 7.2 2.3 3.5 3.0 4.6 3.1 3.2分布检验和拟合优度分布检验和拟合优度2检验检验四、实例四、实例v1、列等
15、距分组表,计算各组次数、列等距分组表,计算各组次数f甲甲、f乙乙,累计次数,累计次数F甲甲、F乙乙,累计频率,累计频率、及其差额。计算结果及其差额。计算结果列如表列如表8-4所示。所示。v表表7-4例例7.2的计算表的计算表v金属含量率(%)次数累计次数累计频率F甲/10- F乙/10f甲甲f乙乙F甲甲F乙乙F甲甲/10F乙乙/100.00.910101/1001/101.01.940505/1005/102.02.922727/102/105/103.03.93610810/108/102/104.04.90110910/109/101/105.05.90010910/109/101/106
16、.06.90010910/109/101/107.07.901101010/1010/100分布检验和拟合优度分布检验和拟合优度2检验检验四、实例四、实例v2、确定检验统计量:、确定检验统计量:v本例本例D=5/10v3、检验与判断。由于、检验与判断。由于n1=n2=10,属小样本,查附表,属小样本,查附表12得临界值得临界值0.05=7/10,因为,因为D=5/10C,故在,故在5%的显著性水平下拒绝的显著性水平下拒绝Ho,即,即高分组的学生智力显著高于低分组的学生。高分组的学生智力显著高于低分组的学生。分布检验和拟合优度分布检验和拟合优度2检验检验第三节 卡方卡方(2)拟合优度检验拟合优度
17、检验v一、什么是卡方(2)拟合优度检验v人们通常关心随机变量的概率分布,如:人们通常关心随机变量的概率分布,如:“随机变随机变量服从参数为量服从参数为n=10和和p=2的二项分布的二项分布”,这样的命,这样的命题假设可以用题假设可以用“拟合优度检验拟合优度检验”来检验。即设计一来检验。即设计一个检验来比较从假设的分布中抽取的样本,看所假个检验来比较从假设的分布中抽取的样本,看所假设的分布函数与样本数据是否设的分布函数与样本数据是否“拟合拟合”。v所以,拟合检验就是检验抽取样本的总体分布与某所以,拟合检验就是检验抽取样本的总体分布与某种特定分布的符合程度,也就是检验观察值与理论种特定分布的符合程
18、度,也就是检验观察值与理论数之间的紧密程度。以数之间的紧密程度。以2分布为依据的这种检验,分布为依据的这种检验,称为称为2拟合优度检验拟合优度检验分布检验和拟合优度分布检验和拟合优度2检验检验v英国统计学家英国统计学家Pearson(皮尔逊皮尔逊)于于1900年首先年首先提出了卡方统计量。提出了卡方统计量。v1 1、数据:由随机变量、数据:由随机变量X X的的N N个观测组成。这个观测组成。这N N个个观测可划分为观测可划分为k k类,即类,即把把X的样本空间的样本空间S划分成划分成k个互不相交的部分个互不相交的部分S1,S2,Sk,且,且Si与与Sj相互独立。即相互独立。即vSiSj=,(i
19、j),v记记Oi为类为类i中的观测数,中的观测数,i=1,2,k.则则第三节 卡方卡方(2)拟合优度检验拟合优度检验分布检验和拟合优度分布检验和拟合优度2检验检验v2 2、假设条件、假设条件 1.1.样本是随机的样本是随机的 2. 2.度量尺度至少是名义的度量尺度至少是名义的3 3、检验统计量、检验统计量 在在零零假假设设为为真真的的条条件件下下,令令X X的的一一个个随随机机观观测测落落入入类类i i的的概概率率为为p pi。定定义义E Ei为为H H0为为真真时时观观测测值值落落入入类类i i的的期期望望观观测测数数,即即E Ei= =piN,i=1,2,k.给给出出如下卡方检验统计量:如
20、下卡方检验统计量:第三节 卡方卡方(2)拟合优度检验拟合优度检验分布检验和拟合优度分布检验和拟合优度2检验检验4 4、零零分分布布:由由于于的的精精确确分分布布难难以以求求得得,所所以我们用自由度为以我们用自由度为k-1的卡方的卡方分布来近似。分布来近似。5、假设组:、假设组:H0:pi=p(i=1,2,k.)H1:pip(对某个(对某个i.)若若(自自由由度度为为k-1的的卡卡方方分分布布的的1-a分分位位数数),则则拒拒绝绝H0,p-值值近近似似等等于于p(X2(c-1)Q),这个概率可由附表,这个概率可由附表10获得。获得。第三节 卡方卡方(2)拟合优度检验拟合优度检验分布检验和拟合优度
21、分布检验和拟合优度2检验检验三、2检验的具体步骤v1 1. .数据分组数据分组. .根据样本观测值的范围划分为根据样本观测值的范围划分为组;组;v2.2.求落在各组的频数求落在各组的频数i和频率和频率Yi/n。v3.3.求理论概率求理论概率i。当。当0成立时成立时,出现在出现在(bi-1,bi)内的概率内的概率iv4.计算检验统计量计算检验统计量2。v5. .求出拒绝域求出拒绝域.根据给定的显著性水平根据给定的显著性水平和自和自由度由度k-r-1查查2分布表(附表分布表(附表10),可得临界),可得临界值值C,统计量,统计量2的拒绝域为的拒绝域为2C。v6. .作出判断作出判断.若若2C则拒绝
22、则拒绝0,否则接受,否则接受0。分布检验和拟合优度分布检验和拟合优度2检验检验实例实例 单样本拟合检验单样本拟合检验v一、检验某固定比率的假设一、检验某固定比率的假设v例例8.4:据标准规定,某批:据标准规定,某批工业产品中不良品的比例为工业产品中不良品的比例为10%,则可检验如下假设:,则可检验如下假设:0:P=0.1;v1:P0.1。v为此,我们在产品批中抽出为此,我们在产品批中抽出100个作为样本,发现不个作为样本,发现不合格品数(合格品数(Y1)为)为16,则合格品数,则合格品数Y2=100-16=84。v当当0成立时,不合格品的期望数应为成立时,不合格品的期望数应为nP1=10个,相
23、个,相应地,合格品的期望数应地,合格品的期望数n(1-P1)=90。则:。则:vk=,自由度为,自由度为k-1=1,显著水平,显著水平a0.05,查表,查表10得得临界值为临界值为3.841。由于。由于n2a2,所以,所以拒绝拒绝o假设。假设。分布检验和拟合优度分布检验和拟合优度2检验检验二、检验某固定比率的假设二、检验某固定比率的假设v例例8.5:检验随机变量在检验随机变量在(,)区间是否为均匀分区间是否为均匀分布。假设如下:布。假设如下:v0:在(:在(0,1)区间为均匀分布(假设分)区间为均匀分布(假设分10类,类,pi=1/10););v1:在(:在(0,1)区间不是均匀分布)区间不是
24、均匀分布(pip1/10);v从未知总体中抽取从未知总体中抽取50个样本。为了检验,我们可以将个样本。为了检验,我们可以将(0,1)区间分为)区间分为10等份,即等份,即00.1,0.10.2,0.91.0。如果。如果o为真,那么任何观察值落入类为真,那么任何观察值落入类i的概率为的概率为1/10,任何小区间的期望观测数为,任何小区间的期望观测数为(1/10)50=5。实例实例 单样本拟合检验单样本拟合检验分布检验和拟合优度分布检验和拟合优度2检验检验例例8.5v实际实际50个样本落入类个样本落入类i的观察如下:的观察如下:v区间区间 0- -0.10.1- -0.2 0.2-0.3 0.3-
25、 -0.40.4- -0.5 0.5-0.6v观测数观测数645674v区间区间 0.6- -0.7 0.7-0.80.8-0.90.9- -1.0v观测数观测数6534v检验统计量检验统计量v查查2分分布布表表,自自由由度度为为,显显著著水水平平a=0.05时时,查查得得a2=16.92,因因2=2.80a2,所所以以接接受受o假设,即观察值取自均匀分布。假设,即观察值取自均匀分布。分布检验和拟合优度分布检验和拟合优度2检验检验三、检验多面体无偏性的假设、检验多面体无偏性的假设v例例8.6:以以六六面面体体的的骰骰子子为为例例。如如果果将将一一颗颗骰骰子子抛抛掷掷120次,其结果如表次,其结
26、果如表8-4-4所示:所示:v表表8-48-4v根据题意,检验假设如下:根据题意,检验假设如下:vo:这颗骰子是无偏的:这颗骰子是无偏的(pi=1/6);v1:这颗骰子是有偏的:这颗骰子是有偏的(pi1/6);v如果零假设为真,各点出现的期望次数如果零假设为真,各点出现的期望次数vnP1=1/6120=20点数123456合计观测次数观测次数132816103221120实例实例 单样本拟合检验单样本拟合检验分布检验和拟合优度分布检验和拟合优度2检验检验三、检验多面体无偏性的假设三、检验多面体无偏性的假设v例例8.6:v检验统计量为:检验统计量为:v查查2分分布布表表,自自由由度度k-1=6-
27、1=5,取取a=0.05,查查得得a2=11.07因因20.052,故故应应拒拒绝绝o假假设设,认认为为这颗骰子是有偏的。这颗骰子是有偏的。分布检验和拟合优度分布检验和拟合优度2检验检验实例实例 总体分布拟合检验总体分布拟合检验v一、正态分布拟合一、正态分布拟合v例例8.7:一家钟表厂把检验钟表的精确度作为质量控:一家钟表厂把检验钟表的精确度作为质量控制的一部分。该厂将制的一部分。该厂将700只手表效准后使之走只手表效准后使之走24小时,小时,然后记下每只表走快或走慢的秒数然后记下每只表走快或走慢的秒数( (数据见表数据见表5- -3)。这些数据是否提供了充分的证据,说明观察值并非来这些数据是
28、否提供了充分的证据,说明观察值并非来自正态总体。自正态总体。v解:假设:解:假设:0:样本数据来自正态总体分布;样本数据来自正态总体分布;v1:样本数据并非来自正态总体分布。样本数据并非来自正态总体分布。v表表8- -3中,中,K=11=11,实际观察频数,实际观察频数Oi已知,预期频数已知,预期频数Ei则尚需确定。则尚需确定。分布检验和拟合优度分布检验和拟合优度2检验检验表53 700只手表时间误差的频数分布2424小时内走快或走慢的秒数小时内走快或走慢的秒数表的数目表的数目O Oi0 09.999.993838101019.9919.995151202029.9929.9962623030
29、39.9939.997474404049.9949.998383505059.9959.999191606069.9969.998181707079.9979.997272808089.9989.996161909099.9999.995252100100109.99109.993535合计合计700700分布检验和拟合优度分布检验和拟合优度2检验检验一、正态分布拟合一、正态分布拟合v1.1.预期频数预期频数Ei的计算的计算v根据概率分布原理,我们可以通过求正态分布曲根据概率分布原理,我们可以通过求正态分布曲线下的面积来确定理论预期频数。为了计算正态线下的面积来确定理论预期频数。为了计算正态分
30、布曲线下的面积,利用公式分布曲线下的面积,利用公式Zo=(Xo-u)u)/将将Xo标准化,求标准正态表上相应的面积(即频率)。标准化,求标准正态表上相应的面积(即频率)。v因为零假设中并没指定总体分布的均值因为零假设中并没指定总体分布的均值(u)(u)和标准和标准差差()()。所以只有将样本均值。所以只有将样本均值=54.71和标准差和标准差S=27.61分别作为分别作为u和和的估计值。的估计值。v如在区间如在区间10-19.99内的预期频数,可按如下步内的预期频数,可按如下步骤计算:骤计算:分布检验和拟合优度分布检验和拟合优度2检验检验v1. .预期频数预期频数Ei的计算的计算v(1)(1)
31、分别对分别对x=10和和x=20标准化:标准化:Z=(=(10-54.71)/27.61=-1.62和和Z=(=(20-54.71) )/27.61=-1.26。其余类推。其余类推。v(2)(2)查标准正态分布表,介于查标准正态分布表,介于0和和-1.62之间的面积之间的面积(概率)为(概率)为0.4474,介于,介于0和和-1.26之间的面积为之间的面积为0.3962,所以介于,所以介于-1.62和和-1.26之间的面积等于之间的面积等于0.4474-0.3962=0.0512。其余类推。其余类推。v(3)(3)于是落在于是落在10与与20之间的预期频数为之间的预期频数为0.0512700=
32、35.84。其余类推。其余类推。一、正态分布拟合一、正态分布拟合分布检验和拟合优度分布检验和拟合优度2检验检验v2.2.约束条件约束条件r r的确定的确定v预期频数之和必等于预期频数之和必等于700,即等于样本容量,即等于样本容量,这就构成一个约束;这就构成一个约束;v又由于我们必须通过样本来估计又由于我们必须通过样本来估计u和和,所以,所以对数据还须增加两个约束。于是对数据还须增加两个约束。于是=3,自由度,自由度k-=11-3=8。v注意:如果注意:如果u和和在零假设中已被指定,那就不在零假设中已被指定,那就不必再用样本数据来估计,这时必再用样本数据来估计,这时=1。v检验统计量检验统计量
33、X2= (Oi-i) )2/i=20.3558,2的临界的临界值为值为15.507。由于。由于2的计算值大于临界值,所以的计算值大于临界值,所以否定零假设,样本数据并非来自正态分布。否定零假设,样本数据并非来自正态分布。一、正态分布拟合一、正态分布拟合分布检验和拟合优度分布检验和拟合优度2检验检验小预期频数小预期频数v在应用卡方检验时,有可能遇到预期频数很小的情在应用卡方检验时,有可能遇到预期频数很小的情形,这时将随机分布取作卡方的近似分布并不完全正形,这时将随机分布取作卡方的近似分布并不完全正确。确。v对于什么样的预期频数才算小预期频数,学者们的对于什么样的预期频数才算小预期频数,学者们的意
34、见并不一致。较保守的学者一般要求预期频数至少意见并不一致。较保守的学者一般要求预期频数至少应大于等于应大于等于5。而科库兰。而科库兰ochran( (1952,1954) )主张主张预期频数小于预期频数小于1的就算小预期频数,很多学者同意这的就算小预期频数,很多学者同意这种意见。本教材也采用了这一观点。种意见。本教材也采用了这一观点。v对小预期频数的处理一般采用的科克兰的法则。如对小预期频数的处理一般采用的科克兰的法则。如将相邻类目的频数合并(前提是不破坏其分类意义),将相邻类目的频数合并(前提是不破坏其分类意义),以达到所要求的最小频数。合并后的类数应相应地减以达到所要求的最小频数。合并后的
35、类数应相应地减小。小。分布检验和拟合优度分布检验和拟合优度2检验检验二、二项分布拟合二、二项分布拟合v例例8.88.8:一个市场分析员想研究食品店的顾客对待一个市场分析员想研究食品店的顾客对待信用卡付款方式的态度。研究员从信用卡付款方式的态度。研究员从100家超级市家超级市场各抽选了场各抽选了25名经常性顾客作为随机样本,并对名经常性顾客作为随机样本,并对其中每一个进行访问以确定此人是否喜欢除信用其中每一个进行访问以确定此人是否喜欢除信用卡付款方式以外的别的某种付款方式。调查结果卡付款方式以外的别的某种付款方式。调查结果列于表列于表8-5:v解:这个分析员应先提出如下假设:解:这个分析员应先提
36、出如下假设:v0:在这些容量为:在这些容量为25的样本中,喜欢另外某的样本中,喜欢另外某种付款方式的顾客数服从二项分布;种付款方式的顾客数服从二项分布;v1:不服从二项分布。(取:不服从二项分布。(取a=0.05)分布检验和拟合优度分布检验和拟合优度2检验检验表5-5 例5.5中的抽样结果喜欢另外某一种付款方式的顾客数商店数0 04 41 15 52 28 83 310104 414145 515156 612127 716168 810109 96 61010或更多或更多0 0合计合计100100二、二项分布拟合二、二项分布拟合分布检验和拟合优度分布检验和拟合优度2检验检验v首先求得首先求得
37、P的估计值如下:的估计值如下:P=4(0)+5(1)+8(2)+6(9)/2500=0.20。v由于二项分布的参数由于二项分布的参数P没有指定,必须通过没有指定,必须通过样本数据对它作出估计,因此要损失一个自样本数据对它作出估计,因此要损失一个自由度。由度。v1.1.预期频数预期频数iv通过计算函数通过计算函数f(x)=C25x(0.2)x(0.8)25-x(其中其中x为某一特定商店中喜欢另外某种付款方式的为某一特定商店中喜欢另外某种付款方式的顾客数顾客数,x=0,1,2,25)或查的或查的二项分布二项分布表表,可以得到所需的相对预期频数。,可以得到所需的相对预期频数。二、二项分布拟合二、二项
38、分布拟合分布检验和拟合优度分布检验和拟合优度2检验检验v2.2.自由度的确定自由度的确定v合并后的类目数合并后的类目数10,但由于预期频数之和,但由于预期频数之和必须与观察频数之和一致,这个自由度应必须与观察频数之和一致,这个自由度应减去,又由于必须通过样本数据来估减去,又由于必须通过样本数据来估计,自由度再减。于是真正的自由度应计,自由度再减。于是真正的自由度应为为10-2=8。v检验统计量检验统计量=28.1=28.1v显著性水平显著性水平a=0.05和自由度和自由度8相对应的相对应的2的临界值为的临界值为15.507。因为。因为2的计算值大于的计算值大于的临界值,所以否定零假设,从而得出
39、这的临界值,所以否定零假设,从而得出这些数据并非来自二项分布总体的结论(些数据并非来自二项分布总体的结论(P0.05)。)。二、二项分布拟合二、二项分布拟合分布检验和拟合优度分布检验和拟合优度2检验检验三、泊松分布拟合三、泊松分布拟合v例例8.98.9:旅馆管理人员对旅馆管理人员对90天内房间预定和天内房间预定和注销的格局进行了研究,其观察结果如表注销的格局进行了研究,其观察结果如表5-7。他想了解他想了解“每日注销的房间数是否服从泊松每日注销的房间数是否服从泊松分布分布”?(取取a=0.05)v解:由于泊松分布的参数解:由于泊松分布的参数并未给出,我们并未给出,我们只有利用表中数据对它进行估
40、计:只有利用表中数据对它进行估计:v =0(9)+1(17)+8(2)/90=2.6 =0(9)+1(17)+8(2)/90=2.6v泊松分布的函数表达式为泊松分布的函数表达式为 (x=0,1,2,)分布检验和拟合优度分布检验和拟合优度2检验检验表5-7 该旅游区旅馆注销的房间数注销的房间数观察到这一注销数的天数0 01 12 23 34 45 56 67 78 89 9或更多或更多9 917172525151511117 72 22 22 20 0合计合计9090三、泊松分布拟合三、泊松分布拟合分布检验和拟合优度分布检验和拟合优度2检验检验v利用表利用表8-88-8的数据可算出:的数据可算出
41、:X2=(Oi-i) )2/i=6.674v本例中本例中, ,自由度为自由度为6,因为经过小预期频,因为经过小预期频数修正后的类目数为数修正后的类目数为8,约束数为,约束数为2:预期频数之和等于观察频数之和,预期频数之和等于观察频数之和,样样本数据来估计本数据来估计。v查查2表,在显著水平表,在显著水平a=0.05下,我们下,我们不能否定不能否定“数据来自泊松分布数据来自泊松分布”这一零这一零假设假设P0.10。三、泊松分布拟合三、泊松分布拟合分布检验和拟合优度分布检验和拟合优度2检验检验五、KS检验与X拟合检验的比较vK-S检验与检验与X检验均属拟合优度检验,但检验均属拟合优度检验,但X拟合
42、检验拟合检验常用于对定类尺度测量的数据,而常用于对定类尺度测量的数据,而K-S检验还可用于检验还可用于对定序尺度测量的数据进行拟合检验。对定序尺度测量的数据进行拟合检验。v另外对于另外对于X拟合检验来说,一般是要求一个大样本;拟合检验来说,一般是要求一个大样本;在将所有的观察值分为在将所有的观察值分为n个组进行检验时,原则上还个组进行检验时,原则上还要求每组出现的观察值数目不能少于要求每组出现的观察值数目不能少于5,观察值数目,观察值数目少于少于5的组一般要加以合并,这样也就使样本信息受的组一般要加以合并,这样也就使样本信息受到了一些损失;而到了一些损失;而KS检验则无上述要求。第三,检验则无上述要求。第三,对于特别小的样本数目,对于特别小的样本数目,X拟合检验不能应用,而拟合检验不能应用,而KS检验不受限制。因此检验不受限制。因此KS检验比检验比X拟合检验显拟合检验显得更为有用。如果两种检验的样本容量相等时,得更为有用。如果两种检验的样本容量相等时,KS检验对于检验对于Ho假设为不真可提供一个更高的拒绝率,假设为不真可提供一个更高的拒绝率,因而与因而与X拟合检验相比较具有更大的检出力。拟合检验相比较具有更大的检出力。分布检验和拟合优度分布检验和拟合优度2检验检验分布检验和拟合优度2检验