概率论与数理统计教程课件7.4非参数假设检验

资源描述

《概率论与数理统计教程课件7.4非参数假设检验》由会员分享，可在线阅读，更多相关《概率论与数理统计教程课件7.4非参数假设检验（22页珍藏版）》请在金锄头文库上搜索。

1、7.4 非参数假设检验,前面讨论的总体分布中未知参数的估计和检验都是假定总体分布类型已知，比如为正态总体的前提下进行的，在实际应用时，总体的分布往往未知，首先应对总体分布类型进行推断，如何对总体的分布进行推断呢，不难想象，我们可以由样本作经验分布函数的提示，对总体分布类型作假设，然后再对所提的假设进行检验.由于所用的方法不依赖于总体分布的具体数学形式.在数理统计中，就把这种不依赖于分布的统计方法称为非参数统计法.非参数统计的内容十分丰富，在本节我们主要介绍非参数假设检验中最重要的一类分布函数的拟合检验.主要介绍拟合优度检验法、独立性检验法.,1设总体，但未知，从总体中抽取样本的观测值为

2、据此检验：,一、 -拟合检验法,下面我们介绍皮尔逊提出的 -拟合检验法,它能像各种显著性检验一样控制犯第一类错误的概率.,(其中为某个已知的分布，不含未知参数)，我们将的可能取值范围R分成k个互不相交的区间：,（这些区间不一定长度相等.且可为，可为）,以表示样本观测值中落入的频数，称之为观测频数，显然有，而事件在次观测中发现的频率为 .,我们知道，当为真时，；。于是得到在为真时，容量为的字样落入区间的理论频数为，且有。,由大数定律知，当,为真时，,的差异不应太大.根据这个思想，皮尔逊(k.Pearson)构造出,即知，当,与,充分大时，,的检验统计量

3、为：,并证明了如下的结论,定理7.4.1(皮尔逊定理)，当为真时，统计量的渐进分布是自由度为的 -分布，即,变量，当时。,对于给定的水平，P 查（k-1）分布表，确定出临界值，从而得的拒绝域，将样本观察值代入统计量算出其观测值，视其是否落入而作出拒绝或接受的判断。,拟合检验法，它适合下面更一般的情况.,上面的检验法称为皮尔逊,2总体，其中未知，需检验：,其中为已知类型的分布，但含有个未知参数，在这种情况，我们首先用的极大似然估计代替的，再按情况1的办法进行检验，但这时 -统计量的渐进分布将是（k-m-1），即有：,当为真时，用的极大似然估计

4、代中的未知参数，并用,定理7.4.2 (Fisher定理),代替中的所得的统计量,当时，有自由度为 k-m-1 的分布,例7.4.1 研究混凝土抗压强度的分布.200件混凝土制件的抗压强度以分组的形式列出如下表。,要求在给定的显著性水平下检验原假设,其中，为抗压强度的分布。,解:原假设锁定的正态分布的参数和是未知的，由第六章中的例子可知和的极大似然估计分别为样本均值和方差样本。,设为第组的组中值，我们计算和。,千克/厘米,原假设改写成是正态分布。计算每个区间的理论概率值,其中，,为了算出统计量,的值，我们把需要进行的计算列表于：,从上面的计算得出的

5、观测值为1.35.在显著水平下，查自由度的 -分布表，得到临界值，不能拒绝原假设，所以认为混凝土制件的受压强度的分布是正态分布。,-检验作分布函数的拟合检验的一般步骤：,（1）把总体的值划分为个互不相交的区间其中可以分别取（每个划分的区间必须包含不少于5个个体，若个体数少于5时，则可把这种区间并入其相邻的区间，或者把几个频数都小于5，但不一定相邻的区间并成一个区间i）；,(2) 在,成立下，用极大似然估计法估计分布所含的位置参数；,（3）在成立条件下，计算理论概率，并且计算出理论频数；,（4）按照样本观察值落在区间中的个数，即实际频数和（3）中算出的理论频数

6、，计算的值（3），（4）两项的计算可列表进行）；,（5）按照所给出的显著性水平，查自由度的 -分布表得到，其中是未知参数的个数；,（6）若，则拒绝原假设，若，则认为原假设成立。,二、独立性检验,下面我们分析按两个特征分类的频数数据，它通常称为交叉分类数据.这种都以表格形式给出，叫做联列表. 先看一个例子.,为研究儿童智力发展与营养的关系，抽查了950名学生，得到如下分类数据：,例7.4.2,这种数据按两个特征分类，称为二向联列表.这里我们就是讨论这种形式的分类数据.,设所研究的总体具有特征 A及B，它们分别为r类及c类，把A类作为行，B类作为列，可以得到一个二向的表格，从

7、该总体中抽取一个容量为n的样本，将有关频数填入二向表格得到如表所示的联列表，这就是二向列表的一般形式。,二向联列表的一般形式,表中，的频数，的频数，的频数。若记,那么，想利用二向联列表表提供的数据来研究两种分类之间是否有某种联系，相当于提出统计假设,对一切成立。,按照概率论中独立性的概念，如果接受零假设，即表明A与B是相互独立的；反之，拒绝零假设，则表明两个A与B之间是有个某种联系的.这就是联列表的独立性检验.利用它也可以检验两个随机变量的独立性，这时应把它们的取值分别归类，正如我们在上一段做的那样.,这里处理的还是分类数据，共有类，要求检验独立模型的拟合优度，因此自然期望仍然

8、能用前面介绍的检验法.事实也的确如此.,首先应该从样本出发估计未知参数，从而确定概率。若成立，则需估计及注意到是事件发生的概率，因此自然用发生的频率来估计它。由参数估计一节中知，频率也是相应概率的极大似然估计。,类似的，是的极大似然估计。因此概率的估计为,这时相应于的期望值估计为,所以，统计量为,在上述导出的统计量过程中，被估计的参数为个：因为无需估计，所以根据公式知，统计量近似服从分布，,为了计算统计量方便起见，从公式出发，可导出下列等价形式：,联列表在应用中特别重要，称为四格表，一般的四个表可以写成表所示的形式.所用的统计量为,如果对所有的，则不难导出,这是一个比较方便的计算公式。,上述统计量近似服从自由度为1的分布。,例7.4.3,调查339名50岁以上吸烟习惯与患慢性气管炎病的情况，获数据如下：,试问吸烟习惯与患慢性气管炎病是否有关？,解: 这是联列表的独立性检验.,（1）统计假设：吸烟与患慢性气管炎无关;,（2）对，查分布得临界值,（3）计算统计量的观测值,（4）作决策：由于，因此拒绝零假设，即说明吸烟与患慢性气管炎有关.,

展开阅读全文