《非参数假设检验》第四次课参数检验只有在关于总体分布的假设成立时

资源描述

《《非参数假设检验》第四次课参数检验只有在关于总体分布的假设成立时》由会员分享，可在线阅读，更多相关《《非参数假设检验》第四次课参数检验只有在关于总体分布的假设成立时（83页珍藏版）》请在金锄头文库上搜索。

1、非参数假设检验,追求,非参数检验是相对于参数检验而言的，这两种检验方法在实际中都有广泛的应用，但它们有着不同的数理统计原理和应用场合。在统计学的发展过程中，最先出现的推断统计方法都对样本所属总体的性质作出若干假设，即对总体的分布形状作某些限定，例如Z检验、t检验，假设样本的总体分布加以某些限定，把所要推断的总体数字特征看作未知的“参数”进行推断，称之为参数统计方法（Parameter statistical methods）或限定分布统计方法（distribution-specified statistical methods），基于此所做的假设检验就称为参数检验（Parametric tes

2、t）。常用的检验如t检验、Z检验、F检验等都是参数检验。,参数检验只有在关于总体分布的假设成立时，所得出的结论才是正确的，所以它在很多场合不便应用，于是统计学家发展了许多对总体不作太多或严格限定的统计推断方法，这些方法一般不涉及总体参数的假设，与之相对应的统计方法通常称为非参数统计（Nonparametric statistics）或自由分布统计方法（Distribution-free statiscal methods），基于此所做的假设检验则称为非参数检验（Nonparametric test）或自由分布统计检验（Distribution-free statistical test）。非参

3、数检验的前提假设比参数检验方法少很多，也容易满足，适用于已知信息相对较少的数据资料，而且它的计算方法也简便易行。,对于多数参数检验方法，都有一种或几种相对应的非参数检验方法，如下表所示。参数检验与非参数检验方法的对应表,非参数检验的缺点,非参数检验也有一些不可避免的缺点: 非参数检验方法对总体分布的假定不多，适应性强，但方法本身也就缺乏针对性，其功效不如参数检验。非参数检验使用的是等级或符号秩，而不是实际数值，方法虽简单，但会失去许多信息，因而检验的有效性也就比较差。例如对于一批适用于t检验的配对资料，如果采用符号秩检验处理，其功效将低于t检验，如果用符号检验处理则效率更低，因为它对信息的

4、利用更不充分。当然，如果假定的分布不成立，那么非参数检验就是更值得信赖的。,与参数检验方法对比，非参数检验方法具有以下优点: 检验条件宽松，适应性强。参数检验假定总体分布为正态、近似正态或以正态分布为基础而构造的t分布或分布；非参数检验不受这些条件的限制，弥补了参数检验的不足，对于非正态的、方差不等的以及分布形状未知的数据都适用。检验方法灵活，用途广泛。非参数检验不但可以应用与定距、定比等连续变量的检验，而且适用于定类、定序等分类变量的检验。对于那些不能直接进行四则运算的定类数据和定序数据，运用符号检验、符号秩检验都能起到好的效果。非参数检验的计算相对简单，易于理解。由于非参数检验更多地

5、采用计数的方法，其过程及结果都可以被直观地理解，为使用者所接受。,非参数检验的优点,一个总体分布的非参数假设检验,(2)两个总体的分布未知,它们是否相同；,非参数假设检验需要处理的问题：,(1)猜出总体的分布(假设),用另一组样本检验。,两个总体分布的非参数假设检验,内容,多个总体分布的非参数假设检验,配对样本非参数检验,SPSS的非参数检验,一个总体：单样本总体分布的检验,两个总体,多个总体,独立样本非参数检验,配对样本非参数检验,独立样本非参数检验,一个总体分布的检验,检验总体的卡方分布,检验总体的二项分布,单样本变量值的随机性检验(游程检验),单样本的KolmogorovSmirnov

6、检验,检验总体的正态分布,P-P正态概率分布图（Graphs P-P）,Q-Q正态概率单位分布图(Graphs Q-Q),检验总体的正态分布的图示法,是根据变量的累计比例对所指定的理论分布累计比例绘制的图形。,是根据变量分布的分位数对所指定的理论分布分位数绘制的图形。,半正态分布(Half-normal),伽玛分布(Gamma),指数分布(Exponential),Test Distribution提供13种概率分布：,贝塔分布(Beta),卡方分布(Chi-square),拉普拉斯分布(Laplace),逻辑斯谛分布(Logistic),对数正态分布(Lognormal),正态分布(Norm

7、al),帕累托分布(Pareto),T分布(Student T),威布尔分布(Weibull),均匀分布(Uniform),Bloms方法：使用公式：,Tukey方法：使用公式：,Rankit方法：使用公式：,Van der Waerden方法：使用公式：,n：个案的数目 r：从1到n的秩次,式中：,选择比率估测的公式，每次只能选择一项。,若与某个概率分布的统计图一致，即被检验的数据符合所指定的分布，则代表个案的点簇在一条直线上。,总体分布的卡方检验的原理：如果从一个随机变量X中随机抽取若干个观察样本，这些观察样本落在X的K个互不相交的子集中的观察频数服从一个多项分布，该多项分布当K趋于无穷时

8、，就近似服从X的总体分布。,因此，假设样本来自的总体服从某个期望分布或理论分布，同时获得样本数据各子集的实际观察频数，则可依据下面统计量作出推断：,例题,检验总体的卡方分布,例题：某地一周内每日患忧郁症的人数如表所示，请检验一周内每日人们忧郁的数是否满足1:1:2:2:1:1:1。,SPSS实现过程,1.定义变量；,2.变量加权；,3.进入Analyze菜单,用于选择计算非参数检验统计量对应的P值的方法。SPSS提供了3种计算P值的方法： Asymptotic only:渐进性的显著性检验，适合于样本服从渐进分布或较大样本。 Monte Carlo：不依赖渐进性方法估测精确显著性，这种方法在数

9、据不满足渐进性分布，而且样本数据过大以致不能计算精确显著性时特别有效。 Exact：精确计算法，即准确计算观测结果的统计概率。计算量较大，适用于小样本。,卡方检验要求样本量是充分大的，使用时建议样本容量应该不小于30，同时每个单元中的期望频数不能太小，如果有类别的频数小于5，则建议将它与相邻的类别合并，如果有20%的单元期望频数都小于5，就不能再使用卡方检验了。,练习：赛马比赛时，任一马的起点位置是起跑线上所指定的标杆位置。现有8匹马的比赛，位置1是内侧最靠近栏杆的跑道，位置8是外侧离栏杆最远的跑道，下表是某赛马在一个月内某特定圆形跑道上的纪录，并且按照起点的标杆位置分类。试检验起点标杆位置对

10、赛马结果的影响。,马在8个圆形跑道的起点标杆位置上获胜的纪录,均匀分布检验,二项分布检验的基本思想：根据搜集到的样本数据，推断总体分布是否服从某个指定的二项分布。,SPSS中的二项分布检验，在样本小于等于30时，按照计算二项分布概率的公式进行计算；样本数大于30时，计算的是Z统计量，认为在零假设下，Z统计量服从正态分布。,其零假设：样本来自的总体与所指定的某个二项分布不存在显著的差异。,K：观察变量取值的样本个数，当K小于n/2时，取加号；p为检验概率。,练习,检验总体的二项分布,练习：某地某一时期内出生35名婴儿，其中女孩儿19名（Sex=0）,男孩儿16名（Sex=1）。问，该地区出生婴儿

11、的性别比例与通常的男女性别比例（总体概率约为0.5）是否不同？数据如下表所示：,续,35名婴儿的性别,单样本变量值的随机性检验(游程检验),依时间或其他顺序排列的有序数列中，具有相同的事件或符号的连续部分称为一个游程。调用Runs过程可进行游程检验，即用于检验序列中事件发生过程的随机性分析。,单样本变量值的随机性检验是对某变量的取值出现是否随机进行检验，也称游程检验。,例题,例题：某村发生一种地方病，其住户沿一条河排列，调查时对发病的住户标记为“1”，对非发病的住户标记为“0”，共20户，其取值如下表所示：,续,35家住户的发病情况,单样本的KolmogorovSmirnov检验,单样本KS检

12、验是一种拟合优度的非参数检验，是利用样本数据推断总体是否服从某一理论分布的方法，适用于探索连续性随机变量的分布形态。进行Kolmogorov-Smirnov Z检验，是将一个变量的实际频数分布与正态分布(Normal)、均匀分布(Uniform)、泊松分布(Poisson)进行比较。,SPSS实现KS检验的过程如下：,（1）根据样本数据和用户的指定构造出理论分布，查分布表得到相应的理论累计概率分布函数。,（2）利用样本数据计算各样本数据点的累积概率，得到检验累计概率分布函数。（3）计算和在相应的变量值点X上的差，得到差值序列。单样本KS检验主要对差值序列进行研究。,例题,例题：某地1

13、44个周岁儿童身的高数据如下表，问该地区周岁儿童身高频数是否成正态分布？,练习：某报刊亭为研究每天报刊的销售量，为以后每天报刊进量提供依据，统计其在140天的销售中，某日报的日销售量的频数资料如下表，问该资料的频数是否服从正态分布？,两个总体独立样本的非参数检验,检验两个总体的分布是否相同：,方差相同,分布函数形式相同,两个总体的分布若相同,参数相同,均值相同,(2)两个总体的分布未知,它们是否相同；,Wald-wolfowitz Runs 游程检验,Mann-Whitney U秩和检验,KolmogorovSmirnov检验,Moses Extreme Reactions极端反应检验,两个总

14、体独立样本的非参数检验方法,两个总体独立样本非参数检验方法的SPSS操作,零假设：样本来自的两独立总体分布无显著差异,K-S检验实现的方法：将两组样本数据混合并升序排列，分别计算两组样本秩的累计频率和每个点上的累积频率，然后将两个累计频率相减，得到差值序列数据。,K-S检验将关注差值序列，并计算K-S的Z统计量，依据正态分布表给出相应的相伴概率值。,（1）KolmogorovSmirnov检验,两组样本是可以各自独立颠倒顺序的,（2）Mann-Whitney U秩和检验法,检验这两组样本是否来自同一个总体(或两组样本的总体分布是否相同)。,问题：,有两个总体的样本为：,与,可能,。,。,Man

15、n-Whitney U检验的统计量是：,式中,对给定 ,查值表,得,若,则总体分布相同。,两样本Wald-wolfowitz 游程检验中，计算游程的方法与观察值的秩有关。首先，将两组样本混合并升序排列。在数据排序时，两组样本的每个观察值对应的样本组标志值序列也随之重新排列，然后对标志值序列求游程。,如果计算出的游程数相对比较小，则说明样本来自的两总体分布形态存在较大差距。,SPSS将自动计算游程数得到Z统计量，并依据正态分布表给出对应的相伴概率值。,（3）Wald-wolfowitz 游程检验,如果跨度或截头跨度很小，说明两个样本数据无法充分混合，认为实验样本存在极端反应。,两独立样本的极端

16、反应检验，将一个样本作为控制样本，另一个样本作为实验样本。以控制样本做对照，检验实验样本是否存在极端反应。,首先，将两组样本混合并升序排列；然后计算控制样本最低秩和最高秩之间的观察值个数，即：Span(跨度)。,为控制极端值对分析结果的影响，可先去掉样本两个最极端的观察值后，再求跨度，这个跨度称为截头跨度。,零假设：样本来自的两独立总体分布没有显著差异。,（4）Moses 极端反应检验,两组独立样本的总体分布是否相同的检验,例如：用两种激励方法对同样工种的两个班组进行激励，每个班组都有7个人，测得激励后的业绩增长率如下表所示，问：两种激励方法的激励效果的分布有无显著差异？,两种激励方法分别用于两个班组的效果（%）,激励法A 16.10 17.00 16.80 16.50 17.50 18.00 17.20,激励法B 17.00 16.40 15.80 16.40 16.00 17.10 16.90,

展开阅读全文