单样本的非参数检验1两独立样本的非参数检验2多独立样本的非参数检验3两配对样本的非参数检验4多配对样本的非参数检验5SPSS的非参数检验 前面已经讨论的许多统计分析方法对总体有特殊的要求,如T检验要求总体符合正态分布,F检验要求误差呈正态分布且各组方差整齐,等等这些方法常用来估计或检验总体参数,统称为参数检验 但许多调查或实验所得的科研数据,其总体分布未知或无法确定因为有的数据不是来自所假定分布的总体,或者数据根本不是来自一个总体,还有可能数据因为某种原因被严重污染,这样在假定分布的情况下进行推断的做法就有可能产生错误的结论此时人们希望检验对一个总体分布形状不必作限制 这种不是针对总体参数,而是针对总体的某些一般性假设(如总体分布)的统计分析方法称非参数检验(Nonparametric Tests)非参数检验根据样本数目以及样本之间的关系可以分为单样本非参数检验、两独立样本非参数检验、多独立样本非参数检验、两配对样本非参数检验和多配对样本非参数检验几种 本节将介绍总体分布的卡方(Chi-square)检验、二项分布(Binomial)检验、单样本K-S(Kolmogorov-Smirnov)检验、单样本变量值随机性检验(Runs Test)等常用的非参数检验方法。
1 单样本的非参数检验1 1.1 .1 总体分布的卡方(总体分布的卡方(Chi-squareChi-square)检验)检验 在得到一批样本数据后,人们往往希望从中得到样本所来自的总体的分布形态是否和某种特定分布相拟合这可以通过绘制样本数据直方图的方法来进行粗略的判断如果需要进行比较准确的判断,则需要使用非参数检验的方法其中总体分布的卡方检验(也记为2检验)就是一种比较好的方法1.1.1 卡方检验的基本思想 定义:总体分布的卡方检验适用于吻合性检验,是根据样本数据推断总体分布与期望分布或理论分布是否有显著差异它的零假设H0:样本来自的总体分布和期望分布或某一理论分布没有显著差异 因此,总体分布的卡方检验是一种吻合性检验,比较适用于一个因素的多项分类数据分析总体分布的卡方检验的数据是实际收集到的样本数据,而非频数数据 1.1.2 总体分布卡方检验的应用举例 研究问题 为研究心脏病人猝死人数与日期的关系,收集到了168个观察数据,其中星期一至星期日的死亡人数分别依次为55、23、18、11、26、20、15,并用数字17表示星期,现在利用这批样本数据,推断心脏病人猝死人数与日期的关系是否为2.8:1:1:1:1:1:1。
问 题 为验证某批产品的一级品率是否低于90%,现从该批产品中随机抽取23个样品进行检测并得到检测结果数据其中1表示一级品,0表示非一级品1.21.2 二项分布检验二项分布检验1.2.1 二项分布检验的基本思想 现实生活中有很多数据的取值只有两类,如医学中的生与死、患病的有与无、性别中的男性和女性、产品的合格与不合格等从这种二分类总体中抽取的所有可能结果,要么是对立分类中的这一类,要么是另一类,其频数分布称为二项分布调用SPSS中的二项分布检验(Binomial)可对样本资料进行二项分布分析 SPSS二项分布检验就是根据收集到的样本数据,推断总体分布是否服从某个指定的二项分布其零假设是H0:样本来自的总体与所指定的某个二项分布不存在显著的差异 SPSS中的二项分布检验,在样本小于或等于30时,采用精确检验,按照计算二项分布概率的公式进行计算,计算n次试验中成功出现的次数小于等于K次的概率;样本数大于30时,采用近似检验,计算的是Z统计量,认为在零假设下,Z统计量服从正态分布Z统计量的计算公式如下l SPSS将自动计算Z统计量,并给出相应的相伴概率值如果相伴概率小于或等于用户的显著性水平,则应拒绝零假设H0,认为样本来自的总体分布形态与指定的二项分布存在显著差异;如果相伴概率值大于显著性水平,则不能拒绝零假设H0,认为样本来自的总体分布形态与指定的二项分布不存在显著差异。
l SPSS二项分布检验的数据是实际收集到的样本数据,而非频数数据 研究问题1为验证某批产品的一级品率是否低于90%,现从该批产品中随机抽取23个样品进行检测并得到检测结果数据其中1表示一级品,0表示非一级品 7.1.2.2 二项分布检验的应用举例 研究问题2根据居民储蓄(存款)的样本数据,分析储户对未来收入的看法,检验储户总体对收入持保守或悲观态度的比例是否与0.4有显著性差异,持乐观态度的比例是否与0.6有显著性差异 问 题 为检验某耐压设备在某段时间内工作是否持续正常,测试并记录下该时间段内各个时间点上的设备耐压的数据如果耐压数据的变动是随机的,可认为该设备工作一直正常,否则认为该设备有不能正常工作的现象7.1.37.1.3 SPSS SPSS单样本变量值随机性检验单样本变量值随机性检验7.1.3.1 变量值随机性检验的基本思想 定义:单样本变量值的随机性检验是对某变量的取值出现是否随机进行检验,也称为游程检验(Run过程) 单样本变量值的随机性检验是由Wald提出的,它的零假设为H0:总体某变量的变量值出现是随机的 单样本变量值的随机性检验通过游程(Run)数来实现所谓游程是一个或一个以上相同符号连续出现的段。
设某样本n=12人的标志表现为男、女,有以下三种排列 (i) 男男女女女男女女男男男(ii) 男男男男男男男女女女女女 (iii)男女男女男女男女男女男男请问游程数分别为多少? 问28次投掷硬币出现正反两面的变量值序列为1011011010011000101010000111,游程数为多少? 利用游程数构造检验统计量: 设 为出现1的个数, 为出现0的个数,当 较大时,游程的抽样分布的均值为 ,方差为 ,在大样本时,游程近似服从正态分布,即 其中 为游程数 在SPSS单样本变量值的随机性检验中,SPSS将利用游程构造Z统计量,并依据正态分布表给出对应的相伴概率值如果相伴概率小于或等于用户的显著性水平,则应拒绝零假设H0,认为样本值的出现不是随机的;如果相伴概率值大于显著性水平,则不能拒绝零假设H0,认为变量值的出现是随机的7.1.3.2 变量值随机性检验的应用举例 研究问题 为检验某耐压设备在某段时间内工作是否持续正常,测试并记录下该时间段内各个时间点上的设备耐压的数据如果耐压数据的变动是随机的,可认为该设备工作一直正常,否则认为该设备有不能正常工作的现象 7.1.4.1 单样本K-S检验的基本思想7.1.4 SPSS7.1.4 SPSS单样本单样本K-SK-S检验检验 定义:单样本K-S检验是以两位前苏联数学家Kolmogorov和Smirnov命名的,也是一种拟合优度的非参数检验方法。
单样本K-S检验是利用样本数据推断样本来自的总体是否与某一理论分布有显著差异,适用于探索连续型随机变量的分布 单样本K-S检验可以将一个变量的实际频数分布与正态分布(Normal)、均匀分布(Uniform)、指数(Exponential)分布、泊松分布(Poisson)进行比较其零假设H0为样本来自的总体与指定的理论分布无显著差异 SPSS在统计中将计算K-S的D统计量,并依据Kolmogorov分布表(小样本)或K(x)分布表(大样本)给出对应的相伴概率值如果相伴概率小于或等于用户的显著性水平,则应拒绝零假设H0,认为样本来自的总体与指定的分布有显著差异;如果相伴概率值大于显著性水平,则不能拒绝零假设H0,认为样本来自的总体与指定的分布无显著差异1.4.2单样本K-S检验的应用举例 研究问题1 利用收集到的21名周岁儿童身高的样本数据,利用K-S方法检验周岁儿童身高的总体是否与正态分布有显著差异 研究问题2 利用K-S检验分析储户一次存款金额的总体是否服从正态分布 从甲乙两种不同工艺生产出来的产品中随机选取若干个样本,分析两种工艺产品的使用寿命是否存在显著性差异7 7. .2 2 两独立样本的非参数检验两独立样本的非参数检验 定义:两独立样本的非参数检验是在对总体分布不很了解的情况下,通过分析样本数据,推断样本来自的两个独立总体分布是否存在显著差异。
一般用来对两个独立样本的均数、中位数、离散趋势、偏度等进行差异比较检验两个样本是否独立,主要看在一个总体中抽取样本对另外一个总体中抽取样本有无影响如果没有影响,则可以认为两个总体是独立的SPSS提供了4种两独立样本的非参数检验方法1两独立样本的Mann-Whitney U检验两独立样本的Mann-Whitney U检验的零假设H0为两组独立样本来自的两总体分布没有显著差异两独立样本的Mann-Whitney U检验主要通过对平均秩的研究来实现推断秩简单地说就是变量值排序的名次如果将数据按照升序进行排序,这时每一个变量值都会有一个在整个变量值中的位置或名次,这就是该变量值的秩,变量值有多少个,秩便有多少个基本步骤计算示例应用举例 研究问题 从甲乙两种不同工艺生产出来的产品中随机选取若干个样本,分析两种工艺产品的使用寿命是否存在显著性差异2两独立样本的K-S检验两独立样本的K-S检验能够对两独立样本的总体分布情况进行比较其零假设是H0为两组独立样本来自的两总体的分布没有显著差异两独立样本的K-S检验实现方法是:首先将两组样本数据(X1,X2,Xm)和(Y1,Y2,Yn)混合并按升序排列(m和n是两组样本的样本容量),然后分别计算两组样本秩的累计频数和累计频率;最后将两个累计频率相减,得到差值序列数据。
见教材151页表7-8)两独立样本的K-S检验将关注差值序列SPSS将自动计算K-S D统计量及对应的相伴概率值如果相伴概率小于或等于用户的显著性水平,则应拒绝零假设H0,认为两个样本来自的总体分布有显著差异;如果相伴概率值大于显著性水平,则不能拒绝零假设H0,认为两个样本来自的总体分布无显著差异3两独立样本的游程检验(Wald-Wolfwitz Runs)两独立样本的游程检验用来检验两组独立样本来自的两总体的分布是否存在显著差异其零假设是H0为两组独立样本来自的两总体的分布没有显著差异 两独立样本的游程检验中,计算游程的方法与观察值的秩有关首先,将两组样本混合并按照升序排列在数据排序时,两组样本的每个观察值对应的样本组标志值序列也随之重新排列,然后对标志值序列按照前面讨论的方法求游程两独立样本游程检验计算示例 如果计算出的游程数相对比较小,则说明样本来自的两总体的分布形态存在较大差距;如果得到的游程数相对比较大,则说明样本来自的两总体的分布形态不存在显著差异 SPSS将自动计算游程数得到Z统计量并依据正态分布表给出对应的相伴概率值如果相伴概率小于或等于用户的显著性水平,则应拒绝零假设H0,认为两个样本来自的总体分布有显著差异;如果相伴概率值大于显著性水平,则不能拒绝零假设H0,认为两个样本来自的总体分布无显著差异。
4两独立样本的极端反应检验(Moses Extreme Reactions) 两独立样本的极端反应检验用来检验两组独立样本来自的两总体的分布是否存在显著差异其零假设H0为两组独立样本来自的两总体的分布没有显著差异 两独立样本的极端反应检验将一个样本作为控制样本,另外一个样本作为实验样本以控制样本作对照,检验实验样本是否出现了极端反应首先将两组样本混合并按升序排列;然后找出控制样本最小秩和最大秩之间所包含的观察值个数,即跨度(Span也即最大秩-最小秩+1)为消除样本数据中极端值对分析结果的影响,也可以先按比例(通常为5%)去除控制样本中部分靠近两端的样本值,然后再求跨度,这个跨度称为截头跨度极端反应检验的基本思想极端反应检验计算示例 两独立样本的极端检验计算跨度和截头跨度如果跨度或截头跨度很小,则表明两个样本数据无法充分混合,可以认为实验样本出现了极端反应,样本来自的两总体分布存在显著差异;反之,如果跨度或截头跨度较大,则表明两个样本数据充分混合,可以认为实验样本没有出。