第七章第七章SPSS非参数检验非参数检验本章内容7.1 单样本的非参数检验单样本的非参数检验7.2 两独立样本的非参数检验两独立样本的非参数检验7.3 多独立样本的非参数检验多独立样本的非参数检验7.4 两配对样本的非参数检验两配对样本的非参数检验7.5 多配对样本的非参数检验多配对样本的非参数检验非参数检验非参数检验:非参数检验:(1)在总体分布)在总体分布未知未知或知道或知道甚少甚少的情况下,利用的情况下,利用样本数据对总体样本数据对总体分布形态分布形态等进行推断的方法等进行推断的方法2)推断过程中)推断过程中不涉及不涉及有关总体分布的有关总体分布的参数参数7.1 单样本的非参数检验1.目的:样本来自总体的分布是否与某个已知的分布目的:样本来自总体的分布是否与某个已知的分布相吻合?相吻合?绘制样本数据的直方图、绘制样本数据的直方图、pp图、图、图判断图判断粗略粗略通过非参数检验通过非参数检验精确精确2.单样本非参数检验单样本非参数检验(1)对单个总体的分布形态等进行推断)对单个总体的分布形态等进行推断(2)方法:卡方检验、二项分布检验、)方法:卡方检验、二项分布检验、K-S检验、检验、变量值随机性检验等。
变量值随机性检验等7.1.1总体分布的卡方检验1.基本思想基本思想-吻合性检验吻合性检验 (1)原假设:样本来自的总体分布与期望分布)原假设:样本来自的总体分布与期望分布无显著无显著差异变量值落入第变量值落入第i个子集中的理论概率为个子集中的理论概率为 ,相应的期望频率为,相应的期望频率为 2.实现步骤实现步骤Analyze-Nonparametric Tests-Chi-Square(1)选定待检验的变量到)选定待检验的变量到Test Variable list(2)在)在Expected Range中确定参与分析的观测值的范围:中确定参与分析的观测值的范围:Get from data:所有观测数据都参与分析所有观测数据都参与分析use specified range:只在该取值范围内的观测数据才参与:只在该取值范围内的观测数据才参与分析3)Expected values给出各理论值给出各理论值All categories equal:所有子集的频数都相同所有子集的频数都相同value:依次输入值,通过:依次输入值,通过add、change、remove进行增加、修改和删除进行增加、修改和删除。
3.应用案例医学研究表明心脏病人猝死人数与日期的关系为:医学研究表明心脏病人猝死人数与日期的关系为:一周内,星期一猝死者较多,其他日子基本相当,一周内,星期一猝死者较多,其他日子基本相当,各天的比例近似为:各天的比例近似为:2.8:1:1:1:1:1:1 根据根据“心脏病猝死心脏病猝死”数据,推断总体分布是否与理数据,推断总体分布是否与理论分布相吻合论分布相吻合分析:分析:利用总体分布卡方检验实现利用总体分布卡方检验实现7.1.2二项分布检验1.基本思想基本思想(1)通过样本数据检验样本来自的总体是否服从指定概率)通过样本数据检验样本来自的总体是否服从指定概率p的二项分布的二项分布2)小样本)小样本-精确检验精确检验大样本大样本-近似检验近似检验2.实现步骤 Analyze-Nonparametric Tests-Binomial(1)选定待检验的变量到)选定待检验的变量到Test Variable list(2)define dichotomy中指定如何分类中指定如何分类get from data:检验变量为二值变量:检验变量为二值变量cut point:输入具体数值,大于等于该值的为第:输入具体数值,大于等于该值的为第一组,大于该组的为第二组一组,大于该组的为第二组(3)Test proportion:输入二项分布的检验:输入二项分布的检验概率值概率值3.应用案例利用利用“产品合格率产品合格率”数据,推断该批产品的一级品数据,推断该批产品的一级品率是否为率是否为90%分析:分析:产品合格与否属于二值变量,可以通过二项分布检产品合格与否属于二值变量,可以通过二项分布检验实现。
验实现7.1.3单样本K-S检验1.基本思想基本思想(1)以俄罗斯数学家柯尔莫哥和斯米诺夫名字命名)以俄罗斯数学家柯尔莫哥和斯米诺夫名字命名(2)利用样本数据推断样本来自的总体是否服从某一理论分布,)利用样本数据推断样本来自的总体是否服从某一理论分布,是一种是一种拟合优度拟合优度的检验方法,适用于探索的检验方法,适用于探索连续型连续型随机变量的分布随机变量的分布(3)步骤)步骤计算各样本观测值在理论分布中出现的计算各样本观测值在理论分布中出现的理论累计概率值理论累计概率值F(x)计算各样本观测值的计算各样本观测值的实际累计概率值实际累计概率值S(x)计算理论累计概率值与实际累计概率值的计算理论累计概率值与实际累计概率值的差差D(x)计算差值序列中计算差值序列中最大绝对差值最大绝对差值D(4)原假设成立时:)原假设成立时:小样本下:小样本下:Dkolmogorov分布分布大样本下:大样本下:近似服从近似服从K(x)分布分布SPSS仅给出大样本下的仅给出大样本下的 和对应的和对应的p值值(5)决策)决策D统计量的统计量的p值值显著性水平,不拒绝原假设,样本来显著性水平,不拒绝原假设,样本来自的总体与指定分布无显著差异自的总体与指定分布无显著差异2.实现步骤Analyze-Nonparametric Tests-1-sample K-S(1)选定待检验的变量到)选定待检验的变量到Test Variable list(2)Test distribution:选择理论分布选择理论分布normal:正态分布正态分布uniform:均匀分布:均匀分布poisson:泊松分布:泊松分布exponential:指数分布:指数分布3.应用案例利用利用“儿童身高儿童身高”数据分析周岁儿童身高总体是否数据分析周岁儿童身高总体是否服从正态分布。
服从正态分布分析:分析:可以通过单样本可以通过单样本K-S检验实现检验实现7.1.4 变量值随机性检验1.基本思想基本思想(1)通过对样本变量值的分析,实现对总体的变量值出)通过对样本变量值的分析,实现对总体的变量值出现现是否随机是否随机进行检验进行检验2)原假设:总体变量值出现是随机的原假设:总体变量值出现是随机的检验依据:游程检验依据:游程-样本序列中连续出现相同的变量值样本序列中连续出现相同的变量值的次数游程数太大或太小都表明变量值存在不随机的现象游程数太大或太小都表明变量值存在不随机的现象(3)检验统计量)检验统计量(4)决策:)决策:Z统计量的统计量的p值值显著性水平,不拒绝原假设,变量值的出现是随机的显著性水平,不拒绝原假设,变量值的出现是随机的2.实现步骤Analyze-Nonparametric Tests-Runs(1)选定待检验的变量到)选定待检验的变量到Test Variable list(2)cut point:计算游程数的分界值计算游程数的分界值median:样本中位数为分界值:样本中位数为分界值mode:样本众数为分界值:样本众数为分界值mean:样本均值为分界值:样本均值为分界值custom:以用户输入的值为分界值,:以用户输入的值为分界值,SPSS将将小于该分界值的所有变量作为一组,大于或等于该小于该分界值的所有变量作为一组,大于或等于该分界值的所有变量作为一组,计算游程。
分界值的所有变量作为一组,计算游程3.应用案例利用利用“电缆数据电缆数据”推断耐压设备的工作是否正常推断耐压设备的工作是否正常分析:分析:若耐压数据的变动是随机的若耐压数据的变动是随机的-则设备工作正常则设备工作正常若耐压数据的变动不是随机的若耐压数据的变动不是随机的-则设备工作存在不则设备工作存在不正常正常可以通过变量值随机性检验实现可以通过变量值随机性检验实现7.2两独立样本的非参数检验(1)独立样本:在一个总体中随机抽样对在另一个)独立样本:在一个总体中随机抽样对在另一个总体中随机抽样没有影响的情况下所获得的样本总体中随机抽样没有影响的情况下所获得的样本2)推断样本来自的两个总体的)推断样本来自的两个总体的分布分布等是否存在等是否存在显显著差异著差异3)方法:曼)方法:曼-惠特尼惠特尼U检验、检验、K-S检验、检验、W-W游游程检验、极端反应检验等程检验、极端反应检验等7.2.1两独立样本的曼-惠特尼U检验1.基本思想基本思想(1)原假设:两组独立样本来自的两总体分布无显著差)原假设:两组独立样本来自的两总体分布无显著差异2)通过两组样本)通过两组样本平均秩平均秩的研究实现推断的研究实现推断 秩秩-变量值排序的变量值排序的名次名次,变量值有几个,对应的秩便有几,变量值有几个,对应的秩便有几个。
个3)检验步骤)检验步骤 将两组样本混合并升序排列,得每个数据的秩将两组样本混合并升序排列,得每个数据的秩 分别对样本分别对样本X和和Y的秩求平均,得平均秩的秩求平均,得平均秩 和和 计算样本计算样本X优于样本优于样本Y秩的个数秩的个数 和样本和样本Y优于样本优于样本X秩的个数秩的个数 依据依据 和和 计算计算WilcoxonW统计量和曼统计量和曼-惠特尼惠特尼U统计量WilcoxonW统计量:统计量:曼曼-惠特尼统计量惠特尼统计量U为:为:大样本下,大样本下,U近似服从正态分布近似服从正态分布7.2.2两独立样本的K-S检验1.基本思想基本思想(1)原假设:两组独立样本来自的两总体的分布无显著差异原假设:两组独立样本来自的两总体的分布无显著差异2)与单样本)与单样本K-S检验的基本思路大体一致,差别在于:以检验的基本思路大体一致,差别在于:以变变量值的秩量值的秩为分析对象,而非变量值本身为分析对象,而非变量值本身3)检验步骤)检验步骤将两组样本混合并按升序排列将两组样本混合并按升序排列分别计算两组样本秩的累计频数和累计频率分别计算两组样本秩的累计频数和累计频率计算两组累计频率的差,得秩的差值序列及计算两组累计频率的差,得秩的差值序列及D统计量统计量SPSS计算大样本下的计算大样本下的 和对应的和对应的p值值(3)决策:)决策:拒绝原假设,两总体的分布有显著差异:拒绝原假设,两总体的分布有显著差异 :不拒绝原假设,两总体的分布无显著差异:不拒绝原假设,两总体的分布无显著差异 7.2.3两独立样本的游程检验1.基本思想基本思想(1)原假设:两组独立样本来自的两总体的分布无显著差异。
原假设:两组独立样本来自的两总体的分布无显著差异2)检验步骤)检验步骤将两组样本混合并按升序排列,组标记值也随之重新排列将两组样本混合并按升序排列,组标记值也随之重新排列计算计算组标记值序列组标记值序列的游程数的游程数根据游程数计算根据游程数计算Z统计量,统计量,Z统计量近似服从正态分布统计量近似服从正态分布(3)决策:)决策:拒绝原假设,两总体的分布有显著差异:拒绝原假设,两总体的分布有显著差异 :不拒绝原假设,两总体的分布无显著差异:不拒绝原假设,两总体的分布无显著差异7.2.4极端反应检验1.基本思想基本思想(1)原假设:两独立样本来自的两个总体的分布无显著差异原假设:两独立样本来自的两个总体的分布无显著差异2)一组样本为)一组样本为控制样本控制样本,一组样本为,一组样本为实验样本实验样本,看实验样本,看实验样本相对于控制样本是否出现了极端反应相对于控制样本是否出现了极端反应3)检验步骤)检验步骤两组样本混合按升序排列两组样本混合按升序排列求控制样本的最小秩求控制样本的最小秩 和最大秩和最大秩 计算跨度计算跨度 为了消除样本数据中的极端值,计算跨度前可按比例(通常为了消除样本数据中的极端值,计算跨度前可按比例(通常5%)去除控制样本中靠近两端的样本值,再求跨度,得截)去除控制样本中靠近两端的样。