《七章节非参数统计》由会员分享,可在线阅读,更多相关《七章节非参数统计(27页珍藏版)》请在金锄头文库上搜索。
1、第七章第七章 非参数统计非参数统计 非参数统计非参数统计(亦称非参数检验),是根据样本资料对总(亦称非参数检验),是根据样本资料对总体的某种性质或关系进行假设检验的统计推断方法。体的某种性质或关系进行假设检验的统计推断方法。主要特点主要特点不要求不要求总体分布已知或对总体分布作任何限制性假总体分布已知或对总体分布作任何限制性假定;定;不以不以估计总体参数为目的;估计总体参数为目的;能适用于能适用于定性变量中的定类数据定性变量中的定类数据或或定序数据定序数据 ,也能也能适用于定距数据和定比数据这种定量变量适用于定距数据和定比数据这种定量变量 方法直观,易于理解,运算比较简单。方法直观,易于理解,
2、运算比较简单。缺点缺点是检验的功效不如参数检验方法。是检验的功效不如参数检验方法。主要内容主要内容2检验检验成对比较检验成对比较检验曼曼惠特尼惠特尼U检验检验游程检验游程检验等级相关检验等级相关检验2检验检验一、什么是一、什么是2检验检验2检验是利用随机样本对总体分布与某种特定分布检验是利用随机样本对总体分布与某种特定分布拟合程度的检验,也就是拟合程度的检验,也就是检验观察值与理论值之间的检验观察值与理论值之间的紧密程度。紧密程度。 设有设有k(K2)个观察值,个观察值,f0为它们的实际频数,为它们的实际频数,fe为理论频数。构造一个统计量为理论频数。构造一个统计量其中,其中,k-1为自由度。
3、为自由度。 皮尔生定理表明,当样本容量充分大时,样本分成皮尔生定理表明,当样本容量充分大时,样本分成K类,则类,则2统计量统计量服从服从2分布。分布。自由度为自由度为k-11、拟合优度检验、拟合优度检验二、应用二、应用利用样本信息对总体分布作出推断,检验总体是否服利用样本信息对总体分布作出推断,检验总体是否服从从某种理论分布某种理论分布(如二项分布、均匀分布或正态分布(如二项分布、均匀分布或正态分布等)。等)。 检验步骤检验步骤抽样并对样本资料编成频抽样并对样本资料编成频数分布数分布,形成,形成k个互斥的类个互斥的类型组。型组。 (f0)对总体分布建立假设对总体分布建立假设H0:总体服从某种理
4、论分布总体服从某种理论分布H1:总体不服从该理论分布总体不服从该理论分布以以“原假设原假设H0为真为真”导出导出一组期望频数(一组期望频数(fe)计算检验统计量计算检验统计量比较比较2值与临界值值与临界值作出检验判断作出检验判断自由度(自由度(df)k-1-m。其中其中k为组数。(各组理论频数不得小于为组数。(各组理论频数不得小于5 5,如不足,如不足5 5,可合并相邻的组,如需合并,则可合并相邻的组,如需合并,则k为合并后的组数)为合并后的组数)m为计算理论频数时所估计参数的个数。(未指定总体为计算理论频数时所估计参数的个数。(未指定总体的参数,需要观察值计算相应的统计量,作为未参数的的参数
5、,需要观察值计算相应的统计量,作为未参数的估计值)估计值) 。2、独立性检验、独立性检验二、应用二、应用用于判断两个变量是否存在交互影响。如果两个变量用于判断两个变量是否存在交互影响。如果两个变量不存在交互影响,就称为独立,所以这类检验也称为不存在交互影响,就称为独立,所以这类检验也称为独立性检验。独立性检验。 检验步骤检验步骤对总体的两个变量建立假设对总体的两个变量建立假设H0:两变量独立两变量独立H1:两变量关联两变量关联将样本资料编成将样本资料编成rc列联表,列联表,并列出实际频数并列出实际频数Oij计算理论频数计算理论频数计算检验统计量计算检验统计量比较比较2值与临界值值与临界值作出检
6、验判断作出检验判断要点说明要点说明列联表形式(列联表形式(rc)O11O21O31.Or1O12O22O32.Or2O13O23O33.Or3.O1cO2cO3c.OrcO1O2O3.Or123.r行行(r)列(列(c)123cxy合计合计 n.1 合计合计X的边缘频数的边缘频数y的边缘频数的边缘频数理论频数理论频数Eij的计算的计算先求理论频率(作为概率的近似)。概率论中关于概先求理论频率(作为概率的近似)。概率论中关于概率独立的基本规则:如果两事件独立,则它们的联合率独立的基本规则:如果两事件独立,则它们的联合概率等于它们各自概率的乘积,概率等于它们各自概率的乘积,P(AB)=P(A)P(
7、B)。)。因此,某一行某一列的因此,某一行某一列的联合概率:联合概率:自由度(自由度(df)的确定的确定df=(r-1)(c-1)rc=22的列联表资料,的列联表资料,2值简算公式值简算公式xy1212abcda+cb+da+bc+d合计合计合计合计n成对比较检验成对比较检验 是对两个相关样本的比较分析。有符号检验和威尔是对两个相关样本的比较分析。有符号检验和威尔科克森带符号的等级检验两种方法。科克森带符号的等级检验两种方法。 符号检验符号检验 也称正负号检验,其基本思想是分析也称正负号检验,其基本思想是分析正负号正负号出现的频出现的频率而率而忽略具体量的差异忽略具体量的差异,以确定他们是否有
8、显著差异,以确定他们是否有显著差异的一种检验方法。的一种检验方法。 检验步骤检验步骤 1.1.确定配对样本,分别计算差异正与负的数目,无差确定配对样本,分别计算差异正与负的数目,无差异则记为异则记为0 0,将它从样本中剔除,并相应地减少样本容,将它从样本中剔除,并相应地减少样本容量量n n,把正负号数目之和视为样本总个数把正负号数目之和视为样本总个数(n)(n) 。2.建立假设:建立假设:H0: p=0.5 ; H1:p0.53.3.观察样本容量,如果观察样本容量,如果n25n25,则作为二项分布处理则作为二项分布处理 如果如果n n2525,则作为正态近似处理。则作为正态近似处理。 4.4.
9、设定显著性水平设定显著性水平,并查表确定临界值,进行比较并查表确定临界值,进行比较和作出判断。和作出判断。 例例 1:随机抽取:随机抽取12个单位,放映一部描述吸烟有害健康的影片,个单位,放映一部描述吸烟有害健康的影片, 并调查得到观看电影前后各单位职工认为吸烟有害的人并调查得到观看电影前后各单位职工认为吸烟有害的人 数的百分比。检验该电影宣传是否有效果(数的百分比。检验该电影宣传是否有效果(=0.05)。)。解:解:H0:P=0.5 H1:P 0.5 P(0)=0.0002, P(1)=0.0030, P(2)=0.0161, P(3)=0.0537P(0)+P(1)+P(2)=0.0193
10、0.05P(3)+0.01930.05370.0193=0.0730.05 012 3 4 56可见,拒绝域应为可见,拒绝域应为0,1,2。78910 11 12拒绝域拒绝域现检验统计量(现检验统计量(-)=3 (即(即3个负号),个负号),0.0730.05所以,原假设所以,原假设H0:P=0.5在在5%显著性水平上不能被拒显著性水平上不能被拒绝。也即不能认为职工在观看影片前后的认识有显著绝。也即不能认为职工在观看影片前后的认识有显著提高。提高。例例2:随机抽取:随机抽取60名消费者对甲、乙两种品牌的饮料评名消费者对甲、乙两种品牌的饮料评 分,甲分,甲 、乙得分之差为、乙得分之差为“+”号者
11、号者35个,个,“-”号号15 个,个,“0”号号10个。个。以显著性水平以显著性水平=0.05检验两种饮料是否同等受欢迎。检验两种饮料是否同等受欢迎。解:解:H0:P=0.5, H1:P0.5n25,按正态分布近似处理按正态分布近似处理该成数抽样分布的均值和标准差分别为该成数抽样分布的均值和标准差分别为2.821.96,所以,拒绝原假设。认为两种饮料并不受到,所以,拒绝原假设。认为两种饮料并不受到同等欢迎。且乙种优于甲种。同等欢迎。且乙种优于甲种。威尔科克森带符号威尔科克森带符号的等级的等级检验检验这种检验方法不仅考虑了两组数据差异的正、负号,这种检验方法不仅考虑了两组数据差异的正、负号,而
12、且还利用了而且还利用了其差异大小的信息其差异大小的信息。因此,是一种更为。因此,是一种更为有效的检验方法。有效的检验方法。1、应用条件和检验内容与符号检验相同。、应用条件和检验内容与符号检验相同。2、方法思想:若关联样本的两组数据没有显著差异,则不仅、方法思想:若关联样本的两组数据没有显著差异,则不仅其差异的正、负符号应大致相等,而且将其差的数值按大小顺其差异的正、负符号应大致相等,而且将其差的数值按大小顺序排列编自然序号(即秩)后,它们的正号(序排列编自然序号(即秩)后,它们的正号(+)的秩和(记)的秩和(记为为T+)与负号(与负号(-)的秩和(记为)的秩和(记为T-)也应该大致相等。其中也
13、应该大致相等。其中之较小者也应趋近于总秩和的平均数(之较小者也应趋近于总秩和的平均数( )。若正秩)。若正秩和(和(T+)与负秩和(与负秩和(T-)相差太大,其中较小者偏离总秩和的相差太大,其中较小者偏离总秩和的平均(平均( )较远,以致超过给定显著性水平)较远,以致超过给定显著性水平所确定的临界点,所确定的临界点,就可以认为这两组数据存在显著差异,即总体的分布不相同。就可以认为这两组数据存在显著差异,即总体的分布不相同。检验步骤检验步骤将样本数据配对并计算各对正负差值将样本数据配对并计算各对正负差值将差数取绝对值按从小到大顺序排列并编上等级,即将差数取绝对值按从小到大顺序排列并编上等级,即确
14、定顺序号确定顺序号1 1、2 2、3 3等。对于相等的值,则取其位序等。对于相等的值,则取其位序的平均数为等级的平均数为等级 建立假设:建立假设:H0:T+= T- ; H1 : T+ T-(双侧双侧) H1 :T+T-或或T+T-(单侧单侧) 计算检验统计量计算检验统计量: 当当n25时时当当n25时,取时,取T+、T-中之小者中之小者设定设定,并查表确定临界值并查表确定临界值T(或或Z/2)比较检验值与临界值比较检验值与临界值作出判断,对于作出判断,对于n25,TT, 拒绝拒绝H0; TT, 接受接受H0接受区域接受区域拒绝区域拒绝区域拒绝区域拒绝区域T=5 T=40 =22.5 曼曼惠特
15、尼惠特尼U U检验检验曼曼惠特尼惠特尼U检验适用于从两个总体中分别独立抽取检验适用于从两个总体中分别独立抽取两个样本的检验,方法思想与威尔科克森秩和检验相两个样本的检验,方法思想与威尔科克森秩和检验相同。同。检验步骤:检验步骤:从总体从总体A、B中分别独立抽取样本中分别独立抽取样本nA和和nB,将(将(nA+nB)个观察值从小到大编序个观察值从小到大编序分别计算两个样本,的秩和分别计算两个样本,的秩和TA和和TB建立假设建立假设H0:两总体两总体A和和B相对次数分布相同相对次数分布相同 H1:两总体相对次数分布不同两总体相对次数分布不同计算检验统计量计算检验统计量nA、nB10时,取时,取UA
16、、UB中小者中小者 UA= nAnB+ nA(nA +1)/2-TA UB= nAnB+ nB(nB +1)/2-TBnA、nB10时时设定显著性水平设定显著性水平,查,查U表或表或Z表得到临界值表得到临界值比较统计量与临界值,作出判断,比较统计量与临界值,作出判断,对于对于nA、nB20 UU,拒绝拒绝H0, UU,接受接受H0游程检验游程检验一、什么是游程检验一、什么是游程检验游程检验(亦称连贯检验)是根据样本标志表现排列游程检验(亦称连贯检验)是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。所形成的游程的多少进行判断的检验方法。设某样本设某样本n=12人的标志表现为男、女,有
17、以下三种排人的标志表现为男、女,有以下三种排列。列。 (i) 男,男男,男,女,女,女女,女,女,男男,女,女女,女,男,男,男,男男,男,男,男 (ii) 男,男,男,男,男,男,男男,男,男,男,男,男,男,女,女,女,女,女女,女,女,女,女 (iii) 男男,女女,男男,女女,男男,女女,男男,女女,男男,女女,男,男男,男连续出现男或女的区段称为游程。每个游程包含的连续出现男或女的区段称为游程。每个游程包含的个数为游程长度。以个数为游程长度。以r表示序列中游程的个数:表示序列中游程的个数: (i) r=5, (ii) r=2, (iii) r=11(i)是随机性序列;(是随机性序列;
18、(ii)()(iii)是非随机性序列,是非随机性序列,所以,可以用游程的个数来检验样本的随机性,或总所以,可以用游程的个数来检验样本的随机性,或总体的分布特征。体的分布特征。二、游程检验方法二、游程检验方法 1检验总体分布是否相同。检验总体分布是否相同。将从两个总体中独立抽取的两个样本的观察值混合有将从两个总体中独立抽取的两个样本的观察值混合有序后,观察游程个数,进行比较。序后,观察游程个数,进行比较。2检验样本的随机性检验样本的随机性将取自某一总体的样本的观察值按从小到大顺序排列,将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数(或平均数),分为大于中位数的小于中找出中位数(或平均
19、数),分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验位数的两个部分。用上下交错形成的游程个数来检验样本是否是随机的。样本是否是随机的。3检验规则(小样本,检验规则(小样本,n1与与n2都小于都小于20) 应用表应用表La和和Lb,(,(=0.05,r为临界值)为临界值)(1)单侧检验:)单侧检验: 观察到的游程个数观察到的游程个数ro临界值(临界值(La表)表) 或或ro临界值(临界值(Lb表)表) 反之,接受反之,接受Ho。(2)双侧检验:)双侧检验: 观察到的游程个数观察到的游程个数ror(La)ror(Lb) 接受接受Ho 下限下限 上限上限反之,反之,拒绝拒绝Ho
20、否定否定Ho4大样本(大样本(n1或或n2大于大于20),游程个数),游程个数r近似正态分布近似正态分布检验统计量检验统计量其中:其中:等级相关检验等级相关检验将两组变量按顺序等级排列,在等级的基础上计算等将两组变量按顺序等级排列,在等级的基础上计算等级相关系数,从而反映两组变量之间联系的密切程度。级相关系数,从而反映两组变量之间联系的密切程度。等级相关系数的等级相关系数的计算公式计算公式其中其中di为两变量每一对样本的等级之差,为两变量每一对样本的等级之差,n为样本容为样本容量。量。等级相关系数与相关系数一样,取值等级相关系数与相关系数一样,取值-1到到+1之间,区之间,区别是它是建立在等级
21、的基础上计算的,较适用于反映别是它是建立在等级的基础上计算的,较适用于反映序列变量的相关。序列变量的相关。一、等级相关检验的基本原理一、等级相关检验的基本原理二、等级相关系数的应用二、等级相关系数的应用利用斯皮尔曼等级相关系数,可以对两序列变量利用斯皮尔曼等级相关系数,可以对两序列变量是否相关进行检验。是否相关进行检验。(一)检验的假设一)检验的假设(1)H0:rs=0 , Xi和和Yi 相互独立;相互独立;H1:Xi和和Yi不独立。(此为双侧检验)不独立。(此为双侧检验)(2)H0: rs=0 ,Xi和和Yi相互独立;相互独立; H1: Xi和和Yi是正相关。是正相关。(即即Xi的大值与的大值与Yi的大值的大值相配对相配对)(3)H0: rs=0 ,Xi和和Yi相互独立;相互独立; H1:Xi和和Yi是负相关。是负相关。(即即Xi的大值与的大值与Yi的小的小值相配对值相配对)(二)检验统计量:(二)检验统计量: