非参数统计方法课件

资源描述

《非参数统计方法课件》由会员分享，可在线阅读，更多相关《非参数统计方法课件（57页珍藏版）》请在金锄头文库上搜索。

1、,第八章秩转换的非参数检验,参数统计（parametric statistics）,非参数统计（nonparametric statistics）,对于符合参数统计分析条件者，采用非参数统计分析，其检验效能较低,参数检验与非参数检验,在总体的分布类型已知的条件下，对总体的参数进行检验，称为参数检验。在总体的分布类型未知或者不考虑总体的分布的条件下，对总体的分布进行检验，称为非参数检验。,非参数统计方法,适用范围广，特别适用于： 1.数据分布未知、偏态分布、组间的方差不齐、资料中含有不确定值的计量资料组间的比较。 2.当比较的数据只能用严重程度、优劣等级的半定量（等级）资料组间的比较。

2、上述数据组间比较的统计检验方法秩和检验,对于计量资料，若不满足正态和方差齐性条件，这时小样本资料选t检验或F检验是不妥的，而选秩转换的非参数检验是恰当的。对于分布不知是否正态的小样本资料，为保险起见，宜选秩转换的非参数检验。,注意,对于一端或二端是不确定数值（如0.5等）的资料，不管是否正态分布，只能选秩转换的非参数检验。对于等级资料，若选行列表资料的2检验，只能推断构成比差别，而选秩转换的非参数检验，可推断等级强度差别。,秩次与秩和,秩次(rank)，秩统计量是指全部观察值按某种顺序排列的位序；秩和(rank sum) 同组秩次之和。,编秩,A组：、+、+、+、+ B组： +、

3、+、+、+、+、+,A组：- + + + + B组： + + + + + +,1 2 3 4 5 7,6 8 9 10 11 12,1 2 4.5 4.5 4.5 8.5,4.5 8.5 8.5 8.5 11.5 11.5,秩和,A组：、+、+、+、 + 秩和： 1 2 4.5 4.5 4.5 8.5 TA25 B组： +、+、+、+、+、+ 秩和： 4.5 8.5 8.5 8.5 11.5 11.5 TB53,TA+TB=N(N+1)/2=78,秩次：在一定程度上反映了等级的高低；秩和：在一定程度上反映了等级的分布位置。对等级的分析，转化为对秩次的分析。秩和检验就是通过秩次的排列求出秩

4、和，进行假设检验。其特点是假设检验的结果对总体分布的形状差别不敏感，只对总体分布的位置差别敏感。,第一节配对样本比较的 Wilcoxon符号秩检验,用于配对样本差值的中位数和0比较；还可用于单个样本中位数和总体中位数比较。,例8-1 对12份血清分别用原方法（检测时间20分钟）和新方法（检测时间10分钟）测谷-丙转氨酶，结果见表8-1的（2）、（3）栏。问两法所得结果有无差别？,1H0：差值的总体中位数Md=0 H1：差值的总体中位数Md 0； =0.05 2求差值；依其绝对值从小到大编秩次（i）绝对值相等者（tie）取平均秩次；（ii）将差值的正负标在秩次之前；（iii）零差值时秩

5、次正负各半（或不参与编秩） 3分别求正、负秩次之和，以绝对值较小者为T值 4根据统计量T确定对应的P值（i）小样本时，查表（附表9） (ii) 大样本时，正态近似,符号秩和检验的基本思想,总秩和为TN(N+1)/2 如H0成立，则正负各半，T+ 与 T 均接近 N(N+1)/4。如果相差太大，超出了事先规定的界值，则H0不成立。,（i）小样本（n50）时，查附表9,界值的判断标准：若值在T上、下界值范围内时，P0.05，若T值恰好等于界值时， P=0.05 若T值在上、下界值范围外时，P0.05 本例：本例，n=11，T=11.5，查附表9，得双侧0.05P0.10，按=0.05水准

6、不拒绝H0，尚不能认为两法测谷-丙转氨酶结果有差别。,（ii）大样本（n50）时，可采用正态近似,n是对子数,tj为第j个相同秩次的个数。,本例T=11.5，n=11；相同秩次中有两个1.5，则t=2，代入上式计算得：,u 0.05，在水准上接受H0，拒绝H1，结论与查表法相同。,注意: 符号秩检验若用于配对的等级资料，则先把等级从弱到强转换成秩（1,2,3,）；然后求各对秩的差值，省略所有差值为0的对子数，令余下的有效对子数为n；最后按n个差值编正秩和负秩，求正秩和或负秩和。但对于等级资料，相同秩多，小样本的检验结果会存在偏性，最好用大样本。,2单个样本中位数和总体中位数比较目的是推断样

7、本所来自的总体中位数M和某个已知的总体中位数M0是否有差别。用样本各变量值和M0的差值，即推断差值的总体中位数M和0是否有差别。,例8-2 已知某地正常人尿氟含量的中位数为45.30。今在该地某厂随机抽取12名工人，测得尿氟含量见表8-2第（1）栏。问该厂工人的尿氟含量是否高于当地正常人的尿氟含量？,解: 1.检验假设和检验水准: H0：该厂工人尿氟含量的总体中位数M=45.30 H1：M45.30 =0.05 2.编秩、求统计量T: 所有观察值与总体中位数45.30之差，按绝对值由小到大编秩，绝对值相同取平均秩次，然后分别计算正负秩次之和，即表8-2第（3）、（4）栏。,据表8-2第（3）、

8、（4）栏，T+=64.5，T-=1.5，取T=1.5。 3.查表、做结论有效差值个数n=11。据n=11和T=1.5查附表9，得单侧P0.05，按=0.05水准拒绝H0 ，接受H1 ，可认为该厂工人的尿氟含量高于当地正常人的尿氟含量。,第二节两独立样本差别的秩和检验 Wilcoxon rank sum test,对于计量数据，如果资料方差相等，且服从正态分布，就可以用t检验比较两样本均数。如果此假定不成立或不能确定是否成立，就应采用秩和检验来分析两样本是否来自同一总体。,Wilcoxon秩和检验（Wilcoxon rank sum test）,用于推断计量资料或等级资料的两个独立样本所来

9、自的两个总体分布是否有差别。秩和检验的目的是推断两个总体分布的位置是否有差别，如要推断两个不同人群的某项指标值的大小是否有差别或哪个人群的大，可用其指标值分布的位置差别反映，而不关心其指标值分布的形状有无差别。两个总体分布位置不同，实际情况一般是两个总体分布形状相同或类似，这时可简化为两个总体中位数不等；,基本思想,两样本来自同一总体,任一组秩和不应太大或太小,如果两总体分布相同,假定：两组样本的总体分布形状相同,T 与平均秩和应相差不大,基本思想,如果H0 成立，即两组分布位置相同，则A组的实际秩和应接近理论秩和n1(N+1)/2； (B组的实际秩和应接近理论秩和n2(N+1)/2)。

10、或相差不大。如果相差较大，超出了预定的界值，则可认为H0不成立。, H0：两样本来自相同总体； H1：两样本来自不同总体（双侧）或H1：样本A高于样本B（单侧） =0.05, 编秩：两样本混合编秩次，求得T1、T2、T。相同观察值（即相同秩，ties），不同组-平均秩次。, 确定P值作结论：查表法 (n110，n2n110) 查附表10 如果T位于检验界值区间内，，不拒绝H0；否则，，拒绝H0 本例T =141.5，取=0.05，查附表10得单侧检验界值区间（89，141），T位于区间外，P0.05，因此在=0.05的水平上，拒绝H0，接受H1，可认为肺癌病人的RD值高于矽肺0期

11、工人的RD值。,若n110，n2n110时,采用正态近似法：,tJ是有相同秩号的数据个数,例8-4 39名吸烟工人和40名不吸烟工人的碳氧血红蛋白HbCO(%)含量见表8-6。问吸烟工人的HbCO(%)含量是否高于不吸烟工人的HbCO(%)含量？,H0：吸烟工人和不吸烟工人的HbCO含量总体分布位置相同 H1：吸烟工人的HbCO含量高于不吸烟工人的HbCO含量 =0.05 求T值，计算u值：先确定各等级的合计人数、秩次范围和平均秩，见表8-6的（4）栏、（5）栏和（6）栏，再计算两样本各等级的秩和，见（7）栏和（8）栏；本例T=1917；用公式计算u值，n1=39，n2=40，N=39+40=

12、79，相同秩次的个数分别为t1=3、t2=31、t3=27、t4=14、t5=4个,查附表2（t界值表，=时）得单侧P0.05，按=0.05水准拒绝H0，接受H1，可认为吸烟工人的HbCO（%）含量高于不吸烟工人的HbCO（%）含量。,Mann-Whitney U检验,以上介绍的是用于两独立样本差别的Wilcoxon T 秩和检验，值得注意的是，一般文献上使用的方法是Mann-Whitney U 检验法并给出U统计量。两种方法是独立提出的，检验结果完全等价的；前者用T 统计量，而后者用U 统计量，U 统计量有明确含义，为了避免与T 统计量混淆，不再给出U统计量的定义。一旦计算出了R1、R2，U

13、统计量按下式计算：,第三节完全随机设计多个样本比较的 Kruskal-Wallis H检验,对于完全随机设计多组资料比较，如果不满足方差分析的条件，可采用Kruskal-Wallis秩和检验。此法的基本思想与Wilcoxon-Mann-Whitney法相近：如果各组处理效应相同，混合编秩号后，各组的秩和应近似相等。,例8-5 用三种药物杀灭钉螺，每批用200只活钉螺，用药后清点每批钉螺的死亡数、再计算死亡率（%），结果见表8-9。问三种药物杀灭钉螺的效果有无差别？,解： 1.建立检验假设，确定检验水准 H0 ：三种药物杀灭钉螺的死亡率总体分布位置相同； H1：三种药物杀灭钉螺的死亡率总体

14、分布位置不全相同； 0.05 2. 混合编秩号，分组求秩和R1，R2，R3，相同的数值取其平均秩号； 3. 计算检验统计量H,N为总例数。有同秩存在时要对H作校正：Hc=H/C ,校正系数C按下式计算；本例不存在同秩，根据公式14-7计算得到：,4. 求P值，下结论（i）查表：g3，各组例数ni5，根据H值查附表11 （ii）如超出附表范围，在ni不太小时，理论上H近似于自由度为（k1）的卡方分布，故可查卡方界值表（附表8）。本例，g=3，n1=n2=n3=5,查附表11得，按0.05水准拒绝H0，接受H1，可认为三种药物杀灭钉螺的效果不同。,例8-6 比较小白鼠接种三种不同菌型

15、伤寒杆菌9D、11C和DSC1后存活日数，结果见表8-10。问小白鼠接种三种不同菌型伤寒杆菌的存活日数有无差别？,解： 1.建立检验假设，确定检验水准 H0 ：接种三种不同菌型伤寒杆菌的存活日数总体分布位置相同； H1：接种三种不同菌型伤寒杆菌的存活日数总体分布位置不全相同； 0.05 2. 混合编秩号，分组求秩和R1，R2，R3，相同的数值取其平均秩号； 3. 计算检验统计量H,查附表8（2界值表）得0.005P0.01，按0.05水准拒绝H0，接受H1，可认为小白鼠接种不同菌型伤寒杆菌的存活日数有差别。,例8-7 四种疾病患者痰液内嗜酸性白细胞的检查结果见表8-11。问四种疾病患者痰液内的嗜酸性白细胞有无差别？,解： 1.建立检验假设，确定检验水准 H0 ：四种疾病患者痰液内嗜酸性白细胞总体分布位置相同； H1：四种疾病患者痰液内嗜酸性白细胞总体分布位置不全相同； 0.05 2. 混合编秩号，分组求秩和R1，R2，R3，R4，相同的数值取其平均秩号； 3. 计算检验统计量H,查附表8（2界值表）得P0

展开阅读全文