常用非参数统计方法常用非参数统计方法孙金芳孙金芳 流行病与卫生统计学系流行病与卫生统计学系东南大学公共卫生学院东南大学公共卫生学院概念复习•统计描述•数值资料 (P4 变量的分类)•集中趋势 — 平均数 (P9) –算术均数:单峰对称分布(正态、近似正态分布)–中位数: 偏态分布、分布不规则、开口资料(位置指标,对分布不作要求)2024/9/2122024/9/213参数统计 VS 非参数统计Ø参数统计(parametric statistics):已知总体分布类型,通过样本统计量对总体参数进行估计和检验Ø区间估计:Øt检验: u1= u2 ?要求独立随机样本、取自正态总体、方差齐性Ø非参数统计(nonparametric statistics):不依赖总体分布类型,不对参数进行估计或检验,通过样本观察值推断总体分布位置是否相同2024/9/214 非参数检验又称任意分布检验(distribution-free test)Ø优点:资料分布特征要求较低,适用范围广,收集资料方便;对不满足参数方法的资料,效率高Ø缺点:对适宜用参数方法的资料,若用非参数法处理,没有充分利用资料提供的信息,导致检验效能检验效能下降。
犯第Ⅱ类错误概率比参数检验大 非参数方法很多,主要介绍非参数方法很多,主要介绍秩和检验秩和检验(rank sum (rank sum test)test) 141023111312141556789162024/9/216•非正态分布:两个班同学(n1,n2)从高到低、交错地排在队伍中,编号(即身高的秩次),若两个班同学身高相近(排列均匀),则每个班所报数字之和(秩和T)与其理论秩和相差不大反之,则有理由相信其中一个班同学的身高比另一个班高•比较 n1的秩和T与其理论秩和n1(N+1)/2,这就是秩和检验的思想 • 秩(rank):观察值从小到大排序,该序号在统计学上称为秩/秩次;•秩和:秩次求和得到;•秩和检验:用秩和进行假设检验的方法秩(rank)→ 秩和(rank sum)→秩和检验(rank sum test) 秩和检验(rank sum test)用数据排序的秩来代替原数据进行假设检验:用数据排序的秩来代替原数据进行假设检验: 位置位置检检验验2024/9/218适宜作非参数检验的资料ü 计量资料,总体偏离正态性或总体分布未知ü 等级资料:痊愈、显效、有效、无效;-、 ±、+、++、+++; 心功能分级;烧伤程度… ü 边界不确定的资料:如出现>50mg或0.5mg以下2024/9/219两样本比较秩和检验两样本比较秩和检验 例例 测得铅作业与非铅作业工人的血铅值测得铅作业与非铅作业工人的血铅值 (μmol/L)(μmol/L),,问两组工人的血铅值有无差别?问两组工人的血铅值有无差别?SPSS 软件检验正态性与方差齐性结果2024/9/2110正态性检验正态性检验groupKolmogorov-SmirnovaShapiro-Wilk统计量dfSig.统计量dfSig.x铅作业组.2017.200*.8637.162非铅作业组.17410.200*.91910.3482024/9/2111一、建立检验假设,确定检验水准H0:铅作业与非铅作业工人血铅值分布的铅作业与非铅作业工人血铅值分布的位置位置相同相同,H1:铅作业与非铅作业工人血铅值分布的铅作业与非铅作业工人血铅值分布的位置不同位置不同。
α=0.052024/9/2112二、计算检验统计量T 值v混合编秩0.24 0.24 0.29 0.33 0.44 0.58 0.63 0.72 0.82 0.87 0.87 0.97 1.01 1.21 1.64 2.08 2.13 遇有原始数据相同时,可分两种情况处理:①相同数据在同一组,其秩次按位置的顺序②相同数据分在两组,均取其平均秩次(10+11)/2=10.5 2024/9/21132024/9/2114•两组秩次分别相加 T1=93.5 T2=59.5v取较小样本的秩和记为统计量 T, 本例 n1=7,n2=10,取T=T1=93.5v两组合计的秩和为多少?2024/9/2115查附表12, n1=7, n2-n1=10-7=3, 原则:内大外小原则:内大外小 双侧0.05 42-84 拒绝 42 接受 84 拒绝 按α=0.05水准,拒绝H0,接受H1,故认为铅作业工人比非铅作业工人血铅值高Ø三、确定P值和作出推断结论2024/9/2116Ø正态近似检验,公式为: 当相同秩次较多时当相同秩次较多时, , 2024/9/2117等级资料的形式等级资料的形式•例10.2 用某药治疗不同病情的老年慢性支气管炎病人,疗效见表10.2第(1)、(2)两栏,问该药对两种病情的老年慢性支气管炎病人的疗效是否相同? 常错误采用 卡方检验2024/9/2118一、假设•H0:两种病情病人的疗效分布相同。
•H1:两种病情病人的疗效分布不同•α=0.052024/9/2119二、计算检验统计量uc值 •排秩•求秩和•统计量T n1=82,T=8780.5本例n1=82,n2=126,n2-n1=44,已超过附表12所列范围,2024/9/21202024/9/2121•三、确定P值和作出结论推断 •uc<1.96, P>0.05,按α=0.05水准尚不能拒绝H0,故认为本疗法对上述两种病情的患者并未显示出不同疗效 •卡方检验未考虑等级的强弱信息,秩和检验更适合于单向有序分类资料2024/9/2122多个样本比较的秩和检验多个样本比较的秩和检验多个组资料:1 有序分类资料2 定量资料,但其不满足正态性或方差齐性H检验(Kruskal-Wallis 法) 2024/9/2123例10.3 在研究白血病时,测得鼠脾的DNA含量如表10.3第(1)、(3)、(5)、(7)栏问不同病情的鼠脾DNA含量有无差别?2024/9/2124一、建立假设检验,确定检验水准vH0:四种鼠脾DNA含量总体分布位置相同 vH1:四种鼠脾DNA含量总体分布位置不同 或不全同 2024/9/2125二、计算检验统计量v混合编秩混合编秩: : 由小到大排列,统一编秩由小到大排列,统一编秩v相同值:同组顺序编号,不同组取平均秩次。
相同值:同组顺序编号,不同组取平均秩次v计算各组秩和计算各组秩和R Ri i ((i=1,2,3,4i=1,2,3,4))v计算统计量计算统计量H H值值 2024/9/2126三、确定P值,作出统计推断K=4, ni>5, H>20.05(3),即P<,因此拒绝H0,接受H1认为四种鼠脾DNA含量总体分布位置位置不同或不全同 K=3,ni<=5, 附表13;K>3,最小样本例数>=5,H近似服从自由度为k-1的卡方分布, 2 界值表2024/9/2127等级资料(校正H)•例10.4某医生用三种方剂治疗某妇科病,疗效如表10.4,问三种方剂的疗效有无差别?2024/9/2128假设H0:三种方剂疗效分级的总体分布相同H1:三种方剂疗效分级的总体分布不同或不全同• α=0.05求检验统计量Hc 2024/9/21292024/9/2130多个样本间的多重比较当多个样本比较的秩和检验拒绝H0,认为各总体分布位置不同或不全相同时,常需进一步作两两比较的秩和检验,以推断哪两个总体分布位置不同,或哪两个总体分布位置相同 为此需进行组间的多重比较(multiple comparison)。
2024/9/2131配对符号秩和检验配对符号秩和检验 •主要用于配对数值变量资料的检验•例 用过硫酸铵分光光度法和示波极谱法测定水中锰的含量(mg/L),见表10.6第(2)、(3)栏,问两法结果有无差别? 差值的正态性检验正态性检验正态性检验Kolmogorov-SmirnovaShapiro-Wilk统计量dfSig.统计量dfSig.d.3339.005.6029.0002024/9/21322024/9/2133检验的基本思想: 假定两种处理效应相同,则差值的总体分布是以0为对称的,即差值总体中位数为0 相当于这些差值按绝对值大小编秩,再冠以原来的正、负符号,正秩与负秩在理论上是随机的,即正、负秩和应相近配对设计资料主要是对差值进行分析2024/9/2134vH0:两种方法所测值总体分布位置相同,即 (差值的总体中位数为零)vH1:两种方法所测值总体分布位置不同,即 (差值的总体中位数不为零)一、建立假设检验,确定检验水准2024/9/2135二、计算检验统计量①算出各对数值之代数差差 d=xi-yi②编秩编秩 a a:将差值的绝对值从小到大编秩:将差值的绝对值从小到大编秩 b: b: 当差值为当差值为0 0,则不计该例(,则不计该例(n n随之减少)随之减少) c: c: 如两差值相等,则取其平均秩次如两差值相等,则取其平均秩次③给秩添加正负号给秩添加正负号 d>0的秩次为“+”;d<0的秩次“-”。
④ 分别求出差值为正与负的秩和秩和,任取差值为正或负秩和作为统计量统计量T+ =22.5, T- =13.52024/9/2136确定概率P•0.10 5-31•0.05 3-33 n=8•0.02 1-35•0.01 0-36 T=22.5或T=13.5•原则:内大外小原则:内大外小•P>0.10 按=0.05水准,不能拒绝H0,尚不能认为两种方法测定锰含量有差别2024/9/2137正态近似法(N>50)n>50, 可利用秩和分布的正态近似法,其中 统计量2024/9/2138正态近似法公式确定概率P: 2024/9/2139统计学基本内容分析资料的步骤:1、确定资料的类型: 分类资料、定量资料;2、选择适当的统计方法;3、作出统计推断结论定量资料的分析: t检验 Z(U)检验 (F检验)分类资料的分析: 检验 参数统计和非参数统计参数统计和非参数统计2024/9/2142已知总体分布类型,对已知总体分布类型,对未知未知参数参数进行统计推断进行统计推断依赖于特定分布类依赖于特定分布类型,比较的是型,比较的是参数参数 参数统计参数统计((parametric statisticsparametric statistics)) 非参数统计非参数统计((nonparametric statisticsnonparametric statistics)) 不以特定的总不以特定的总 体分布为前提体分布为前提 不对总体参数推断,不对总体参数推断,比较比较分布分布或或分布位置分布位置 适用范围广;可用于任何类型适用范围广;可用于任何类型资料资料( (等级资料,或等级资料,或“ “>50mg”>50mg” ) )。