《医学统计学方差分析》由会员分享,可在线阅读,更多相关《医学统计学方差分析(61页珍藏版)》请在金锄头文库上搜索。
1、n19名要求持续镇痛的病人被随机分到四组,接受同剂量的吗名要求持续镇痛的病人被随机分到四组,接受同剂量的吗啡,啡,6小时后测量血中游离吗啡水平,问四组之间有无差别?小时后测量血中游离吗啡水平,问四组之间有无差别?静脉点滴静脉点滴肌肉注射肌肉注射皮下注射皮下注射口服口服1212912101678715688911109714均数均数101389.5用什么检验方法?用什么检验方法?总体样本?总体样本?n已知多组样本的信息已知多组样本的信息n推断多个总体的信息推断多个总体的信息(均数)(均数)样本样本(一勺)(一勺)总体总体(一锅)(一锅)统计推断统计推断随机抽样随机抽样参数?参数?统计量统计量(
2、、 、 )(x x、s s、p p)参数估计参数估计假设检验假设检验第第6章章均方分析,变异数分析均方分析,变异数分析, ,F 检验检验(由英国著名统由英国著名统计学家计学家R.A.Fisher推导出推导出来的)来的),是对变异的来是对变异的来源及大小进行分析的一源及大小进行分析的一种统计方法。种统计方法。 教学目的与要求教学目的与要求n掌握:掌握:1、方差分析的基本思想、方差分析的基本思想2、方差分析前提条件、方差分析前提条件3、多重比较、多重比较4、重复测量资料方差分析、重复测量资料方差分析n了解:了解:1、两因素方差分析、两因素方差分析教学内容提要教学内容提要n重点讲解:重点讲解:方差分
3、析的基本思想方差分析的基本思想完全随机设计的单因素方差分析完全随机设计的单因素方差分析多个样本均数间的多重比较多个样本均数间的多重比较n介绍:方差分析的原理与条件介绍:方差分析的原理与条件不同的是:方差分析用于多个均数的比较。不同的是:方差分析用于多个均数的比较。与前面讲过的假设检验与前面讲过的假设检验相同的是:相同的是:方差分析的任务:统计量方差分析的任务:统计量F F的计算的计算 F FMSMS1 1/MS/MS2 2 t检验是用检验是用 t值进行假设检验,方差分析则用值进行假设检验,方差分析则用F值进行假设检验值进行假设检验方差分析的几个概念和符号方差分析的几个概念和符号n什么是方差?什
4、么是方差?n离均差离均差n离均差之和离均差之和n离均差平方和(离均差平方和(SS)n方差(方差( 2S2)也叫均方(也叫均方(MS)n标准差:标准差:Sn自由度:自由度: n关系:关系:MS=SS/ 方差分析的基本概念方差分析的基本概念7方差分析的基本概念方差分析的几个符号方差分析的几个符号 xij表示第表示第i组第组第j个观察值个观察值 表示第表示第i组的均数组的均数(= ) 表示总平均表示总平均=基本思想基本思想:先假设(:先假设(H0)各各总体均数全相等总体均数全相等;将;将总变总变异异SS总总,按设计和资料分析的需要,按设计和资料分析的需要分分为两个或多个组为两个或多个组成部分,其成部
5、分,其自由度自由度也相应地也相应地分分为几个部分,以为几个部分,以随机误随机误差为基础差为基础,按,按F分布的规律分布的规律作统计推断作统计推断。目的目的: :推断总体平均数是否相等推断总体平均数是否相等.独特之处独特之处:不直接比较均数不直接比较均数,利用利用变异变异的关系进行判别的关系进行判别.第一节第一节完全随机设计资料的方差分析完全随机设计资料的方差分析(单因素方差分析)(单因素方差分析)一、方差分析的意义一、方差分析的意义前前一一章章介介绍绍了了两两个个样样本本均均数数比比较较的的假假设设检检验验方方法法,但但对对于于3个个、4个个、5个个均均数数或或更更多多个个的的比比较较,t检检
6、验验或或u检检验验就就无无能能为为力力了了,或或许许有有人人会会想想起起将将几几个个均均数数两两两两比比较较分分别别得得到到结结论论,再再将将结结论论综综合合,其其实实这这种种做做法法是是错错误误的的。试试想想假假设设检检验验时时通通常常检检验验水水平平取取0.05,亦亦即即弃弃真真概概率率控控制制在在0.05以以内内,但但将将3个个均均数数作作两两两两比比较较,要要作作三三次次比较,可信度成为比较,可信度成为(1-0.05)3=0.857四均数比较作四均数比较作6次次(1-0.05)6=0.735五均数比较作五均数比较作10次次(1-0.05)10=0.599六均数比较作六均数比较作15次次
7、(1-0.05)15=0.463鉴鉴于于以以上上的的原原因因,对对多多组组均均数数的的比比较较问问题题我们采用方差分析我们采用方差分析例例1 某某克克山山病病区区测测得得11例例克克山山病病患患者者与与13名名健健康康人人的的血血磷磷值值(mmol/L)如如下下,问问该该地地急急性性克克山山病患者与健康人的血磷值是否不同?病患者与健康人的血磷值是否不同?患患者者x1:0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11健健康康人人x2:0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.
8、48 1.56 1.87二、单因素方差分析的基本思想二、单因素方差分析的基本思想24名患者与健康人的血磷值大小不等,称这种名患者与健康人的血磷值大小不等,称这种变异为总变异。可以用总离均差平方和变异为总变异。可以用总离均差平方和 及及N来反映,总自由度来反映,总自由度 T=N-1。 SS总总2个个组组各各组组内内部部血血磷磷值值也也不不等等,这这种种变变异异称称为为组内变异,其大小可用组内变异,其大小可用2组组内离均差平方和组组内离均差平方和及各组例数及各组例数ni来反映,自由度来反映,自由度组内组内=N-k(k是是组数),它反映了随机误差。组数),它反映了随机误差。 SS组内组内2组组样样本
9、本均均数数也也不不等等,这这种种变变异异称称为为组组间间变变异异,反映了克山病对血磷值的影响和随机误差反映了克山病对血磷值的影响和随机误差组间变异(组间变异(betweengroupsvariation):): SS组间组间v组间组间k1 三者关系三者关系SS总总=SS组间组间+SS组组内内v总总=组间组间+组组内内 直观意义检验统计量检验统计量 F统计量具统计量具2个自由度个自由度: v1, v2 如如果果两两组组样样本本来来自自同同一一总总体体,即即克克山山病病患患者者与与健健康康人人血血磷磷值值相相同同,则则理理论论上上F应应等等于于1,因因为为两两种种变变异异都都只只反反映映随随机机误
10、误差差。由由于于抽抽样样误误差差的的影影响响,F值值未未必必是是1,但但应应在在1附附近近。若若F较较小小,我我们们断断定定2组组均均数数相相同同,或或者者说说来来自自同同一一总总体体,F较大,推断不是来自同一总体。较大,推断不是来自同一总体。三、优点三、优点不受比较的组数限制。不受比较的组数限制。可同时分析多个因素的作用。可同时分析多个因素的作用。可分析因素间的交互作用。可分析因素间的交互作用。四、方差分析的应用条件四、方差分析的应用条件各样本是相互独立的随机样本各样本是相互独立的随机样本各样本来自正态总体各样本来自正态总体各组总体方差相等,即方差齐各组总体方差相等,即方差齐【例题例题1 1
11、】n某社区随机抽取糖尿病患者、某社区随机抽取糖尿病患者、IGT异常和正异常和正常人共常人共30人进行载脂蛋白测定,结果如下,人进行载脂蛋白测定,结果如下,问问3种人的载脂蛋白有无差别?种人的载脂蛋白有无差别?n问题:问题:1、分析问题,选择合适的统计方法、分析问题,选择合适的统计方法2、如何整理资料、输入计算机、如何整理资料、输入计算机85.796.0144.0105.2124.5117.0109.5105.1110.096.076.4109.0115.295.3103.95.3110.0123.0110.095.2127.0100.099.0121.0125.6120.0159.0111.0
12、115.0合计xij1160921.512283309.5(x)ni1191030(N)均数105.45102.39122.80110.32()糖尿病IGT正常人xij106.5xij2123509.5296045.35153420372974.87(x2)85.796.0144.0105.2124.5117.0109.5105.1110.096.076.4109.0115.295.3103.95.3110.0123.0110.095.2127.0100.099.0121.0125.6120.0159.0111.0115.0合计xij1160921.512283309.5(x)ni119103
13、0(N)均数105.45102.39122.80110.32()糖尿病IGT正常人xij106.5xij2123509.5296045.35153420372974.87(x2)列举存在的变异及意义列举存在的变异及意义n全部的全部的30个实验数据之间大小不等,存在变异,个实验数据之间大小不等,存在变异,总变异总变异。n各个各个组间存在变异组间存在变异:反映处理因素之间的作用,:反映处理因素之间的作用,以及随机误差。以及随机误差。n各个各个组内组内个体间数据不同:反映了观察值的随个体间数据不同:反映了观察值的随机误差。机误差。n各种变异的表示方法各种变异的表示方法各种变异的表示方法各种变异的表示
14、方法nSS总总n 总总nMS总总SS组内组内 组内组内MS组内组内SS组间组间 组间组间MS组间组间三者之间的关系:三者之间的关系:SS总总= SS组内组内+ SS组间组间 总总= 组内组内+ 组间组间统计量统计量F 的计算及其意义的计算及其意义F=MS组间组间/MS组内组内自由度:自由度: 组间组间=组数组数-1 组内组内=N-组数组数 通过这个公式计算出统计量通过这个公式计算出统计量F,查表求,查表求出对应的出对应的P值,与值,与 进行比较,以确定是否进行比较,以确定是否为小概率事件。为小概率事件。各种符号的意义各种符号的意义nxij第第i 个组的第个组的第j 个观察值个观察值ni=1,2
15、,knj=1,2,ni ni第第i 个处理组的例数个处理组的例数nni=Nnxi =n x =(x)2(1)建立假设和确定检验水准)建立假设和确定检验水准H0: 三种人载脂蛋白的总体均数相等三种人载脂蛋白的总体均数相等, 1=2=3H1: 三组总体均数不相等或不全等三组总体均数不相等或不全等=0.05(2)计算)计算C=(x) 2/N=(3309.5) 2/30=365093SS总总=x2-C=372974.87-365093=7881.87SS组组内内=SS总总-SS组间组间=7881.87-2384.026=5497.84总总=N-1=29, 组间组间=k-1=2, 组组内内=N-k=30
16、-3=27 MS组间组间=SS组间组间/组间组间 =1192.01 MS组组内内=SSE/组组内内 =203.62F=MS组间组间/MS组组内内=5.8540( 3) 查查 方方 差差 分分 析析 F界界 值值 表表 8确确 定定 P值值 : F 0.05(2,30) =3.32 ; F 0.01(2,30) =5.39(4)作出推断结论作出推断结论按按=0.05水水平平拒拒绝绝H0,接接受受H1,认认为为三三种种人人载载脂脂蛋白的总体均数不同。蛋白的总体均数不同。组间组间组内组内完整书写方差分析的过程完整书写方差分析的过程n建立假设,确定显著性水平:建立假设,确定显著性水平:H0:3种载脂蛋
17、白的总体均数相等种载脂蛋白的总体均数相等 1= 2= 3H1:3种载脂蛋白的总体均数种载脂蛋白的总体均数不相等或不全相等不相等或不全相等H1与与H0相反,如果相反,如果H0被否决,则被否决,则H1成立。成立。n 常取常取0.05,区分大小概率事件的标准。区分大小概率事件的标准。n计算统计量计算统计量F:根据资料的性质选择不同的统计方法。:根据资料的性质选择不同的统计方法。注意都是在注意都是在H0成立的条件下进行计算。成立的条件下进行计算。n计算概率值计算概率值P:P的含义。的含义。n做出推论:统计学结论和专业结论。做出推论:统计学结论和专业结论。n四组不同摄入方式人的血浆游离吗啡水平四组不同摄
18、入方式人的血浆游离吗啡水平静脉点滴静脉点滴肌肉注射肌肉注射皮下注射皮下注射口服口服1212912101678715688911109714均数均数101389.5单因素方差分析单因素方差分析完整书写方差分析的过程完整书写方差分析的过程建立假设:建立假设:H0:4组病人血浆游离吗啡水平组病人血浆游离吗啡水平 1= 2= 3= 4H1:4组病人血浆游离吗啡水平的总体均数全不相等或组病人血浆游离吗啡水平的总体均数全不相等或不全不全相等相等确定显著性水平,用确定显著性水平,用 表示表示。区分大小概率事件的标准,常取区分大小概率事件的标准,常取0.05。计算统计量计算统计量F:F=MS组间组间/MS组内
19、组内根据资料的性质选择不同的统计方法。注意都是在根据资料的性质选择不同的统计方法。注意都是在H0成成立的条件下进行计算。立的条件下进行计算。计算概率值计算概率值P:P的含义。的含义。做出推论:做出推论:统计学结论和专业结论。统计学结论和专业结论。单因素方差分析单因素方差分析方差分析表方差分析表(练习,完成该表。例题,写在黑板上)单因素方差分析单因素方差分析F0.05(3,15)3.29F与它所对应的与它所对应的P值成反比值成反比结合上题理解:方差分析的基本思想结合上题理解:方差分析的基本思想n将全部观察值将全部观察值总的离均差平方和总的离均差平方和(SS总总)及)及自自由度(由度( 总总)分解
20、为两个或多个部分分解为两个或多个部分n除随机误差外,其余每个部分的变异可由某个除随机误差外,其余每个部分的变异可由某个因素的作用加以解释因素的作用加以解释n通过比较不同来源变异的均方(通过比较不同来源变异的均方(MS),),借助借助F分布做出统计推断,从而了解该因素对观察指分布做出统计推断,从而了解该因素对观察指标有无影响标有无影响。存在问题存在问题n方差分析结果提供了各组均数间差别的总的信方差分析结果提供了各组均数间差别的总的信息,但尚未提供各组间差别的具体信息,即尚息,但尚未提供各组间差别的具体信息,即尚未指出哪几个组均数间的差别具有或不具有统未指出哪几个组均数间的差别具有或不具有统计学意
21、义。计学意义。n为了得到这方面的信息,可进行多个样本间的为了得到这方面的信息,可进行多个样本间的两两比较。两两比较。第二节第二节多个样本均数间的两两比较多个样本均数间的两两比较(又称多重比较)(又称多重比较) 多重比较即多个样本均数间的两两比较,由多重比较即多个样本均数间的两两比较,由于涉及的对比组数大于于涉及的对比组数大于2,若仍用,若仍用t 检验作每两个检验作每两个对比组比较的结论,会使对比组比较的结论,会使犯第一类错误犯第一类错误的的概率概率增大增大,即可能把本来无差别的两个总体均数判为,即可能把本来无差别的两个总体均数判为有差别。有差别。 4个样本均数间的比较个样本均数间的比较多重比较
22、方法(两两比较)多重比较方法(两两比较)n对对满足正态性和方差齐性的资料满足正态性和方差齐性的资料: 多个实验组分别与多个实验组分别与一个对照组比较常用一个对照组比较常用Dunnet-t法法。 每两个均数比较常每两个均数比较常用最小显著差值法(用最小显著差值法(LSD-t)、)、SNK(Student-Newman-Keuls,即即q检验)法检验)法、Tukey(可靠显著差异)(可靠显著差异)法、法、Bonferroni-t(校正最小显著差异)调整法等。(校正最小显著差异)调整法等。n对对不满足正态性和方差齐性的资料不满足正态性和方差齐性的资料:可通过数据变换,可通过数据变换,使满足方差分析的
23、应用条件。使满足方差分析的应用条件。可用非参数检验法,如可用非参数检验法,如秩和检验。秩和检验。可采用近似检验,如可采用近似检验,如Tamhanes T2,Dunnetts T3,Games-Howell,Dunnetts C等方法。等方法。检验统计量检验统计量q检检验验界界值值表表见见附附表表10,它它有有两两个个自自由由度度,一一个个是是m(k),m指指将将方方差差分分析析中中的的几几组组样样本本均均数数按按从从小小到到大大顺顺序序排排列列后后要要比比较较的的A、B两两组组所所包包含含的的组数组数(包含包含A、B两组本身两组本身);另一个是另一个是=e。误差误差一一、q检检验验(又又称称S
24、tudent-Newman-Keuls法法,简简称称SNK-q检验检验法法)常用于多个样本均数间每两个均数的比较。常用于多个样本均数间每两个均数的比较。例(续例例(续例3)对三个人群的载脂蛋白作两两比较。)对三个人群的载脂蛋白作两两比较。(1)建立假建立假设设,确定确定检验检验水准水准H0:任任2个人群的载脂蛋白的总体均数相等,即个人群的载脂蛋白的总体均数相等,即A=BH1:AB, =0.05。(2)样样本均数排序本均数排序将将3组组样样本本均均数数从从小小到到大大(或或从从大大到到小小)顺顺序序排排列列,编编上上组次,并注上组别组次,并注上组别.组次组次123均数均数102.39105.45
25、122.80组别组别IGT异常异常糖尿病患者糖尿病患者正常人正常人(3)列出两两均数比较的列出两两均数比较的q检验计算表检验计算表从从p值值一一栏栏中中可可以以推推断断出出结结论论,即即IGT异异常常(1)与与正正常常人人(3)的的载载脂脂蛋蛋白白有有差差别别, 糖糖尿尿病病患患者者(2)与与正正常常人人(3)的的载载脂蛋白有差别。脂蛋白有差别。二、二、LSD- t 检验检验n由由Fisher提出,称为提出,称为最小显著性差异法最小显著性差异法。n在在H0:ij假设下,假设下,t统计量检验统计量检验i与与j是否相同。是否相同。 n ,(,(dfdfe) (6-9) 可查统计附表可查统计附表7确
26、定概率确定概率P的大小。的大小。常用于多个样本均数间每两个均数的比较。常用于多个样本均数间每两个均数的比较。三、三、Dunnett-t检验检验 常常用用于于多多个个实实验验组组与与一一个个对对照照组组均均数数间的两两比较。间的两两比较。实验组实验组对照组对照组可查统计附表可查统计附表9确定概率确定概率P的大小。的大小。四、四、Bonferroni-t检验检验Bonferron t= (6-12) 假设比较次数为假设比较次数为m,则,则 =b/m作为每作为每次比较的水平。次比较的水平。调整检验水准法调整检验水准法例例题题n对小白鼠喂以对小白鼠喂以A、B、C三种不同的营养素三种不同的营养素,了了解
27、不同营养素的增重效果。以窝别作为区组特解不同营养素的增重效果。以窝别作为区组特征,以消除遗传因素对体重增长的影响。现将征,以消除遗传因素对体重增长的影响。现将同系同体重的同系同体重的24只小白鼠分为只小白鼠分为8个区组,每组个区组,每组3只。只。3周后测量增重结果,结果如下表,周后测量增重结果,结果如下表,n问问3种不同营养素喂养后所增体重有无差别?种不同营养素喂养后所增体重有无差别?n方法:方法:应用分层的思想,事先将全部受试对象按某种应用分层的思想,事先将全部受试对象按某种或某些特性分为若干个区组,使每个区组内的观察对或某些特性分为若干个区组,使每个区组内的观察对象与研究对象的水平尽可能相
28、近象与研究对象的水平尽可能相近n目的:减少了个体间差异对结果的影响,比成组设计目的:减少了个体间差异对结果的影响,比成组设计更容易检验出处理因素间的差别,提高了研究效率。更容易检验出处理因素间的差别,提高了研究效率。n是配对资料的扩充。是配对资料的扩充。双因素方差分析双因素方差分析第三节第三节随机区组(配伍组)设计的多个样随机区组(配伍组)设计的多个样本均数的比较(双因素方差分析)本均数的比较(双因素方差分析)例例题题n对小白鼠喂以对小白鼠喂以A、B、C三种不同的营养素三种不同的营养素,了了解不同营养素的增重效果。以窝别作为区组特解不同营养素的增重效果。以窝别作为区组特征,以消除遗传因素对体重
29、增长的影响。现将征,以消除遗传因素对体重增长的影响。现将同系同体重的同系同体重的24只小白鼠分为只小白鼠分为8个区组,每组个区组,每组3只。只。3周后测量增重结果,结果如下表,周后测量增重结果,结果如下表,n问问3种不同营养素喂养后所增体重有无差别?种不同营养素喂养后所增体重有无差别?分析变异分析变异总变异总变异组间变异组间变异误差(组内)变异误差(组内)变异配伍间变异配伍间变异nSS总总n 总总SS误差误差 误差误差MS误差误差SS组间组间 组间组间MS组间组间变异之间的关系:变异之间的关系:SS总总= SS误差误差+ SS组间组间+ SS区间区间 总总= 误差误差+ 组间组间+ 区间区间变
30、异间的关系变异间的关系SS区间区间 区间区间MS区间区间统计量统计量F的计算的计算 F1=MS组间组间/MS误差误差 F2=MS区间区间/MS误差误差自由度:自由度: 组间组间=组数组数-1=3-1=2 区间区间=区数区数-1=8-1=7 误差误差= 总总- 组间组间- 区间区间=23-7-2=14 完整书写方差分析的过程完整书写方差分析的过程n建立假设,确定显著性水平建立假设,确定显著性水平:H0:3种营养素喂养的小白鼠体重增量相等种营养素喂养的小白鼠体重增量相等 1= 2= 3H1:3种营养素喂养的小白鼠体重增量不全相等种营养素喂养的小白鼠体重增量不全相等n 常取常取0.05,区分大小概率
31、事件的标准。区分大小概率事件的标准。n计算统计量计算统计量F:F1=MS组间组间/MS误差误差n计算概率值计算概率值P:P的含义。的含义。n做出推论做出推论:统计学结论和专业结论。:统计学结论和专业结论。完整书写方差分析的过程完整书写方差分析的过程n建立假设,确定显著性水平建立假设,确定显著性水平:H0:8窝小白鼠体重增量相等窝小白鼠体重增量相等 1= 2= 3H1:8窝小白鼠体重增量不相等或不全相等窝小白鼠体重增量不相等或不全相等n 常取常取0.05,区分大小概率事件的标准。区分大小概率事件的标准。n计算统计量计算统计量F:F2=MS区间区间/MS误差误差n计算概率值计算概率值P:P的含义。
32、的含义。n做出推论做出推论:统计学结论和专业结论。:统计学结论和专业结论。课堂测验(一)课堂测验(一)1.研究人员在某县随机抽取了研究人员在某县随机抽取了225名女婴,测量名女婴,测量其出生体重,均数为其出生体重,均数为3.20kg,标准差为,标准差为0.44kg,请计算:,请计算:n该县女婴出生体重该县女婴出生体重95参考值范围参考值范围n该县女婴出生体重总体均数的该县女婴出生体重总体均数的95可信区间可信区间2.某研究人员从某地随机抽取了部分健康成人,并对某研究人员从某地随机抽取了部分健康成人,并对其进行血红蛋白含量的测定,结果如下表:问该地健其进行血红蛋白含量的测定,结果如下表:问该地健康成人男、女间血红蛋白含量有无差别康成人男、女间血红蛋白含量有无差别?性别例数均数(g/L)标准误(g/L)男25134.51.2女16117.61.3n3.为研究为研究A、B、C三种治疗缺铁性贫血的药物的疗效,三种治疗缺铁性贫血的药物的疗效,某研究者将某研究者将11例患者完全随机地分为三组,分别给予三种例患者完全随机地分为三组,分别给予三种药物,治疗一个疗程后的结果如表药物,治疗一个疗程后的结果如表5.3,请作统计分析。,请作统计分析。n