流行病与卫生统计学--方差分析教学材料

资源描述

《流行病与卫生统计学--方差分析教学材料》由会员分享，可在线阅读，更多相关《流行病与卫生统计学--方差分析教学材料（175页珍藏版）》请在金锄头文库上搜索。

1、方差分析（一）单向方差分析(one-way ANOVA),方差分析（analysis of variance，ANOVA）又称变异数分析或 F检验，适用于对多个平均值进行总体的假设检验，以检验实验所得的多个平均值是否来自相同总体。,实验三要素：,统计模型：,效应值=总平均效应+处理效应+随机误差效应,效应值-总平均效应=处理效应+随机误差效应,第一节方差分析的基本思想,方差分析的基本思想是将出现在所有测量值上的总变异按照其变异的来源分解为多个部分，然后进行比较，评价由某种因素所引起的变异是否具有统计学意义。单向方差分析（one way analysis of variance）是指处理因素

2、只有一个。这个处理因素包含有多个离散的水平，分析在不同处理水平上应变量的平均值是否来自相同总体。,表8-1 应用不同解毒药的大白鼠血中胆碱酯酶含量（Yij）（ml）,各组平均值为。各组测定值的总和为 =111+89480。样本总平均值为 4802420.0。在单向方差分析中，变异来源于两个方面，一方面是受试对象个体间的变异（称组内变异），另一方面是实验因素各水平间的变异（称组间变异）。因此，总变异可按其变异来源进行分解。,总变异=处理间变异（组间）+误差（组内）,观察值效应=总平均效应+处理效应+随机误差效应,总平均,单因素方差分析的基本思想（图示）,一、离均差平方和的分解,个体测定值与总

3、平均值之差可写为上式等号右边第一项称为组内离均差，第二项是组平均值与总平均值之差，称为组间离均差。将等式两边平方后求和得到,上式第二行中间的一项又可以写成下列等式：这是因为有之故。最后得到公式（8-1）就是单向方差分析的总离均差平方和分解公式。用文字表达为：总离均差平方和组间离均差平方和十组内离均差平方和 SS总SS组间+SS组内,二、F值与F分布,t检验是用t值进行假设检验的，方差分析则用F值进行假设检验。每种来源的离均差平方和用相应的自由度去除，可得到平均的离均差平方和，简称均方（mean square，MS）。各种均方表示为：组间均方：MS组间SS组间v组间SS组间（al）

4、组内均方：MS组内SS组内v组内SS组内（Na）组内均方表示各组内均方的平均值，它是随机误差项的方差的综合估计值。其代表性优于每个组的组内均方。它的分子和分母分别是各组内离均差平方和之和及各组内自由度之和。,关系式为：由于组间均方包含由随机误差及处理因素引起的误差，故其值比组内均方大。理论上的组间均方的期望值可表示为：式中为组内均方的期望值 E（MS组内），i及为分别对应于及的期望值。,F值的计算公式为 F值的实际意义表现为如下的比值：,H0：T=0 H1：T0,F统计量不可能是负值，因为分子及分母都是平方项。分子中的SS组间是各组平均值与总平均值之差的加权平方和。如果各处理组所代表的

5、总体平均值彼此相等，则各组样本平均值也就彼此接近。其结果是各组样本平均值很接近总平均值。反之，如果各处理组所代表的总体平均值差别很大，则相应的各组样本平均值也就彼此差别很大；某些组平均值就明显不同于总平均值。因此一个大的组间均方MS组间可使F值变大，它提供足够的把握来拒绝无效假设。若MS组间很小，则缺乏证据来拒绝无效假设。,由于分析数据都是来自样本，故必须考虑资料的变异性。组内均方MS组内是随机误差方差的估计值，它是衡量样本资料随机变异性大小的指标。如果资料的随机变异性很大，则MS组内也大。若资料的随机变异性很小，则MS组内也小。当MS组间大，而MS组内小时，F值就大。当MS组间大，MS组内也

6、大时，则F值就不一定大。那么F值要多大才能有把握拒绝无效假设呢？这就要由F统计量的分布来决定了。当F统计量达到一个小的P值水平时，就可以拒绝无效假设。,t分布只有一个自由度。因为两组比较时，组间自由度恒为l。F分布有两个自由度，即组间自由度v组间= a-l及组内自由度v组内=Na，又分别称为分子自由度v1和分母自由度v2。F分布是一种偏态分布。它的分布曲线由这两个自由度来决定。分子自由度v1 4及分母自由度v2 10的F分布曲线见图8l。,F分布的随机变量没有负值。依据不同水准下的F界值表。例如当v1=10，v2=30时，0.05的临界F值F0.05(10,30)2.16，当计算出的统计量

7、 F值等于或大于临界值时，就在水准上拒绝无效假设，否则就不拒绝无效假设。根据计算出的F统计量与临界F值之间的关系有如下的统计学推断规则：,第二节方差分析的步骤,方差分析的步骤为：一、整理和描述资料。在第一节中已经介绍了方差分析所用的资料表格式（见表8-l）。按格式整理后，计算出每组的测定值之和、组平均值，测定值平方和以及总平均值等。二、提出检验假设及规定类错误概率水准的大小。 H0： 1 = 2= a ，各组所代表的总体平均值相等； H1： i h ，至少有一个不等式成立。i，hl，2，a。i h。 0.05。,离均差平方和的简化计算公式：,式中C为校正数,三、计算各种离均差平方和、

8、自由度及均方。例一资料用式（8-l）、式（8-2）与式（8-3）计算出的结果如下： l总离均差平方和 SS总10616（480）2241016.0。总自由度v总24l23。 2组间离均差平方和组间自由度v14-l3，组间均方 MS组间568.33/3=189.44 3组内离均差平方和SS组内1016.0568.33447.67。组内自由度v2=4（6l）20，组内均方MS组内447.67/20=22.38,四、计算F值。应用式（8-4）计算得 F189.44/22.38=8.46 将以上计算结果列于方差分析表中（见表8-2）。五、确定P值并作出统计学推断。查附表5：F界值表，得F0.05

9、(3,20)3.10。由于FF0.05（3,20），故有概率P0.05，根据式（8-5）的推断规则拒绝无效假设，接受备择假设。处理因素的 4个水平中至少有一个组的总体平均值不同于其他各组。从表8-l所示的各值可见，不同解毒药物的效果是不同的。解毒药物 A和 C与空白对照组 D相近。B组血中胆碱酯酶含量较其他组为高。,表8-2大白鼠血中胆碱酯酶含量方差分析表,第三节平均值之间的多重比较,方差分析是对各观察组的平均值是否来自相同总体进行总的检验，不能对各组间的差别作深人分析。这一点却往往是研究者最关心的。对于一个实验，如果经方差分析后不拒绝无效假设，则表示各组平均值所代表的总体是相等的。分析工

10、作即可终止。但若结果拒绝了无效假设，则需进行平均值之间的多重比较以进一步确定哪些组的平均值之间的差别，具有统计学意义。这时就涉及到累积类错误概率的问题。,当有a个平均值需作两两比较时，比较的次数共有c=a!/2!(a-2)!。例如当a3时c3，a4时c6。当比较的次数越多，在无效假设为真时，拒绝无效假设时的累积类错误概率也越大。设每次检验所用类错误的概率水准为，累积类错误的概率为，则在对同一实验资料进行c次检验时，在样本彼此独立的条件下，根据概率乘法原理，其累积类错误概率与c有下列关系：例如，设=0.05，c=6，其累积类错误的概率为l-(1-0.05)6=1-(0.95)6=0.26。目

11、前有多种有效控制累积类错误概率的多重比较方法，下面介绍常用的Bonferroni法、SNK法和Tukey法。,均数间多重（两两）比较的三种形式及比较的方法： 1.各均数间全部比较（探索性研究）方法：SNK法（q检验）、Bonferroni法、Tukey法等。 2.多个实验（处理）组与一个对照组比较例：A B C三组分别与对照组比较方法：Dunnett检验 3.比较具有专业意义的组（确定性研究）例：A、B、C、D四组，从专业意义认为只需比较 A与C和B与D，其余各组不需比较。方法：LSD法（最小显著差法 least significant difference）,一、Bonferron

12、i法,Bonferroni提出，如果在水准上进行c次假设检验，当无效假设为真时，至少有一次拒绝无效假设的累积类错误概率不超过ca，即有不等式 ca 。例如设0.05，c=3时运用概率乘法原理计算出的 0.143（30.05）。因此可以重新选择类错误概率水准，以便使累积类错误概率0.05。根据 Bonferroni不等式可得到要重新选择的水准为（/c）。例如设定0.05，进行 3次比较(c=3)时，重新选定的水准为 =（0.05/3）0.016。只有当t检验的类错误概率等于或小于0.016时才能拒绝无效假设。这样当无效假设为真时，其累积类错误概率不超过0.05。,用Bonferroni法进

13、行多个平均值之间的两两比较时所用的t检验公式为：式（8-7）的分母Se，为两平均值之差的标准误，计算公式为：、及ni、nh分别是两个比较组的平均值及观察例数。例如对例8-1的四个平均值进行两两比较时，c6。设累积 I类错误概率0.10。对用于每次检验的类错误概率水准进行调整得（0.10/6）0.0167。故采用t(=0.0167/2,v)作为临界值。但在通用的t分布表中查不到这一概率水准下的t值，须通过下列公式换算：,式（89）中的v为组内均方的自由度。Z是标准正态分布面积下的横轴距离取值。本例为/20.0083，Z=2.395，v20，代入上式即得到临界值为：利用式（8-8）计算t

14、检验所需的标准误Se：利用式（8-7）计算各组平均值之间两两比较的t值为：,用相同的方法计算出t（A：C）0.072.607，t（A：D）1.352.607；t（B：C）3.402.607；t（B：D）4.832.97；t（C：D）1.432.607。从以上的两两比较中可知，只有B组与其他各组间的差别具有统计学意义，而其他各组间的差别无统计学意义。这一结果的累积类错误的概率不超过0.10。当比较次数不多时，Bonferroni法的效果较好。但当比较次数较多（例如在10次以上）时，则由于其检验水准选择得过低，结论偏于保守。,二、SNK法,SNK（student-Newman-Keuls）法

15、又称q检验，是根据q值的抽样分布作出统计推论。仍以例8l为例介绍其检验过程。 1.将各组的平均值按由小到大的顺序排列：排列顺序（1）（2）（3）（4）平均值 28.0 18.7 18.5 14.8 原组号 B C A D 2.计算两个平均值之间的差值及组间跨度k，见表8-3第(2)、(3)两列。,表8-3SNK法两两比较的计算用表,3.计算两对比组之差的标准误S。计算公式为：由于本例中各组例数相等都为n6，故有对任意两对比组之差公用的标准误Se1.9313。 4.按下列公式计算统计量q值：按式（8-11）计算的平均值之间两两比较的q值见表8-3第（4）列。,5.计算 P值并作出

16、统计推断。按 v20，0.05及0.01两个检验水准，根据不同组间跨度k查附表6：q界值表得的q0.05（20,k）及q0.01（20,k）列于表8-3第（5）、（6）两列。表8-3最后一列列出了概率P。可见与其他各组比较，都在0.01水准上具有统计学意义。而之间的差异均无统计学意义。结论为解毒药B的效果显著优于其他各组。,三、Tukey法,Tukey法用称为真正显著差（honestly significant difference，HSD）的单一值作为判断标准。该法的计算步骤为： 1.计算各组平均值两两之间的绝对差值。计算结果见表8-4第2列。 2.根据检验水准，观察总例数N及比较组数k，

展开阅读全文