统计学--第六章方差分析ppt课件

资源描述

《统计学--第六章方差分析ppt课件》由会员分享，可在线阅读，更多相关《统计学--第六章方差分析ppt课件（42页珍藏版）》请在金锄头文库上搜索。

1、第六章方差分析(一),第一节方差分析的基本概念,一、目的：Analysis of variance ANOVA用于检验两个或两个以上样本均数间差别有无统计意义二、样本均数间差别的原因(变异的来源)： 1、总变异：全部试验数据大小不等。用观察值与总均数的离均差平方和sum of squares of deviations from mean表示，记为SS总，或l总; 总的自由度总N1,2、组间变异：各处理组的样本均数大小不一，用各组均数与总均数的离均差平方和表示，记为SS组间或l组间，组间自由度组间k-1。MS组间l组间/ 组间组间变异反映的是处理因素的作用，同时也包括随机误差均方：

2、mean square, MS,3、组内变异：各处理组内部观察值大小不等，用各处理组内部每个观察值与组均数的离均差平方各表示，记为l组内。组内(n1-1)+(nk-1)=N-k MS组内l组内/ 组内组内变异反映的观察值的随机误差，如个体差异和随机测量误差,4、三种变异的关系 l总l组间l组内总N1(k-1)+(N-k)= 组间组内,三、方差分析的基本思想：总变异可分解为组间变异和组内变异两个部分，相应的总自由度也分解为组间自由度和组内自由度。如果各样本均数来自同一总体，即各组之间无差别，则组间变异和组内变异均只反映随机误差，这时若计算组间均方与组内均方的比值，FMS组间/MS组内，应

3、接近1。反之，若各样本均数不是来自同一总体，组间变异较大，F值将明显大于1。要大到多大程度才有统计学意义？,这个程度就是与随机误差而言。即以随机误差进行衡量，若处理组间的变异明显大于组内变异，则不能认为组间的变异仅反映随机误差，也就是说处理因素有作用。 R. A. Fisher于20世纪20年代推导出在无效假设成立的情况下，统计量F的分布规律。1934年G. W. Snedecor以Fisher的名字命名了这一分布，称F分布，故ANOVA又称F检验。F(组间，组内)查表,基本思想：根据资料变异的不同来源，将全部观察值总的离均差平方和和自由度分解为两个或多个部分，除随机误差外，其余每个部分的变异

4、可由某个因素的作用(或某几个因素的交互作用)加以解释，如各组均数间的变异SS组间，可由处理因素的作用加以解释，通过比较不同变异来源的均方，用F分布作出统计推断，从而了解该因素对观察指标有无影响。,注意： 1、ANOVA与试验设计类型联系在一起，并非任何变异都有适当的分解。 2、数据要求：各次观察独立，即任何两个观察值间均不相关；每一水平下的观察值xij分别服从总体均数为 ij的正态分布；各总体的方差相等，即方差齐性homogeneity of variance.(任何观察值都是独立地来自具有等方差的正态总体),第二节完全随机设计的单因素ANOVA(one-way ANOVA),按完全随

5、机化的原则将受试对象随机分配到一个研究因素的多个水平中去，然后观察试验效应。目的：比较不同水平下，各组均值间的差别是否具有统计学意义,基本步骤：P59，例61为例 1、建立检验假设和确定检验水准： Ho：4种衣料吸附硼氢量的总体均数相等，即 1 2 3= 4 H1： 4种衣料吸附硼氢量的总体均数不全相等 0.05 2、计算检验统计量F值：如下表,成组设计方差分析计算表,以P59表61实例进行计算：先计算基本数据结果，再代入上表的公式计算：C、SS、MS、F等一般将计算结果列为表62的形式，见P61 3、确定P值和作出统计推断结论按计算所得F值：11.1644，查附表62，表中1指分子均方

6、的自由度， 2为分母均方的自由度。F=11.164F0.01(3,16)=5.29，故P0.01。认为四组均数间差别有高度统计学意义,各组样本含量相等和各组样本含量不等时，计算的基本方法完全一样，只是在计算l组间时有所不同，相等时将ni直接用n计算即可。举例：P61，例62,第三节随机区组设计的ANOVATwo-way ANOVA,一、概念： 1、随机区组设计randomized block design,亦称配伍组设计：应用分层的思想，事先将受试对象按某种或某些特征分为若干个区组block，使每个区组内的观察对象的特征尽可能的相近。每个区组内的观察对象数与研究因素的水平数相等，分别使每个

7、区组内的观察对象随机地接受研究因素某一水平的处理。,2、此外，同一受试对象不同时间点上的观察，或同一样本给予不同处理的比较，亦当作随机区组设计进行分析。 3、由于区组内个体特征比较一致，减少了个体间变异对结果的影响，统计效率高，易检出组间的差别。 4、用两因素方差分析two-way ANOVA，两因素指研究因素和区组因素。研究因素有k个水平，共n个区组。 5、当k=2时，两因素方差分析等价于配对t检验，且F = t2,二、随机区组设计方差分析中变异的分解：总变异分解为：处理组间变异、误差、区组间变异(新增的，用ss区组l区组表示，大小为各区组均数与总均数的离均差平方和)。ss总ss处理ss区

8、组ss误差自由度分解：总处理区组误差 N1(k-1)+(n-1)+(k-1)(n-1). k为处理组数，n为区组数，N为总例数,三、分析计算步骤：例63，P 63 1、建立检验假设和确定检验水准 H0：放置不同时间的血糖浓度相等，即 1 2 3 4 H1：放置不同时间的血糖浓度不全相等 0.05 2、计算检验统计量F值，根据下表计算公式计算,随机区组方差分析计算公式,3、确定P值和作出推断结论放置时间的F值0.9681/0.0125=77.44 受试者间的F值0.3569/0.0125=28.55 查附表62，1(处理)3， 2(误差)21，F0.05(3,21)=3.07, F0

9、.01=4.87; 当 1(区组)7， 2(误差)21，F0.05(7,21)=2.49, F0.05=3.64 F均F0.01，P0.01，说时放置时间长短对血糖浓度的变化是有影响的。另外，不同受试者间血糖浓度亦有差别。,第四节均数间的相互比较,一、几点说明 1、ANOVA并不能回答哪几个均数间差别有统计学意义，需进一步做两两间的多重比较multiple comparison 2、两两比较，不可用t检验，因为会增加第一类错误的概率。k个样本均数可做k!/2!(k-2)!次比较，如：5个样本10次，不犯第一类错误的概率为(1-0.05)10=0.5987，正确接受全部10次无效假设的概率，一

10、类错误概率为1-0.5987=0.4013,二、常用的多重比较的方法,1、LSD-t检验：称最小有意义差别(least significant difference ) t检验，检验k组某一对或某几对在专业上有特殊意义的均数dAB=XA-XB的总体水平是否为0。,算得的t值以误差自由来查t值表与前述t检验的的不同：举例说明计算过程:t0.001(16)=4.015,LSD t 检验,2、Dunnett-t 检验,用于k-1个实验组与一个对照组均数差别的多重比较：P66，例6-5,Dunnet t 检验,3、Student-Newman-Keuls法,SNK法，检验统计量为q，通常称q检验

11、用于多个样本均数间的两两比较,SNK q 检验,比较时应将均数按大小顺序排列，一般先比较相关最大的两个均数 q的分布与两比较组间跨度a及自由度有关。组间跨度a(对比组内包含组数a)是指XA与XB之间涵盖的均数个数，包括XA与XB自身在内 MS误差为误差均方或组内均方依q值、组间跨度a(处理数Ti)、误差自由度及检验水准查q值表，qq(a,)时，有统计学意义(P553,附表64),两两比较方法选用,1、在研究设计阶段未预先考虑或预料到，经假设检验得出多个总体均数不全相等的提示后，才决定的多个均数的两两事后比较(post hoc comparisons/unplanned comparisons

12、)，常用于探索性研究exploratory research，两两比较用：SNK法、Bonfferoni t检验、Sidak t检验,2、在设计阶段就根据研究目的或专业知识而计划好的某些均数间的两两比较(planned contrasts/comparisons)或称事前beforehand 比较，常用于事先有明确假设的证实性研究confirmatory research，如多个处理组与对照组的比较、某一对或某几对在专业上有特殊意义的均数间的比较，用Dunnett-t检验、LSD-t检验，也可用Bonfferoni t检验（该方法最保守）或Sidak t检验,第五节拉丁方设计资料的方差分析*

13、,一、拉丁方设计latin square design:设计因素(标志)两个以上，各因素的水平数相同，可用此设计。拉丁方是以拉丁字母排列的方阵的简称。二、分析步骤：，例6-6，P68 1、求C 2、求l总 3、求l受试者,4、求l日期 5、求l防护服 6、求l误差 7、自由度：总格子数减1为总变异自由度，防护服间、受试者间、试验日期间均为n-1=5-1=4; 误差自由度=总自由度-防护服间-受试者间-试验日期间=24-4-4-4=12 8、列拉丁方分析表，见P70，表6-16 9、查表，判断结果,优点：可以从较少的实验数据获得较多的信息，比随机区组设计来得优越。(控制受试者间个体的差异，及实

14、验日期间的差异) 缺点：各因素间有交互作用时，不适用。实施时，要求各因素的水平数相等，实际中不易办到。拉丁方可由统计书中查到，亦可自己编写。,第七节方差齐性检验,检验多个样本的方差齐性用 Bartlett法一、各组样本含量相等时：P71，例6-7 卡方值略大于某一临界值时，应计算校正卡方值，公式见P72,二、各样本含量不等时：P72，例6-8 Bartlett法在各样本含量相等时是不敏感的。所以各组样本含量相差不大，各组S2相差不过大，可不必进行Bartlett检验。,第七节近似F检验,方差不齐时：采用以下两方法 1、对原始数据进行转换 2、用加权的方法计算加权的方差进行F检验，即近似

15、F检验(F检验或pseudo F test)，具体计算方法，参见P7374,第八节变量变换,ANOVA的要求：任何观察值都独自地来自具有等方差正态总体。不能满足时，可导致F值偏大，从而有增加第一类错误的危险，尤其违反独立性假设时，影响较为严重。明显偏离可进行变量变换。样本例数较多时，对总体的正态性并不苛求；每组样本例数相等时，对方差齐性亦不苛求，故最好采用例数相等的平衡设计方案。,一、变量变换：是将原始数据作某种函数转换，可使各组达到方差齐性，亦可使资料转换成正态分布，以满足方差分析和t检验的要求。通常适当转换，可同时满足以上两个目的。二、常用方法 1、对数变换logarithmic t

16、ransformation X=lgX; X=lg(X+1); X=lg(X+k); X=lg(X-k) 用于： 1)、使服从对数正态分布的数据正态化。如环境中某些污染物的分布，人体中某些微量元素的分布,2)、使数据达到方差齐性，特别是各样本的标准差与均数成比例或变异系数接近一个常数时 2、平方根转换square root transformation 常用于： 1)、使服从Poisson分布的计数资料或轻度偏态的资料正态化 2)、当各样本的方差与均数呈正相关时，可使资料达到方差齐性,3、倒数转换reciprocal transformation X=1/X 常用于：数据两端波动较大的资料，可使极端值的影响减小 4、平方根反正弦变换arcsine transformation 常用于：服从二项分布的率或百分比的资料。一般认为总体率较小(如70%)时，偏离正态较为明显，通过平方根反正弦转换可使资料接近正态分布，达到方差齐性要求,说明：使用数据转换进行方差分析后，各均数间差别的比较及可信区间的计算，应该用转

展开阅读全文