方差分析的基本原理和F测验

资源描述

《方差分析的基本原理和F测验》由会员分享，可在线阅读，更多相关《方差分析的基本原理和F测验（37页珍藏版）》请在金锄头文库上搜索。

1、第四章方差分析（analysis of variance,）,上节课的统计假设测验是如何检验一个或者两个平均数的假设检验方法，用u测验或t测验。但实际工作中需要对多个（k3)样本平均数进行比较，并分析它们之间的差异，也就是多个（k3)样本平均数的假设检验方法，这时，若仍采用t检验法就不适宜了。这是因为：,第一节方差分析的意义,1、检验过程烦琐例如，一试验包含5个处理，采用t检验法要进行 =10次两两平均数的差异显著性检验；若有k个处理，则要作 k(k-1)/2次类似的检验。,2、无统一的试验误差，误差估计的精确性和检验的灵敏性低对同一试验的多个处理进行比较时，应该有一个统一的试验误差

2、的估计值。若用 t 检验法作两两比较，由于每次比较需计算一个，故使得各次比较误差的估计不统一，同时没有充分利用资料所提供的信息而使误差估计的精确性降低，从而降低检验的灵敏性。,例如，试验有5个处理，每个处理重复 6次，共有30个观测值。进行t检验时，每次只能利用两个处理共12个观测值估计试验误差，误差自由度为 2(6-1)=10 ；若利用整个试验的30个观测值估计试验误差，显然估计的精确性高，且误差自由度为5(6-1)=25。可见，在用t检法进行检验时，由于估计误差的精确性低，误差自由度小，使检验的灵敏性降低，容易掩盖差异的显著性。,3、推断的可靠性低即使利用资料所提供的全部信

3、息估计了试验误差，若用t 检验法进行多个处理平均数间的差异显著性检验，由于没有考虑相互比较的两个平均数会增大犯 I型错误的概率，降低推断的可靠性。由于上述原因，多个平均数的差异显著性检验不宜用 t 检验，须采用方差分析法。方差分析 (analysis of variance, ANOVA) 是由英国统计学家R.A.Fisher于1923年提出的。,这种方法是将k个处理的观测值作为一个整体看待，把观测值总变异的平方和及自由度分解为相应于不同变异来源的平方和及自由度，进而获得不同变异来源总体方差估计值；通过计算这些总体方差的估计值的适当比值，就能检验各样本所属总体平均数是否相等。方差是平方和

4、除以自由度的商。 “ 方差分析法是一种在若干能相互比较的资料组中，把产生变异的原因加以区分开来的方法与技术” ，方差分析实质上是关于观测值变异原因的数量分析。,第四章方差分析（analysis of variance,）,方差分析是用于两个及两个以上样本均数差别的显著性检验，以检验试验所得的两个及两个以上样本均数是否来自相同总体。它将总变异剖分为各个变异来源的相应部分，从而发现各变异原因在总变异中相对重要程度的一种统计分析方法。,第二节方差分析的基本原理,第四章方差分析（analysis of variance,）,由于各种因素的影响，研究所得的数据呈现波动状，造成波动的原因可分成两

5、类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。方差分析的基本思想是：将全部观察着的总变异按影响试验结果的诸因素分解为若干部分变异，构造出反映各部分变异作用的统计量，之后构造假设检验统计量F，实现对总体均属的推断。也就是通过分析研究不同来源的变异对总变异的贡献大小，从而确定可控因素对研究结果影响力的大小。,第一节方差分析的意义,第四章方差分析（analysis of variance,）,方差分析主要用途：均数差别的显著性检验，分离各有关因素并估计其对总变异的作用，分析因素间的交互作用，方差齐性检验。在科学实验中常常要探讨不同实验条件或处理方法对实验结果的影响。

6、通常是比较不同实验条件下样本均值间的差异。例如农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响；不同化学药剂对作物害虫的杀虫效果等，很多问题都可以使用方差分析方法去解决。,第一节方差分析的意义,一、基本原理二、F测验（一）F分布（二）F测验的思想,第四章方差分析,第二节方差分析的基本原理和F测验,一、基本原理：看以下试验结果：有K个果树品种的品种对比试验，每个品种随机抽取n株调查单株产量，得到如下数据表,X11 X12 X13 X1n,X21 X22 X23 X2n,X31 X32 X33 X3n,XK1 XK2 XK3 XKn,T1,T2,T3,TK,上表中X11 、X

7、12XKn是kn个变异的数值，,即处理平方和 SSt=,与总平均数,用品种的平均数,品种不同引起的变异，就是处理变异，,可能的原因有二：一是品种不同；,总变异SST是由哪些原因导致的变异组成？,其变异用离均差平方和表示即总变异 SST=,之差的平方和乘以n表示,二是试验误差。,试验误差引起的变异是指处理因素以外的其它偶然因素引起的变异如土壤肥力、观察测定差异等用误差平方和SSe来表示,当然是试验误差。,是品种内观测值与该品种平均值之差，,于是，在这个试验中，有如下关系：总变异平方和,处理间变异SSt=,误差变异SSe=,列成下面的表,一、自由度和平方和的分解,设有k组数据，每组皆具n

8、个观察值，则该资料共有nk个观察值，其数据分组如表6.1。,表6.1 每组具n个观察值的k 组数据的符号表,在表6.1中，总变异是nk个观察值的变异，故其自由度 v = nk1，而其平方和SST则为：,（61）,其中的C称为矫正数：,(62),对于第 i 组的变异，有,从而总变异(61)可以剖分为:,（63）,即总平方和=组内(误差)平方和+处理平方和,组间变异由k个的变异引起，故其自由度 v =k1 , 组间平方和 SSt 为：,组内变异为各组内观察值与组平均数的变异，故每组具有自由度 v =n1和平方和；而资料共有k 组，故组内自由度 v = k (n1) ,组内平方和 SSe 为：

9、,(65),（64）,因此，得到表6.1类型资料的自由度分解式为：,(66),总自由度DFT =组间自由度DFt +组内自由度DFe,求得各变异来源的自由度和平方和后，进而可得:,(67),MSe作分母去除MSt，商数用F表示，即 F=MSt/MSe MSt可能有两种情况：其一处理间产量有显著差异 MSt=处理效应方差（ MSt） +误差方差（MSe ）；其二处理间产量无显著差异 MSt是误差方差MSe的估计值 MSt= MSe 前一种情况下，后一种情况下，可以根据F的大小来判断处理间有无显著差异。 F接近于1，处理间无显著差异； F1，处理间有显著差异。,F接近于1。,1+较大

10、的数,即 F1;,方差分析的基本思路,方差分析的基本思路：（1）把全部数据看成从同一总体抽出的几组样本，求出总变异, 即SST = （2）将总变异根据可能引起变异的原因分解成由各原因引起的变异平方和与自由度，得到各原因引起的方差；（3）将各项方差与误差方差相除得到F值；（4）若F1，推断处理间有显著差异，接着做多重比较；（5）若F接近于1，推断处理间无显著差异，分析结束。,。,基本思路图示：,（1）若F F，处理间无显著差异,（2）若F F，处理间有显著差异,全部试验数据,总变异 SST,处理间变异SSt,误差变异SSe,相除得 F,相除得MSt,处理自由度dft,F与F相比,

11、结论,总自由度dfT,相除得MSe,结束,误差自由度dfe,判断,多重比较,例6.1 以A、B、C、D 4种药剂处理水稻种子，其中A为对照，每处理各得4个苗高观察值(cm)，其结果如表6.2，试分解其自由度和平方和。,表6.2 水稻不同药剂处理的苗高(cm),根据(66)进行总自由度的剖分：总变异自由度 DFT=(nk1)=(44)1=15 药剂间自由度 DFt=(k1)=41=3 药剂内自由度 DFe=k(n1)=4(41)=12,根据(63)进行总平方和的剖分：,或,或药剂A内：药剂B内：药剂C内：药剂D内：,所以,进而可得均方：,二、F测验,前面说 F 1，则判断处理

12、间有显著差异。可是究竟大到什么程度才能判断有显著差异的呢？要FF，才判断处理有显著差异。通过F与F相比较来测验处理间差异是否显著的方法叫F测验。由上已知方差比的分布规律如何？我们下面进行讨论。,，是方差比。,（一）F分布：,(1)F（0，+）,(2)F=1,(3)分布向左偏斜,F分布,df1= 1 df2= 2,继续以 1 和 2为自由度成对地抽取样本，见图：,将二者相除，此“比”用F表示，即,求得它们的均方为,和,按自由度df1= 1 ,df2= 2抽取两个样本, 2,在N（，）总体中，,样本不同 F值不同构成F分布。 F 连续型随机变量 F 分布的概率密度函数,1和 2 分别

13、为分布只与 1和 2有关，即以 1和 2为参数如 1和 2确定，则曲线就定了，而与原总体参数无关。 1和 2不同，就得到不同的曲线。,的自由度，F为自变量。,和,F分布曲线特征：（1）具有平均数 =1 （2）取值区间为0，；（3）某一特定曲线的形状则仅决定于参数 v1和 v2 。在 v1=1或 v1=2时，F分布曲线是严重倾斜成反向J型；,当 v13时，曲线转为偏态(图6.1)。,图6.1 F分布曲线（随v1和v2的不同而不同）,对于任何F分布，可以用积分的方法求区间内的概率： P(FFi)=F(Fi)= P(FFi) 即阴影部分的概率，外面部分的概率为 P(Fi ，+)=1

14、- P(FFi)。如图。应用上式求出各种自由度下F曲线不同概率相应的F值，制成F表。请看附表：5%与1%显著点的F值表。 F值表结构第一横行大均方自由度 = 分子自由度 = ( 处理自由度) 第一纵列小均方自由度 = 分母自由度 = (误差自由度) 表中 F的临界值: 上行是F0.05; 下行是F0.01,，,查 df1=8、df2=20 的F值，见下图。 F0.05 = 2.45 F0.01 = 3.56，含义 F=2.45是一个分界点此点以外曲线与横轴所夹部分（阴影部分）概率为5 % ，此点以内概率为95%。所以F0.05 = 2.45是曲线上显著水准=0.05的临界值。,

15、图4-2 F0.05显著水准示意图,（二）F测验的思想： df1= 1, df2= 2,F衍生总体,总体 2,符合df1= 1, df2= 2的F分布,从同一个总体中按 1、2 抽出的一对样本方差比值F 有95%可能落在0F0.05间只有5%的可能落在0F0.05外，是小概率事件。待测样本是来自同一总体吗？,依小概率原理否认样本来自同一总体处理间有显著差异,计算F 值，与F0.05相比,FF0.05,肯定样本来自同一总体处理间无显著差异,所以，实测中，先设来自同一总体，即Ho，,F F0.05,，再与F相比。,求出,F测验需具备条件： (1)变数y遵循正态分布N( ， )， (2) s12 和 s22 彼此

展开阅读全文