生物统计学课件方差分析㈠

上传人:m**** 文档编号:579823031 上传时间:2024-08-27 格式:PPT 页数:33 大小:465KB
返回 下载 相关 举报
生物统计学课件方差分析㈠_第1页
第1页 / 共33页
生物统计学课件方差分析㈠_第2页
第2页 / 共33页
生物统计学课件方差分析㈠_第3页
第3页 / 共33页
生物统计学课件方差分析㈠_第4页
第4页 / 共33页
生物统计学课件方差分析㈠_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《生物统计学课件方差分析㈠》由会员分享,可在线阅读,更多相关《生物统计学课件方差分析㈠(33页珍藏版)》请在金锄头文库上搜索。

1、第五章第五章 方差分析(一)方差分析(一)n第一节第一节 方差分析原理方差分析原理n (一个性质、两个分布、三个假定)(一个性质、两个分布、三个假定)n第二节第二节 单向分组数据单向分组数据n (各组观察值个数有相同和不相同之分)(各组观察值个数有相同和不相同之分)n第三节第三节 多向分组数据多向分组数据 n (含两向分组、三向分组实例)(含两向分组、三向分组实例)n第四节第四节 三个假定与数据转换三个假定与数据转换*n (正态性、可加性、同质性)(正态性、可加性、同质性)第五章要点提示第五章要点提示 方差分析是本课程的重点,它与试验研究联系最为密切。学习时方差分析是本课程的重点,它与试验研究

2、联系最为密切。学习时要从完全随机设计(单向分组)的试验数据着手,结合显著性检验的知识,要从完全随机设计(单向分组)的试验数据着手,结合显著性检验的知识,深刻理解方差分析原理的全部内涵,即一个性质、两个分布和深刻理解方差分析原理的全部内涵,即一个性质、两个分布和 三个假定三个假定(某些情况下作数据转换的必要性);(某些情况下作数据转换的必要性); 区分区分LSR法多重比较与法多重比较与t-test的的异同点;异同点; 重点掌握单因素随机区组和拉丁方试验结果的方差分析法,重点掌握单因素随机区组和拉丁方试验结果的方差分析法,能熟练地运用字母法标记多重比较结果。能熟练地运用字母法标记多重比较结果。 涉

3、及教材内容:第六章第一、二、五节,第十二章第五、六、七节。涉及教材内容:第六章第一、二、五节,第十二章第五、六、七节。 作业布置:作业布置:教材教材第六章第四节内容自习第六章第四节内容自习;教材教材P131P131135 135 T1、 T3、 T4、 T11、 T12、T13、 T20 、T21 、 T22 ,教材教材P268P268269 269 T7、 T8、 T13。第一节第一节 方差分析原理方差分析原理 方差分析方差分析(analysis of variance),缩缩写词原为写词原为ANOVA, 现在也用现在也用AOV。 它是对多个样本平均数进行假设测它是对多个样本平均数进行假设测

4、验的方法验的方法, 因为对三个以上的平均数差因为对三个以上的平均数差异进行比较时异进行比较时, 采用只能就一个或两个采用只能就一个或两个样本平均数差异进行显著性测验的方法样本平均数差异进行显著性测验的方法已不敷应用,例如:已不敷应用,例如: 例例5.1 某水产研究所为了比较某水产研究所为了比较 k=4种种不同配合饲料对鱼的饲喂效果,选取了不同配合饲料对鱼的饲喂效果,选取了条件基本相同的鱼条件基本相同的鱼20尾,随机分成尾,随机分成4组组 ,投喂不同饲料,一个月后每个处理各得投喂不同饲料,一个月后每个处理各得n= 5个增重观察值个增重观察值,且且T=550.8, =27.54, 试予分析。试予分

5、析。解解 本例本例需要分析两个方面的问题需要分析两个方面的问题:鱼经不同饲料投喂后增重是否鱼经不同饲料投喂后增重是否 有显著差异(即存在本质差别)?有显著差异(即存在本质差别)?若有显著差异的话若有显著差异的话, 在哪些饲料之间在哪些饲料之间?饲料饲料 鱼鱼 的的 增增 重重 (10g) Ttt A131.9 27.9 31.8 28.4 35.9155.931.18 A224.8 25.7 26.8 27.9 26.2 131.426.28A322.1 23.6 27.3 24.9 25.8123.724.74A427.0 30.8 29.0 24.5 28.5 139.827.96 如果按

6、第三章的方法如果按第三章的方法, 直接进行显著直接进行显著性检验性检验, 就要就要孤立地对以下孤立地对以下6个两两差数个两两差数做做t-test,即:即:顺序顺序 t t24.74 t26.28 t27.96 A1 31.18 6.44 4.9 3.22 A4 27.96 3.22 1.68 A2 26.28 1.54 A3 24.74 第一节第一节 方差分析原理方差分析原理 把一份完整的原始数据部分地撇开,把一份完整的原始数据部分地撇开, 孤立地对两两差数进行孤立地对两两差数进行t-test,其消极后其消极后果佛克伦这样描述过:果佛克伦这样描述过: 从同一总体中抽样从同一总体中抽样, 每次抽

7、两个样本每次抽两个样本得得1和和2后求算后求算 t 值值, 若指定它超过某若指定它超过某值的概率为值的概率为5%的话的话, 该值就是两尾表中该值就是两尾表中查得的临界值查得的临界值 t0.05 再以相同的样本容再以相同的样本容量每次抽三个样本量每次抽三个样本, 用用最大的样本和最大的样本和最小的样本求算最小的样本求算 t 值值, 此时它超过此时它超过“t0.05 ”的概率上升到的概率上升到14.3% ( 即即“t0.05 ” = t0.143)继续以相同的容量每次抽继续以相同的容量每次抽四个样本四个样本,仍以仍以最大的和最大的和最小的求算最小的求算t 值值, 则则上升到上升到26.5%( 即即

8、 “t0.05 ”= t0.265 )以此以此类推类推5个样本个样本40%以上。以上。 比如本例针对药剂比如本例针对药剂A1与药剂与药剂A3的两两差的两两差数数6.44 (最大最大 最小最小) 进行的进行的t-test: F= S大大2 / S小小2 =41.67/415.97/4 F0.05 Se2 = (SS1 + SS2) / (1+2) = 57.64/8 S 1-2 =Se2 ( 1/n1 + 1/n2 ) = 1.70 t =( 1- 2 ) (1-2) S1- 2 = 6.44 1.70 = 3.8 “t0.05”=2.306 由由于于撇撇开开A、B孤孤立立地地进进行行,否否定定

9、HO的把握不到的把握不到80%。饲料饲料鱼鱼 的的 增增 重重 (10g) TttSS A131.9 35.9155.931.1841.67 A224.8 26.2 131.426.28 5.43A322.1 25.8123.724.7415.97A427.0 28.5 139.827.9622.33第一节第一节 方差分析原理方差分析原理一、数据整理一、数据整理 根据方差分析的先决条件,在根据方差分析的先决条件,在“三个三个假定假定”成立的前提下,对右表继续整理:成立的前提下,对右表继续整理: C= T 2/nk = 550.8 2/20 = 15169.03SST =(Y ) 2 = Y 2

10、 C =31.92 +28.52 15169 = 199.67dfT = nk 1= 5 4 1 = 19二、平方和、自由度的分解二、平方和、自由度的分解Y = (Yt) + ( t ) 两边同时平方,得两边同时平方,得: (Y )2 = (Y t) 2 + ( t ) 2 +2 (Y t) ( t )由同一处理重复观察值的由同一处理重复观察值的累加:累加: (Y)2=(Yt) 2 + (t ) 2 +2 ( t ) (Y t) = 0(Y )2=(Y t) 2 + n ( t ) 2再把全部处理观察值的再把全部处理观察值的累加,得:累加,得:(Y )2=(Yt) 2 + n ( t ) 2即

11、:即: SST = (组内组内) SSe + (组间组间) SSt 其中其中 SSt = n ( t ) 2 = Tt 2 /n C = (155.9 2 +131.4 2 +123.7 2 +139.8 2 )/ 5 15169.03 = 114.27于是于是SSe = SST SSt = 199.67 114.27 = 85.4 = SS1 + SS2 + SS3 +SS4 = 41.67 +5.43 +15.97+22.33 dft = k 1= 3 dfe= dfT dft =193 = df1 + df2 + df3 +df4= 4 +4 +4+4 = 16饲料饲料鱼鱼 的的 增增

12、重重 (10g) TttSS A131.9 35.9155.931.1841.67 A224.8 26.2 131.426.28 5.43A322.1 25.8123.724.7415.97A427.0 28.5 139.827.9622.33第一节第一节 方差分析原理方差分析原理三、列三、列ANOVA表,进行表,进行F-test 变异来源变异来源 DF SS MS F F 0.01 处理处理 3 114.27 38.09 7.13 * 5.29 误差误差 16 85.4 5.34 总总 19 199.67 ( F值右上角标一个值右上角标一个 * 达到达到0.05, 标两个标两个 * 达到达到

13、0.01 ) 这里进行的这里进行的F-test与第三章与第三章(Ho:大大2 小小2 )的相同之处是都做右尾测验的相同之处是都做右尾测验, 查的是同一张查的是同一张F临界值表;不同之处是固定用误差方差临界值表;不同之处是固定用误差方差Se 2作作分母分母(Ho:t2 e2 ), 而不论其相对大小。而不论其相对大小。 显然显然, F值越大值越大, 说明处理效应引起的数据变说明处理效应引起的数据变异不仅在量的方面所占比重较大异不仅在量的方面所占比重较大, 而且相对于而且相对于误差引起的变异来讲显得越重要、越突出误差引起的变异来讲显得越重要、越突出; 本本例例F-test结果显示极显著结果显示极显著

14、, 表明原始数据的总变表明原始数据的总变异主要由不同的饲料种类引起异主要由不同的饲料种类引起, 各处理之间至各处理之间至少有两个存在着少有两个存在着(极极)显著差异。显著差异。 以上一、二、三就是以上一、二、三就是R.A.Fisher创建的方差创建的方差分析法,其原理归纳如下分析法,其原理归纳如下:平方和与自由度的可加性;平方和与自由度的可加性; SST 综合了全部观察值的变异量综合了全部观察值的变异量, 它汇总了它汇总了各变异来源各变异来源 (SOV) 导致原始数据和全试验平均导致原始数据和全试验平均数数 ( ) 出现差异的分量出现差异的分量, 包括包括可控因素分量和可控因素分量和误差分量两

15、类误差分量两类; “可加性可加性” 证实前者就是观察证实前者就是观察值按可控因素分组后算得的组间平方和值按可控因素分组后算得的组间平方和 ( 可控可控因素可以是试验因素因素可以是试验因素, 也可以是象单位组那样也可以是象单位组那样的其它系统因素的其它系统因素 ) 。 试验设计有几个可控因素试验设计有几个可控因素, 数据就会有几种数据就会有几种可能的分组方式可能的分组方式, 也就可以算出几个组间也就可以算出几个组间SS, 而而本属于组内本属于组内SS的误差分量在平方和分解时总是的误差分量在平方和分解时总是由由SST 减去所有可控因素减去所有可控因素SS得到得到, 因此它又被称因此它又被称为为“剩

16、余平方和剩余平方和”。 自由度的剖分与平方和的剖分一一对应自由度的剖分与平方和的剖分一一对应。依据依据F分布进行整体测验;分布进行整体测验; 只确定可控因素分量和误差分量的相对只确定可控因素分量和误差分量的相对重要程度是否达到显著水平。重要程度是否达到显著水平。第一节第一节 方差分析原理方差分析原理四、多重比较四、多重比较 R.A.Fisher 创建的方差分析法并没有明确创建的方差分析法并没有明确(极极)显著差异究竟存在于哪些显著差异究竟存在于哪些 “组平均数组平均数”之间之间, F值值(极极)显著所包含的信息只有通过显著所包含的信息只有通过对对C2n= k(k-1)/2个两两差数进行多次连续

17、性个两两差数进行多次连续性测验才能完全揭露出来,这就是多重比较。测验才能完全揭露出来,这就是多重比较。 多重比较不论用哪一种方法多重比较不论用哪一种方法, 区别于多区别于多 次孤立的次孤立的 t-test 或者说体现其或者说体现其“连续性连续性” 特征特征之处有两个之处有两个, 一是必须使用同一个共用的标一是必须使用同一个共用的标准误准误, 记为记为“SE”), 本例本例SEMSe / n 5.345 =1.033 (10g); 二是所依据的抽样分二是所依据的抽样分布由计算布由计算MSe即即Se2的自由度的自由度dfe决定决定, 并根据并根据两两差数秩次距两两差数秩次距“k”的不同而有所修正。

18、如的不同而有所修正。如本例本例k = 2、3、4,测验时依据测验时依据dfe=16的的 t 分分布并在布并在k = 3和和4时修正为时修正为SSR分布如右。分布如右。顺序顺序 t t24.74 t26.28 t27.96 A1 31.18 6.44 4.9 3.22 A4 27.96 3.22 1.68 A2 26.28 1.54 A3 24.74 =16,k =2 SSR= t2=16,k =3=16,k =4 3.23 3.15 3.00 第一节第一节 方差分析原理方差分析原理 附表附表6 列出了各自由度对应的列出了各自由度对应的t 分布曲线分布曲线再按再按9 种秩次距修正出来的种秩次距修

19、正出来的SSR分布当两尾分布当两尾概率取概率取0.05和和0.01时临界值,记为时临界值,记为SSR0.05和和SSR0.01,其中其中k =2的那一条因为实际就是的那一条因为实际就是 t分布曲线压缩横坐标刻度所得分布曲线压缩横坐标刻度所得, 所以表中列所以表中列出的出的SSR0.05和和SSR0.01就分别等于附表就分别等于附表3所列所列t0.05 和和t0.01的的2 倍倍; 其它其它k3的的SSR分布随分布随着着P的递增的递增, 对对 t 分布的修正幅度加大分布的修正幅度加大, 因此因此表中列出的表中列出的SSR0.05和和SSR0.01也就随之递增。也就随之递增。 多重比较测验两两差数

20、的显著性时不是多重比较测验两两差数的显著性时不是将它除以将它除以SE转换成转换成SSR(也是标准化变量也是标准化变量!)后再与后再与SSR0.05 和和SSR0.01 比大小比大小, 而是先将而是先将SSR0.05和和SSR0.01乘以乘以SE算出算出“显著尺显著尺”LSR,再将它们直接和相应秩次距的两两差数比再将它们直接和相应秩次距的两两差数比大小大小, 超过超过LSR0.05标标*, 超过超过LSR0.01 标标*。顺序顺序 t t24.74 t26.28 t27.96 A1 31.18 6.44 * 4.9 * 3.22 * A4 27.96 3.22 ns 1.68 ns A2 26.

21、28 1.54 ns A3 24.74 =16,k =2 SSR= t2=16,k =3=16,k =4 3.23 3.15 3.00 第一节第一节 方差分析原理方差分析原理 按照两两差数在三角梯形表中的排列规按照两两差数在三角梯形表中的排列规律,本例多重比较过程列表如下:律,本例多重比较过程列表如下: LSR0.05= SE SSR0.05 LSR0.01= SE SSR0.01 顺序顺序 t t24.74 t26.28 t27.96 A1 31.18 6.44 * 4.9 * 3.22 * A4 27.96 3.22 ns 1.68 ns A2 26.28 1.54 ns A3 24.74

22、 SE = 1.033 kSSR0.05SSR0.01LSR0.05LSR0.012 3.00 4.13 3.099 4.2663 3.15 4.34 3.254 4.4834 3.23 4.45 3.337 4.597 综合包括多重比较在内的方差分析综合包括多重比较在内的方差分析全过程,其原理可归纳为:全过程,其原理可归纳为: 一个性质一个性质(SS、DF的可加性的可加性) 两个分布两个分布(F分布和分布和SSR分布分布) 本例根据本例根据SSR分布进行的多重比较分布进行的多重比较叫叫新复极差测验新复极差测验, 简称简称SSR-test 。因为因为不能缺少不能缺少 F-test 显著的前提,

23、属于显著的前提,属于Fishers protected multipe comparisons.此前产生的此前产生的复极差测验复极差测验 (简称简称q-test、又又称称SNK测验测验) 却可以不经过却可以不经过F-test, 原因原因是是q-test算算LSR时要改查时要改查q 值表值表(附表附表5), 所依据的所依据的q分布是按极差抽样分布原理分布是按极差抽样分布原理要保证各比较都是同一显著水平要保证各比较都是同一显著水平, 因因而对而对 t 分布修正幅度随秩次距分布修正幅度随秩次距k的递增的递增而加大的速度要比而加大的速度要比SSR分布快分布快, 所以秩所以秩次距次距k3 时时q0.05

24、和和q0.01 比相应的比相应的SSR0.05和和SSR0.01大。大。 第二节第二节 单向分组数据单向分组数据 单向分组数据指观察值仅按一个方单向分组数据指观察值仅按一个方向分组的数据。如例向分组的数据。如例5.1中将全部供试单中将全部供试单位位(试验材料试验材料)随机地分成若干组,然后随机地分成若干组,然后各组给以不同处理,即同组供试单位受各组给以不同处理,即同组供试单位受相同处理,不同组受不同处理,这样所相同处理,不同组受不同处理,这样所得的全部观察值在设计上称为得的全部观察值在设计上称为完全随机完全随机试验数据试验数据,而实际研究中下例,而实际研究中下例5.2那样的那样的调查结果也属此

25、类。调查结果也属此类。一、各组观察值个数相等一、各组观察值个数相等 例例5.2 抽测抽测 5个不同品种个不同品种(k = 5)各各5头母猪头母猪(n = 5)的窝产仔数,结果如右表的窝产仔数,结果如右表所示,所示,T = 265,试检验不同品种的母猪试检验不同品种的母猪平均窝产仔数差异是否显著。平均窝产仔数差异是否显著。品种品种产仔数观察值产仔数观察值(头)(头) Ttt 1 8 13 12 9 95110.2 2 7 8 10 9 7418.2 313 14 10 11 126012 413 9 8 8 10489.6 512 11 15 14 136513 1、数据整理、数据整理 C =

26、T 2/nk = 265 2/25 = 2809SST =(Y ) 2 = Y 2 C =82 +132 +132 2809 = 136dfT = nk 1= 5 5 1 = 24第二节第二节 单向分组数据单向分组数据2、平方和、自由度的分解、平方和、自由度的分解SSt = n ( t ) 2 = Tt 2 /n C = 73.2 = (51 2 +41 2 +60 2 +48 2 +65 2 )/ 5 2809于是于是 SSe = SST SSt = 13673.2 =62.8 dft = k 1= 4 dfe= dfT dft =244= 203、列、列ANOVA表,进行表,进行F-tes

27、t 假设是假设是Ho:t2 e2 而不是而不是Ho:t2 =e2 (和和 Ho:1= 2= 3= 4= 5效果一样)效果一样) SOV DF SS MS F F 0.01 品种品种 4 73.2 18.3 5.83* 4.43 误差误差 20 62.8 3.14 总总 24 1364、多重比较、多重比较 SE=MSe / n =3.145 = 0.793 再根据附表再根据附表6的的SSR进而算得显著尺:进而算得显著尺:K SSR0.05 SSR0.01 LSR0.05 LSR0.0122.95 4.02 2.339 3.1883.10 4.22 2.458 3.3463.18 4.33 2.5

28、22 3.4345 3.25 4.40 2.577 3.489品种品种产仔数观察值产仔数观察值(头)(头) Ttt 1 8 13 12 9 95110.2 2 7 8 10 9 7418.2 313 14 10 11 126012 413 9 8 8 10489.6 512 11 15 14 136513第二节第二节 单向分组数据单向分组数据本例的多重比较结果以三角梯形表表述如下:本例的多重比较结果以三角梯形表表述如下: t 0.01 t 8.2 t 9.6 t 10.2 t 12.013.0 A 4.8* 3.4* 2.8* 1.012.0 A 3.8* 2.4 1.8 10.2 AB 2.

29、0 0.6 9.6 AB 1.4 8.2 B t 13.0 12.0 10.2 9.6 8.2第二节第二节 单向分组数据单向分组数据本例的多重比较结果以三角梯形表表述如下:本例的多重比较结果以三角梯形表表述如下: t 0.05 t 8.2 t 9.6 t 10.2 t 12.013.0 a 4.8* 3.4* 2.8* 1.012.0 ab 3.8* 2.4 1.8 10.2 bc 2.0 0.6 9.6 bc 1.4 8.2 c t 13.0 12.0 10.2 9.6 8.2第二节第二节 单向分组数据单向分组数据 单向分组数据的观察值也可以是单向分组数据的观察值也可以是交交叉试验叉试验的数

30、据。即在同一试验中给试验的数据。即在同一试验中给试验单位安排处理时分期进行、交叉反复两单位安排处理时分期进行、交叉反复两次以上所获得的试验结果。这种试验设次以上所获得的试验结果。这种试验设计方法能较好地消除试验动物个体(即计方法能较好地消除试验动物个体(即试验单位)以及试验时期间的差异对试试验单位)以及试验时期间的差异对试验数据影响,特别是能够利用较少的试验数据影响,特别是能够利用较少的试验动物获得尽可能多的观察值个数。由验动物获得尽可能多的观察值个数。由于系同一批试验动物分期安排不同处理,于系同一批试验动物分期安排不同处理,所得观察值个数必然相等。所得观察值个数必然相等。 例例5.3 研究新

31、配方饲料对奶牛产奶研究新配方饲料对奶牛产奶量(量(kg)的影响,设置对照饲料)的影响,设置对照饲料A1和和新和和新配方饲料配方饲料A2两个处理,采用两个处理,采用 2 2交叉设交叉设计,用条件相近的计,用条件相近的10头奶牛分两期获得了头奶牛分两期获得了20个原始数据,并算得个原始数据,并算得二水平差值二水平差值 d如右如右表,试完成其方差分析过程。表,试完成其方差分析过程。 时期时期C1 C2dC1 C2处理处理 A1 A2d1 d2B1组组13.8 15.516.2 18.413.5 16.012.8 15.812.5 14.51.72.22.53.02.0 处理处理 A2 A1 B2组组

32、14.3 13.520.2 15.418.6 14.317.5 15.214.0 13.0 0.8 4.8 4.3 2.3 1.0 总和总和T1 11.4 T2 13.2 第二节第二节 单向分组数据单向分组数据1、数据整理、数据整理 C = ( d ) 2/nk = 1.8 2/10 = 0.324 SST = d 2C = 75.116 =(1.7 ) 2 +(2.2 ) 2 +1.0 20.324 dfT = nk 1= 5 2 1 = 92、平方和、自由度的分解、平方和、自由度的分解SSt = Tt 2 /n C = 60.516 = (11.4) 2 +13.2 2/ 5 0.324S

33、Se = SST SSt = 75.11660.516 =14.6 dft = k 1= 1 dfe= dfT dft =91= 83、列、列ANOVA表,进行表,进行F-testSOV DF SS MS F F 0.01 处理处理 1 60.516 60.52 33.16* 4.43 误差误差 8 14.600 1.83 总总 9 75.116时期时期C1 C2dC1 C2处理处理 A1 A2d1 d2B1组组13.8 13.516.2 18.413.5 16.012.8 15.812.5 14.51.72.22.53.02.0 处理处理 A2 A1 B2组组14.3 13.520.2 15

34、.418.6 14.317.5 15.214.0 13.0 0.8 4.8 4.3 2.3 1.0 总和总和(d 1.8 ) 11.4 13.2第二节第二节 单向分组数据单向分组数据例例5.4 研究饲喂尿素对奶牛产奶量(研究饲喂尿素对奶牛产奶量(kg)的影响,设置尿素配合饲料的影响,设置尿素配合饲料A1和和对照和和对照饲料饲料A2两个处理,采用两个处理,采用 2 3交叉设计,交叉设计,用条件相近的用条件相近的6头奶牛分三期获得了头奶牛分三期获得了18个个原始数据,并算得原始数据,并算得二水平差值二水平差值 d如右表,如右表,完成其方差分析的结果如下。完成其方差分析的结果如下。 (和例(和例5.

35、3一样,无需多重比较)一样,无需多重比较)ANOVA表:表:SOV DF SS MS F F 0.01 处理处理 1 1.6748 1.6748 1.60ns 7.71 误差误差 4 4.1727 1.0432 总总 5 17.72时期时期C1 C2 C3dC1 2C2 C3处理处理 A1 A2 A1d1 d2B1组组11.32 11.36 11.3113.67 13.40 13.8318.74 16.34 16.390.09 0.70 2.45 处理处理 A2 A1 A2 B2组组11.65 11.19 11.1213.57 13.87 13.4111.54 10.97 10.66 0.39

36、 0.76 0.26 总和总和(d 2.95 ) 3.06 0.11第二节第二节 单向分组数据单向分组数据二、各组观察值个数不相等二、各组观察值个数不相等 例例5.5 5个不同品种猪的育肥试验,后个不同品种猪的育肥试验,后期期30天增重(天增重(kg)分别得到分别得到6、6、5、4、4个共个共25头猪的观察值(如下表),试头猪的观察值(如下表),试比较不同品种间的增重有无显著性差异比较不同品种间的增重有无显著性差异。 1、数据整理、数据整理 k = 5 T = 460.5 ni=25 C= T 2/ ni = 460.5 2/25 = 8482.41品种品种育育 肥肥 增增 重重 观观 察察

37、值(值(kg)TttniB121.5 19.5 20.0 22.0 18.0 20.0 12120.26 B216.0 18.5 17.0 15.5 20.0 16.0 10317.2 6 B3 19.0 17.5 20.0 18.0 17.0 91.5 18.3 5 B421.0 18.5 19.0 20.078.519.64B515.5 18.0 17.0 16.066.516.64SST = (Y ) 2 = Y 2 C = 21.52 +16.02 8482.41 = 85.34 dfT = ni 1= 25 1 = 24可加性原理可加性原理与前面例与前面例5.1、例、例5.2一样一样

38、 : SST = 组间组间 SS t + 组内组内 SS e dfT = 组间组间 df t + 组内组内 df e 由于各组观察值个数由于各组观察值个数 ni 不全相等,不全相等,方差分析过程部分计算公式随之改变,方差分析过程部分计算公式随之改变,须注意其须注意其与前面例与前面例5.1、例、例5.2的区别的区别!第二节第二节 单向分组数据单向分组数据2、平方和、自由度的分解、平方和、自由度的分解SSt = ( Tt 2 / ni ) C = 46.5 = (1212 /6+103 2 /6+91.5 2/5+78.5 2 /4 +66.5 2 /4 ) 8482.41于是于是 SSe = S

39、ST SSt = 85.3446.5 =38.84 dft = k 1 = 4 dfe = dfT dft = 244 = 203、列、列ANOVA表,进行表,进行F-test 假设是假设是Ho:t2 e2 而不是而不是Ho:t2 =e2 (和和 Ho:1= 2= 3= 4= 5效果一样)效果一样) SOV DF SS MS F F 0.01 品种品种 4 46.5 11.63 5.99* 4.43 误差误差 20 38.84 1.94 总总 24 85.344、多重比较、多重比较 SE= MSe / no =1.944.96 = 0.625 按按dfe = 20查得查得SSR临界值后比较如下

40、临界值后比较如下:P LSR 顺序顺序 t 0.05 0.01 0.05 0.01 B1 20.2 a A2.95 4.02 B4 19.6 a AB3.10 4.22 B3 18.3 ab ABC3.18 4.33 B2 17.2 b BC5 3.25 4.40 B5 16.6 b C品种品种增重观察值(增重观察值(kg)TttniB121.5 20.0 12120.26 B216.0 16.0 10317.26 B319.0 17.0 91.5 18.35 B421.0 20.078.519.64B515.5 16.066.516.64第二节第二节 单向分组数据单向分组数据 组次数平均数组

41、次数平均数 no 的另一种计算公式的另一种计算公式: 6 (6+5+4+4) 6 (6+5+4+4) 5(6+6+4+4) 4 (6+6+5+4) 4( 6+6+5+4 ) 4 4 4 4 4 no= = 4.96 6 + 6 + 5 + 4 + 4 本例说明本例说明取样调查得到的数据取样调查得到的数据观察结果可按单向分组数据的模型进行方差分观察结果可按单向分组数据的模型进行方差分析析, 而不论各组取样获得的观察值个数是否相同(而不论各组取样获得的观察值个数是否相同(参见例参见例5.1)。)。 实际应用中,某些实际应用中,某些完全随机试验完全随机试验设计即使各处理的小区个数相同,但因为自设计即

42、使各处理的小区个数相同,但因为自然条件限制或其它原因导致个别小区无法得到观察值时,就可以参照本例按各组然条件限制或其它原因导致个别小区无法得到观察值时,就可以参照本例按各组观察值个数不同的观察值个数不同的数据结构数据结构进行分析。进行分析。 由于取样观察所依据的原理是以概率论中定义的由于取样观察所依据的原理是以概率论中定义的“随机试验随机试验”为出发点,因此,为出发点,因此,试验统计中讲授试验统计中讲授取样调查结果取样调查结果决不算决不算“离题离题”,也就是说,对教材名称中的,也就是说,对教材名称中的“试验试验”一词要全面理解,这是本课程简称一词要全面理解,这是本课程简称“试验统计试验统计”比

43、简称比简称“生物统计生物统计”好的理由之一。好的理由之一。 至于动物试验研究中按交叉设计得到的数据,其方差分析因为是用二水平差至于动物试验研究中按交叉设计得到的数据,其方差分析因为是用二水平差值值 d 进行的,分析模型的数据结构也属于单向分组数据模式。进行的,分析模型的数据结构也属于单向分组数据模式。第三节第三节 多向分组数据多向分组数据 试验统计过程中,象前面三例那样只需按不同试验处理试验统计过程中,象前面三例那样只需按不同试验处理( 即一个可控因素即一个可控因素 )对数据进行分组是很不够的,因为对数据进行分组是很不够的,因为农业及生物学领域农业及生物学领域所进行的试验研究由于受自所进行的试

44、验研究由于受自然条件的制约,导致试验所得各观察值出现差异的然条件的制约,导致试验所得各观察值出现差异的可控因素决不仅仅局限于试验可控因素决不仅仅局限于试验因素因素。如在实施了局部控制的试验方案设计中,各单位组之间的差别就反映了系。如在实施了局部控制的试验方案设计中,各单位组之间的差别就反映了系统因素效应,此时的试验数据除了要按不同试验处理分组之外,还必须按不同的统因素效应,此时的试验数据除了要按不同试验处理分组之外,还必须按不同的单位组进行分组。单位组进行分组。 由于区组可以不止一个方向,这就产生了由于区组可以不止一个方向,这就产生了两向甚至三向分组数据两向甚至三向分组数据的分析问题,的分析问

45、题,前者最典型的是随机区组试验数据,后者则以拉丁方试验结果为代表,两者都是前者最典型的是随机区组试验数据,后者则以拉丁方试验结果为代表,两者都是经典试验设计与统计分析内容;并且和完全随机试验一样,可以是单因素试验,经典试验设计与统计分析内容;并且和完全随机试验一样,可以是单因素试验,也可以是复因素试验。鉴于复因素试验要专门安排一章来讲授,本节只介绍单因也可以是复因素试验。鉴于复因素试验要专门安排一章来讲授,本节只介绍单因素随机区组和拉丁方试验数据的方差分析。素随机区组和拉丁方试验数据的方差分析。 例例5.6 为了比较为了比较5种不同中草药饲料添加剂对猪增重的效果,从种不同中草药饲料添加剂对猪增

46、重的效果,从4头母猪所产头母猪所产仔猪中,每窝选出性别相同、体重相近的仔猪各仔猪中,每窝选出性别相同、体重相近的仔猪各5头,共头,共20头,组成头,组成4个单位组,个单位组,各单位组的每头仔猪随机饲喂不同的饲料添加剂。观察值为平均日增重(各单位组的每头仔猪随机饲喂不同的饲料添加剂。观察值为平均日增重(g),),其结果如下表,试进行方差分析其结果如下表,试进行方差分析。第三节第三节 多向分组数据多向分组数据 SST = 处理处理 SS t + 区组区组 SS r + 剩余剩余 SS e dfT = 处理处理 df t + 区组区组 df r + 剩余剩余 df e SSt = Tt 2 /n C

47、 = (825 2 +925 2 +1065 2 +737 2 +1137 2) / 4 C = 27267.2 SSr = Tr 2 / kC = (1152 2 +1047 2 +1267 2 +1223 2) / 5 C = 5530.15 SSe = SST SSt SSr = 35890.9527267.2 5530.15 = 3093.6 dft = k 1= 4 dfr = 4 1= 3 dfe= dfT dft dfr =194 3= 12处理处理TttA1205168222230825206.25A2230198242255925231.25A3252248305260106

48、5266.25A4200158183196737184.25A52652753152821137284.25 Tr11521047126712234689一、数据整理一、数据整理 n = 4 k = 5 nk = 20 (随机单位组)随机单位组) C = T 2/nk = 4689 2/20 = 1099336.05 SST =(Y ) 2 = Y 2 C = 2052 +1682 +2822 1099336.05 = 35890.95dfT = nk 1= 4 5 1 = 19 二、二、 SST、 dfT 的分解的分解第三节第三节 多向分组数据多向分组数据三、列三、列ANOVA表,进行表,进

49、行F-test(假设是假设是Ho:t2 e2 而不是而不是Ho:t2 =e2 )SOV DF SS MS F F 0.01区组区组 3 5530.15 1843.38 7.15* 5.95处理处理 4 27267.2 6816.8 26.44* 5.41误差误差 12 3093.6 257.8 总总 19 35890.95 总有人用单位组总有人用单位组SS、DF算算MS并进行并进行F-test,这样做不妥当:这样做不妥当:单位组之间的差单位组之间的差异是试验设计时实行局部控制、转化系统异是试验设计时实行局部控制、转化系统因素效应收到的效果,只参与因素效应收到的效果,只参与SST、dfT 的的分

50、解以控制试验误差;分解以控制试验误差;一个单位组安排一个单位组安排了试验方案的一个完整重复,单位组数就了试验方案的一个完整重复,单位组数就是重复次数,但是重复次数,但“重复区组重复区组”只是构成了估只是构成了估计抽样误差的必要条件,不能提供其自身计抽样误差的必要条件,不能提供其自身( 区组之间区组之间 )差异是否显著的信息。差异是否显著的信息。四、多重比较四、多重比较 SE=MSe / n =257.84 = 8.028 再根据附表再根据附表5的的q进而算得显著尺:进而算得显著尺:k 2 3 4 5q0.05 3.08 3.77 4.20 4.51q0.01 4.32 5.04 5.50 5.

51、84LSR0.05 24.73 30.27 33.72 36.21LSR0.01 34.68 40.64 44.15 46.88 顺序顺序 t 0.05 0.01 A5 284.25 a A A3 266.25 a A A2 231.25 b B A1 206.25 c BC A4 184.25 c C第三节第三节 多向分组数据多向分组数据 例例5.7 为了研究为了研究5种不同温度对蛋鸡产蛋量的影响,将种不同温度对蛋鸡产蛋量的影响,将5栋鸡舍的温度分别设栋鸡舍的温度分别设为为A、B、C、D、E,把各栋鸡舍鸡群(把各栋鸡舍鸡群(5群)群),每群产蛋期(每群产蛋期(5期)分别设置成期)分别设置成单

52、位组,采用单位组,采用55拉丁方设计,其试验结果(个)如下,试予分析拉丁方设计,其试验结果(个)如下,试予分析。解解 拉丁方试验在两个方向都应用了局部控制,使得纵横两向皆成区组。拉丁方试验在两个方向都应用了局部控制,使得纵横两向皆成区组。 其结果的分解原理构成三向分组:其结果的分解原理构成三向分组:SST = SS t + SS r + SS c + SS e 即包括了三个可控因素,比随机区组法:即包括了三个可控因素,比随机区组法: SST = SS t + SS r + SS e 多一个可控因素;比完全随机法多两个:多一个可控因素;比完全随机法多两个: SST = SS t + SS e 。

53、 自由度的分解也是如此。自由度的分解也是如此。TrTtD23A21C24B21E19108A2122262119116B22E20D20C21A22105B2122252519114C20B25A26E22D23116C2421202320105E25D22B25A21C23116D2320232222113A19C20E24D22B19104E1920222524101Tc109108119107106549549第三节第三节 多向分组数据多向分组数据一、数据整理一、数据整理 n = k = 5 nk = 25 C = T 2/nk = 549 2/25 = 12056.04 SST = Y

54、 2 C = 100.96 = 232 +212 +19212056.04 dfT = nk 1= 5 5 1 = 24 三、列三、列ANOVA表,进行表,进行F-testSOV DF SS MS F F 0.01行行 4 27.36列列 4 22.16温度温度 4 33.36 8.34 5.56* * 5.41误差误差 12 18.08 1.50 总总 24 100.96 不要试图对横行区组(行)或纵行区组不要试图对横行区组(行)或纵行区组(列(列)进行)进行F-test !二、二、 SST、 dfT 的分解的分解 SSt = Tt 2 /n C = 33.36 = (116 2 +114

55、2 +105 2 +113 2 +101 2) / 5 C SSr = Tr 2 / kC = 27.36 = (108 2 +105 2 +116 2 +116 2 +104 2) / 5 C SSc= Tc 2 / kC = 22.16 = (109 2 +108 2 +119 2 +107 2 +106 2) / 5 CSSe = SST SSt SSr SSc= 18.08= 100.96 33.3627.36 22.16 dft = k 1= dfr = dfc= n 1= 4 dfe= dfT dft dfr dfc = 244 4 4 = 12第三节第三节 多向分组数据多向分组数

56、据四、多重比较四、多重比较 SE=MSe / n =1.505 = 0.55 再根据附表再根据附表5的的q进而算得显著尺:进而算得显著尺: k 2 3 4 5q0.05 3.08 3.77 4.20 4.51q0.01 4.32 5.04 5.50 5.84LSR0.05 1.69 2.07 2.31 2.48LSR0.01 2.38 2.77 3.03 3.21 顺序顺序 t 0.05 0.01 A 23.2 a A B 22.8 a A D 22.6 a A C 21.0 ab A E 20.2 b A 多向分组数据不能象单向分组数据那样多向分组数据不能象单向分组数据那样有各组观察值个数相

57、同和各组观察值个数有各组观察值个数相同和各组观察值个数不相同两种数据结构,因为试验设计决定不相同两种数据结构,因为试验设计决定了其数据中了其数据中各组观察值个数必须相同各组观察值个数必须相同。 即使试验实施后因为不可抗拒的原因使即使试验实施后因为不可抗拒的原因使得个别小区观察值缺失而导致该组观察值得个别小区观察值缺失而导致该组观察值个数少于其它组,也要按个数少于其它组,也要按“最小二乘法最小二乘法”在在却失小区算出一个估计值补进去才能进行却失小区算出一个估计值补进去才能进行方差分析,此时的方差分析,此时的“缺区估计缺区估计”值无任何实值无任何实际意义,纯粹是为了使方差分析时获得的际意义,纯粹是

58、为了使方差分析时获得的误差平方和取最小值而确定的算术值误差平方和取最小值而确定的算术值,换,换句话说,没有获得观察值的小区只有用缺句话说,没有获得观察值的小区只有用缺区估计值参与方差分析才能使算出的误差区估计值参与方差分析才能使算出的误差平方和为最小值。平方和为最小值。第四节第四节 三个假定与数据转换三个假定与数据转换 在显著性检验一章知,针对两个小样本的平均数进行在显著性检验一章知,针对两个小样本的平均数进行 t-est 时,只有方差同时,只有方差同质(即质(即两个样本方差两个样本方差 S2 经经F-test不显著不显著)的情形才能合并方差进而求算)的情形才能合并方差进而求算 t 值。值。

59、在例在例5.1中介绍中介绍SS、df 的可加性时,对组内的可加性时,对组内SSe、dfe进行分析,知其实质就进行分析,知其实质就是是多个样本的合并方差多个样本的合并方差,既然方差分析说到底依然是对多个样本平均数的两两,既然方差分析说到底依然是对多个样本平均数的两两差数做若干次连续的显著性检验(差数做若干次连续的显著性检验(SSR-test或或q-test),),自然也应该在多个样本自然也应该在多个样本的方差的方差合并之前证实它们同质合并之前证实它们同质才行,这可是才行,这可是方差分析的条件问题方差分析的条件问题!即使是多元!即使是多元统计分析中建立生产过程的回归模型统计分析中建立生产过程的回归

60、模型(现代生物统计技术现代生物统计技术)也少不得这个前提。也少不得这个前提。 但本章从例但本章从例5.1讲到例讲到例5.5,也并没有明示上述前提条件是否存在,这是因为,也并没有明示上述前提条件是否存在,这是因为这些例题所用的原始数据已从其来源和性质进行这些例题所用的原始数据已从其来源和性质进行“把关把关”,并根据其变化特点予,并根据其变化特点予以以“把握把握”,使方差的同质(也叫,使方差的同质(也叫“齐性齐性”)有了一个基本的保证,具体有三条:)有了一个基本的保证,具体有三条:根据数据的来源和性质,判断其是否符合方差分析的根据数据的来源和性质,判断其是否符合方差分析的正态性正态性假定;假定;根

61、据数据各组观察值的变化特点看是否符合方差分析的根据数据各组观察值的变化特点看是否符合方差分析的可加性可加性假定;假定;根据根据Bartlett-test的结果看多个样本方差是否符合方差分析的的结果看多个样本方差是否符合方差分析的同质性同质性假定。假定。第四节第四节 三个假定与数据转换三个假定与数据转换一、正态性一、正态性 指数据的指数据的各组观察值必须围绕其相应的平均数作正态分布各组观察值必须围绕其相应的平均数作正态分布。 因为对多个样本的平均数进行方差分析时所作的因为对多个样本的平均数进行方差分析时所作的F-test是假定这些样本皆从是假定这些样本皆从各自的正态总体中抽出的前提下进行的,以完

62、全随机设计为例:各自的正态总体中抽出的前提下进行的,以完全随机设计为例: Y11、 Y12、 Y13、 Y1n 1 S12 N1(1,12) Y21、 Y22、 Y23、 Y2n 2 S2 2 N2(2,22) Yi1、 Yi2、 Yi3、 Yin i Si 2 Ni(i,i2) Yk1、 Yk2、 Yk3、 Ykn k Sk 2 Nk(k,k2) 换一种说法,就是所得数据的来源和性质须满足以下两点要求:换一种说法,就是所得数据的来源和性质须满足以下两点要求:各组观察值必须是各组观察值必须是用随机方法获得用随机方法获得的;的;各正态总体的各正态总体的i与与i2无任何函数关系无任何函数关系,或者

63、说,或者说i与与i2彼此独立。彼此独立。第四节第四节 三个假定与数据转换三个假定与数据转换 各组观察值必须是各组观察值必须是用随机方法获得用随机方法获得的;的; 各正态总体的各正态总体的i与与i2无任何函数关系无任何函数关系,或者说,或者说i与与i2彼此独立。彼此独立。 因此,首先务必明确方差分析只能用于经过随机排列因此,首先务必明确方差分析只能用于经过随机排列(分组分组)设计获得的试设计获得的试验数据,或者是通过随机取样得到的调查结果,不能用于顺序排列验数据,或者是通过随机取样得到的调查结果,不能用于顺序排列(分组分组)设计设计获得的试验数据或者未经随机取样得到的调查结果。获得的试验数据或者

64、未经随机取样得到的调查结果。 二项资料二项资料的百分数或统计次数,其实质乃二项总体抽样所得,这类总体的的百分数或统计次数,其实质乃二项总体抽样所得,这类总体的方差是平均数的函数方差是平均数的函数,即,即i2 = piqi=i (1i),服从的是二项分布;服从的是二项分布; 稀有现象稀有现象的次数数据,如的次数数据,如单位面积内的某种杂草的株数或者昆虫的头数,单位面积内的某种杂草的株数或者昆虫的头数,某块载玻片上细菌群落的计数,每毫升溶液中某种微生物个体数,每个显微镜某块载玻片上细菌群落的计数,每毫升溶液中某种微生物个体数,每个显微镜视野中某种细胞个数等等,视野中某种细胞个数等等,它们所属的总体

65、它们所属的总体平均数和方差几乎相等平均数和方差几乎相等i=i2 ,可视其为来自可视其为来自Poisson总体,服从的是泊松分布。总体,服从的是泊松分布。 以上两类数据因为不符合正态性假定的第以上两类数据因为不符合正态性假定的第点要求,原则上都不能直接进点要求,原则上都不能直接进行方差分析,必须通过数据转换恢复正态性之后才能做方差分析,前者通常进行方差分析,必须通过数据转换恢复正态性之后才能做方差分析,前者通常进行百分数的行百分数的反正弦转换反正弦转换,后者通常进行统计次数的,后者通常进行统计次数的平方根转换或者对数转换平方根转换或者对数转换。第四节第四节 三个假定与数据转换三个假定与数据转换

66、例例5.8 研究甲、乙、丙三个地区乳牛隐性乳房炎阳性率,其结果如下研究甲、乙、丙三个地区乳牛隐性乳房炎阳性率,其结果如下表,试表,试对该资料进行方差分析。对该资料进行方差分析。 二项资料百分数的反正弦转换就是将成数二项资料百分数的反正弦转换就是将成数p的平方根视为三角函数之正弦值,的平方根视为三角函数之正弦值,反过来求其反正弦值,也就是转化为反过来求其反正弦值,也就是转化为0 90的角度数,教材有附表供查阅。的角度数,教材有附表供查阅。 如果所有的百分数都介于如果所有的百分数都介于30%70%之间,则因为之间,则因为p与与q相差不悬殊,所服从相差不悬殊,所服从的二项分布很接近正态分布,因此可不

67、做反正弦转换,直接进行方差分析。的二项分布很接近正态分布,因此可不做反正弦转换,直接进行方差分析。 本例的本例的百分数有百分数有许多许多70%的,和的,和30%一样,一样,必须进行数据转换必须进行数据转换。二项资料的百分数二项资料的百分数 p(%) 转换后的反正弦值转换后的反正弦值 sin1 p Tt t 94.3 64.1 47.7 43.6 50.4 80.5 57.8 甲甲76.19 53.19 43.68 41.32 45.23 63.79 49.49 372.8953.2726.7 9.4 42.1 30.6 40.9 18.6 40.9 乙乙31.11 17.85 40.45 33

68、.58 39.76 25.55 39.76228.0632.5818.0 35.0 20.7 31.6 26.8 11.4 19.7丙丙25.10 36.27 27.06 34.20 31.18 19.73 26.35199.8928.56第四节第四节 三个假定与数据转换三个假定与数据转换 将转换后的将转换后的 sin1 p 列表进行列表进行F-testSOV DF SS MS F F 0.01地区地区 2 2461.823 1230.911 14.03* * 6.01误差误差 18 1579.493 87.75 总总 20 4041.316 SE = 87.757 = 3.54 多重比较结果

69、作为文献交流时,各处理反正弦值的平均数多重比较结果作为文献交流时,各处理反正弦值的平均数 t 必须由其反转换必须由其反转换得到的百分数(即得到的百分数(即反转反转% )替换下来,这样在专业含义上才便于解释,为记牢这)替换下来,这样在专业含义上才便于解释,为记牢这一特点,不妨称之为一特点,不妨称之为“过河拆桥过河拆桥”或者或者“上屋抽梯上屋抽梯”。按按dfe=18查得查得SSR再算再算LSR值后比较如下:值后比较如下:k LSR 顺序顺序 t 反转反转% 0.05 0.01 0.05 0.01 甲甲 53.27 64.2 a A10.51 14.41 乙乙 32.58 29.0 b B11.04

70、 15.12 丙丙 28.56 22.8 b B资料百分数资料百分数 p(%) 转换后的反正弦值转换后的反正弦值 sin1 p Tt t 94.3 57.8 甲甲76.19 53.19 43.68 41.32 45.23 63.79 49.49 372.8953.2726.7 40.9 乙乙31.11 17.85 40.45 33.58 39.76 25.55 39.76228.0632.5818.0 19.7丙丙25.10 36.27 27.06 34.20 31.18 19.73 26.35199.8928.56第四节第四节 三个假定与数据转换三个假定与数据转换二、可加性二、可加性 指处理

71、效应与区组效应具有可加性,即:指处理效应与区组效应具有可加性,即: 总总SST误差误差SSe = 处理处理SSt区组区组SSr 这一通式几乎囊括所有数据结构的平方这一通式几乎囊括所有数据结构的平方和和SS的分解过程,现令其的分解过程,现令其SSe = 0讨论如下:讨论如下:线性数据线性数据SST =152+52+52+152=500SSt =2(102+102 )=400SSr =2(52+52 )=100故故 SSt SSr SST倍性数据倍性数据SST =202+102+302=1400SSt =2(152+152 )=900SSr =2(102+102 )=400故故 SSt SSr S

72、ST 实际操作时,实际操作时,SST SSt SSr 100必然必然被不合理地遗漏到被不合理地遗漏到SSe中,效应遭到误判。中,效应遭到误判。 转换数据转换数据取取的对数的对数:SST 0.32SSt 0.23SSr 0.09故又有故又有: SSt SSr SST 说明说明对数转换对数转换YlgY恢复了可加性恢复了可加性。 用这种转换后的数据进行方差分析,用这种转换后的数据进行方差分析,多重比较显示的处理之间的差异显著性多重比较显示的处理之间的差异显著性实际等同于检验出了原始数据处理之间实际等同于检验出了原始数据处理之间倍数关系的显著性,其倍数关系的显著性,其意义非同小可意义非同小可。 换句话

73、说,原始数据各处理之间呈换句话说,原始数据各处理之间呈倍性变化时,直接做方差分析因为有部倍性变化时,直接做方差分析因为有部分试验处理效应要被曲解为误差,会使分试验处理效应要被曲解为误差,会使本来属于本来属于倍数关系可能显著倍数关系可能显著的原始数据的原始数据却只能作出差数关系显著的结论。却只能作出差数关系显著的结论。A102030B3040704060A102030B3060904080A1.001.302.30B1.481.783.262.483.08第四节第四节 三个假定与数据转换三个假定与数据转换 方差分析的可加性假定表明例方差分析的可加性假定表明例5.1中平方和的可加性不能只局限于处理

74、中平方和的可加性不能只局限于处理SSt和误差和误差SSe 的可加性,即的可加性,即 SST SSt SSe ,还应进一步扩展到试验处理效应还应进一步扩展到试验处理效应SSt 与其它可控因素效应如区组效应与其它可控因素效应如区组效应 SSr 的可加性的可加性可控因素内部各分量的可控因素内部各分量的可加性上,即可控因素总可加性上,即可控因素总 SS SSt SSr 。三、同质性三、同质性 符合上述正态性假定和可加性假定的数据必然表现为平均数符合上述正态性假定和可加性假定的数据必然表现为平均数i与各样本均与各样本均方方 Si2 都是独立的统计量,即不存在函数关系,分别服从正态分布和卡方分布都是独立的

75、统计量,即不存在函数关系,分别服从正态分布和卡方分布(指指2 = S 2 /2 )。归结到一点就是多个样本平均数。归结到一点就是多个样本平均数i 可视为来自总体可视为来自总体i2 相同而相同而i 不同的总体不同的总体,这就是方差分析的同质性(齐性)假定。,这就是方差分析的同质性(齐性)假定。 实际研究得到的数据,非线性关系并不象上述假定数据的倍性关系那样容实际研究得到的数据,非线性关系并不象上述假定数据的倍性关系那样容易判别,这时它是否符合可加性假定要用一种特殊的易判别,这时它是否符合可加性假定要用一种特殊的2 检验检验Bartlett-test。 例例5.9 假定有假定有k =3个样本均方个

76、样本均方S12= 4.2, S22= 6, S32=3.1;各具自由度;各具自由度1= 4,2=5, 3=11。试作。试作同质性测验同质性测验。解解 1、Ho:12 22 32 HA: 12 、 22 、 32 不全相等。不全相等。第四节第四节 三个假定与数据转换三个假定与数据转换 2、列表计算、列表计算c2值值 Sp2 i Si2i 80.9204.045 (i ) ln Sp220ln4.04527.952 (i ) ln Sp2 i ln Si2 27.95 27.14 0.81C1( 1/i 1/ i )/3(k-1) 1.08 1(1/4+1/5+1/111/20)(32)c2 2

77、/ C0.811.080.75 3、按按df = k-1 查得查得20.05 = 5.99 4、 c2 20.05 Ho成立:成立: Sp2 Se2 和其它和其它2 test一样,一样, Bartlett-test也是整也是整体测验,如测验结果发现方差不同质,可采体测验,如测验结果发现方差不同质,可采取以下两种补救办法进行分析:取以下两种补救办法进行分析:剔除某些特殊的观察值、处理乃至重复,剔除某些特殊的观察值、处理乃至重复,即剔除即剔除 Si2 特别大的处理,再作特别大的处理,再作Bartlett-test;将全部试验处理按方差悬殊情况分为几个将全部试验处理按方差悬殊情况分为几个较为同质的部

78、分再分别进行显著性检验。较为同质的部分再分别进行显著性检验。 上述第上述第类办法因为有可能失掉重要的类办法因为有可能失掉重要的信息,在决定信息,在决定 Si2 特别大的处理剔除之前有特别大的处理剔除之前有必要作必要作Cohran测验测验,方法是先算出一个比值,方法是先算出一个比值C = 大大Si2/ Si2 ,再从专著中查得临界,再从专著中查得临界C0.05值,值,如果如果C C0.05才决定剔除;若才决定剔除;若C C0.05 ,就只能按上述第就只能按上述第类办法处理。类办法处理。 综上所述,综上所述,“三个假定三个假定” 表明方差分析并表明方差分析并不是无条件的不是无条件的,不考虑条件是否具备就滥用,不考虑条件是否具备就滥用方差分析只会歪曲甚至误解试验或调查数据方差分析只会歪曲甚至误解试验或调查数据蕴藏的真实信息。蕴藏的真实信息。 iSi2ii Si2ln Si2i ln Si2 14.2 4 16.81.44 5.76 26.0 5 30.01.79 8.95 33.111 34.11.13 12.4320 80.94.36 27.14

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号