CH3.多因子方差分析与正交试验设计原理3.1

上传人:ldj****22 文档编号:35461704 上传时间:2018-03-16 格式:PDF 页数:5 大小:29.11KB
返回 下载 相关 举报
CH3.多因子方差分析与正交试验设计原理3.1_第1页
第1页 / 共5页
CH3.多因子方差分析与正交试验设计原理3.1_第2页
第2页 / 共5页
CH3.多因子方差分析与正交试验设计原理3.1_第3页
第3页 / 共5页
CH3.多因子方差分析与正交试验设计原理3.1_第4页
第4页 / 共5页
CH3.多因子方差分析与正交试验设计原理3.1_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《CH3.多因子方差分析与正交试验设计原理3.1》由会员分享,可在线阅读,更多相关《CH3.多因子方差分析与正交试验设计原理3.1(5页珍藏版)》请在金锄头文库上搜索。

1、CH3. 多因子方差分析与正交试验设计原理3.1 多因子方差分析在前两章中我们讨论了单因子方差分析模型和完全平衡的(包括有、无重复) 双因子方差分析模型。在这两种模型中,试验数据的统计分析有以下两大优点: 1) 因子水平(或水平组合)参数的估计有简单的表达形式; 2) 因子效应(包括主效应和交互效应)和随机误差效应可以用平方和分解的 方法进行分离,进而用 F统计量进行检验。 在此我们要指出两种模型的一个重要区别:对单因子方差分析模型,我们不要 求在每个水平上的试验次数相同;而对双因子方差分析模型,在每对因子水平组合 上,试验的平衡性(即等重复性)是一个重要条件,不然的话,平方和分解公式就 不成

2、立,这样在方差分析时就会产生一定的困难。在多因子试验中也有同样的问 题。因此,我们只考虑平衡的多因子试验。 双因子试验的方差分析模型中所包含的统计思想和方法可以一般地推广到多因 子试验的场合。以三因子模型为例,设有三个因子对响应变量有影响,分别记为 A、B、C,它们的水平数分别为 I、J、K。全面地考虑,这三个因子对响应变量的 影响可以分成以下三种: 1) 各因子的主效应,即单个因子的不同水平对响应变量产生的影响; 2) 一阶交互效应(双因子交互效应),即在扣除主效应的影响之后,任意两 个因子的不同水平组合(AB、AC、BC)对响应变量产生的联合影响; 3) 二阶交互效应(三因子交互效应),即

3、在扣除主效应和一阶交互效应的影 响之后,三个因子的不同水平组合(ABC)对响应变量产生的联合影响。 与双因子的情况类似,如果在三个因子的每个水平组合上作相同的 L次试验, 则当 L1(有重复)时,可以用全模型(即包含全部上述三种效应的模型)进行方 差分析;而当 L=1(无重复)时,二阶交互效应无法分析,而只能分析主效应和一 阶交互效应。读者可以仿照上一节中的作法,对这两种情况下三个因子方差分析的 全部过程列出结果(模型、平方和分解、自由度、F统计量,等等)。进而可以考 虑四因子、五因子、乃至一般 m 个因子的情况。无论有多少个因子,如果在所有 因子的每个水平组合上都作至少一次试验,则试验是完全

4、的。为便于进行方差分 析,试验应该是等重复的。为能够分析最高阶(m- 1阶)交互效应,试验应该是有 重复的(重复数大于 1)。3.2 正交试验设计原理虽然我们在理论上可以容易地将双因子方差分析的模型和方法推广到多因子方 差分析的情况,但是,在实践中,作多个因子的完全试验会有实际的困难,因为完全试验所要求的试验次数太多,乃至无法实现。例如,假定要考虑五个三水平因 子,则完全试验(重复数为 1)要求作 35=243次试验;假如再加一个四水平因 子,则完全试验(同样重复数为 1)要作 972次试验。如果要能够分析全部交互效 应,同时还能够作平方和分解,则试验次数还需加倍!显然,如此大的试验次数在 实

5、际中几乎是无法实施的。如何解决这个困难呢?我们先提出如下的思路供思考。 在对一个因子试验所建立的线性模型中,独立参数(总均值、主效应、交互效 应等)的个数 k 与试验次数 n之间有下面的关系:当 nk 时,有足够的自由度k 来 估计参数,同时还有剩余自由度来估计误差的方差(n- k0);当 n=k 时,有足够 的自由度来估计参数,但是没有剩余自由度来估计误差的方差 n- k=0;当 nk)。对这样一个思路,我们不想在此作 理论上的论证,读者可以结合双因子试验中有重复和无重复的两种情况来领会。在 双因子有重复试验中,试验次数大于交互效应模型中独立参数的总数,因此有剩余 的自由度来估计误差方差;而

6、在双因子无重复试验中,试验次数等于交互效应模型 中独立参数的总数,因此没有剩余自由度来估计误差方差。此时,要估计误差就只 能用可加效应模型。 根据上述的思路,只要试验总次数$N$大于独立参数的个数$M$就可以有足够 的自由度来估计参数,同时还有剩余的自由度来估计误差方差,进而作假设检验。 这是因子试验设计中要考虑的第一件事。 第二件事是要使参数估计和检验统计量有好的性质和形式,关键是要使各组效 应的参数估计之间相互独立,同时使相应的平方和之间相互独立。但是,在一个线 性模型中,参数(主效应及各种交互效应)的数目是由实际问题本身决定的,而不 是由人主观决定的。在大量的因子试验的实践中,人们发现:

7、在很多情况下,因子 之间只有主效应,至多存在某些一阶交互效应(即两因子的交互效应)。高阶交互 效应在很多情况下是不存在的。在这种情况下,多因子试验的模型中包含的参数实 际上并不多,可能远远少于全模型的参数。比如有 6个二水平因子,如果考虑所有 可能的交互作用就有 26=64个独立参数(包括总均值),但是如果只考虑主效应则 只有 6+1=7个独立参数。因此对 6个二水平因子的可加效应模型,理论上只需作 8 次试验就可以有多余的自由度来估计误差方差。 如何安排试验,使得上述的两个想法很好地实现呢?从双因子无重复试验的可 加模型的分析中得到启示。在这个模型中,由于两个因子的所有水平组合都作了相 同次

8、试验(一次),因此两组因子主效应的参数估计不仅有简单的形式,而且还是 相互独立的,因而平方和之间也是相互独立的。因此,对于多因子试验的无交互效 应模型(只考虑主效应),如果我们能如此安排试验,使得对任何一对因子,它 们的所有水平组合都作了相同次试验,则对任何一对因子,两组因子主效应的参 数估计和平方和也应具有上述性质。进而,如果试验的总次数 n超过参数的总个数 k,则还有多余的自由度来估计误差,进行方差分析。实际上,这就是“正交因子 设计”原理的基本思路。下面我们先来研究一个实例。 例 3.2.1 假定在一个农业试验中要考察三个小麦品种、三种不同的肥料和三种播种方式 对小麦产量的影响,并假定有

9、九个地力基本相同的试验小区。在这个问题中有三个 可能影响小麦产量的因子:品种、肥料和播种方式,每个因子有三个水平。如果要 作完全试验就需要 333=27个小区。而实际上总共只有 9个小区。显然,完全 试验在当前的情况下行不通。因此我们退一步考虑,按照上述的想法,要求品种、 肥料和播种方式中的任意两个(品种与肥料、品种与播种方式、肥料与播种方式) 的不同水平的搭配都出现一次。这样的试验设计存在吗?对此,答案是肯定的。表 4.3.1就是这样一个试验的设计表。 表 3.2.1 三个三水平因子 9次试验的正交试验设计表 试验序号品种肥料播种方式 1 2 34 5 67 8 91 1 12 2 23 3

10、 31 2 31 2 31 2 31 2 32 3 13 1 2按照这张表来安排试验的方法如下: 表的每一行代表一次试验,第一列为试验的编号,后三列每一列代表一个因 子。表中的元素 1、2、3分别表示相应因子的第一、二、三水平。按照这个规定, 容易安排试验。例如,表的第 1行为(1,1,1),相应地,在序号 1的试验中每个 因子都取 1水平。又例如,表的第 5行为(2,2,3),相应在序号 5 的试验中安排 第一因子的 2水平,第二因子的 2水平,第三因子的 3水平,等等。仔细观察表 3.2.1的结构,不难看出按照这个表来安排试验就满足我们前面提到的要求。具体 地说,表中任意两列的 1、2、3

11、的 9种不同组合出现相同次数(各 1次)。 满足这种性质的试验就是“正交试验”。假定因子对小麦单产的影响满足可加 效应模型(只有主效应,而没有一阶和二阶交互效应),对上述的试验安排我们建 立如下的模型。记 yi为第 i次试验中小麦单产(公斤/亩),并记j为品种因子的第 j 水平对小麦单产的影响,j为肥料因子的第 j 水平对小麦单产的影响,j为播种方式因子的 j 水平对小麦单产的影响,j =1,2,3。根据表 3.2.1容易写出这个模型 如下: y1= +1 +1 +1 + e1 y2= +1 +2 +2 + e2 y3= +1 +3 +3 + e3 y4= +2 +1 +2 + e4y5= +

12、2 +2 +3 + e5 y6= +2 +3 +1 + e6 y7= +3 +1 +3 + e7 y8= +3 +2 +1 + e8 y9= +3 +3 +2 + e9 其中 ei, i=1, ,9 为独立、), 0(2N分布的随机误差;为总均值。如同在全面 试验的方差分析模型中的作法一样,假定模型中的参数满足下面的约束条件: 1 +2 +3 =0, 1 +2 +3 =0, 1 +2 + 3 =0. 在上述模型和约束条件下,我们来分析各组效应。先考虑参数估计。总均值 的估计为样本均值: =y=9191iiy这是的无偏估计,因为在总共 9次试验值的期望中都有,且所有主效应参 数各出现 3次,根据

13、上面的约束条件可以验证 E( )=。再考虑因子主效应的估 计,以1 ,2 ,3的估计为例。在表 3.2.1中的第 2列上,元素 1,4,7为 1,元素 2,5,8为 2,元素 3,6,9为 3。据此可以得到1 ,2 ,3的估计为1=+yyyy)(317412=+yyyy)(318523=+yyyy)(31963根据上面的约束条件可以验证 E(j)= j, j=1,2,3. 因此是无偏估计。不难看 出,这个结果得益于设计的 “正交性”。上述估计方法可以概括如下:某个因子 第 j 水平的参数估计是该因子第 j 水平所对应的 yi的算术平均减去总平均y。容 易根据此方法构造其它参数的估计。 可以证明

14、:对于这样的设计,三组主效应的 参数估计之间是相互独立的。 得到参数估计之后,为检验因子效应的显著性,还要进行方差分析。总平方和 为SST=912)(iiyy,SST的自由度为 fSST=9- 1=8。因子效应的平方和分别为SSA=3=312jj,SSB=3=312 jj,SSC=3=312jj,它们的自由度分别为 3- 1=2(水平数减 1)。 残差平方和 SSE=SST- SSA- SSB- SSC, 其自由度为 8- 3- 3- 3=2(SST的自由度减去所有因子效应的自由度)。不难看 出:因子效应平方和= 重复数( 参数估计)2残差平方和= 总平方和- ( 因子效应平方和的和) 根据平

15、方和与自由度的分解结果我们可以计算均方,进而构造 F 统计量,对三 个因子的主效应是否显著进行检验。 上面我们用一个例子来说明了正交试验设计的基本特点和分析方法。下面给出 一般性的陈述。考虑设计一个试验,安排 m 个因子,作 n次试验,若它满足下面 两个条件,则这个试验称为正交试验: 1) 每一因子的不同水平在试验中出现相同次数(均衡性); 2) 任意两因子的不同水平组合在试验中出现相同次数(正交性). 就定义来说,等重复的完全试验显然满足(4.3.4)中的条件,因此当然是正交试 验。但是,如果因子的水平数分别为 t1, t2, , tm, 则完全试验至少要作N= t1,t2,tm 次试验,由

16、于要求的试验次数太多,实际上很难实施。我们通常所说的正交试验设 计是指既满足上述两条件,同时试验次数 n又远远小于 N 的设计。 正交试验设计的方案可以用一张表来表示, 这张表就称为正交设计表. 表 3.2.1 就是一张正交设计表. 一般, 正交设计表第一行为表头, 标明每列所代表的因子, 最左 一列标明试验的序号(并不表示试验的时间先后顺序, 先后顺序要按照随机化原则来 安排), 由 1到 n. 表中每列中的数字代表相应因子的水平序号; 每行的数字代表在相 应试验中各因子的水平序号. 在正交设计表中, 1) 每列中不同数字出现的次数相同(试验的均衡性); 2) 每两列中不同的数字组合出现的次数相同(试验的正交性). 这两条性质符合正交试验设计的定义. 假定因子对响应变量的影响无交互效应(许多实际情况正是这样),正交试验 的优点是在很少的试验次数(与全面试验相比)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号