第九章方差分析与实验设计

资源描述

《第九章方差分析与实验设计》由会员分享，可在线阅读，更多相关《第九章方差分析与实验设计（52页珍藏版）》请在金锄头文库上搜索。

1、第九章方差分析与实验设计,9.4 实验设计初步,9.2 单因素方差分析,9.3 双因素方差分析,9.1 方差分析引论,9.1 方差分析引论,一、方差分析及其有关术语,方差分析（analysis of variance ,ANOVA) ; 通过检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。,【例】：,为了对几个行业的服务质量进行评价，消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的企业作为样本，每个行业中抽取的这些企业，假定他们在服务对象、服务内容、企业规模等方面基本上是相同的。然后统计处最近一年消费者对总共23家企业投诉的次数，结果如表10-1,表9

2、-1 消费者对四个行业的投诉次数,问题：四个行业之间服务质量是否有显著性差异,因素(或因子factor):检验对象,水平（或处理treatment）：因素的不同表现。,单因素方差分析：一个因素即一个分类型变量，一个数值型因变量。,二、方差分析的基本思想和原理,1、图形描述,2、误差分解,总误差（SST）,组内误差（SSE）,组间误差（SSA）,3、误差分析,三、方差分析中的基本假定,1、每个总体都服从正态分布；,2、各个总体的方差必须相同；,3、观测值是独立的。,在上述假定条件下，判断行业对投诉次数是否有显著影响，实际上也就是检验具有同方差的四个正态总体的均值是否相等如果四个总体的

3、均值相等，可以期望四个样本的均值也会很接近四个样本的均值越接近，推断四个总体均值相等的证据也就越充分样本均值越不同，推断总体均值不同的证据就越充分, 如果原假设成立，即H0: m1 = m2 = m3 = m4 四个行业被投诉次数的均值都相等意味着每个样本都来自均值为、差为2的同一正态总体,X,f(X),1 2 3 4,若备择假设成立，即H1: mi (i=1，2，3，4)不全相等至少有一个总体的均值是不同的四个样本分别来自均值不同的四个正态总体,设因素有k个水平，每个水平的均值分别用1、2、k 表示要检验k个水平(总体)的均值是否相等，需要提出如下假设： H0: 1 2 k H1

4、: 1 , 2 , ，k 不全相等设1为零售业被投诉次数的均值，2为旅游业被投诉次数的均值，3为航空公司被投诉次数的均值，4为家电制造业被投诉次数的均值，提出的假设为 H0: 1 2 3 4 H1: 1 , 2 , 3 , 4 不全相等,四、问题的一般提法,9.2 单因素方差分析 (one-way analysis of variance),一、数据结构,表9-2,单因素方差分析的数据结构,二、分析步骤,1、提出假设,自变量对因变量没有显著性影响,不全相等，自变量对因变量有显著影响,2、构造检验的统计量,（1）计算各样本均值,对表9-1中数据计算各行业均值,（2）、计算全部观测值的总均值,（

5、3）计算各误差平方和,总平方和：,组间间平方和,组内平方和,零售业：,旅游业：,航空公司：,家电制造业：,SSE=700+924 +434+650 =2708,于是：,ST=SSE+SSA,（4）计算统计量,SST的自由度为n-1； SSA的自由度为k-1； SSE的自由度为n-k。,各平方和自由度的比值称为均方（mean square):,3、统计决策,拒绝域,拒绝原假设，表明确有显著性差异；,接受原假设，表明差异不显著。,4、方差分析表,表9-4,方差分析表的一般形式,表9-5,四个行业被投诉次数的方差分析表,5、用Excel进行方差分析,第1步：选择【工具】下拉菜单，并选择【

6、数据分析】选项，,第2步：在分析工具中选择【单因素方差分析】，然后单击【确定】，,第3步：当对话框出现时，在【输入区域】方框内输入数据单元格区域A3：D9。在【a】方框内输入0.05（可根据需要确定。在【输出选项】中选择优输出区域。结果如图9-6,图9-6 用XExcel 进行方差分析的步骤,表9-6 Excel输出的方差分析结果,三、关系强度的测量,当组间方差不为0时就意味着变量之间有关系，特别的当 SSA大于SSe时，而且达到一定程度，就意味着两个变量之间的关系显著，大得越多他们之间的关系就越强。,关系强度（判定系数）：,前例中的数据：,四、方差分析中的多重比较 (multi

7、ple comparison procedures ),费希尔最小显著差异方法（least significant difference):,第1步：提出假设：,第2步：计算检验统计量：,第3步：计算LSD：,第4步：根据显著性水平做出决策，如果,则拒绝原假设，否则接受原假设。,例10.2。根据表9-6种输出结果，对四个行业均值多重比较（a=0.05）,解：,第1步，提出如下假设：,检验1：,检验4：,检验3：,检验6：,检验5：,检验2：,第2步计算检验统计量,第3步计算LSD,检验1：,检验2：,检验3：,检验4：,检验5：,检验6：,第4步：作出决策,接受原假设，不能认为零售业与旅

8、游业的投诉次数之间有显著性差异；,接受原假设，不能认为零售业与航空公司的投诉次数之间有显著性差异；,接受原假设，不能认为零售业与家电制造业的投诉次数之间有显著性差异；,接受原假设，不能认为旅游业与航空公司的投诉次数之间有显著性差异；,接受原假设，不能认为旅游业与家电制造业的投诉次数之间有显著性差异；,拒绝原假设，航空公司与家电制造业的投诉次数之间有显著性差异。,9.3 双因素方差分析（two-wayanalysis of variance),一、双因素方差分析及其类型,例9.3 有四个品牌的彩电在5个地区销售，为分析彩电的品牌（“品牌”因素）和销售地区（“地区”因素）对销售的

9、影响，组队每个品牌在各地区的销售量取得以下数据9（单位：台）如表10-7所示。试分析品牌和销售地区对彩电销售量是否有显著性影响（a=0.05）,表9-7,4个品牌的彩电在5个地区的销售数据,无重复双因素方差分析（two-factor without replication) , 无交互作用（interaction)的双因素方差分析：两个因素相互独立，如本例中的“地区”和“品牌”,可重复双因素方差分析（two-factor witht replication) , 两个因素之间相互作用可对数值变量产生影响。,二、无交互作用的双因素方差分析,1、数据结构,表9-8 双因素方差分析的数据结构,

10、二、分析步骤,1、提出假设,行因素提出假设：,行因素对因变量没有显著性影响,不全相等，行因素对因变量有显著影响,列因素提出假设：,列因素对因变量没有显著性影响,不全相等，列因素对因变量有显著影响,2、构造检验统计量,行因素产生误差平方和：,列因素产生误差平方和：,随机误差平方和：,计算均方,行因素均方：,列因素均方：,随机误差均方：,行因素检验统计量：,列因素检验统计量：,（3）统计决策,若,，则拒绝原假设，表明行因素,之间差异显著，即行因素对观测值有显著性影响。,若,，则拒绝原假设，表明列因素,之间差异显著，即行因素对观测值有显著性影响。,表9-9 双因素方差分析表,例9.4.根据例9.3

11、种数据，分析品牌和地区对销售量是否有显著性影响,解：,结果分析,根据计算可知，可因素及品牌对销售量有显著性影响，而列因素及地区因素对销售量得影响不显著。,3、关系强度的测定,多重判定系数：,上例中：,表明品牌因素和地区因素总共揭示了销售量差异的83.94%，其他因素之揭示了销售量差异的16.06%，而R=0.916 2，表明品牌和地区两个因素和起来与销售量之间有较强的关系。,表9-11 品牌与销售量的单因素方差分析表,表9-11 地区与销售量的单因素方差分析表,三、有交互作用的双因素方差分析,【例 9.5 】,城市道路交通管理部本为研究不同路段和不同时间段对行车时间的影响，让一名交通

12、警察分别在两个路段的高峰期与非高峰期亲自轿车进行试验，通过试验共获得20个行车时间（单位：分钟）的数据，如表10-13所示。试分析路段、时段、及路段和时段的交互作用对行车时间的影响（a=0.05）,表9-13,表9-14 有交互作用的双因素方差分析表的结构,总平方和：,行变量平方和：,列变量平方和：,交互作用平方和：,各平方满足：,Excel步骤：,第1步：选择【工具】下拉菜单，并选择【数据分析】选项，,第2步：在分析工具中选择【方差分析：可重复双因素方差分析】，然后单击【确定】，,第3步：当对话框出现时，在【输入区域】方框内输入数据单元格区域A1：C11。在【a】方框内输入0.05（

13、可根据需要确定。在【每一样本的行数】内输入5。在【输出选项】中选择优输出区域。结果如图9-7,表9-15 EXcel输出的有交互作用的双因素方差分析结果,10.4 实验设计初步,试验(experiment) ：收集样本数据的过程,实验设计(experiment design)：收集样本数据的计划，通过科学安排实验，以便用尽可能少的实验获得尽可能多的信息。,一、完全随机化设计(completely randomized design),将k种“处理”随机指派给“试验单元”的设计。,【例9.6】,一家种业开发公司研究出三个小麦品种，品种1、品种2、品种3。公司需要分析不同品种对产量的影

14、响。为此需要选择一些地块，在每一个地块上种上不同的品种，然后获得差量数据，进而分析小麦品种对产量的影响是否显著，这一过程就是实验设计的过程。,完全随机化除要求“随机化”外，还要求“可重复性”，即可“复制”。,表9-16 3个小麦品种在12个地块上的产量数据,表9-17 3个小麦品种的方案分析结果,由P值小于显著性水平可知小麦品种对产量有显著性影响， R2=2186/3354=65.18% ，表明品种因素解释了产量差异的65.18%,二、随机化区组设计（randomized block design),分组后再将每个“处理”随即指派给每个区组的设计就是随机化区组设计。,表9-18 3个小麦品种在4个区组上的产量数据,表9-18 三个品种小麦在4个区组上的产量数据,小麦品种对产量影响显著,三、因子设计（factorial design）,表9-20 小麦品种与施肥方式的因子实验的数据,表9-21 小麦品种与施肥方式因子实验的方差分析表,

展开阅读全文

第九章 方差分析与实验设计

第九章方差分析与实验设计