《第8章方差分析》由会员分享,可在线阅读,更多相关《第8章方差分析(82页珍藏版)》请在金锄头文库上搜索。
1、第8章 方差分析管理统计学管理统计学谢湘生谢湘生广东工业大学管理学院广东工业大学管理学院引例 哪种促销方式最好?某连锁超市公司为了研究不同促销手段对商品销售额的影响,选择了某类日常生活用品在其属下的5个门店分别采用某种促销方式各进行了4个月的试验,实验前该类商品在这5个门店的销售额基本处于同一水平。试验结果见表促销方式月销售额(万元)A1(通常销售)A2(广告宣传)A3(有奖销售)A4(特价销售)A5(买一送一)12.513.115.617.918.215.414.716.519.617.111.812.313.421.816.513.213.613.120.416.2其中“通常促销”是指不采
2、用任何促销手段,“广告宣传”是指没有价格优惠的单纯广告促销,“买一送一”是指买一件商品送另一件小商品。现该公司希望了解的是:(1)不同的促销方式是否对该类商品销量的增长有显著影响?(2)若有显著影响,哪种促销方式效果最好?(3)是否任意两种促销方式的效果之间都存在显著差异?掌握以上信息对该公司制定今后的最佳销售策略,有非常重要的意义?8.1 单因素方差分析方差分析(Analysis of Variances, 简记为ANOVA)可以一次对多个总体完成均值是否相同的检验。我们先讨论单因素方差分析8.1.1 问题的提法设对于s个不同的技术方案,分别进行了ns个实验来检验其效果,记方案i的第j个实验
3、的结果为xij,问题是:如何判别这些方案的效果之间是否存在显著区别?从统计的观点只需要检验各方案的平均效果i之间是否存在显著区别即可。单因素方差分析的数据通常可以采用如下的表格方式列出实验效果实验效果方案方案1 1 x11x12x1n1方案方案2 2 x21x22x2n2方案方案s s xs1xs2xsns单因素方差分析虽然起源于对技术方案的评价,但现在它也被用来解决许多具有不同的实际背景的问题。例如方案政策、设备、方法、药品、工艺、原料实验调查、检验、观察、检查、测试所谓“单因素”,就是指分析中只有“方案”这个单一的因素(变量),不同的方案,就是“方案”这一变量的不同取值。这些不同的取值也可
4、以认为是“方案”这个因素的不同水平。实验效果方案1 x11x12x1n1方案2 x21x22x2n2方案s xs1xs2xsns因素或变量的不同取值或水平对应同一水平的不同观察值或样本值xij, 下标i对应单一因素的第i个水平,下标j对应第j个样本观察值8.1.2 理论假设与分析假设这s个方案的总体都服从正态分布:N(i, 2), 这意味着这些总体都有相同的方差,但均值可能互不相同。123随机样本Xij,可以看成各个方案的总体均值i与随机误差ij之和:其中ij N(0, 2), 并且如果对不同方案进行的不同实验都是独立进行的话, ij之间也是相互独立的。如果表示实验效果的数据都是一元的,则称上
5、述模型为单因素(一元)方差分析的统计模型。相应地,若表示效果的实验数据是多元的,就称为单因素多元模型。ijiXij上述模型中的随机误差可以表示为:但我们并不能观察到总体的均值i,在实际应用时,可以通过样本均值 来估计它,也就是用来估计(观察)真实的误差ij 。实验效果方案1 x11x12x1n1方案2 x21x22x2n2方案s xs1xs2xsns样本均值组内平均(第2组):样本总平均:总平均:方案i的主效应:由单因素的方差分析模型 和上式,有即Xij可以表示为总平均、方案i的主效应与随机项之和。由各方案的主效应的表达式知,若对于所有的i都有ai = 0,则各方案的均值相同(都等于)。所以单
6、因素方差分析的基本任务就是检验如下的假设:原假设 H0:ai = 0 或 1= 2= s备择假设 H:ai 不全为 0 或 1,2, s中至少有两个不相等单因素方差模型构成表ij的构成i(行稳定中心)的构成ij (服从 N(0, 2)ai(= i - ) 全局稳定中心主效应(行稳定中心i与全局中心的偏差)随机扰动8.1.3 实际作法按照Xij的构成:可以看到Xij与总的平均水平的偏差由两部分构成:通常用Xij与总的平均水平的偏差的平方和, 来反映各Xij与总平均水平的整体波动, 记为ST。但与i是观察不到的,所以用相应的样本观察值代替,并且用 代替真实的误差ij 。因此可以证明如下的平方和分解
7、公式:也就是总的偏差(波动)可分解为组间变差各方案效果差别导致的偏差。组内变差随机因素导致的偏差。证明见庄楚强等编应用数理统计基础,华南理工大学出版社。实际上,SA既包括了各方案效果差异导致的系统误差,也包括随机误差;而SE仅包括随机误差。 也就是也就是, 观察值之间的差异来自两个方面:观察值之间的差异来自两个方面:某因素不同水平的影响(系统性影响)其他随机因素的影响(随机性影响)水平间方差(组间方差)水平内方差(组内方差)于是,若假设H0满足,应该有比值:就不会太大,否则就表明H0不成立。此外容易说明相应的F统计量(即将f中的各xij换成Xij后得到的统计量)服从分布F( s 1 , n s
8、 )。从而F可以作为检验统计量。对给定的显著性水平, 可以求得临界值f(s 1 , n s), 若f f, 则拒绝H0。实际算法:(1)先计算组间变差(2)再计算组内变差(3)计算统计值(4)检验对给定的显著性水平, 可以求得临界值f (s 1 , n s), 若f f, 则拒绝H0;否则不拒绝H0。注意:(2)在拒绝H0时,我们仅仅能断定至少有两个方案之间的平均效果(均值)存在显著差异,但是到底哪些方案之间有显著差异,哪些之间没有,则无法判定。如果要知道这一结果,理论上应当采用第6章的方法,对不同方案做两两对比,也就是进行多个组合之间的对比检验。完全进行所有比较需要进行 次检验。幸亏这可由S
9、PSS自动完成。(1)这里的检验是单尾检验。直观地看,当H0不满足时,SA 相对于SE而言总是比较大的,因此我们只会在f比较大时拒绝H0。因此,在进行方差分析时,按如下的处理方式:因此,在进行方差分析时,按如下的处理方式:不拒绝不拒绝H0,表示拒绝总体均数相等的证据不足,表示拒绝总体均数相等的证据不足拒绝拒绝H0,接受,接受H1, 表示总体均数不全相等表示总体均数不全相等分析终止。分析终止。需要进一步作多重比较需要进一步作多重比较多重比较方法 我们看到,当多个总体的方差相等时,我们既可以进行方差分析,也可以将这些总体两两进行逐对比较。 相比之下,方差分析除了前面提到的可以更好的估计方差之外,其
10、另外的一个好处是可以降低犯第一类错误的概率。 以引例的分析为例,在那里,我们通过方差分析比较5个总体的均值是否相等,设定的犯第一类错误的概率为0.05.多重比较方法 如果我们将这5个总体两两配对进行比较,则需要作10个两总体均值差的假设检验。 若这10个配对假设检验所设定的犯第一类错误的概率(又称为比较性犯第一类错误的概率)均为0.05;则这10次检验中至少有一次犯第一类错误的概率为1-(1-0.05)10=0.40.称这个概率为总的或试验性犯第一类错误的概率。因此对多个总体的均值比较问题因此对多个总体的均值比较问题, , 通常不会用两两通常不会用两两比较的比较的t t检验来代替方差分析检验来
11、代替方差分析. .若 拒绝H0;否则若 不拒绝H0。8.1.4 用统计值 f 的显著性概率p与比较,进行检验在利用计算机软件来做方差分析时,软件通常会给出统计值 f 的最低显著性水平p,这时可根据p值的大小进行检验:ff实际上是过f 的直线截得分布曲线下方右边的面积,若 则表明8.2 用SPSS作单因素方差分析8.2.1 选用系统默认选项的操作示例数据:教材数据光盘中的“CH4CH8茎叶箱方差工资性别岗位300余”步骤: (1)点击AnalysisCompare Means One-way ANOVA(2) 选左框中的变量:“当前工资”,用箭头送入右边Dependent list(因变量列表)
12、框中(3) 选左框中的变量:“工作性质”,用箭头送入右边Factor(因素变量)框中(4)点击OK,SPSS就给出分析结果。SASEp 结果说明:由于计算得到的p值=0.000.05。因此对给定的显著性水平 = 0.05,应该拒绝原假设,也就是:不同工作性质的工资存在显著区别。8.2.2 使用选项的操作示例选项的操作示例数据:教材数据光盘中的“CH4CH8茎叶箱方差工资性别岗位300余”步骤: (1)点击AnalysisCompare Means One-way ANOVA(2) 选左框中的变量:“当前工资”,用箭头送入右边Dependent list(因变量列表)框中(3) 选左框中的变量:
13、“工作性质”,用箭头送入右边Factor(因素变量)框中(4)指定选项:点击Option按钮,机器弹出一个对话窗口在该对话窗口中Statistics选项中,选择Homogeneity-of-variance复选项,表示进行方差齐次性检验。在Missing Values选项中,选择Exclude cases analysis by analysis选项,表示只剔除正在分析的组内的缺失值(这是系统默认选项)。然后按Continue返回上一窗口。(这意味着如果拒绝H0,则也无须再保证各总体有同样的方差)点击Post Hoc按钮,系统弹出Post Hoc Multiple Comparison(各组均
14、值两两比较)窗口。 在Equal Variance Assumed(齐次方差假设)选项中选择LSD, 其含义是即通过t检验,来对比检验组中两两均值是否存在显著差异,不进行两两均值的误差调整。再在Equal Variance Not Assumed(非齐次方差假设) 选项中选择TamHanes T2。其含义是然后点击Continue返回上一窗口。点击Contrasts(对照)按钮,弹出Contrasts对话窗。选择Polynomial激活Degree列表框,选择Linear(默认值).然后在框Coeffcients,依次Add进行对比的各组系数(每输入一组系数以后,Next按钮激活,点击它可再输
15、入下一组系数)。输入完后点击Continue返回上一窗口。注:如果不需要进行特定的对比检验,就无须进行该项选择。最后点击OK,SPSS就可输出结果。关于引例的方差分析1.在SPSS中先建立一个数据文件,文件中包含两个变量:销售额,促销方式。2.其中“促销方式”取值分别为: 1, 2, 3, 4, 5。分别对应着5种促销方法。再将所有销售数据送入变量,相应地确定“促销方式”的取值。3.调用SPSS的单因素方差分析的功能进行方差分析,步骤同上例。8.3 无重复实验的双因素方差分析8.3.1 问题的提出例如下面的问题:对运动员训练的效果不但与训练方法有关,也与运动员的身体素质有关。如果选出了n组运动
16、员,每个组的运动员有同样的体质特征,每个组有s个运动员,用s种不同方法进行训练,这样可以获得sn个不同的训练效果,怎样判断不同的方法训练效果是否有显著差异?不同体质特征对训练效果是否有显著影响?实际问题中影响实验效果的因素可能不只一个,现在考虑有两个影响因素的情形。问题的有关条件可以概括成如下的表体质1体质2体质n方法1x11x12x1n方法2x21x21x2n方法sxs1xs2xsn因素B1因素B2因素Bn因素A1因素A2因素As其中xij表示因素Ai和因素Bj下的实验效果的观察值问题因素A的不同水平(方案)的效果(均值)有无显著不同?因素B的不同水平(方案)的效果(均值)有无显著不同?所谓
17、“双因素”,是指问题中有两个(反映前提或条件的)变量(因素):变量A和变量B。Ai是变量A的一个取值(又称因素A的一个水平),Bj是变量B的一个取值(又称因素A的一个水平)。双因素问题在经济管理中是常见的。上述运动员训练的问题明显可以应用于: 不同水平(层次)的人员用不同方法培训的问题;再比如可以用来表示不同质量的商品采用不同的包装形式的销售效果;不同的原材料采用不同的工艺的加工(生产)效果等等。从计算上看与单因素问题的区别在于,单因素问题,只考虑表中行的均值;而对双因素问题,既要考虑行的均值,也要考虑列的均值。8.3.2 理论假设与分析假设在Ai和Bj下总体Xij,服从N(ij, 2)分布。
18、(这一假定意味着这sn个总体分布有相同的方差,但均值可能各不相同。)引入下列记号总体Xij的总平均第i行总体的平均第j列总体的平均将第i行平均 与总平均的差称为Ai的主效应。将第j列平均 与总平均的差称为Bj的主效应。如果Ai与Bj间不存在交互效应,就有也就是,随机样本Xij的均值ij,是由总平均,Ai的主效应ai,Bj的主效应bj构成。另一方面,随机样本Xij,可视为其总体均值ij与随机误差ij之和:式中ij服从分布N(0, 2) ,并且ij之间相互独立。于是称为“无交互影响的双因素(一元)模型”。(如果效果的数据是多元的,就是双因素多元模型。)反过来,随机误差可以表示为ij的构成ijij
19、(服从 N(0, 2)ai(= i- )bj(= j - ) 全局稳定中心主效应(行、列稳定中心分别与全局中心的偏差)随机扰动无交互影响的双因素模型构成表8.3.3 实际处理1. 假设零假设:备择假设:2. 计算首先定义统计量:总变差:行间变差:列间变差:总误差平方和:其中对如上定义的统计量有如下结论成立:(1) 相互独立,且(2) (3)当 成立时,有(4)当 成立时,有(5)当 成立时,有(6)当 成立时,有3. 检验对于给定的显著性水平查F分布表,找到临界值若 则拒绝零假设H0A,即A因素中至少有两个水平之间的平均效果存在显著差异;否则,不拒绝零假设H0A ,即A因素的不同水平之间平均效
20、果无显著差异。查F分布表,找到临界值若 则拒绝零假设H0B,即B因素中至少有两个水平之间的平均效果存在显著差异;否则,不拒绝零假设H0B ,即B因素的不同水平之间平均效果无显著差异。不同品牌的彩电在各地区的销售量数据 品牌(因素A) 销售地区( 因素B )B1B2B3B4B5A1A2A3A4365345358288 350368323280 343363353298 340330343260 323333308298 有有四四个个品品牌牌的的彩彩电电在在五五个个地地区区销销售售,为为分分析析彩彩电电的的品品牌牌( (因因素素A A) )和和销销售售地地区区( (因因素素B B) )对对销销售售
21、量量是是否否有有影影响响,对对每每个个品品牌牌在在各各地地区区的的销销售售量量取取得得以以下下数数据据,见见下下表表。试试分分析析品品牌牌和和销销售地区对彩电的销售量是否有显著影响?售地区对彩电的销售量是否有显著影响? 例1.建立数据文件,如下表2.调用SPSS的方差分析功能3.选择适当的选项4.结果说明不同品牌之间存在显著差异,但地区之间的销售无显著差异。8.4 重复实验的双因素方差分析8.4.1 问题的提出下面仍通过例子引出问题仍考虑运动员的训练问题,对运动员训练的效果仍受训练方法与运动员体质特征两个因素的影响。因此我们仍考虑问题:怎样判断不同的方法训练效果是否有显著差异?不同体质特征对训
22、练效果是否有显著影响?但也许我们还关心,运动员训练效果的差异是否是运动员训练效果的差异是否是这两个因素交互或共同作用的结果?这两个因素交互或共同作用的结果?仍将运动员分为n组,每个组的运动员有同样的体质特征,但现在每个组有s t个运动员,用s种不同方法进行训练每组中的t个运动员,这样可以获得sn t个不同的训练效果。体质1体质2体质n1 2 t1 2 t1 2 t方法1x111 x112x11tx121 x122x12tx1n1 x1n2x1nt方法2x211 x212x21tx221 x222x22tx2n1 x2n2x2nt方法sxs11 xs12xs1txs21 xs22xs2txsn1
23、 xsn2xsnt因素B1因素B2因素Bn因素A1因素A2因素As表中每个格子的数据也可以是在同样的因素水平(Ai, Bj)下重复进行t次实验的结果,这也就是将该问题称为重复实验的双因素方差分析的原因,因此表中xijk表示因素Ai和因素Bj下的第k次实验效果的观察值我们现在的问题是:因素A的不同水平(方案)的效果(均值)有无显著不同?因素B的不同水平(方案)的效果(均值)有无显著不同?从计算上看与无重复的双因素问题的区别在于,对重复实验的双因素问题,除了既要考虑行的均值,也要考虑列的均值外;还要考虑每个格子中的均值。有关应用的讨论请见教材p221。因素A与因素B交互作用如何?8.4.2 理论假
24、设与分析假设在Ai和Bj下总体Xij,服从N(ij, 2)分布。(这一假定意味着这sn个总体分布有相同的方差,但均值可能各不相同。)引入下列记号总体Xij的总平均第i行总体的平均第j列总体的平均将第i行平均 与总平均的差称为Ai的主效应。将第j列平均 与总平均的差称为Bj的主效应。如果Ai与Bj间存在交互效应,就有称为Ai与Bj的交互效应。于是,有即随机样本Xij的均值ij,是由总平均,Ai的主效应ai,Bj的主效应bj以及Ai与Bj的交互效应cij构成另一方面,从重复取样的角度来看,随机样本Xijk,可视为其总体均值ij与随机误差ijk之和:式中ijk服从分布N(0, 2) ,并且ijk之间
25、相互独立。于是称为“有交互影响的双因素(一元)模型”。反过来,随机误差可以表示为有交互影响的双因素模型构成表ijk的构成ij的构成ijk (服从 N(0, 2)ai(= i- )cijbj(= j - ) 全局稳定中心主效应(行、列稳定中心分别与全局中心的偏差)交互作用随机扰动8.4.3 实际处理1. 假设零假设:备择假设:2. 计算定义统计量:总变差:行间变差:列间变差:其中交叉变差:总误差平方和:此外对如上定义的统计量有如下结论成立:(1) 相互独立,且(2) (3)当 成立时,有(4)当 成立时,有(5)当 成立时,有从而(6)当 成立时,有(7)当 成立时,有(8)当 成立时,有对于给
26、定的显著性水平查F分布表,找到临界值若 则拒绝零假设H0A,即A因素中至少有两个水平之间的平均效果存在显著差异;否则,不拒绝零假设H0A ,即A因素的不同水平之间平均效果无显著差异。查F分布表,找到临界值若 则拒绝零假设H0B,即B因素中至少有两个水平之间的平均效果存在显著差异;否则,不拒绝零假设H0B ,即B因素的不同水平之间平均效果无显著差异。3. 检验查F分布表,找到临界值若 则拒绝零假设H0C,即A因素和B因素的交互效果中至少有一个显著异于零;否则,不拒绝零假设H0C ,即A因素与B因素的交互效果均与零无显著差异,或A因素与B因素的交互效果不显著。8.5 利用SPSS进行双因素方差分析
27、检验的步骤、过程见教材与课堂演示检验的步骤、过程见教材与课堂演示统计分析在试验设计中的应用简介科研工作中进行试验设计的重要性科研工作中进行试验设计的重要性l进行一项科研课题如同造一座大桥、一座大厦。 如果大厦事先没有良好的设计就会倒塌,同样科研课题事先没有良好的设计就会失败。l科研设计如同建筑设计一样举足轻重。l很多科研工作者仅依赖现有的专业知识进行研究,只是在实验做完后才开始想到运用统计学知识。进行完试验后再找统计学家分析数据,如同病人死后再找医生进行尸体解剖,医生会告诉病人死的原因是什么。同样,统计学家会告诉你试验失败的原因是什么。 -费歇尔(Ronand A. Fisher, 1890-
28、1962)研究设计的好坏,直接关系到研究结果的可靠性,任何设计上的缺陷,都不能期望事后弥补。从方法论的角度对管理研究中的实验设计问题的讨论见陈晓萍等组织与管理研究的实证方法(北京大学出版社2008年6月版)试验设计举例作为试验性研究的一个例子,考虑Chemitech公司遇到的问题。Chemitech开发了一种新的城市供水过滤系统,其元件需从几家供应商处购买,然后Chemitech在位于南加州哥伦比亚的工厂装配这些元件。由工程部负责确定新过滤系统的最佳装配方法。考虑过各种可能之后,小组将范围缩小至三种方法:方法A、方法B及方法C。这些方法在产品装配步骤上有所不同。Chemitech的管理者希望确
29、定哪种装配方法每周生产的过滤系统数最大。在Chemitech试验中,装配方法是自变量或因素。因为对应于这个因素有三种方法,我们说对应于该试验有三个处理。其中每个处理对应于三种装配方法之一。Chemitech的问题是涉及到一个定性因素(装配方法)的单因素试验的一个例子。其他试验可能包含多个因素,其中有些因素是定性的而另一些则是定量的。三种装配方法或处理规定了Chemitech试验的三个总体。其一是使用装配方法A的全体员工,其二是使用装配方法B的全体员工,其三是使用装配方法C的全体员工。对每个总体,因变量或响应变量为每周装配的过滤系统数目。该试验的主要统计目的是确定三个总体每周所生产的平均个数是否
30、相同。假定从Chemitech的生产车间的全体装配工人中抽取了由三名员工组成的样本。用试验设计的术语,三名随机抽取的工人是试验单元。我们将在Chemitech问题中使用的试验设计称为完全随机化设计。这类设计要求将每种装配方法或处理随机地指派给试验单元或工人之一。例如,方法A可能被随机地指派给第二名工人,方法B指派给第一名工人,方法C指派给第三名工人。如同本例所解释的那样,随机化的概念是所有试验设计的一个重要原理1 。1 随机化是将处理随机地指派给试验单位的过程,目的是保证组与组之间已知和未知的因素的可比性,减少选择性偏差(selection bias) 。在R. A. Fisher 的工作以前
31、,处理是被系统地或主观地指派的。注意到该试验将导致对每个处理只有一个装配数目的度量。换句话说,对应于每个处理的样本容量为1。为了获得每种装配方法的进一步的数据,我们必须重复或复制基本试验步骤。例如,假定不是随机抽取3名工人,而是15名工人,然后将3个处理之一随机地指派给其中5名工人。因为每种装配方法都指派给5名工人,我们说获得了5个复制。复制的过程是试验设计的另一个重要原则。下图显示了Chemitech试验的完全随机化设计。评价Chemitech装配方法试验的完全随机化设计15名工人生产的单位个数一旦对试验设计满意后,我们将收集并分析数据。对于Chemitech情形,员工将受到关于如何完成指派
32、给他们的装配方法的指导,然后开始用这种方法装配新过滤系统。假定指派及培训工作都已经完成,而且一周内每个员工装配的系统数目列下表中。三种方法所生产的样本平均个数也列在下表。由这些数据可知,方法B的产量比其他方法高。现实问题是:观察到的三个样本均值之间的差异是否足够大,以致于我们能够得出“对应于每一种装配方法的总体均值不同”的结论。这可以用方差分析的方法解决。因此方差分析的结果是:在5%的显著性水平下,不支持各总体均值相同的原假设。为了说明哪种装配方法更好,需要进行多重比较。SPSS多重比较的结果为:参考文献:实验设计与分析D.C.Montgomery 统计出版社抽样调查 L.Kish 统计出版社
33、医学科研方法学 梁万年 人民生卫出版社这样,总体均值的差异就归因于方法A与方法C均值之差和方法B与方法C均值之差。于是,方法A与方法B要优于方法C。但是,为比较方法A与方法B,应该进行进一步检验。目前的研究没有给出这两种方法不同的足够证据。1. 试验设计中的随机化是观察性研究中概率抽样的一个类比。2. 在许多医学试验中,潜在的偏差通过使用双重未知的研究而被去除。在这样的研究中,无论是使用处理的医生还是对象,都不知道使用的是哪种处理,这可以减少评价偏差(assessment bias) 。许多其他类型的试验也可以借鉴这类研究的长处。问题l假设某个销售企业希望通过问卷调查研假设某个销售企业希望通过问卷调查研究顾客感知质量是否会影响其在本企业究顾客感知质量是否会影响其在本企业商场购买的数量商场购买的数量, 相应的调查问卷中应该相应的调查问卷中应该包括怎样的题项包括怎样的题项?