统计学7方差分析

上传人:tian****1990 文档编号:81956967 上传时间:2019-02-22 格式:PPT 页数:38 大小:433KB
返回 下载 相关 举报
统计学7方差分析_第1页
第1页 / 共38页
统计学7方差分析_第2页
第2页 / 共38页
统计学7方差分析_第3页
第3页 / 共38页
统计学7方差分析_第4页
第4页 / 共38页
统计学7方差分析_第5页
第5页 / 共38页
点击查看更多>>
资源描述

《统计学7方差分析》由会员分享,可在线阅读,更多相关《统计学7方差分析(38页珍藏版)》请在金锄头文库上搜索。

1、2019/2/22,1,第七章 方差分析,一、方差分析的内容 二、方差分析的有关术语及假设 三、方差分析的原理 四、单因素方差分析 五、双因素方差分析 六、关系强度的测量 七、用Excel进行方差分析 重点:方差分析的方法 难点:方差分析的基本思想,2019/2/22,2,方差分析(Analysis of Variance, ANOVA)是假设检验的一种延续与扩展,它可以解决诸如多个总体均值是否相等等方面的检验问题,在因素分析中具有一定的优势。方差分析主要用来对多个总体均值是否相等作出假设检验,研究分类型自变量对数值型因变量的影响 。 例:某饮料制造商生产一种新型饮料,共有四种颜色: (1)橘

2、黄、(2)粉红、(3)绿色、(4)无色。 该制造商想知道颜色是否对销售量有显著影响,随机抽取了5家超市前一期的销售量(表1)进行分析。,一、方差分析的内容,2019/2/22,3,一、方差分析的内容,结果观后返回,2019/2/22,4,其中, i(I=1,2,3,4) 表示所有饮料(无色、粉红、橘黄、绿色)销售量之均值。,要知道颜色是否对饮料销售有显著影响,就是要知道四种颜色饮料销售量的均值是否有显著差异,即进行下述假设检验:,H0: 1=2=3=4 H1: 四个总体均值不全相等,一、方差分析的内容,2019/2/22,5,1、相关术语 因素或因子:是一个独立的变量,是方差分析的研究对象 (

3、例中饮料的颜色);,单因素方差分析:只针对一个因素进行分析; 多因素方差分析:同时针对多个因素进行分析。,水平或处理:因子的不同表现 (例中饮料的四种不同颜色:无色、粉红、橘黄色、绿色 );,二、方差分析的有关术语及假设,2019/2/22,6,试验 收集样本数据的过程。这里若只考虑颜色一个因素,则可称为单因素四水平的试验 总体 因素的每一个水平可以看作是一个总体 比如A1、A2、A3、 A4四种颜色可以看作是四个总体 样本数据 上面的数据可以看作是从这四个总体中抽取的样本数据,相关术语,二、方差分析的有关术语及假设,2019/2/22,7,2、进行方差分析必须满足如下假设,(1)每个总体都应

4、服从正态分布 (2)各个总体的方差2必须相等 (3)不同观测值是独立的(每个样本点的取值不影响其他样本点的取值),样本来自于一 个相同的总体,样本来自于不同的总体,二、方差分析的有关术语及假设,2019/2/22,8,分析可知,四种颜色饮料销售量的差异主要来自以下两个方面: 随机误差:在因素的同一水平(同一个总体)下,样本的各观察值之间的差异。比如,同一种颜色的饮料在不同超市上的销售量是不同的,不同超市销售量的差异可以看成是随机因素的影响,或者说是由于抽样的随机性所造成的,称为随机误差。 系统误差:在因素的不同水平(不同总体)下,各观察值之间的差异。比如,同一家超市,不同颜色饮料的销售量也是不

5、同的,这种差异可能是由于抽样的随机性所造成的,也可能是由于颜色本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差。,三、方差分析的原理,2019/2/22,9,数据的误差用平方和(sum of squares)表示,1.组内平方和(within groups) 因素的同一水平下数据误差的平方和 比如,无色饮料A1在5家超市销售量的误差平方和 只包含随机误差 2.组间平方和(between groups) 因素的不同水平之间数据误差的平方和 比如,A1、A2、A3、A4四种颜色饮料销售量之间 的误差平方和 既包括随机误差,也包括系统误差,三、方差分析的原理,2019/2/22,10

6、,两类方差 组内方差(MSE) 因素的同一水平(同一个总体)下样本数据的方差 比如,无色饮料A1在5家超市销售数量的方差 组内方差只包含随机误差 组间方差(MSA) 因素的不同水平(不同总体)下各样本之间的方差 比如,A1、A2、A3、A4四种颜色饮料销售量之间的方差 组间方差既包括随机误差,也包括系统误差,三、方差分析的原理,2019/2/22,11,方差比较,若不同颜色对销售量没有影响,则组间方差中只包含随机误差,没有系统误差。这时,组间方差与组内方差的数值就应该很接近,它们的比值就会接近1 若不同颜色对销售量有影响,在组间方差中除了包含随机误差外,还会包含系统误差,这时组间方差的数值就会

7、大于组内方差的数值,它们之间的比值就会大于1 当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,也就是自变量对因变量有影响 所剩问题归结为:比值多大,才能拒绝原假设。 可通过计算F统计量进行F检验来判断。,三、方差分析的原理,2019/2/22,12,观察值之间的差异来自两个方面:,某因素不同水平的影响 (系统性影响),其他随机因素的影响 (随机性影响),水平间方差 (组间方差),水平内方差 (组内方差),小结:,如果原假设成立:说明某因素不同水平的影响不显著(无系统性影响),只剩下随机性影响,因此组间方差与组内方差差别不大,它们的比接近于1。 如果原假设不成立:说明某因素不同水平

8、的影响显著(存在系统性影响),组间方差与组内方差差别较大,它们的比远超出1。,三、方差分析的原理,2019/2/22,13,(一)单因素方差分析的数据结构 (one-way analysis of variance),四、单因素方差分析,2019/2/22,14,(二)分析步骤 1、提出假设 2、构造检验统计量 3、统计决策,四、单因素方差分析,2019/2/22,15,1、提出假设,一般提法 H0 : m1 = m2 = mk 自变量对因变量没有显著影响 H1 : m1 ,m2 , ,mk不全相等 自变量对因变量有显著影响 注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的

9、均值都不相等,2019/2/22,16,构造检验统计量需要计算 (1)水平的均值 (2)全部观察值的总均值 (3)误差平方和 (4)均方(MS) (5)检验统计量F,2、构造检验的统计量,2019/2/22,17,假定从第i个总体中抽取一个容量为ni的简单随机样本,第i个总体的样本均值为该样本的全部观察值总和除以观察值的个数 计算公式为,式中: ni为第 i 个总体的样本观察值个数 xij 为第 i 个总体的第 j 个观察值,(1)计算水平的均值,2019/2/22,18,全部观察值的总和除以观察值的总个数 计算公式为,(2)计算全部观察值的总均值,前例计算结果,2019/2/22,19,总误

10、差平方和(sum of squares for total, SST),全部观察值 与总平均值 的离差平方和 反映全部观察值的离散状况 其计算公式为,(3)计算误差平方和,前例的计算结果: SST = (26.5-28.695)2+(32.8-28.695)2 =115.93,2019/2/22,20,各组平均值 与总平均值 的离差平方和(Sum of Squares for Factor A, SSA) 反映各总体的样本均值之间的差异程度,又称组间平方和 该平方和既包括随机误差,也包括系统误差 计算公式为,水平项平方和SSA,(3)计算误差平方和,前例的计算结果:SSA =76.846,20

11、19/2/22,21,每个水平或组的各样本数据与其组平均值的离差平方和(Sum of Squares for Error,SSE) 反映每个样本各观察值的离散状况,又称组内平方和 该平方和反映的是随机误差的大小 计算公式为,误差项平方和SSE,(3)计算误差平方和,前例的计算结果:SSE =39.084,2019/2/22,22,可以证明:总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平方和 (SSA) 之间有如下关系,SST = SSA + SSE,在本例中,可以验证:115.930=76.846+39.084,三个平方和的关系,(3)计算误差平方和,2019/2/22,23

12、,SST反映全部数据总的误差程度;SSE反映随机误差的大小;SSA反映随机误差和系统误差的大小 如果原假设成立,则表明没有系统误差,SSA除以其自由度后的均方(组间均方)与SSE除以其自由度后的均方(组内均方)差异就不会太大;如果组间均方显著地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差 判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小,三个平方和的作用,(3)计算误差平方和,2019/2/22,24,各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方,也称为方差 计算方法是用误差平

13、方和除以相应的自由度 三个平方和对应的自由度分别是 SST的自由度为n-1,其中n为全部观察值的个数 SSA的自由度为k-1,其中k为因素水平(总体)的个数 SSE 的自由度为n-k 注:n-1=(k-1)+(n-k),(4)计算均方MS,2019/2/22,25,组间方差:SSA的均方,记为MSA,计算公式为,组内方差:SSE的均方,记为MSE,计算公式为,(4)计算均方MS,2019/2/22,26,将MSA和MSE进行对比,即得到所需要的检验统计量F 当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为 n-k 的 F 分布,即,(5)计算检验统计量 F,2019/2/22,27

14、,F分布与拒绝域,如果均值相等,F=MSA/MSE1,(5)计算检验统计量 F,2019/2/22,28, 将统计量的值F与给定的显著性水平的临界值F进行比较,作出对原假设H0的决策 根据给定的显著性水平,在F分布表中查找与第一自由度df1k-1、第二自由度df2=n-k 相应的临界值 F 若FF ,则拒绝原假设H0 ,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响 若FF ,则不能拒绝原假设H0 ,表明所检验的因素对观察值没有显著影响,3、统计决策,2019/2/22,29,对原假设: H0: 1=2=3=4 及备择假设: H1: 四个总体均值不全相等 计算F值: F=MSA/M

15、SE=25.6152/2.4428= 10.486 给出显著性水平:=0.05, 查F(k-1,n-k)分布表得临界值:3.24,由于计算的F=10.4863.24,因此拒绝原假设,从而得出:颜色对该公司饮料销售有显著影响。,3、统计决策,2019/2/22,30,(三)单因素方差分析表(基本结构),四、单因素方差分析,2019/2/22,31,(三)单因素方差分析表(例题分析),四、单因素方差分析,2019/2/22,32,如果同时需考虑两个因素A与B的影响,则可进行双因素方差分析。 双因素方差分析中需假设两个因素有无交互作用,即各自是否独立地发挥影响作用。 1.数据结构,五、双因素方差分析,2019/2/22,33,2.离差平方和的分解,其中:,可以证明:,于是,五、双因素方差分析,2019/2/22,34,表3 双因素方差分析表 误差来源 平方和 自由度 均方差 F值 A因素 SSC r-1 MSC=SSC/(r-1) FC=MSC/MSE B因素 SSR k-1 MSR=SSR/(k-1) FR=MSR/MSE 随机误差 SSE (r-1)(k-1) MSE=SSE/(r-1)(k-1) 合计 SST n-1 SST/(n-1),在饮料销售例中,如果我们还关心不同超市是否对销售有影响,这时可将5个不同的超市作为因素B考虑,它有5个水平。双因素

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号