概率论与数理统计第九章方差分析与回归分析

上传人:tia****nde 文档编号:68117638 上传时间:2019-01-09 格式:PPT 页数:76 大小:2.48MB
返回 下载 相关 举报
概率论与数理统计第九章方差分析与回归分析_第1页
第1页 / 共76页
概率论与数理统计第九章方差分析与回归分析_第2页
第2页 / 共76页
概率论与数理统计第九章方差分析与回归分析_第3页
第3页 / 共76页
概率论与数理统计第九章方差分析与回归分析_第4页
第4页 / 共76页
概率论与数理统计第九章方差分析与回归分析_第5页
第5页 / 共76页
点击查看更多>>
资源描述

《概率论与数理统计第九章方差分析与回归分析》由会员分享,可在线阅读,更多相关《概率论与数理统计第九章方差分析与回归分析(76页珍藏版)》请在金锄头文库上搜索。

1、2019/1/9,版权所有 BY 张学毅,1,第 九 章 第一节,单因素试验的方差分析,2019/1/9,版权所有 BY 张学毅,2,一、方差分析的有关概念,1.方差分析(Analysis of Variance,ANOVA)是一种检验多 个正态总体均值是否相等的统计方法。 2.因素的水平:指试验因素的某种特定状态或数量等级,简 称水平。 3.试验指标:衡量实验结果好坏程度的试验数据 。 在单因素方差分析中,将因素的任何一个水平看作是一个总体,该水平下试验得到的数据可看成是从总体中抽出的一个样本。 若方差分析中考察的因素只有一个时,称为单因素方差分析;若同时研究两个因素对试验指标的影响时,则称

2、为两因素试验。同时针对两个因素进行,则称为双因素方差分析。,2019/1/9,版权所有 BY 统计学课程组,3,二、单因素方差分析的数据结构,2019/1/9,版权所有 BY 张学毅,4,2019/1/9,版权所有 BY 张学毅,5,表中: 为第 i个水平的第j个观测值。 记第j个水平观测值的均值为 ,则有 记所有观测值的均值为 ,则有,2019/1/9,版权所有 BY 张学毅,6,三、方差分析中的三个基本假设,(1)各个总体都服从正态分布; (2)各个总体的方差都相等; (3)各个观测值之间是相互独立的。,2019/1/9,版权所有 BY 张学毅,7,四、单因素方差分析的数学模型,由于 则有

3、单因素方差分析的数学模型1:,2019/1/9,版权所有 BY 张学毅,8,四、单因素方差分析的数学模型,记 , 为 Aj 的效应。 则有单因素方差分析的数学模型2:,2019/1/9,版权所有 BY 张学毅,9,从散点图上可以看出:不同的水平的数据是有明显差异的;同一个水平的数据也明显不同; 不同水平的观察值与试验指标值之间可能有一定的关系。 3. 仅从散点图上观察还不能提供充分的证据证明不同水平与试验指标值之间有显著差异。这种差异可能是由于抽样的随机性所造成的,也有可能是系统性影响因素造成的。,五、方差分析的基本思想,2019/1/9,版权所有 BY 张学毅,10,4.需要有更准确的方法来

4、检验这种差异是否显著,也就是进行方差分析。 5.随机误差 因素的同一水平(总体)下,样本各观察值之间的 差异,可以看成是随机因素的影响,称为随机误差 ; 6.系统误差 因素的不同水平(不同总体)下,各观察值之间的差 异可能是由于抽样的随机性所造成的,也可能是由于 水平本身所造成的,后者所形成的误差是由系统性因 素造成的,称为系统误差。,2019/1/9,版权所有 BY 张学毅,11,方差分析的基本思想,7.若不同水平对试验指标值没有影响,则组间误差中只包含随机误差,没有系统误差。这时,组间误差与组内误差经过平均后的数值就应该很接近,它们的比值就会接近1; 8.若不同水平对试验指标值有影响,则在

5、组间误差中除了包含随机误差外,还会包含有系统误差,这时组间误差平均后的数值就会大于组内误差平均后的数值,它们之间的比值就会大于1; 9.当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,也就是自变量对因变量有影响。,总离差平方和 ( sum of squares for total),1)全部观察值 与总均值 的离差平方和; 2)反映全部观察值的离散状况。 其计算公式为:,六、离差平方和与自由度的分解,效应平方和(组间平方和) :Sum of squares for factor A,1)各组平均值 与总平均值 的离差平方和; 2)反映各总体的样本均值之间的差异程度,又称组间平方和

6、; 3)该平方和既包括随机误差,也包括系统误差。 计算公式为:,误差平方和(组内平方和) :Sum of squares for error,1)每个水平或组的各样本数据与其组平均值的离差平方和; 2)反映每个样本各观察值的离散状况,又称组内离差平方和; 3)该平方和反映的是随机误差的大小。 计算公式为 :,三个离差平方和的关系,总离差平方和=组间平方和+组内平方和,三个离差平方和的自由度之间的关系: 均方,2019/1/9,版权所有 BY 张学毅,17,七、 的统计特征P228,根据概率论与数理统计学知识 : 1) 是总体方差 的无偏估计量,且与原假设成立与否无关。 即 2) 是否是总体方差

7、 的无偏估计量,与原假设成立与否有关 。当且仅当原假设成立时, 才是总体方差 的无偏估计量。,八、方差分析表,通常将上述计算过程列成一张表格,称为方差分析表。,2019/1/9,版权所有 BY 张学毅,19,例9.1 热带雨林,一份研究伐木业对热带雨林影响的统计研究报告指出,“环保主义者对于林木采伐、开垦和焚烧导致的热带雨林的破坏几近绝望”。这项研究比较了类似地块上树木的数量,这些地块有的从未采伐过,有的1年前采伐过,有的8年前采伐过。根据数据,采伐对树木数量有显著影响吗?显著性水平=0.05。,2019/1/9,20,2、提出零假设和备择假设 H0:u1=u2=u3 H1: u1,u2,u3

8、不全相等。,2019/1/9,版权所有 BY 张学毅,21,方差分析表 结论: F值=11.433.32,p-值=0.00020.05,因此检验的结论是采伐对林木数量有显著影响。,2019/1/9,版权所有 BY 张学毅,22,【例9.2】 某市消费者协会为了评价该地旅游业、居民服务业、公路客运业和保险业的服务质量,从这4个行业中分别抽取了不同数量的企业。经统计,最近一年消费者对这23家企业投诉的次数资料如下表所示。这4个行业之间服务质量是否有显著差异?如果有,究竟是在哪些行业之间?,解(1) 建立假设 (2) 列方差分析表 (3)统计决策 因为 ,所以拒绝 。即有99%的把握 认为不同行业之

9、间的服务质量有高度显著的差异。,2019/1/9,版权所有 BY 张学毅,24,第二节 两因素试验数据的方差分析,一、无交互作用的双因素方差分析 若记一因素为因素A,另一因素为因素B,对A与B同时进行分析,就属于双因素方差分,即判断是否有某一个或两个因素对试验指标有显著影响,两个因素结合后是否有新效应。在统计学中将各个因素的不同水平的搭配所产生的新的影响称为交互作用。我们先讨论无交互作用的双因素方差分析问题,对于有交互作用的双因素方差分析问题稍后再讨论。,2019/1/9,版权所有 BY 张学毅,25,无交互作用的双因素方差分析数据结构,2019/1/9,版权所有 BY 张学毅,26,双因素无

10、交互作用的方差分析,又称为双因素无重复试验的方差分析;双因素有交互作用的方差分析,又称为双因素等重复试验的方差分析;,判断因素A的影响是否显著等价于检验假设: 判断因素B的影响是否显著等价于检验假设: 其中, 表示A的第i个水平所构成的总体均值, 表示的B第j个水平所构成的总体均值。,对离差总平方和进行分解。与单因素情况类似,能够证明下列公式成立: 总离差平方和的自由度分解为: F统计量:,2019/1/9,版权所有 BY 张学毅,28,例9.3 为提高某种产品的合格率,考察原料来源地和用量对其是否有影响。原料来源地有三个:甲、乙、丙;原料用量有三种:现有量、增加5%、增加8%。每个水平组合各

11、作一次试验,得到的数据如下表所示。试分析原料来源地和用量对产品合格率的影响是否显著?,2019/1/9,版权所有 BY 张学毅,30,【例题】,解:(1) 建立假设 (2) 列方差分析表,2019/1/9,版权所有 BY 张学毅,31,(3) 统计决策,对于显著性水平 0.05,查表得临界值 因为 , ,故不拒绝 , 拒绝 。即根据现有数据,有95%的把握可以推断原料来源地对产品合格率的影响不大,而原料用量对合格率有显著影响。 由于 为最优水平。既然原料来源地对产品合格率的影响不显著,在保证质量的前提下,可以选择运费最省的地方作为原料来源地选择时的首选。如果丙地的运费最省,则最优方案为 。,2

12、019/1/9,版权所有 BY 张学毅,32,【例9.4】 某种火箭使用了四种燃料,三种推进器做试验。每种燃料和每种推进器的组合各做一次试验,得火箭射程数据如下表所示。试问不同的燃料、不同的推进器分别对火箭射程有无显著影响?,2019/1/9,版权所有 BY 张学毅,33,列方差分析表:,2019/1/9,版权所有 BY 张学毅,34,2019/1/9,版权所有 BY 张学毅,35,2019/1/9,版权所有 BY 张学毅,36,二、有交互作用的双因素方差分析,所谓交互作用,简单来说就是不同因素对试验指标的复合作用,因素A和B的综合效应不是二因素效应的简单相加。为了能分辨出两个因素的交互作用,

13、一般每组试验至少作两次。,2019/1/9,版权所有 BY 张学毅,37,有交互作用的双因素方差分析数据结构,2019/1/9,版权所有 BY 张学毅,38,2建立假设,2019/1/9,版权所有 BY 张学毅,39,这就是有交互作用的双因素方差分析的数学模型。,2019/1/9,版权所有 BY 张学毅,40,对这一模型可设如下三个假设:,2019/1/9,版权所有 BY 张学毅,41,3方差分析,与单因素方差分析的平方和分解类似,有,2019/1/9,版权所有 BY 张学毅,42,2019/1/9,版权所有 BY 张学毅,43,双因素(有交互作用)方差分析表,2019/1/9,版权所有 BY

14、 张学毅,44,例9.5 某公司想将橡胶、塑料和软木的板材冲压成密封垫片出售。市场上有两种不同型号的冲压机可供选择。为了能对冲压机每小时所生产的垫片数进行比较,并确定哪种机器使用何种材料生产垫片的能力更强,该公司使用每台机器对每一种材料分别运行三段时间,得到的试验数据(每小时生产的垫片数)如下表所示,试运用方差分析确定最优方案。,2019/1/9,版权所有 BY 张学毅,45,2019/1/9,版权所有 BY 张学毅,46,解 (1) 建立假设: (2) 计算相应的均值和平方和:,2019/1/9,版权所有 BY 张学毅,47,2019/1/9,版权所有 BY 张学毅,48,(3) 列方差分析

15、表,2019/1/9,版权所有 BY 张学毅,49,(4) 统计决策 由于 , 说明不仅冲压机的型号和垫片材料对垫片数量有显著影响,而且其交互作用也是显著的。由结构均值表可知,在冲压机中,第一种的均值较大;垫片材料中,软木的均值较大,故最优方案是 。,2019/1/9,50,第三节 一元线性回归,一、一元线性回归 二、a,b的估计 三、总体方差的估计 四、线性假设的显著性检验 五、系数b的置信区间 六、回归预测 七、可化为一元线性回归的例子(自学),回归模型的类型,一、一元线性回归,只涉及一个自变量的回归; 因变量y与自变量x之间为线性关系。 被预测或被解释的变量称为因变量(dependent variable),用y表示; 用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x表示。 因变量与自变量之间的关系用一个线性方程来表示。,一元线性回归模型的基本形式,描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为理论回归模型 一元线性回归模型可表示为 y 是 x 的线性函数(部分)加上随机误差项 线性部分反映了由于 x 的变化而引起的 y 的变化;误差项 是随机变量(未纳入模型但对y有影响的诸多因素的综合影响),反映了除 x 和 y

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号