方差分析与回归分析

上传人:飞*** 文档编号:52437170 上传时间:2018-08-21 格式:PPT 页数:40 大小:880.50KB
返回 下载 相关 举报
方差分析与回归分析_第1页
第1页 / 共40页
方差分析与回归分析_第2页
第2页 / 共40页
方差分析与回归分析_第3页
第3页 / 共40页
方差分析与回归分析_第4页
第4页 / 共40页
方差分析与回归分析_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《方差分析与回归分析》由会员分享,可在线阅读,更多相关《方差分析与回归分析(40页珍藏版)》请在金锄头文库上搜索。

1、方差分析 线性回归什么是方差分析(ANOVA)? (analysis of variance)1. 检验多个总体均值是否相等 通过分析数据的误差判断各总体均值是否相等 2. 研究分类型自变量对数值型因变量的影响 一个或多个分类尺度的自变量 两个或多个 (k 个) 处理水平或分类 一个间隔或比率尺度的因变量 3. 有单因素方差分析和双因素方差分析 单因素方差分析:涉及一个分类的自变量 双因素方差分析:涉及两个分类的自变量【 例例 】为了对几个行业为了对几个行业 的服务质量进行评价的服务质量进行评价 ,消费者协会在四个,消费者协会在四个 行业分别抽取了不同行业分别抽取了不同 的企业作为样本。最的企

2、业作为样本。最 近一年中消费者对总近一年中消费者对总 共共2323家企业投诉的次家企业投诉的次 数如下表数如下表消费者对四个行业的投诉次数 行业观 测 值零售 业旅游 业航空 公司家电 制造 业 1 2 3 4 5 6 757 66 49 40 34 53 4468 39 29 45 56 5131 49 21 34 4044 51 65 77 58分析四个行业之间的服务质量是否有显著差异 ,也就是要判断“行业”对“投诉次数”是否有显 著影响 作出这种判断最终被归结为检验这四个行业被 投诉次数的均值是否相等 若它们的均值相等,则意味着“行业”对投诉次 数是没有影响的,即它们之间的服务质量没有

3、显著差异;若均值不全相等,则意味着“行业” 对投诉次数是有影响的,它们之间的服务质量 有显著差异零售业 旅游业 航空公司 家电制造1.随机误差 因素的同一水平(总体)下,样本各观察值之间的差异 比如,同一行业下不同企业被投诉次数是不同的 这种差异可以看成是随机因素的影响, 2.系统误差 因素的不同水平(不同总体)下,各观察值之间的差异 比如,不同行业之间的被投诉次数之间的差异 这种差异可能是由于抽样的随机性所造成的,也可 能是由于行业本身所造成的,后者所形成的误差是 由系统性因素造成的,方差分析的基本思想和原理 (两类方差)1.数据的误差用平方和(sum of squares)表示,称为方 差

4、 2.组内方差(within groups) 因素的同一水平(同一个总体)下样本数据的方差 比如,零售业被投诉次数的方差 组内方差只包含随机误差 3.组间方差(between groups) 因素的不同水平(不同总体)下各样本之间的方差 比如,四个行业被投诉次数之间的方差 组间方差既包括随机误差,也包括系统误差方差分析的基本思想和原理 (方差的比较)1.若不同行业对投诉次数没有影响,则组间误差中只包含 随机误差,没有系统误差。这时,组间误差与组内误差经 过平均后的数值就应该很接近,它们的比值就会接近1 2.若不同行业对投诉次数有影响,在组间误差中除了包含 随机误差外,还会包含有系统误差,这时组

5、间误差平均后 的数值就会大于组内误差平均后的数值,它们之间的比值 就会大于1 3.当这个比值大到某种程度时,就可以说不同水平之间存 在着显著差异,也就是自变量对因变量有影响 判断行业对投诉次数是否有显著影响,实际上也就是检验被投 诉次数的差异主要是由于什么原因所引起的。如果这种差异主 要是系统误差,说明不同行业对投诉次数有显著影响构造检验的统计量 (例题分析)构造检验的统计量 (计算总误差平方和 SST)1.全部观察值 与总平均值 的离差平方 和 2.反映全部观察值的离散状况 3.其计算公式为 前例的计算结果:前例的计算结果:SST SST = (57-47.869565)= (57-47.8

6、69565)2 2+ +(58-47.869565)(58-47.869565)2 2=4164.608696 =4164.608696构造检验的统计量 (计算水平项平方和 SSA)1.各组平均值 与总平均值 的 离差平方和 2.反映各总体的样本均值之间的差异程度,又称 组间平方和 3.该平方和既包括随机误差,也包括系统误差 4.计算公式为 前例的计算结果:前例的计算结果:SSA SSA = 1456.608696= 1456.608696构造检验的统计量 (计算误差项平方和 SSE)1.每个水平或组的各样本数据与其组平均值的离差平 方和 2.反映每个样本各观察值的离散状况,又称组内平方和 3

7、.该平方和反映的是随机误差的大小 4.计算公式为 前例的计算结果:前例的计算结果:SSE SSE = 2708= 2708构造检验的统计量 (三个平方和的关系)总离差平方和(SST)、误差项离差平方 和(SSE)、水平项离差平方和 (SSA) 之 间的关系SST SST = = SSA SSA + + SSESSE 前例的计算结果:前例的计算结果: 4164.608696=1456.608696+2708 4164.608696=1456.608696+2708 关系强度的测量 1.拒绝原假设表明因素(自变量)与观测值之间 有关系 2.组间平方和(SSA)度量了自变量(行业)对因变 量(投诉次

8、数)的影响效应 只要组间平方和SSA不等于0,就表明两个变量之 间有关系(只是是否显著的问题) 当组间平方和比组内平方和(SSE)大,而且大到 一定程度时,就意味着两个变量之间的关系显著 ,大得越多,表明它们之间的关系就越强。反之 ,就意味着两个变量之间的关系不显著,小得越 多,表明它们之间的关系就越弱关系强度的测量 1.变量间关系的强度用自变量平方和(SSA) 及残差平方和(SSE)占总平方和(SST)的比 例大小来反映 2.自变量平方和占总平方和的比例记为R2 , 即3.其平方根R就可以用来测量两个变量之间 的关系强度 关系强度的测量 (例题分析) R=0.591404 结论: 行业(自变

9、量)对投诉次数(因变量)的影响效应占总 效应的34.9759%,而残差效应则占65.0241%。即 行业对投诉次数差异解释的比例达到近35%,而其 他因素(残差变量)所解释的比例近为65%以上 R=0.591404,表明行业与投诉次数之间有中等以 上的关系 单因素试验的方差分析 例子:铝合金板的厚度有三台机器,生产相同 规格的铝合金薄板。 取样,测量薄板的厚 度精确到千分之一厘 米。结果如下:机器一 机器二 机器三0.2360.2570.2580.2380.2530.2640.2480.2550.2590.2450.2540.2670.2430.2610.262 这里,试验的指标是薄板的厚度。

10、机器是 因素,不同的三台机器就是这个因素的三 个不同的水平。 假定除了机器这个因素。材料的规格、操 作人员的水平等其他因素都是相同的。这 是单因素试验。 试验的目的就是为了考察各台机器所生产 的薄板的厚度有无显著差异,看看机器这 因素对厚度有无显著的影响。 表中的数据看成来自三个不同总体的样本 值。将各个总体的均值依次计为 检验假设 假设各总体均为正态变量,且各总体的方 差相等。那么这是一个检验同方差的多个 正态总体均值是否相等的问题。检验假设 S3,n1=n2=n3=5 ,n=15, ST=15 SA=1/5(1.212 +1.28 2+1.312 ) - 2.82/15=0.0010533

11、3 SE =ST-SA=0.000192 ST,SA, SE 的自由度依次为n114, s12,ns12方差分析表方差来源 平方和自由度 均方F比因素0.00105333 SA2 s-10.00052667 32.92误差0.000192 SE12 n-s0.000016总和0.00124533 ST14 n-1因F0.05(2,12)3.89 r0.01 ,因此线性回归效 果显著,认为抗拉强度y与含碳量x之间存在高度 显著的正相关关系。c.求抗拉强度y关于含碳量x 的线性回归方程 当x15时,y的点估计值为 近似估计y的预测区间。 对于实验范围的每个x,有95.4的y落在下列两 条直线之间: Y的95.4的预测区间是 45.307,51.979THANKS

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号