《精编》方差分析的类型与计算方法

上传人:tang****xu3 文档编号:133889900 上传时间:2020-05-31 格式:PPT 页数:52 大小:667KB
返回 下载 相关 举报
《精编》方差分析的类型与计算方法_第1页
第1页 / 共52页
《精编》方差分析的类型与计算方法_第2页
第2页 / 共52页
《精编》方差分析的类型与计算方法_第3页
第3页 / 共52页
《精编》方差分析的类型与计算方法_第4页
第4页 / 共52页
《精编》方差分析的类型与计算方法_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《《精编》方差分析的类型与计算方法》由会员分享,可在线阅读,更多相关《《精编》方差分析的类型与计算方法(52页珍藏版)》请在金锄头文库上搜索。

1、 第7部分 方差分析 ANOVA 第7部分 方差分析 ANOVA 目的 提供一种比较两个以上总体均值的客观方法 目标 理解 应用和解释 单向ANOVA 单变量 平衡ANOVA 多变量 GLM 一般线性模型 采用Minitab进行ANOVA GLM分析 什么是方差分析 用来确定因变量 Y 与单个或多个自变量 Xs 间关系的统计显著性的方法 其中 Xs 具有两个或多个水平 是确定每一水平的响应变量值的均值是否来自同一总体的一种方法 它们有所不同吗 筛选潜在的关键少数 Xs 的方法 ANOVA适于自变量为离散变量 因变量为连续变量的情形 ANOVA的概念比较多个平均值的工具 用于连续响应数据 组内变

2、差 噪音 ANOVA确定不同水平的平均值间的差异 组间变差 是否大于各水平内部产生的变差 组内变差 的合理预期 这就是其名字的来源 当前 间距 新工序 总变差 水平1 水平2 组间信号比内部噪音大吗 是否记得第一阶段关于偏移与漂移的讨论 组内变差 噪音 ANOVA计算的比例 组间变差 信号 总变差 SS 平方和 变差的量度 信号 噪音 在分析阶段 您已经学习了怎样使用 t检验 方法来比较两个样本平均值的差异 是否记得 双样本 t 检验 例 保险成本项目您怎样比较不同地区保险成本的平均值 五个地区的成本有差异吗 是否记得t 检验 平均值 地区运作保险成本 K 我们需要进行10次独立的比较以检验每

3、对平均值 AB AC AD AE BC BD BE CD CE DE 即使所有平均成本都相同 仍有5 的机率来否定H0 并推断其中的一对平均值不相等 如果此检验步骤重复10次 错误地得出至少有一对平均值有差异结论的风险就会很高 比5 高得多 采用t检验进行多重比较的问题 所有可能的 双样本 t 检验问题 ANOVA给出了同时比较五个平均值的单一假设检验 因素 自变量 X 水平或设置 因素的离散值或因素的设置平衡数据 各因素不同水平的每一个组合都具有相等数量的样本或观测值 上例即为平衡数据 因为对于X的每个水平 都有两个观测值 响应变量Y值 非平衡数据 各因素不同水平的每一个组合并非都具有相等数

4、量的样本或观测值 方差分析术语 因素X有两个水平 40和150 因素 X 有两个水平 40和150 但在此例中 150水平有三个Y值 而40水平只有一个Y值 方差分析的类型 单向ANOVA 单因素 X 有两个以上水平 设置 以及一个连续的因变量 Y 确定因素水平如何影响总的响应变差 平衡ANOVA 多个具有多水平的因素 两个以上 Xs 一个连续的因变量 Y 确定每个因素对整个响应变差有多大影响 GLM 与平衡ANOVA相同 只是GLM具有非平衡数据 DOE 试验设计 在进行设计的试验中 确定各因素不同水平的哪些组合对响应变量的变差影响最大 运用ANOVA来回答这样一个问题 因素 X 水平对响应

5、变量 Y 的总变差有多大影响 使用方差分析的三种假设 1 对于因素水平的每一组合 残差值的均值为0 0这意味着我们所拟合的方程 或模型 正确 没有其它变量影响结果 观测 值 圆圈 和 预计 值 数组平均值 水平线 间的差额为 残差 假设 续 残差必须独立 并呈正态分布残差 或误差 即是实际观测的 Y 值和预计的数学模型的 Y 值 残差表明模型何处与数据不相匹配 当比较平均值时 正态性往往不成问题 因为中心极限定理表明 平均值趋向正态分布 当比较变差时 正态性非常重要 方差齐性 对于正态数据 应用 Bartlett 检验法 对于非正态数据 应用 Levene 检验法 2 假设 续 间距 I级 I

6、I级 另一个需要关注的问题 除平均值的相等性之外 是方差的相等性 X 转变成不同水平时 可能降低变差 提高Z值 可以用Bartlett或Levene检验法来检验方差的相等性 注 因素在水平II上的方差很大 掩盖了不同水平平均值之间真正的差异 3 方差必须相等 或接近相等 实际问题 一位开发工程师用一种特殊的粘合剂将两个部件粘在一起 另外还有两种可使用的粘合剂 但需要更高级的过程控制 如果其中的一种显示出平均抗剪强度不低于20 则值得更换粘合剂供应商 并改进过程控制水平 针对此例 运行Minitab并打开文件 L 6sigma minitab training minitab session2

7、adhesive mtw独立数据存储在C1 C3栏中 堆叠数据及下标在C4和C5栏中 数据组如下 首先将数据制图 Graph Plot 如图填写对话框 单击 OK 选择 Options 并通过检查对话框添加 Jitter 散点图 图形胜过千言万语 观察图形 1 三种粘合剂的平均值看上去是否相同 2 是否有抗剪强度超过20的粘合剂 3 三种粘合剂的方差是否相同 配方B 水平3 看上去具有比当前粘合剂或配方A都要高的抗剪强度 但是 直观上的差异并不意味差异具有统计显著性 我们需要进一步的分析 以确认这种图形分析的结果 并请注意 对于不同的粘合剂 方差并未表现出显著的不同 采用ANOVA证明统计显著

8、性 由于随机因素的影响 粘合剂的抗剪强度会产生一些波动 要证明其统计显著性 我们必须表明平均值的差异比偶然出现的差异大 1 测量的响应值 因变量 是什么 粘合剂抗剪强度2 评估的因素是什么 仅一个因素 粘合剂类型3 我们想知道什么结果 三种类型的粘合剂 水平 是否存在差异 新型粘合剂的平均抗剪强度大于20吗 4 我们将采用什么分析工具 为什么 单向ANOVA单因素 粘合剂类型 三个水平 当前 配方A 配方B 这三种粘合剂是否有差异 5 零假设和备择假设是什么 Ho 1 2 3Ha 至少一个 i与其它不等 x 水平1 912141318 1815141715 2119211623 水平2 水平3

9、 91214131818151417152119211623 111112222233333 水平 数据 总和平均值 总平均 减去 数据 总平均 平方差 平方和 SStotal 我们怎样计算ANOVA结果 SS B j j g j x x 1 2 SS T j 1 n j i g ij x 1 2 n g 组数 水平 n 组中的样本数 ANOVA 续 Fcalculated ANOVA计算F统计值 记住 计算的F 统计值是两个方差的比例 如果总体平均值间没有差异 则计算得的F 比率应约为1 0最后 将算出的F 比率与F表中列出的F值相比较 表中的F建立在样本容量和 风险之上 通常 0 05 如

10、果F算出的 F表中的 总体平均值间的差异具有统计显著性 您可以有95 的置信度相信差异不是偶然产生 如果F算出的 F表中的 则您不会有95 的置信度认为总体平均值是不同的 它们可能在数值上不同 但属同一整体的一部分 数字上的差异只是随机因素的结果 ANOVA计算比例的方法 Minitab的ANOVA菜单选项 在使用Minitab分析有关粘合剂问题的数据之前 我们来看一看Minitab中ANOVA菜单选项 Stat ANOVA 单因素 水平 2 仅用于堆叠数据 双因素 水平 2多因素与多水平 平衡数据 多因素与多水平 非平衡数据 平衡ANOVA和普通线性模型 GLM 可以比较多达9个因素和50个

11、响应值 GLM是您能用来分析非平衡数据的唯一工具 不同水平的数据存于不同栏中 让我们用Minitab以粘合剂为例运行ANOVA Stat ANOVA One way 采用 单向 ANOVA 因为只有一个因素 或 X 即粘合剂 选择选项 以在工作表中存储残差和由模型而得的预测值 残差是因素某一水平的均值与观测值间的差异 针对此粘合剂实例 前7个残差的计算如下 残差计算 残差量化模型的误差 模型不能与数据组很好地拟合 ANOVA会话窗口 由于p 值 0 005 至少一个粘合剂抗剪强度平均值有差异 我们接受Ha 请记住 我们的最初问题是确定不同类型的粘合剂是否具有不同的抗剪强度 在ANOVA表中 小

12、于0 05的P值表明各水平间存在显著差异 实际显著性 记住我们的第二个问题 是否其中有一个新型粘合剂的抗剪强度大于20 通过分析95 的信置区间 我们可以看出 性能最好的粘合剂为水平3 其值为 17 5 22 5 虽然粘合剂3比当前的粘合剂要好 且平均值最可能的估计值为20 但没有很高的置信度认为平均值至少是20 也许恰当的方法是 收集有关粘合剂3的更多数据 以获得平均值的更好估计值 即更窄的置信区间 记住 我们只有5个数据 采用Minitab的多因素ANOVA分析 情形 六个西格玛小组有项任务 将 订单处理 的周期时间从目前的平均值10 8分钟降低到9 0分钟 工作人员的经验 班次 和电话接

13、收中心 地区 被初步列为能影响周期时间的潜在 Xs 下表列出了来自该公司三个不同电话接收中心的数据 打开文件 L 6sigma minitab training minitab session2 cqcycle mtw 注 各因素不同水平的每一个组合 单元 都有5个观测值 共有90个观测值 3 3 2 5 90 首先 我们将数据制图 创建三个图表 周期时间与地区 周期时间与班次 周期时间与经验Graph Plot 单击 OK 单击 Options 添加Jitter 图形向我们显示什么信息 东海岸办公室平均订单处理周期时间比其它各地的平均值高 当平均周期时间低时 波动也低 熟练工比新手看上去要快

14、 尽管波动很大 第二个班的周期时间比另两班要短一些 查察数据的另一种方式 采用框图 我们进行分析 记住 我们试图分析区域 员工经验和班次三项因素是否对订单处理周期时间存在任何影响 另外 我们具有平衡数据 零假设和备择假设为 H0 因素对响应变量值没有影响 无差异 Ha 因素对响应变量值有显著影响 有差异 Stat ANOVA BalancedANOVA 在因素间插入 pipes 就是命令Minitab将各因素的每个组合都在分析中考虑 在键盘上 pipe 就是反斜杠键的上档 我们还将单击 Graphs 以生成残差用于分析 见下页 残差图 采用 Graphs 选项 您可以得到残差图及其相关分析 除

15、检验残差的正态性外 检查 残差对拟合值 及 残差对变量 是否存在任何趋势 单击 OK 进行分析 ANOVA表的说明 注意 区域 员工经验和班次对于 周期时间 有最大的影响 请看它们的F值 区域与员工经验间的相互作用也很显著 因为P 0 05 显著因素的p 值 0 05 影响显著的 X 利用会话窗口中的ANOVA输出 确定在工序中是否有任何因素促成差异的形成 下一步 1 假定区域和员工经验是存在差异的原因 2 建立一个DOE来论证它们对周期时间的影响 临界统计显著性 临界线 额外的ANOVA表信息 问题 有足够的重要 Xs 吗 可将模型中因素未解释的变差进行量化 Mserror的平方根为Serr

16、or 误差的标准偏差 这代表工序的一个标准偏差 假定模型中使用的所有 X 都处于完美的控制状态 在我们的例子中 serror 3 325 1 2 1 8分钟 误差 是模型所使用的因素未能解释的变差 此工序的4 5西格玛极限为 4 5 1 8 即 8 分钟 如果我们能完美地控制所有确定的Xs 如果此变差过大 就需要寻找其它的影响此工序的因素 Xs 下一步 我们将分析残差 我们分析残差是为了更多地了解工序 并检验数学模型的 好坏 残差的一些特点 残差的平均值将为0 0残差应呈正态分布残差应为随机分布 看不出模式或趋势几种模式举例 曲线随时间而呈一定的趋势不等变差一个或两个极值如果残差没有满足上述要求 我们需要查寻原因 可能原因如下 不准确的数据记录 未包含所有重要 Xs 数据不呈正态分布 使用图表来分析变化趋势 残差分析 残差直方图 我们观察残差与拟合值图 看看是否存在一定的形态 残差与拟合值图 该图表确实表明残差存在一种模式 漏斗型表明 平均 周期时间 拟合值 越大 残差越大 这意味着ANOVA结果无效吗 相反 这是一个重要发现 降低平均值也会降低变差 下一步我们将确认是否某一因素对变差

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号