多重均值比较和方差分析前提假设检验

上传人:ap****ve 文档编号:119737320 上传时间:2020-01-24 格式:PPT 页数:43 大小:1.10MB
返回 下载 相关 举报
多重均值比较和方差分析前提假设检验_第1页
第1页 / 共43页
多重均值比较和方差分析前提假设检验_第2页
第2页 / 共43页
多重均值比较和方差分析前提假设检验_第3页
第3页 / 共43页
多重均值比较和方差分析前提假设检验_第4页
第4页 / 共43页
多重均值比较和方差分析前提假设检验_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《多重均值比较和方差分析前提假设检验》由会员分享,可在线阅读,更多相关《多重均值比较和方差分析前提假设检验(43页珍藏版)》请在金锄头文库上搜索。

1、 1 学习目标 n掌握单因素方差分析的方法及应用 n初步了解多重均值比较方法的应用 2 失业保险案例 为什么要进行方差分析 为了减小失业保险支出 促进 就业 政府试图为失业者提供再 就业奖励 如果失业者可以在限 定的时间内重新就业 他将可以 获得一定数额的奖金 政策会有 效吗 3 试验数据 不同奖金水平失业者的再就业时间 天 无奖奖金低奖奖金中奖奖金高奖奖金 92869678 1001089275 85939076 88887787 89897973 90757183 94788282 80727568 78798172 4 要研究的问题 总体1 1 奖金 1 总体2 2 奖金 2 总体3 3

2、 奖金 3 样本1样本2样本3样本4 总体4 4 奖金 4 5 各个总体的均值相等吗 X f X 1 2 3 4 X f X 3 1 2 4 6 失业保险案例 实验结果 1 无奖金 2 低奖金 3 中奖金 4 高奖金 根据实验 结果 可以认为各总体的平均失业时间相同吗 7 研究方法 两样本的t检验 n如果采用t检验法对多个总体均值进行差异显著 性检验 会出现如下问题 n全部检验过程烦琐 做法不经济 n无统一的总体方差估计 检验的精度降低 n犯第一类错误的概率增大 检验的可靠性降 低 8 思考 n7岁儿童的平均身高为102 现测得某班12名7 岁儿童身高分别为 n97 99 103 100 10

3、4 97 105 110 99 98 103 99 n请问该班儿童身高与平均水平是否存在差异 9 方差分析可以用来比较多个均值 n方差分析 Analysis of variance ANOVA 的主要目 的是通过对方差的比较来同时检验多个均值之间差异 的显著性 n可以看作t检验的扩展 只比较两个均值时与t检验等价 n20世纪20年代由英国统计学家费喧 R A Fisher 最 早提出的 开始应用于生物和农业田间试验 以后在 许多学科中得到了广泛应用 10 ANOVA analysis of variance n由于方差分析法是通过比较有关方差的大小而 得到结论的 所以在统计中 常常把运用方差

4、分析法的活动称为方差分析 n方差分析的内容很广泛 既涉及到实验设计的 模式 又关乎数据分析模型中因素效应的性质 本章在完全随机试验设计下 讨论固定效应 模型方差分析的基本原理与方法 重点介绍单 因素方差分析 11 方差分析中的基本假设 n 1 在各个总体中因变量都服从正态分布 n 2 在各个总体中因变量的方差都相等 n 3 各个观测值之间是相互独立的 12 n同一试验条件下的数据变异 随机因素影响 n不同试验条件下 试验数据变异 随机因素 和可能存在的系统性因素即试验因素共同影响 试验数据变异原因 误差来源 分析 13 实验数据误差类型 n n 随机误差随机误差 n因素的同一水平 总体 下 样

5、本各观察值之间的差异 n比如 同一奖金水平下不同不同人的失业时间是不同的 n这种差异可以看成是随机因素影响的结果 称为随机误随机误 差差 n系统误差 n因素的不同水平 不同总体 下 各观察值之间的差异 n比如 不同奖金水平之间的失业时间之间的差异 n这种差异可能是由于抽样的随机性所造成的 也可能是 由于奖金本身所造成的 后者所形成的误差是由系统性 因素造成的 称为系统误差系统误差 14 方差分析的实质与分析目的 n方差分析的实质 观测值变异原因的数量分析 n方差分析的目的 系统中是否存在显著性影响 因素 15 单因素方差分析模型 1 n单因素方差分析 模型中有一个自变量 因素 和一 个因变量

6、n在失业保险实验中 假设张三在高奖金组 则 张三的失业时间 高奖金组的平均失业时间 随机因素带来的影响 总平均失业时间 高奖金组平均值与总平均值之差 随机因素带来的影响 16 单因素方差分析模型 2 17 总变差 离差平方和 的分解 n数据的误差用离差平方和 sum of squares 描述 n组内离差平方和 within groups n因素的同一水平 同一个总体 下样本数据的变异 n比如 同一奖金水平下失业时间的差异 n组内离差平方和只包含随机误差 n组间离差平方和 between groups n因素的不同水平 不同总体 下各样本之间的变异 n比如 四个奖金水平之间失业时间的差异 n组

7、间离差平方和既包括随机误差 也包括系统误 差 18 总变差 离差平方和 分解的图示 组间变异 总变异 组内变异 19 SST SSA SSE 总变差 因素A及随机因素导致 的变差 随机因素导致的变差 组间离差平方和组内离差平方和 20 离差平方和的自由度与均方 n三个平方和的自由度分别是 nSST 的自由度为nk 1 nk为全部观察值的个数 nSSA的自由度为k 1 其中k为因素水平的个数 nSSE 的自由度为nk k n各离差平方和的大小与观察值的多少有关 为了消除 观察值多少对离差平方和大小的影响 需要将其平均 这就是均方 也称为方差 n均方的计算方法是用离差平方和除以相应的自由度 21

8、组间离差平方和组内离差平方和 组间方差 组内方差 受因素A和随机 因素的影响 只受随机 因素的影响 22 F比值 n如果因素A的不同水平对结果没有影响 那么在组间方差中只 包含有随机误差 两个方差的比值会接近1 n如果不同水平对结果有影响 组间方差就会大于组内方差 组间方差与组内方差的比值就会大于1 n当这个比值大到某种程度时 就可以说不同水平之间存在显 著差异 或者说因素A对结果有显著影响 组间方差 组内方差 F 23 F比的分布 F 分布曲线 24 F分布与拒绝域 如果均值相等 如果均值相等 F F MSAMSA MSEMSE 1 1 F F 分布显著水分布显著水 平下的临界点平下的临界点

9、 F F k k 1 1 nknk k k 0 0 拒绝拒绝HH 0 0 不能拒绝不能拒绝 H H0 0 F F 25 方差分析的基本思想 n将k个水平 处理 的观测值作为一个整体看 待 利用方差的可分解性 把观测值总变异的 离差平方和及自由度分解为相应于不同变异来 源的离差平方和及自由度 进而获得不同变异 来源总体方差估计值 通过计算这些总体方差 估计值的适当比值 即F比值 并以此比值的 大小来判断各样本所属总体平均数是否相等 目的是检查所讨论因素是否作为系统性因素来 影响试验结果 26 思考题 n有三台机器生产规格相同的铝合金薄板 为检 验三台机器生产薄板的厚度是否相同 随 机从 每台机器

10、生产的薄板中各抽取了5个样品 测 得结果如下 机器1 0 236 0 238 0 248 0 245 0 243 机器2 0 257 0 253 0 255 0 254 0 261 机器3 0 258 0 264 0 259 0 267 0 262 问 三台机器生 产薄板的厚度是否有显著差异 27 思考 有无差异 n某化肥生产商需要检验三种新产品的效果 在 同一地区选取3块同样大小的农田进行试验 甲农田中使用甲化肥 在乙农田使用乙化肥 在丙地使用丙化肥 得到6次试验的结果如表2 所示 试在0 05的显著性水平下分析甲乙丙化 肥的肥效是否存在差异 甲 50 46 49 52 48 48 乙 49

11、 50 47 47 46 49 丙 51 50 49 46 50 50 28 方差分析检验的步骤 n1 检验数据是否符合方差分析的假设条件 n2 提出零假设和备择假设 n零假设 各总体的均值之间没有显著差异 即 n备择假设 至少有两个均值不相等 即 29 方差分析的步骤 n3 根据样本计算F统计量的值 方差分析表 变差来源 离差平方和 SS 自由度 df 均方 MS F值 组 间SSAk 1MSAMSA MSE 组 内SSEnk kMSE 总变异SSTnk 1 30 方差分析的步骤 n4 确定决策规则并根据实际值与临界值的 比较 或者p 值与 的比较得出检验结论 在零假设成立时组间方差与组内方

12、差的比值服从 服从自由度为 k 1 nk k 的 F 分布 临界值 拒绝域 p 值 实际值 F检验的临界值和拒绝域 31 失业保险的例子 1 n在失业保险实验 中 设显著性水 平 0 05 试分 析奖金水平对失 业时间的影响是 否显著 不同奖金水平失业者的再就业时间 天 无奖奖金低奖奖金中奖奖金高奖奖金 92869678 1001089275 85939076 88887787 89897973 90757183 94788282 80727568 78798172 32 失业保险的例子 2 n1 根据前面的分析 数据符合方差分析的假 设条件 n2 提出零假设和备择假设 nH0 1 2 3 4

13、 nH1 1 2 3 4 不全相等 33 失业保险的例子 3 n3 计算F统计量的实际值 手工计算可以按照方差分析表的内容逐步计算 由于计算量大 实际应用中一般要借助于统计软 件 下面是Excel计算的方差分析表 变差来源SS自由度MSFp 值F临界值 组间624 973208 323 040 04332 90 组内2195 333268 60 总变差2820 3135 34 失业保险的例子 4 n4 样本的F值为3 04 n由于 因此我们应拒绝零假设 从而得出奖金水平对再就业 时间有显著影响的结论 n类似的 由于 可以得出 同样的结论 2 9 0 0433 0 05 3 04 35 例2 热

14、带雨林 1 n各水平下的样本容量不同时单因素方差分析的 方法也完全适用 只是公式的形式稍有不同 在使用软件进行分析时几乎看不出这种差别 一份研究伐木业对热带雨林影响的统计研究报告指 出 环保主义者对于林木采伐 开垦和焚烧导致的 热带雨林的破坏几近绝望 这项研究比较了类似地 块上树木的数量 这些地块有的从未采伐过 有的1 年前采伐过 有的8年前采伐过 根据数据 采伐对 树木数量有显著影响吗 显著性水平 0 05 36 例2 热带雨林 2 n1 正态性检验 直方图 从未采 伐过 1年前采 伐过 8年前采 伐过 271218 22124 291522 21915 192018 331819 1617

15、22 201412 241412 272 2817 1919 37 例2 热带雨林 3 n同方差性检验 最大值与最小值之比等于33 19 4 81 1 34 明显小于4 因此可以认为是等方差的 组计数求和平均方差 从未采伐过1228523 75 25 66 1年前采伐过1216914 08 24 81 8年前采伐过914215 78 33 19 38 例2 热带雨林 4 n2 提出零假设和备择假设 n零假设 雨林采伐对林木数量没有显著影响 各组均值相等 n备择假设 雨林采伐对是有显著影响 各组 均值不全相等 39 例2 热带雨林 5 n3 方差分析表 n4 结论 nF值 11 43 3 32

16、p 值 0 0002 0 05 因此检验 的结论是采伐对林木数量有显著影响 变差源SSdfMSFP value F crit 组间625 162312 5811 430 00023 32 组内820 723027 36 总计1445 8832 40 思考 是否意味着每两个处理平均数间的差异 都显著或极显著 n例 测定东北 内蒙古 河北 安徽 贵州5个 地区黄鼬冬季针毛的长 度 每个地区随机抽取4 个样本 测定的结果如 表 试比较各地区黄鼬 针毛长度差异显著性 地 区 东 北 内 蒙 古 河北安徽贵州合计 132 0 29 225 2 23 322 3 232 8 27 426 1 25 122 5 331 2 26 325 8 25 122 9 430 4 26 726 7 25 523 7 和 126 4 109 6104 1 99 091 4530 5 平 均 31 6 0 27 4 0 26 0324 7522 8526 53 41 方差分析中的多重比较 n在方差分析中 不拒绝零假设H0 表示拒绝总体均数 相等的证据不足 分析终止 当零假设H0被拒绝时 我们可以确定至少有两个总体

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号