社会统计学之方差分析与试验设计

上传人:san****glu 文档编号:49341823 上传时间:2018-07-27 格式:PPT 页数:149 大小:4.23MB
返回 下载 相关 举报
社会统计学之方差分析与试验设计_第1页
第1页 / 共149页
社会统计学之方差分析与试验设计_第2页
第2页 / 共149页
社会统计学之方差分析与试验设计_第3页
第3页 / 共149页
社会统计学之方差分析与试验设计_第4页
第4页 / 共149页
社会统计学之方差分析与试验设计_第5页
第5页 / 共149页
点击查看更多>>
资源描述

《社会统计学之方差分析与试验设计》由会员分享,可在线阅读,更多相关《社会统计学之方差分析与试验设计(149页珍藏版)》请在金锄头文库上搜索。

1、第 6章 方差分析与试验设计统计学1 方差分析引论 2 单因素方差分析 3 方差分析中的多重比较 4 双因素方差分析 5 试验设计初步第 6章 方差分析与试验设计学习目标解释方差分析的概念 解释方差分析的基本思想和原理 掌握单因素方差分析的方法及应用 理解多重比较的意义 掌握双因素方差分析的方法及应用 掌握试验设计的基本原理和方法失业保险案例:为什么要进行方差分析 ?为为了减小失业业保险险支出、促 进进就业业,政府试图为试图为 失业业 者提供再就业奖业奖 励:如果失 业业者可以在限定的时间时间 内重 新就业业,他将可以获获得一定 数额额的奖奖金。政策会有效吗吗 ? 要研究的问题总总体1,1 (

2、奖奖金=1)总总体2,2 (奖奖金=2)总总体3,3 (奖奖金=3)样样本 1样样本 2样样本 3样样本 4总总体4,4 (奖奖金=4)各个总体的均值相等吗? Xf(X)1 2 3 4Xf(X)3 1 2 4 失业保险案例:实验结果1=无奖金 2=低奖金 3=中奖金 4=高奖金。根 据实验结果,可以认为各总体的平均失业 时间相同吗?研究方法:两样本的t检验?用t检验比较两个均值:n每次只能比较两个均值,要解决上述问 题需要进行6次t检验n在整体检验中犯第一类错误的概率显著 增加: 如果在每次t检验中犯第一类错误的概率 等于5%,则在整体检验中等于1-(1- 0.05)6=0.2649方差分析可

3、以用来比较多个均值方差分析(Analysis of variance,ANOVA )的主要目的是通过对方差的比较来检验 多个均值之间差异的显著性。可以看作t检验的扩展,只比较两个均值时与t 检验等价。20世纪20年代由英国统计学家费喧(R. A. Fisher)最早提出的,开始应用于生物和 农业田间试验,以后在许多学科中得到了 广泛应用。1 方差分析引论方差分析及其有关术语 方差分析的基本思想和原理 方差分析的基本假定 问题的一般提法为什么不做两两比较?设有四个总体的均值分别为m1 、 m2、m3 、 m4 ,要检验四个总体的均值是否相等,每次检验两 个的作法共需要进行6次不同的检验,每次检验

4、犯 第一类错误的概率为 ,连续作6次检验犯第类 错误的概率增加到1-(1- )6=0.265,大于0.05。相 应的置信水平会降低到0.956=0.735 一般来说,随着增加个体显著性检验的次数,偶 然因素导致差别的可能性也会增加,(并非均值真 的存在差别) 方差分析方法则是同时考虑所有的样本,因此排 除了错误累积的概率,从而避免拒绝一个真实的 原假设方差分析及其有关术语什么是方差分析(ANOVA)? (analysis of variance) 检验多个总体均值是否相等 通过分析数据的误差判断各总体均值是否相等 研究分类型自变量对数值型因变量的影响 n一个或多个分类型自变量l两个或多个 (k

5、 个) 处理水平或分类n一个数值型因变量 有单因素方差分析和双因素方差分析n单因素方差分析:涉及一个分类的自变量n双因素方差分析:涉及两个分类的自变量什么是方差分析? (例题分析)消费费者对对四个行业业的投诉诉次数 行业业 观测值观测值零售业业旅游业业航空公司家电电制造业业 1 2 3 4 5 6 757 66 49 40 34 53 4468 39 29 45 56 5131 49 21 34 4044 51 65 77 58【 例例 】为了对几个行业的服务质量进行评价,消费者协会为了对几个行业的服务质量进行评价,消费者协会 在在4 4个行业分别抽取了不同的企业作为样本。最近一年中消个行业分

6、别抽取了不同的企业作为样本。最近一年中消 费者对总共费者对总共2323家企业投诉的次数如下表家企业投诉的次数如下表什么是方差分析?(例题分析)分析4个行业之间的服务质量是否有显著差 异,也就是要判断“行业”对“投诉次数”是否 有显著影响 作出这种判断最终被归结为检验这四个行 业被投诉次数的均值是否相等 若它们的均值相等,则意味着“行业”对投诉 次数是没有影响的,即它们之间的服务质量 没有显著差异;若均值不全相等,则意味着 “行业”对投诉次数是有影响的,它们之间的 服务质量有显著差异方差分析中的有关术语因素或因子(factor) 所要检验的对象l分析行业对投诉次数的影响,行业是要检验的因子 水平

7、或处理(treatment) 因子的不同表现l零售业、旅游业、航空公司、家电制造业 观察值 在每个因素水平下得到的样本数据l每个行业被投诉的次数方差分析中的有关术语试验 这里只涉及一个因素,因此称为单因素4水平的 试验 总体 因素的每一个水平可以看作是一个总体l零售业、旅游业、航空公司、家电制造业是4个总体 样本数据 被投诉次数可以看作是从这4个总体中抽取的样 本数据1. 因变量:我们实际测量的、作为结果的变 量,例如失业持续时间。 2. 自变量:作为原因的、把观测结果分成几 个组以进行比较的变量例如奖金水平。 在方差分析中,自变量也被称为因素(factor) 。 因素的不同表现,即每个自变量

8、的不同取值 称为因素的水平或处理(treatment)。 3. 观察值 在每个因素水平下得到的样本数据 每种奖金水平下的失业时间就是观察值试验 这里只涉及一个因素,因此称为单因素四水平的试 验 总体 因素的每一个水平可以看作是一个总体 比如4种奖金水平可以看作是四个总体 样本数据 失业时间可以看作是从这四个总体中抽取的样本数 据方差分析主要用来研究一个定量因变量与一 个或多个定性自变量的关系只有一个自变量的方差分析称为单因素方差 分析。研究多个因素对因变量的影响的方差分析称 为多因素方差分析,其中最简单的情况是 双因素方差分析。 固定效应模型:因素的所有水平都是由实验 者审慎安排而不是随机选择

9、的。随机效应模型:因素的水平是从多个可能的 水平中随机选择的。固定效应和随机效应模型在假设的设置和参 数估计上有所差异,本章研究的都是固定 效应模型。方差分析与回归分析的联系*回归分析主要用来研究定量自变量和定量因 变量之间的关系(以后学习)。 回归分析中方差分析常常用来检验回归方程 的整体显著性。 回归模型中也可以包含定性自变量。这时回 归模型与方差分析模型是等价的。方差分析的基本思想和原理方差分析的基本思想和原理 (图形分析散点图)零售业 旅游业 航空公司 家电制造方差分析的基本思想和原理 (图形分析Mean/SD/1.96*SD箱线图)从散点图上可以看出n不同行业被投诉的次数有明显差异n

10、同一个行业,不同企业被投诉的次数也明显不 同l家电制造被投诉的次数较高,航空公司被投诉的次 数较低行业与被投诉次数之间有一定的关系n如果行业与被投诉次数之间没有关系,那么它 们被投诉的次数应该差不多相同,在散点图上所 呈现的模式也就应该很接近方差分析的基本思想和原理 (图形分析)散点图观察不能提供充分的证据证明不同行业被 投诉的次数之间有显著差异n这种差异可能是由于抽样的随机性造成的需要有更准确的方法来检验这种差异是否显著, 也就是进行方差分析n所以叫方差分析,因为虽然我们感兴趣的是均值 ,但在判断均值之间是否有差异时则需要借助于方 差n这个名字也表示:它是通过对数据误差来源的分 析判断不同总

11、体的均值是否相等。因此,进行方差 分析时,需要考察数据误差的来源方差分析的基本思想和原理方差分析的基本思想和原理 (两类误差)随机误差 因素的同一水平(总体)下,样本各观察值之间的差 异l比如,同一行业下不同企业被投诉次数之间的差异 这种差异可以看成是随机因素的影响,称为随机误 差 系统误差 因素的不同水平(不同总体)之间观察值的差异l比如,不同行业之间的被投诉次数之间的差异 这种差异可能是由于抽样的随机性所造成的,也可 能是由于行业本身所造成的,后者所形成的误差是由 系统性因素造成的,称为系统误差方差分析的基本思想和原理 (误差平方和SS)数据的误差用平方和(sum of squares)表

12、示 组内平方和(within groups) 因素的同一水平下数据误差的平方和l比如,零售业被投诉次数的误差平方和 只包含随机误差 组间平方和(between groups) 因素的不同水平之间数据误差的平方和l比如,4个行业被投诉次数之间的误差平方和 既包括随机误差,也包括系统误差方差分析的基本思想和原理 (均方MS)平方和除以相应的自由度 若原假设成立,组间均方与组内均方的数值就应 该很接近,它们的比值就会接近1 若原假设不成立,组间均方会大于组内均方,它 们之间的比值就会大于1 当这个比值大到某种程度时,就可以说不同水平 之间存在着显著差异,即自变量对因变量有影响 判断行业对投诉次数是否

13、有显著影响,也就是检验 被投诉次数的差异主要是由于什么原因所引起的。如 果这种差异主要是系统误差,说明不同行业对投诉次 数有显著影响方差分析的基本假定方差分析的基本假定每个总体都应服从正态分布 对于因素的每一个水平,其观察值是来自服从 正态分布总体的简单随机样本 比如,每个行业被投诉的次数必须服从正态分 布 各个总体的方差必须相同 各组观察数据是从具有相同方差的总体中抽取 的 比如,4个行业被投诉次数的方差都相等 观察值是独立的 比如,每个行业被投诉的次数与其他行业被投 诉的次数独立方差分析中的基本假定在上述假定条件下,判断行业对投诉次数是 否有显著影响,实际上也就是检验具有同方差 的4个正态

14、总体的均值是否相等 如果4个总体的均值相等,可以期望4个样本 的均值也会很接近 4个样本的均值越接近,推断4个总体均值相等 的证据也就越充分 样本均值越不同,推断总体均值不同的证据就 越充分 方差分析中的基本假定 如果原假设成立,即H0 : m1 = m2 = m3 = m4n4个行业被投诉次数的均值都相等n意味着每个样本都来自均值为、方差为 2的 同一正态总体 X Xf(X)f(X)1 1 2 2 3 3 4 4方差分析中的基本假定若备择假设成立,即H1 : mi (i=1,2,3,4)不全相 等n至少有一个总体的均值是不同的n4个样本分别来自均值不同的4个正态总体 X Xf(X)f(X)3

15、 3 1 1 2 2 4 4方差分析的基本假定 (图形分析正态概率图)问题的一般提法问题的一般提法设因素有k个水平,每个水平的均值分别用1 , 2, , k 表示 要检验k个水平(总体)的均值是否相等,需要提出如下 假设: H0 : 1 2 k H1 : 1 , 2 , ,k 不全相等 设1为零售业被投诉次数的均值,2为旅游业被投诉次数的均值,3为航空公司被投诉次数的均值,4为家电制造业被投诉次数的均值,提出的假设为 H0 : 1 2 3 4 H1 : 1 , 2 , 3 , 4 不全相等2 单因素方差分析1 数据结构 2 分析步骤 3 关系强度的测量单因素方差分析的数据结构 (one-way analysis of variance) 观观察值值 ( j )因素(A) i水平A1 水平A2 水平Ak1 2 : : n x11 x21 xk1x12

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 医学/心理学 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号