EXCEL与数据分析课件(5)

上传人:豆浆 文档编号:697134 上传时间:2017-05-10 格式:PPT 页数:35 大小:9.30MB
返回 下载 相关 举报
EXCEL与数据分析课件(5)_第1页
第1页 / 共35页
EXCEL与数据分析课件(5)_第2页
第2页 / 共35页
EXCEL与数据分析课件(5)_第3页
第3页 / 共35页
EXCEL与数据分析课件(5)_第4页
第4页 / 共35页
EXCEL与数据分析课件(5)_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《EXCEL与数据分析课件(5)》由会员分享,可在线阅读,更多相关《EXCEL与数据分析课件(5)(35页珍藏版)》请在金锄头文库上搜索。

1、1 授课教师:马银戌 第五章 数据间的差异性分析 2 第一节 数据间的差异性 第二节 单因素方差分析 本章主要教学内容 3 第一节 数据间的差异性 一、 研究数据间差异性的意义 二、 研究数据间差异性的方法 三、 方差分析的基础概念 4 一、 研究数据间差异性的意义 差异性是事物个体存在的根本,也是世间万物丰富多彩的根源。人们通过对事物间差异性的探索,进一步寻找影响差异性的决定因素,并通过对决定因素的控制逐步趋近事物的最优状态。 例如,在农业生产中,同一农作物的亩产量是不同的,有高有低,存在不同程度的个体差异性。为了实现低成本、高产量的最优目标,人们就会对影响农作物产量的因素进行分析。显然影响

2、因素是众多的,如品种、施肥量、气候、地域等,都会对亩产量带来或多或少的影响。如果能够从这众多的影响因素中找到某些关键因素,如种子、施肥量,人们就可以根据实际情况对这些关键因素加以控制。 5 。 进一步地,如果能够得知如甲品种能更有效地提高产量,那么人们就可以在以后的种植中选用这个品种 。同样,如果在得知施肥量是影响亩产量的关键性因素的同时,也得知哪种施肥量水平对亩产量增产更有意义,那么人们就可以采用一个恰当的施肥量,既能够提高产量,也能够降低成本。同时如果再与优良品种进行搭配,就会得到一个较优的种植 方案 。 因此,分析数据间的差异性,从数据的差异性入手寻根溯源是一种很有效的数据分析思路和方法

3、。 6 二、研究数据间差异性的方法 研究数据间差异性的方法主要用方差分析。 方差分析是通过对多个总体均值是否相等这一假设进行检验来分析数据间的差异性的。 方差分析 单因素方差分析 双因素方差分析 可重复双因素分析 无重复双因素分析 7 1、方差分析首先将引起数据差异的因素分为控制因素和随机因素两类。 随机因素: 指人为很难控制的因素,也称为随机变量。如在影响亩产量的因素中, 气候 、 地域 差异影响就属于随机变量。 三、方差分析的基础概念 控制因素: 指人为可以控制的因素,也称为控制变量。如将影响亩产量的因素分为两类,其中,农作物 品种 的选定、施肥量 的控制属于控制变量。 2、 控制变量、控

4、制变量的水平、观测变量 是方差分析中的重要概念。 8 在区分了两类不同的影响因素后,接下来要对控制因素进行分析。例如,考察农作物品种这个影响因素时,可以选用甲、乙两个不同的品种,在其他条件都相近的两批地块中分别种植;再如考察施肥量因素时,可以选用 10公斤、 20公斤、 30公斤三种不同的施肥量水平,在其他条件都相近的三批地块中分别施肥。方差分析将上述 甲、乙 两个品种,称为“ 品种 ” 这个 控制变量 的两个不同 水平 ,在不同控制变量的不同水平下,会得到不同品种下农作物的亩产量数据,或者不同施肥量水平下的亩产量数据。 亩产量在方差分析中被称为 观测变量 。 然后,分析控制变量不同水平下的观

5、测变量。 9 例如,对亩产量这个观测变量进行分析,可能会得到多组亩产量数据。如果发现甲、乙两个品种所获得的亩产量总体均值相差不显著,可以认为甲、乙两个品种没有对亩产量产生显著影响,今后种植过程中选用哪个品种都可以。同样地,对亩产量数据进行分析,如果发现三种不同水平的施肥量下获得的亩产量数据差异性较大,而且,施肥量 20公斤的地块亩产量明显高于施肥量 10公斤,但施肥量 30公斤的地块亩产量不明显高于施肥量 20公斤的地块,那么今后在种植过程中就应选择每亩施肥量 20公斤,这样不但提高了产量,也有效降低了生产成本。 10 方差分析就是要分析控制变量的不同水平是否对观测变量产生了显著影响。如果控制

6、变量的不同水平对实验结果产生了显著影响,那么,它和随机变量的共同作用必然使得观测变量数据有显著变动;相反,如果控制变量的不同水平对试验结果没有产生显著影响,那么,观测变量数据的变动就不会明显表现出来,它的变动可以归结为随机变量影响造成的。 根据控制变量的个数可以将方差分析分成单因素方差分析和多因素方差分析。顾名思义,单因素方差分析中的控制变量只有一个,而多因素方差分析中的控制变量有多个。实际中常用单因素方差分析和多因素方差分析中的两因素方差分析。利用 Excel可以实现的也是这些。 11 第二节 单因素方差分析 一、单因素方差分析的思路 二、利用 Excel进行单因素方差分析 12 一、单因素

7、方差分析的思路 单因素方差分析是测度某一个控制变量的不同水平是否给观测变量造成了显著差异和变动。 单因素方差分析可以应用在很多方面。如,考察不同施肥量是否给农作物亩产量造成显著差异;考察不同学历是否对职工收入产生显著影响;考察商品包装的不同颜色是否对销售量产生显著影响等等。 分析某控制变量的不同水平是否给观测变量造成了显著差异和变动,重要的分析依据是数据。从上述数据的获得过程可知,方差分析中观测变量数据应看做来自控制变量不同水平下观测变量总体中的独立样本。 13 例如,为考察三种不同的施肥量水平是否给农作物亩产量带来显著影响,实验所获得的三组亩产量数据(见下表 5-1)应看做分别来自三个不同施

8、肥量水平下亩产量总体的样本数据。 表 5-1( a) 不同施肥量水平下的亩产量的样本数据 10公斤 20公斤 30公斤 500 600 620 500 600 620 500 600 620 14 表 5-1( b) 不同施肥量水平下的亩产量的样本数据 10公斤 20公斤 30公斤 501 503 502 502 502 503 503 501 501 表 5-1( c) 不同施肥量水平下的亩产量的样本数据 10公斤 20公斤 30公斤 608 510 604 510 601 501 521 524 530 15 由于方差分析是从观测变量的差异入手分析并究其成因的,可以看出表 5-1( a)中

9、亩产量的样本数据的差异主要是由于施肥量不同造成的;导致表 5-1( b)中的亩产量样本数据差异的主要原因并不是施肥量,而是其他随机因素;对表 5-1( c)中亩产量数据的差异性则很难通过直观的观察得到结论。 方差分析正是通过分析样本数据,对观测变量各总体分布是否存在显著性差异进行推断。 根据统计中假设检验的分析思路,在单因素方差分析中,首先提出原假设:控制变量的不同水平下,观测变量各总体的均值没有显著差异,即控制变量的不同水平对观测变量没有产生显著影响;然后构造检验统计量。单因素方差分析中采用 F 检验统计量,它的构造体现了方差分析的基本研究思路。 16 方差分析将影响观测变量取值的因素分为两

10、类,即由控制变量引起的和由其他随机因素引起的。于是,单因素方差分析将观测变量的总变差( SST)分解为组间差( SSA)和组内差( SSE),它们分别反映控制变量引起的变差和随机因素引起的变差。于是, F 统计量定义为: M SEM SAknSSEkSSAF )/()/( 1式中, k表示控制变量的 k个水平, n表示样本容量,MSA表示平均的组间差, MSE表示平均的 组内差。 17 可见,如果控制变量的不同水平对观测变量造成了显著的影响,那么观测变量的总变差中由控制变量引起的比例应较大,于是, F统计量的观测值就比较大。如果 F统计量的观测值大于其临界值,或其概率 p值小于显著性水平 a,

11、则应拒绝原假设,认为控制变量的不同水平下,观测变量各总体的均值存在显著差异,也即控制变量的不同水平对观测变量产生了显著影响;相反,如果控制变量的不同水平没有对观测变量造成显著影响,观测变量的变差归结为随机变量造成的,那么观测变量的总变差中由控制变量引起的比例应较小。如果 F 统计量的观测值小于其临界值,或其概率 p值大于显著性水平 a,则不应拒绝原假设,认为控制变量的不同水平下,观测变量各总体的均值不存在显著差异,即控制变量的不同水平没有对观测变量产生显著影响。 18 二、利用 Excel进行单因素方差分析 Excel中的“方差分析是通过“工具”中的“数据分析”命令中的“方差分析:单因素方差分

12、析”来实现的。 下面结合 【 例 5.1】 来了解该分析工具的具体操作步骤及如何对结果进行分析。 例 5.1 为比较三种不同施肥量方案是否对提高亩产量有显著作用,分别在地质情况相同的不同地块进行了实验,获得三组亩产量样本数据。现利用单因素方差分析,针对已有的数据研究施肥量是否对亩产量产生了显著影响。 19 EXCEL中,单因素分析的基本操作步骤如下: ( 1)选择 “ 工具 ” 菜单中的 “ 数据分析 ” 命令,出现如下对话框: ( 2)选择 “方差分析:单因素方差分析” ,单击“ 确定 ” ,出现 “ 方差分析 ” 的复选框: 20 ( 3)在 “ 输入区域 ” 框中输入待分析数据所在的单元

13、格地址,并在 “ 输出选项 ” 中进行选择 ,单击 “ 确定 ” ,即可出现方差分析的结果。 单因素方差分析结果包括以下两部分: 第一部分是对观测变量的描述性分析结果,包括控制变量各水平下的样本容量、总和、均值和方差。 21 第二部分是方差分析表。其中: *“ 差异源 ” 下的 “ 组间 ” 、 “ 组内 ” 、 “ 总计 ” 行分别表示观测变量的 组间差( SSA)、组内差( SSE)和总变差( SST), 此例中它们分别是 28254.7,5877,34131.7。 *df 为自由度。 *MS列下的 14127.3和 391.8分别为平均的组间差 MSA和平均的组内差 MSE。 *F列下的

14、 36.05为 F检验统计量的观测值。 *P-value列下的 1.86E-06,是 F检验统计量的概率 P-值。 *F crit列下的 3.68为 F检验统计量在显著性水平 a为 0.05,自由度为 2,15下的临界值。 22 在显著性水平 a为 0.05的情况下,由于 F检验统计量的观测值大于其临界值,或者 F检验统计量的概率 P-值小于显著性水平 a,则应拒绝原假设,认为不同施肥方案下各亩产量总体的均值存在显著差异,施肥量的不同水平对亩产量产生了显著影响。 由于目前的分析结论是:不同施肥量水平对亩产量产生了影响,于是接下来进一步的分析可以是:哪种施肥量水平下的亩产量最为理想,不同施肥量导

15、致的亩产量差异主要体现在哪个水平上。此时可参考分析结果的第一部分。可以看到,第二种和第三种施肥方案下的亩产量平均值明显高于第一种方案,第二种方案下的平均值高出第一种方案 48.5公斤,第三种方案高出第二种方案 10.2公斤。显然,不同施肥量导致的亩产量差异主要体现在第一与第二、第三水平上。如果再考虑到投入成本,则选择第二种施肥方案比较理想。 23 案例分析 5.2 某企业研制出一种新型饮料,饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色。这四种饮料的营养含量、味道、价格和包装等可能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超市收集了上个月该种饮料的销售量数据。试判断饮料的颜色是否对销售量产生了影响。 在这个案例中, “ 颜色 ” 是控制变量,饮料具体的四种颜色 “ 橘黄色、粉色、绿色和无色 ” 是控制变量的四个 “ 水平 ” ( Excel中输出的结果称为“ 组 ” ), “ 销售量 ” 是观测变量,不同超市、不同颜色饮料的具体销售量是 “ 观测值 ” 。 24 某企业饮料在五家超市的销售量 单位:箱 超市 (观测值 i) 水 平 1无色 2粉色 3橘黄色 4绿色 1 31.2 26.5 27.9 30.8 2 28.3 28.7 25.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 资格认证/考试 > 医师/药师资格考试

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号