方差分析及回归分析课件

上传人:枫** 文档编号:567449926 上传时间:2024-07-20 格式:PPT 页数:97 大小:1.97MB
返回 下载 相关 举报
方差分析及回归分析课件_第1页
第1页 / 共97页
方差分析及回归分析课件_第2页
第2页 / 共97页
方差分析及回归分析课件_第3页
第3页 / 共97页
方差分析及回归分析课件_第4页
第4页 / 共97页
方差分析及回归分析课件_第5页
第5页 / 共97页
点击查看更多>>
资源描述

《方差分析及回归分析课件》由会员分享,可在线阅读,更多相关《方差分析及回归分析课件(97页珍藏版)》请在金锄头文库上搜索。

1、第九章 方差分析及回归分析单因素试验 一元线性回归 多元线性回归1方差分析及回归分析优秀课件方差分析的提出 2方差分析及回归分析优秀课件方差分析的概念 试验指标:在试验中要考察的指标试验指标:在试验中要考察的指标因素:影响试验指标的条件。包括可控因素和不可控因素因素:影响试验指标的条件。包括可控因素和不可控因素单因素试验:在一项试验中只有一个因素在改变的试验单因素试验:在一项试验中只有一个因素在改变的试验多因素试验:在一项试验中多于一个因素在改变的试验多因素试验:在一项试验中多于一个因素在改变的试验水平:因素所处的状态水平:因素所处的状态3方差分析及回归分析优秀课件4方差分析及回归分析优秀课件

2、5方差分析及回归分析优秀课件6方差分析及回归分析优秀课件7方差分析及回归分析优秀课件8方差分析及回归分析优秀课件9方差分析及回归分析优秀课件1单因素试验的方差分析 在一项试验中只有一个因素在改变的试验。如只考在一项试验中只有一个因素在改变的试验。如只考虑氮肥的不同施用量对水稻产量的影响,而不考虑其他虑氮肥的不同施用量对水稻产量的影响,而不考虑其他原因对产量的影响。得到如下数据:原因对产量的影响。得到如下数据:(一)单因素试验10方差分析及回归分析优秀课件一一般般地地,对对一一个个单单因因素素试试验验,假假设设因因素素有有s(s2)个个水水平平,n个个对对象象参参与与了了试试验验。假假定定对对应

3、应于于因因素素第第j个个水水平平的的组组中中有有 个个试试验验对对象象,相相应应变变量量数数据为据为通常假定通常假定11方差分析及回归分析优秀课件方差分析的三个基本条件方差分析的三个基本条件独立性独立性. .数据是来自数据是来自s s个独立总体的简单随机样本个独立总体的简单随机样本正态性正态性. .s s个独立总体均为正态总体个独立总体均为正态总体方差齐性方差齐性. .s s个独立总体的方差都相同个独立总体的方差都相同12方差分析及回归分析优秀课件13方差分析及回归分析优秀课件检验假设假设等价于14方差分析及回归分析优秀课件(二)平方和分解15方差分析及回归分析优秀课件证明: 16方差分析及回

4、归分析优秀课件17方差分析及回归分析优秀课件18方差分析及回归分析优秀课件19方差分析及回归分析优秀课件方差来源方差来源平方和平方和自由度自由度均方均方F比比因素因素As-1误差误差n-s总和总和n-1单因素试验方差分析表单因素试验方差分析表20方差分析及回归分析优秀课件21方差分析及回归分析优秀课件例例1: 设设有有5种种治治疗疗荨荨麻麻疹疹的的药药,要要比比较较它它们们的的疗疗效效。假假设设将将30个个病病人人分分成成5组组,每每组组6人人,令令同同组组病病人人使使用用一一种种药药,并并记记录录病病人人从从使使用用药药物物开开始始到到痊愈所需时间,得到下面的记录:痊愈所需时间,得到下面的记

5、录:( =0.05)药物x治愈所需天数y15,8,7,7,10,824,6,6,3,5,636,4,4,5,4,347,4,6,6,3,559,3,5,7,7,622方差分析及回归分析优秀课件这里药物是因素,共有这里药物是因素,共有5 5个水平,这是一个单因个水平,这是一个单因素方差分析问题,要检验的假设是素方差分析问题,要检验的假设是“所有药物所有药物的效果都没有差别的效果都没有差别”。 方方差差分分析析表表方差来源方差来源平方和平方和自由度自由度均方均方F比比药物因素药物因素36.466749.1167 3.90误差误差58.5000252.3334总和总和94.96672923方差分析及

6、回归分析优秀课件未知参数的估计24方差分析及回归分析优秀课件25方差分析及回归分析优秀课件26方差分析及回归分析优秀课件27方差分析及回归分析优秀课件28方差分析及回归分析优秀课件例例4 4:某高校随机抽取了四个年级共:某高校随机抽取了四个年级共6161名学生,对他们的月名学生,对他们的月生活费作问卷调查,考察不同年级同学月生活费间是否有生活费作问卷调查,考察不同年级同学月生活费间是否有显著差异。设数据符合单因素方差分析模型所要求的条件。显著差异。设数据符合单因素方差分析模型所要求的条件。(1 1)完成下列方差分析表)完成下列方差分析表(2 2)在显著性水平)在显著性水平0.010.01下,检

7、验各年级同学月生活费是否下,检验各年级同学月生活费是否有显著差异?(说明理由)有显著差异?(说明理由)29方差分析及回归分析优秀课件30方差分析及回归分析优秀课件31方差分析及回归分析优秀课件3 一元线性回归分析一、确定性关系:一、确定性关系: 当当自自变变量量给给定定一一个个值值时时,就就确确定定应应变变量量的的值值与之对应。即有与之对应。即有 y=f(x) 如如:在在自自由由落落体体中中,物物体体下下落落的的高高度度h与与下下落时间落时间t之间有函数关系:之间有函数关系: 变量与变量之间的关系 32方差分析及回归分析优秀课件二、相关性关系:二、相关性关系: 变变量量之之间间的的关关系系并并

8、不不确确定定,而而是是表表现现为为具具有有随随机机性性的的一一种种“趋趋势势”。即即对对自自变变量量x的的同同一一值值,在在不不同同的的观观测测中中,因因变变量量Y可可以以取取不不同同的的值值,而而且且取取值值是是随随机机的的,但但对对应应x在在一一定定范范围围的的不不同同值值,对对Y进进行行观观测测时时,可可以以观观察察到到Y随随x的的变变化化而而呈呈现现有一定趋势的变化。有一定趋势的变化。 如如:身身高高与与体体重重,不不存存在在这这样样的的函函数数可可以以由由身身高高计计算算出出体体重重,但但从从统统计计意意义义上上来来说说,身身高高者者,体也重。体也重。 再再如如:父父亲亲的的身身高高

9、与与儿儿子子的的身身高高之之间间也也有有一一定联系,通常父亲高,儿子也高。定联系,通常父亲高,儿子也高。回归分析回归分析研究相关性关系的最基本、应用最研究相关性关系的最基本、应用最广泛的方法。广泛的方法。33方差分析及回归分析优秀课件(一)一元线性回归34方差分析及回归分析优秀课件35方差分析及回归分析优秀课件在实际问题中,回归函数(x)一般是未知的,需要根据试验数据去估计, 而Y是可以观察的。36方差分析及回归分析优秀课件37方差分析及回归分析优秀课件38方差分析及回归分析优秀课件一元线性回归要解决的问题:39方差分析及回归分析优秀课件(二)a,b的估计最小二乘估计40方差分析及回归分析优秀

10、课件正规方程系数行列式不为0,方程有唯一解41方差分析及回归分析优秀课件在误差为正态分布假定下,最小二乘估计等价于极大似然估计。事实上,似然函数42方差分析及回归分析优秀课件43方差分析及回归分析优秀课件关于计算44方差分析及回归分析优秀课件例1 K.Pearson收集了大量父亲身高与儿子身高的资料。其中十对如下:父亲身高父亲身高x(英寸)(英寸)60626465666768707274儿子身高儿子身高y(英寸)(英寸)63.6 65.26665.5 66.9 67.1 67.4 68.3 70.170求Y关于x的线性回归方程。注:1英寸=2.54厘米45方差分析及回归分析优秀课件46方差分析

11、及回归分析优秀课件(三)误差方差的估计误差方差估计的意义误差方差估计的意义:误差方差的大小对模型好坏有很大的误差方差的大小对模型好坏有很大的影响。影响。自变量对因变量影响的大小是同误差自变量对因变量影响的大小是同误差对因变量的影响相比较的。如果自变对因变量的影响相比较的。如果自变量对因变量的影响不能显著的超过误量对因变量的影响不能显著的超过误差对因变量的影响,就很难从这样的差对因变量的影响,就很难从这样的模型中提炼出有效的、有足够精度的模型中提炼出有效的、有足够精度的信息。信息。47方差分析及回归分析优秀课件48方差分析及回归分析优秀课件49方差分析及回归分析优秀课件例2: 求例1中误差方差的

12、无偏估计。50方差分析及回归分析优秀课件(1 1)影响)影响Y取值的,除了取值的,除了x,还有其他不可忽略的因素;,还有其他不可忽略的因素;(2 2)E(Y)与与x的关系不是线性关系,而是其他关系;的关系不是线性关系,而是其他关系;(3 3)Y与与x不存在关系。不存在关系。(四)线性假设的显著性检验(四)线性假设的显著性检验 采用最小二乘法估采用最小二乘法估计参数参数a和和b,并不需要事先知道,并不需要事先知道Y与与x之之间一定具有相关关系,即使是平面一定具有相关关系,即使是平面图上一堆完全上一堆完全杂乱无章的乱无章的散点,也可以用公式求出回散点,也可以用公式求出回归方程。因此方程。因此(x)

13、是否为是否为x的线性的线性函数,一要根据专业知识和实践来判断,二要根据实际观察得函数,一要根据专业知识和实践来判断,二要根据实际观察得到的数据用假设检验方法来判断。到的数据用假设检验方法来判断。若原假设被拒绝,说明回归效果是显著的,否则,若原假设被拒绝,说明回归效果是显著的,否则,若接受原假设,说明若接受原假设,说明Y与与x不是线性关系,回归方程不是线性关系,回归方程无意义。回归效果不显著的原因可能有以下几种:无意义。回归效果不显著的原因可能有以下几种:51方差分析及回归分析优秀课件52方差分析及回归分析优秀课件53方差分析及回归分析优秀课件54方差分析及回归分析优秀课件55方差分析及回归分析

14、优秀课件56方差分析及回归分析优秀课件57方差分析及回归分析优秀课件例3 检验例1中回归效果是否显著,取=0.05。58方差分析及回归分析优秀课件*也可用方差分析检验回归效果是否显著59方差分析及回归分析优秀课件(五)回归系数b的置信区间当回归效果显著时,常需要对回归系数b 作区间估计60方差分析及回归分析优秀课件 (六)回归函数 函数值的点估计和置信区间61方差分析及回归分析优秀课件62方差分析及回归分析优秀课件(七)Y的观察值的点预测和预测区间63方差分析及回归分析优秀课件64方差分析及回归分析优秀课件65方差分析及回归分析优秀课件注:在预测时, 一定要落在已有的 的数据范围内部,否则预测

15、常常没有意义。 66方差分析及回归分析优秀课件例例4 4,有人曾断言,有人曾断言“儿子身高会受到父亲身高的影响,但身儿子身高会受到父亲身高的影响,但身高偏离父代平均水平的父亲,其儿子的身高有回归到子代高偏离父代平均水平的父亲,其儿子的身高有回归到子代平均水平的趋势。平均水平的趋势。”试问例试问例1 1这组数据能证实这一论断吗这组数据能证实这一论断吗 ( (=0.05) ?=0.05) ?当当x=69=69时时, ,求求( (x) )的置信及的置信及y y的预测区间。的预测区间。(1)(1)回归到平均水平的趋势,即检验回归到平均水平的趋势,即检验 父代的平均身高父代的平均身高x0与子代的平均身高

16、与子代的平均身高y0可能是不可能是不同的。如果父亲偏离多少,儿子有相同偏离的话,同的。如果父亲偏离多少,儿子有相同偏离的话,则应该有则应该有y-y0=x-x0,其斜率,其斜率b为为1。如果。如果“有回归有回归到平均水平的趋势到平均水平的趋势”(即父亲(即父亲“特高特高”,儿子,儿子“较高较高”;父亲;父亲“特矮特矮”,儿子,儿子“较矮较矮”),则),则b1。67方差分析及回归分析优秀课件68方差分析及回归分析优秀课件例例5 合合金金钢钢的的强强度度y与与钢钢材材中中碳碳的的含含量量x有有密密切切关关系系。为为了了冶冶炼炼出出符符合合要要求求强强度度的的钢钢常常常常通通过过控控制制钢钢水水中中的

17、的碳碳含含量来达到目的,为此需要了解量来达到目的,为此需要了解y与与x之间的关系。其中之间的关系。其中x:碳含量():碳含量() y:钢的强度(:钢的强度(kg/mm2)数据见下:)数据见下:x0.030.040.050.070.090.100.120.150.170.20y40.539.541.041.543.042.045.047.553.056.0(1)画出散点图;()画出散点图;(2)设)设( (x)=)=a+ +bx, ,求求a,b的估计;的估计;(3 3)求误差方差的估计,画出残差图;()求误差方差的估计,画出残差图;(4 4)检验回归)检验回归系数系数b是否为零(取是否为零(取=

18、0.05)=0.05);(;(5 5)求回归系数)求回归系数b的的9595置置信区间;(信区间;(6 6)求在)求在x=0.06=0.06点,回归函数的点估计和点,回归函数的点估计和9595置信区间;(置信区间;(7 7)求在)求在x=0.06=0.06点,点,Y的点预测和的点预测和9595区间区间预测。预测。 69方差分析及回归分析优秀课件 0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.1956 54 52 50 48 46 44 42 40 38 (1)合金钢的强度y与钢材中碳的含量x的散点图70方差分析及回归分析优秀课件x0.030.040.050.

19、070.090.100.120.150.170.20y40.539.541.041.543.042.045.047.553.056.071方差分析及回归分析优秀课件 0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.19 x0e72方差分析及回归分析优秀课件 0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.1956 54 52 50 48 46 44 42 40 38 合金钢的强度y与钢材中碳的含量x的回归直线图73方差分析及回归分析优秀课件74方差分析及回归分析优秀课件75方差分析及回归分析优秀课件(八)可化为一元线性回归

20、的例子(八)可化为一元线性回归的例子 在实际问题中,常常会遇到这样的情在实际问题中,常常会遇到这样的情形:散点图上的几个样本数据点明显地不形:散点图上的几个样本数据点明显地不在一条直线附近,而在某曲线周围。在一条直线附近,而在某曲线周围。 或者,用线性回归方程描述变量间的或者,用线性回归方程描述变量间的关系计算的结果与样本值误差较大,这表关系计算的结果与样本值误差较大,这表明变量之间不存在线性相关关系,而是一明变量之间不存在线性相关关系,而是一种非线性的相关关系种非线性的相关关系. 但在某些情况下,通过适当的变量变但在某些情况下,通过适当的变量变换,可将其化为一元线性回归来处理。换,可将其化为

21、一元线性回归来处理。 下面是几种常见的可转化为一元线性下面是几种常见的可转化为一元线性回归的模型。回归的模型。 76方差分析及回归分析优秀课件可化为一元线性回归的例子 77方差分析及回归分析优秀课件78方差分析及回归分析优秀课件例例 在彩色显像技术中,考虑析出银的光学密度在彩色显像技术中,考虑析出银的光学密度x x与形成染料光学密度与形成染料光学密度Y Y之间的相关关系,其中之间的相关关系,其中 11 11个样本数据如下所示:个样本数据如下所示:xi0.050.060.070.100.140.200.250.310.380.430.47yi0.100.140.230.370.590.791.0

22、01.121.191.251.29解解 根据这根据这11个样本数据点个样本数据点(xi,yi)作出散点图)作出散点图. 从散点图上看出,这些数据从散点图上看出,这些数据点在一条曲线点在一条曲线L周围周围.79方差分析及回归分析优秀课件根据有关的专业知识,结合散点图,可以认为根据有关的专业知识,结合散点图,可以认为曲线曲线L大致为:大致为:80方差分析及回归分析优秀课件0.250.220.170.110.00-0.24-0.53-0.99-1.47-1.97-2.302.132.332.633.234.005.007.1410.0014.2916.6720.00于是数据(于是数据( )相应地变换

23、成()相应地变换成( )将变换后的数据点(将变换后的数据点( )画出散点图)画出散点图从散点图可以看出从散点图可以看出 与与 具具有线性相关关系,因此用一有线性相关关系,因此用一元线性回归分析元线性回归分析.利用一元线性回归的方法可利用一元线性回归的方法可以计算出以计算出 与与 的经验回归的经验回归方程为方程为81方差分析及回归分析优秀课件可求得可求得x与与y之间相关关系的一个经验公式:之间相关关系的一个经验公式:这里这里a=0.58,b= -0.15所以所以82方差分析及回归分析优秀课件332.1213.9142.443.8619.729.95时间t(分秒)15001000800400200

24、100距离距离X X(米)(米)例例 赛跑是大家熟知的一种体育活动。下表给出了赛跑是大家熟知的一种体育活动。下表给出了截至截至1997年底在年底在6个不同的距离上中短跑成绩的世个不同的距离上中短跑成绩的世界记录:界记录:试根据这些记录数据分析出运动员的赛跑成绩与试根据这些记录数据分析出运动员的赛跑成绩与所跑距离间的相关关系。所跑距离间的相关关系。83方差分析及回归分析优秀课件解解 根据记录数据点(根据记录数据点(xi,ti)作出散点图)作出散点图 从散点图上看出,全部点(从散点图上看出,全部点(xi,ti)分布在)分布在一条曲线附近,因而一条曲线附近,因而x与与t之间可以存在一种线之间可以存在

25、一种线性关系。性关系。 用一元线性回归分析,可计算出用一元线性回归分析,可计算出x与与t间的线性间的线性回归模型为回归模型为 t = - -99.9+0.1455x84方差分析及回归分析优秀课件由此模型,当由此模型,当x=100,200,400,800,1000,1500(米米)时,时,t的理论值的理论值: 4.56, 19.10,48.20,146.4,215.5,328.2可以看出可以看出t的理论值与实际记录数据多数都比较接近。的理论值与实际记录数据多数都比较接近。仔细分析,可发现线性回归模型的一些不合理之处。仔细分析,可发现线性回归模型的一些不合理之处。如:当赛跑距离小于如:当赛跑距离小

26、于68米时,所需时间为负值;米时,所需时间为负值;当赛跑距离为当赛跑距离为100米时所需时间只须米时所需时间只须4.56.再仔细分析,发现:短距离再仔细分析,发现:短距离100米、米、200米及长距离米及长距离1500米需要的时间实际值均高于线性模型的理论值,米需要的时间实际值均高于线性模型的理论值,而中间的而中间的400米、米、800米、米、1000米需要的时间实际值均米需要的时间实际值均低于线性模型的理论值低于线性模型的理论值.t的实际值的实际值: 9.95, 19.72,43.86,142.4,213.95,332.185方差分析及回归分析优秀课件它告诉我们它告诉我们x与与t的关系可能为

27、一曲线,且曲线是的关系可能为一曲线,且曲线是下凸的。下凸的。对上式二边取对数对上式二边取对数lnt=lna+blnx令t=lnt a=lna x=lnx得 t= a+b x为一线性关系具有这种性质的最简单曲线当属幂函数:具有这种性质的最简单曲线当属幂函数:t=axb86方差分析及回归分析优秀课件用一元线性回归分析估计用一元线性回归分析估计a、b,从而算出,从而算出最后可得最后可得t与与x间的幂函数模型:间的幂函数模型: t=0.48x1.145当当x=100,200,400,800,1000,1500(米)时,(米)时,利用幂函数模型算出利用幂函数模型算出t的理论值分别为:的理论值分别为:t的

28、理论值2: 9.39,20.78,45.96,141.68, 211.29,328.88比较计算结果可知:幂函数模型比线性回归模型比较计算结果可知:幂函数模型比线性回归模型更能确切地反映更能确切地反映t与与x间的关系。间的关系。t的理论值1: 4.56, 19.10,48.20,146.4,215.5,328.2t的实际值: 9.95, 19.72,43.86,142.4,213.95,332.187方差分析及回归分析优秀课件4 多元线性回归 在实际问题中,影响在实际问题中,影响Y(因变量)的因素(自变量)(因变量)的因素(自变量)往往不止一个,设有往往不止一个,设有 88方差分析及回归分析优

29、秀课件89方差分析及回归分析优秀课件90方差分析及回归分析优秀课件91方差分析及回归分析优秀课件92方差分析及回归分析优秀课件93方差分析及回归分析优秀课件例6 某公司在各地区销售一种特殊化妆品。该公司观测了15 个城市在某月内对该化妆品的销售量Y及各地区适合使用该化妆品的人数X1和人均收入X2,得到数据如下: 表1.1.2 化妆品销售的调查数据 地区i销售(箱)Yi人数(千人)Xi1人均收入(元)Xi2116227424502120180325432233753802413120528385678623476169265378278198300894方差分析及回归分析优秀课件地区i销售(箱)

30、Yi人数(千人)Xi1人均收入 (元)Xi281923302450911619521371055532560112524304020122323724427131442362660141031572088152123702605化妆品销售的调查数据(续) 95方差分析及回归分析优秀课件96方差分析及回归分析优秀课件由回归方程可知,若固定人均收入不变,则人数每增加1千人,销售量增加0.496箱;若固定人数不变,收入每增加1元,销售量增加0.0092箱。 多元线性回归也可以像一元线性回归一样,检验模型多元线性回归也可以像一元线性回归一样,检验模型的回归效果是否显著。所不同的是,在模型的回归效果显的回归效果是否显著。所不同的是,在模型的回归效果显著的情况下,还要检验每个自变量对因变量的效应是否显著的情况下,还要检验每个自变量对因变量的效应是否显著,不显著就要剔除,通常用逐步回归法可以使回归方程著,不显著就要剔除,通常用逐步回归法可以使回归方程变得简洁、明确、显著。在此基础上可以对给定点处对应变得简洁、明确、显著。在此基础上可以对给定点处对应的的Y进行点预测和区间预测。所有这些都可以通过进行点预测和区间预测。所有这些都可以通过SASSAS软件软件实现。实现。97方差分析及回归分析优秀课件

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号