线性回归分析与方差分析.课件

上传人:鲁** 文档编号:569361990 上传时间:2024-07-29 格式:PPT 页数:87 大小:1.12MB
返回 下载 相关 举报
线性回归分析与方差分析.课件_第1页
第1页 / 共87页
线性回归分析与方差分析.课件_第2页
第2页 / 共87页
线性回归分析与方差分析.课件_第3页
第3页 / 共87页
线性回归分析与方差分析.课件_第4页
第4页 / 共87页
线性回归分析与方差分析.课件_第5页
第5页 / 共87页
点击查看更多>>
资源描述

《线性回归分析与方差分析.课件》由会员分享,可在线阅读,更多相关《线性回归分析与方差分析.课件(87页珍藏版)》请在金锄头文库上搜索。

1、第九章第九章 线性回归分析与方差分析线性回归分析与方差分析 第一节 一元线性回归分析 第二节 可线性化的非线性回归第三节 多元线性回归简介第四节 方差分析第一节 一元线性回归分析 在许多实际问题中,我们常常需要研究多个变量之间的相互关系。一般来说,变量之间的关系可分为两类:一类是确定性关系,确定性关系是指变量之间的关系可以用函数关系来表达,例如电流I电压V电阻R之间有关系式V=IR。 另一类是非确定性关系,有些变量之间的关系是非确定性的关系,这种关系无法用一个精确的函数式来表示。 例如,农作物的单位面积产量与施肥量之间有密切的关系,但是不能由施肥量精确知道单位面积产量,这是因为单位面积产量还受

2、到许多其他因素及 一 些 无 法 控 制 的 随 机 因 素 的 影 响 。 又如,人的身高与体重之间存在一种关系,一般来说 , 人 身 高 越 高 , 体 重 越 大 , 但同样高度的人,体重却往往不同。这种变量之间的 不 确 定 性 关 系 称 之 为 相 关 关 系 。对于具有相关关系的变量,虽然不能找到他们之间的确定表达式,但是通过大量的观测数据,可以发现他们之间存在一定的统计规律,数理统计中研究变量之间相关关系的一种有效方法就是回归分析。一、 一元线性回归模型 其中yi是x=xi时随机变量Y的观测结果.将n对观测结果(xi,yi)(i=1,n)在直角坐标系中进行描点,这种描点图称为散

3、点图散点图.散点图可以帮助我们精略地看出Y与x之间的某种关系. 假定我们要考虑自变量x与因变量Y之间的相关关系假设x为可以控制或可以精确观察的变量,即x为普通的变量。由于自变量x给定后,因变量Y并不能确定,从而Y是一个与x有关的随机变量我们对于可控制变量x取定一组不完全相同的值x1,xn,作n次独立试验,得到n对观测结果:(x1,y1) ,(x2,y2),(xn, yn)例例1 对某广告公司为了研究某一类产品的广告费x用与其销售额Y之间的关系,对多个厂家进行调查,获得如下数据 厂 家123456789广告费6102140626290100120销售额3158124220299190320406

4、380 广告费与销售额之间不可能存在一个明确的函数关系,事实上,即使不同的厂家投入了相同的广告费,其销售额也不会是完全相同的。影响销售额的因素是多种多样的,除了广告投入的影响,还与厂家产品的特色、定价、销售渠道、售后服务以及其他一些偶然因素有关。 画出散点图如图9-1所示.从图中可以看出,随着广告投入费x的增加,销售额Y基本上也呈上升趋势,图中的点大致分布在一条向右上方延伸的直线附近.但各点不完全在一条直线上,这是由于Y还受到其他一些随机因素的影响.这样,Y可以看成是由两部分叠加而成,一部分是x的线性函数a+bx,另一部分是随机因素引起的误差 ,即Y=a+bx+oxy1002003004005

5、0020406080100120L*这就是所谓的这就是所谓的一元线性回归模型一元线性回归模型 图9-1一般地,假设x与Y之间的相关关系可表示为(1)其中:a, b为未知常数为随机误差且未知,x与Y的这种关系称为一元线性回归模型y=a+bx称为回归直线 b称为回归系数此时对于(x, Y)的样本(x1,y1),(xn,yn)有:一元线性回归主要解决下列一些问题: (1)利用样本对未知参数a、b、 进行估计; (2)对回归模型作显著性检验; (3)当x=x0时对Y的取值作预测,即对Y作区间估计. 如果由样本得到式(1)中,a, b的估计值 ,则称 为拟合直线或经验回归直线,它可作为回归直线的估计二、

6、 参数a、b、 的估计最小二乘法就是选择a,b的估计 ,使得Q(a, b)为最小(图9-2) 现在我们用最小二乘法来估计模型(1)中的未知参数a,b.记称Q(a, b)为偏差平方和图9-2为了求Q(a, b)的最小值,分别求Q关于a,b的偏导数,并令它们等于零:经整理后得到式(2)称为正规方程组. (2)由正 规方程组解得其中用最小二乘法求出的估计 、 分别称为a、b的最小二乘估计由矩估计法,可用 估计此时,拟合直线为下面再用矩法求 的估计由于,a、b分别由 、 代入而故 可用作估计对于估计量 、 、 的分布,有:定理定理1(1)(2)(3)(4)分别与 、 独立。例2 在例1中可分别求出a、

7、b、 的估计值为:故经验回归直线为:Y=4.37+0.323x三、线性回归的显著性检验 在实际问题中,事先我们并不能断定Y与x确有线性关系,Y=a+bx+ 只是一种假设.下面说明这一检验的方法.当然,这个假设不是没有根据的,我们可以通过专业知识和散点图来作出粗略判断.但在求出经验回归方程后,还需对这种线性回归方程同实际观测数据拟合的效果进行检验.若假设Y=a+bx+ 符合实际,则b不应为零因为如果b=0,则Y=a+意味着Y与x无关所以Y=a+bx是否合理,归结为对假设:H0: b=0进行检验下面介绍检验假设H0的二种常用方法.且 与 独立1t检验法检验法若H0成立,即b=0,由定理7.1知,因

8、而故为显著性水平即得H0的拒绝域为2 2相关系数检验法相关系数检验法取检验统计量通常称R为样本相关系数.类似于随机变量间的相关系数,R的取值r反映了自变量x与因变量Y之间的线性相关关系.可以推出:在显著性水平 下,当时拒绝H0其中临界值 在附表8中给出相关系数检验法相关系数检验法是工程技术中广是工程技术中广泛应用的一种检泛应用的一种检验方法验方法(1)x对Y没有显著影响;(2)x对Y有显著影响,但这种影响不能用线性相关关系来描述;(3)影响Y取值的,除x外,另有其他不可忽略的因素. 当假设 被拒绝时,就认为Y与x存在线性关系,从而认为回归效果显著;若接受H0,则认为Y与x的关系不能用一元线性回

9、归模型来描述,即回归效果不显著.此时,可能有如下几种情形:因此,在接受H0的同时,需要进一步查明原因分别处理,此时,专业知识往往起着重要作用. 四、四、 预测预测当经过检验发现回归效果显著时,通过回归模型可对Y的取值进行预测. 即当x=x0时,对Y作区间估计.设当x=x0时Y的取值为y0,有可以取经验回归值作为y0的预测值.可以证明从而可得所以,给定置信概率 ,Y0的置信区间为其中可以看出在x0处y的置信区间的长度为当 时置信区间的长度最短,估计最精确,置信区间愈长,估计的精度愈差。当n很大且x0位于 附近时,有于是y0的置信概率为 的预测区间近似为例3 检验例2中的回归效果是否显著,当x0=

10、80时,求出Y0的预测区间。解解 经计算 T=16.9 r=0.98查表,得t0.025(9)=2.26 r0.05=0.602易见,t检验法、相关系数检验法都拒绝H0,即回归效果显著。于是,当x0=80时,y0的预测值为y0的95%的预测区间为(24.73,35.69)第二节 可线性化的非线性回归 在实际问题中,常常会遇到这样的情形:散点图上的几个样本数据点明显地不在一条直线附近,而在某曲线周围: 或者,用线性回归方程描述变量间的关系计算的结果与样本值误差较大,这表明变量之间不存在线性相关关系,而是一种非线性的相关关系.下面举例说明对这类问题用线性化处理的方法。例例1 在彩色显像技术中,考虑

11、析出银的光学密度x与形成染料光学密度Y之间的相关关系,其中11个样本数据如下所示:xi0.050.060.070.100.140.200.250.310.380.430.47yi0.100.140.230.370.590.791.001.121.191.251.29解解 根据这11个样本数据点(xi,yi)作出散点图(图9-3). 图9-3从散点图上看出,这些数据点在一条曲线L周围.根据有关的专业知识,结合散点图,可以认为曲线L大致为:对上式两边取对数:令即有:0.250.220.170.110.00-0.24-0.53-0.99-1.47-1.97-2.302.132.332.633.234

12、.005.007.1410.0014.2916.6720.00于是数据( )相应地变换成( )将变换后的数据点( )画出散点图(图9-4)从散点图可以看出 与 具有线性相关关系,因此用一元线性回归分析.利用一元线性回归的方法可以计算出 与 的经验回归方程为图9-4可求得x与y之间相关关系的一个经验公式:这里a=0.58,b= -0.15所以332.1213.9142.443.8619.729.95时间时间t(分(分秒秒)15001000800400200100距离距离x(米)(米)例例2 赛跑是大家熟知的一种体育活动。下表给出了截至1997年底在6个不同的距离上中短跑成绩的世界记录:试根据这些

13、记录数据分析出运动员的赛跑成绩与所跑距离间的相关关系。解解 根据记录数据点(xi,ti)作出散点图 (图9-5)图9-5从散点图上看出,全部点(xi,ti)分布在一条曲线附近,因而x与t之间可以存在一种线性关系。我们用一无线性回归分析,可计算出x与t间的线性回归模型为 t=-99.9+0.1455x由此模型,当x=100,200,400,800,1000,1500(米)时,t的理论值分别为:4.56, 19.10,48.20,146.4,215.5,328.2可以看出t的理论值与实际记录数据多数都比较接近。仔细分析,可发现线性回归模型的一些不合理之处。如:当赛跑距离小于68米时,所需时间为负值

14、;当赛跑距离为100米时所需时间只须4.56.再仔细分析,发现:短距离100米、200米及长距离1500米需要的时间实际值均高于线性模型的理论值,而中间的400米、800米、1000米需要的时间实际值均低于线性模型的理论值.它告诉我们x与t的关系可能为一曲线,且曲线是下凸的。具有这种性质的最简单曲线当属幂函数:t=axb 它告诉我们x与t的关系可能为一曲线,且曲线是下凸的。对上式二边取对数lnt=lna+blnx令t=lnt a=lna x=lnx得t= a+bx为一线性关系具有这种性质的最简单曲线当属幂函数:t=axb用一元线性回归分析估计a、b,从而算出最后可得t与x间的幂函数模型: t=

15、0.48x1.145当x=100,200,400,800,1000,1500(米)时,利用幂函数模型算出t的理论值分别为:9.39,20.78,45.96,141.68, 211.29,328.88比较计算结果可知:幂函数模型比线性回归模型更能确切地反映t与x间的关系。第三节 多元线性回归简介 其中b0,b1,bp, 为与x1,xp无关的未知参数。假定要考察p个自变量x1,x2,xp与因变量Y之间的相关关系。设这就是p元线性回归模型对变量x1,xp,Y作n次观测得到样本值:( ) i=1,,n这里y1,yn独立、同分布,且有为了简化数学处理,引进矩阵表示,记则等式i=1,,n可表示为用最小二乘

16、法求未知参数的估计,即参数 应使为最小根据高等数学中求最小值的方法,可求得b0,b1,bp的估计:从而得到Y与x1,xp的经验回归方程: 类似于一元线性回归,多元线性回归模型的假设是否符合实际,同时需要进行假设检验。 另外,在实际问题中,影响因变量Y的因素往往很多.如果将它们都取作自变量,必然会导致所得到的回归方程很复杂。 因而,我们应剔除那些对Y影响较小的自变量,保留对Y有显著影响的自变量,以便我们对变量间的相关变化有更明确的认识。 在此我们对多元性回归分析作一简单介绍.在实际问题中多元线性回归的应用非常广泛,有兴趣的读者可以查阅有关的专门书籍。习题习题9191、2 2、3 3 1在一元线性

17、回归模型中,试证:未知参数a、b的最小二乘估计恰是极大似然估计.2通过原点的一元线性回归模型为 试由独立样本观测值(xi, yi)(i=1,2,n),采用最小二乘法估计b. 3为了研究钢线含碳量(单位:%)x对于电阻(单位:微欧)Y在20下的效应,作了7次试验,得数据如下: 画出散点图; 求出经验回归方程; 试求相关系数R的值,并在显著性水平 下检验 。 xi0.100.300.400.550.700.800.95yi1518192122.623.8264某种产品在生产时产生的有害物质的重量(单位:克)Y与它的燃料消耗量(单位:千克)x之间存在某种相关关系。由以往的生产记录得到如下数据。 求经

18、验回归方程; 试进行线性回归的显著性检验( ); 试求x0=340时Y0的预测区间( )。 xi289298316327329329331250yi43.542.942.139.138.538.038.037.05气体的体积(单位:立方米)v在压力(单位:标准大气压)p之间的一般关系为pvk=c. 今对某种气体测试到下列数据: 试对参数k,c进行估计.vi1.6210.750.620.520.46pi0.511.522.536今有4个物体,按下述方法称重,得到如下数据: 其中1表示该物体放在天平左端,-1表示该物体放在天平右端,Y是使天平达到平衡时,在天平右端所加砝码的重量。试用最小二乘法估计

19、这4个物体的重量。x1X2x3x4x5111120.21-11-18.011-1-19.21-1-111.4第四节 方差分析 一、单因素方差分析 在实际问题中,影响一事物的因素往往是很多的。例如,在化工生产中,有原料成分、原料剂量、催化剂、反应温度、压力、反映时间等因素,每一因素的改变都有可能影响产品的质量。有些因素影响较大,有些影响较小.方差分析就是根据试验的结果进行分析,鉴别各有关因素对试验结果影响的有效方法。在试验中,将要考察的指标称为试验指标,影响试验指标的条件称为因素因素因素所处的状态称为该因素的水平水平如果试验仅考虑一个因素,则称为单因素试验,否则称为多因素试验.我们先讨论单因素试

20、验例例1 某消防队要考察4种不同型号冒烟报警器的反应时间(单位:秒)。今将每种型号的报警器5个安装在同一条烟道中,当烟量均匀时观测报警器的反应时间,得数据如下:报警器型号报警器型号反反 应应 时时 间间A1(甲型)(甲型)5.26.34.93.26.8A2(乙型)(乙型)7.48.15.96.54.9A3(丙型)(丙型)3.96.47.99.24.1A4(丁型)(丁型)12.39.47.810.88.5这里,试验的指标是报警器的反应时间,报警器为因素。4种不同型号的报警器是因素的4个不同水平。这是一个单因素试验.我们要考察:各种型号的报警器的反应时间有无显著性差异?如果各种型号的报警器的反应时

21、间有显著性差异,那么何种型号的报警器最优? 上表中数据可看作来自4个不同总体(每个水平对应一个总体)的样本值,将各个总体均值依记为则各型号报警器的反应时间有无显著性差异的问题相当于需检验假设不全相等。若再假定各总体均值为正态总体,且各总体方差相等,那么这是一个检验同方差的多个正态总体均值是否相等的问题。显然,检验假设H0可以用前面所讲的t检验法,只要检验任何二个总体均值相等就可以了。下面所要讨论的方差分析法就是解决这类问题的一种检验方法。但是这样做要检验3次,比较繁琐.总体均值总体均值样本均值样本均值Xs2X22X12Xs1X21X11AsA2A1 水平水平观测值观测值 设影响指标值的因素A有

22、s个水平A1,A2,As在水平Ai(i=1,s)下,进行 次独立试验,得样本Xij,j=1,ni:假定水平Ai下的样本来自正态总体 , 未知,且不同水平Ai下的样本独立记有j=1,,ni i=1,sXij相互独立于是为随机误差由假设在方差分析中,为了便于推广到多因素试验的情形,习惯上又有下列表示式:j=1,,ni i=1,s 其中称 为总平均称 为水平Ai的效应效应,满足现在,要检验等价于检验不全为零下面从平方和的分解着手,导出上述假设H0的检验方案记ST能反映全部试验数据之间的差异,因此称ST为总偏总偏差平方和差平方和由于于是有平方和分解式:ST=SE+SA其中称SE为误差平方和误差平方和,

23、SA为因素A的平方和的平方和SE反映了各水平Ai内由于随机误差而引起的抽样误差SA反映了因素A的水平不同而引起的误差外加随机误差定理定理1(1)(2)SE与ST相互独立;(3)当 时, 。为了检验取FF(s-1,n-s)当H0成立时,由定理1,直观上,当H0成立时,由因素水平的不同引起的偏差相对于随机误差而言可以忽略不计,即F的值应较小;反之,若F值较大,自然认为H0不成立。若检验结果认为假设H0不成立,则可用 作为 的点估计,或者对 进行区间估计。由得到:在显著性水平 下H0的拒绝域:计算F的值可用表9-1所示的方差分析表n-1ST总和总和n-sSE误差误差s-1SA因素因素AF值值均方和均

24、方和自由度自由度平方和平方和偏差来源偏差来源表表9-1 9-1 单因素方差方析表单因素方差方析表来源来源平方和平方和自由度自由度均方和均方和F值值因素因素A56.29318.76F=6.15误差误差48.77163.05在实际应用中,一般在 下若仍不能拒绝H0时则接受原假设H0例例2 在例1中,s=4,n1=n2=n3=n4=5,n=20,经计算列方差分析表如下:查表,得F0.10(3.16)=2.46,F0.05(3.16)=3.24从而在显著性水平下检验结果拒绝H0由方差分析可知,4种型号的报警器的反应时间确有显著性差异计算:故即反应时间较短的是甲,丙次之二、双因素方差分析。假定要考察两个

25、因素A、B对某项指标值的影响因素A取s个水平A1,A2,As因素B取r个水平B1,B2,Br在A、B的每对组合水平(Ai,Bj)上作一次试验,试验结果为Xij,i=1,s;j=1,r。所有Xij独立,数据列于下表:XsrXs2Xs1AsX2rX22X21A2X1rX12X11A1BrB2B1 因素因素B因素因素A其中要考察因素A、B是否指标值产生显著性影响?设则有为随机误差,且相互独立 i=1,s j=1,, r再假定在水平组合(Ai, Bj)下的效应可以用水平Ai下的效应(记为 )与水平Bj下的效应(记为 )之和来表示,即其中作假设如果H01成立,那么 与i无关这表明因素A对指标值无显著影响

26、同样,作假设如果H02成立,则 与i无关这表明因素B对指标值无显著影响类似于单因素方差分析,通过下面的平方和分解式可以检验假设H01,H02记通过简单推导可以证明下列平方和分解式:SA是由因素A的不同效应和 引起的偏差SB是由因素B的不同效应和 引起的偏差而SE表示由 引起的偏差因此,可用比较SA与SE的值来检验假设H01用比较SB与SE的值来检验假设H02 定理定理2 2(1)ST,SA,SB相互独立,且(2)当H01成立时,(3)当H01成立时,由定理2于是有所以H01的拒绝域为为显著性水平类似地,可给出H02的拒绝域:其中总和总和误差误差因素因素B因素因素AF值值均方和均方和自由度自由度

27、平平 方方 和和偏差偏差来源来源表表9-2 9-2 双因素方差分析表双因素方差分析表4339.537.536A339.53836.533.5A238.535.53532A1B4B3B2B1氧化锌氧化锌B促进剂促进剂A例例3 在某种橡胶的配方中,考虑了3种不同的促进剂,4种不同的氧化锌.各种配方试验一次,测得300%定强如下:问不同促进剂、不同份量氧化锌分别对定强有无显著性影响?来源来源平方和平方和自由度自由度均方和均方和F值值因素因素A28.3214.15FA=36.3因素因素B66.1322.03FB=56.5误差误差2.3560.39总和总和96.7511解解 由题意,影响定强这一指标值的

28、因素有二个:促进剂A、氧化剂Bs=4,r=3,列出如下的方差分析表:取查表,得F0.05(2,6)=5.14 F0.05(3,6)=4.76比较可知 FA5.14 FB4.76所以不同促进剂和氧化锌的不同份量对橡胶定强都有显著影响在以上的双因素方差分析中,我们作了假定:如果此式不能成立,则需考虑二个因素A与B在不同水平组合下的交互作用。对有交互作用方差分析感兴趣的读者可进一步阅读有关的书籍习习 题题 9-49-4工厂工厂寿寿 命命A13840424548A22628303234A339454350501有A1,A2,A3 3个工厂生产同一型号的电池,各个随机抽取5个电池,测得使用寿命(单位:小

29、时)如下:问各厂生产的电池的使用寿命有无显著性差异?24种大白鼠经不同剂量雌激素注射后的子宫重量(单位:克)如下: 试问: 鼠种的影响是否显著? 剂量差异的影响是否显著?( ) 鼠种鼠种雌激素剂量(毫克雌激素剂量(毫克/100克)克)0.20.40.8甲甲106116445乙乙4268115丙丙70111133丁丁4263873为了考察某种合金中碳的含量百分比(因子A)与锑铝含量和的百分比(因子B)对合金强度的影响,对因子A取3个水平,因子A取4个水平,在每个水平组合下做一次试验,得数据如下: 假设因子A与因子B无交互作用,试检验因子A或B的效应是否显著(取 )? A/B3.3%3.4%3.5

30、%3.6%0.03%63.163.965.666.80.04%65.166.467.869.00.05%67.171.071.973.6第九章总习题第九章总习题1在服装标准的制作过程中,调查了很多人的身材,得到了一系列服装各部位的尺寸与身高、胸围等的关系。下表给出的是一组女青年的身高x与裤长y的数据: (1) 求裤长y对x身高的线性回归方程。 (2) 在显著水平 下检验回归方程的显著性。 x168162160160156157159168159162158156165158166y107103103102100100101107110102100991051011051621501521561

31、5915616416816516215815717214715510597981011039910710810610310110111095992在镁合金X光探伤中,要考虑透视电压U与透视厚度l之间的关系,做了5次试验,得对应数据如下 求U对l的回归直线方程,并检验回归方程的显著性( )。l816203454U4552.55562.5703已知鱼的体重y与体长x有关系式 ,测得尼罗尼非鱼的生长的数据如下,求尼罗尼非鱼体重y与体长x的经验公式。 ( )y/g0.53475122.5170192195x/mm29601241551701851904设x固定,y为正态随机变量,对x,y有如下数据(1

32、)求y对x的回归方程(2)求相关系数,检验线性关系的显著性(3)当x=0.05时,求y的95的预测区间(4)若要求| y | 4,x应控制在何范围内。x-2.00.61.41.30.1-1.6-1.70.7-1.8-1.1y-6.1-0.57.26.9-0.2-2.1-3.93.8-7.5-2.15设 其中 相互独立, 且 ,求a和b的最小二乘估计。6电视机工程师对不同类型外壳的彩色显象管与传导率是否有差异感兴趣,测得四种类型的显象管,地传导率数据如下: 外壳类型对传导率有显著影响吗?( )类型类型1143141150146类型类型2152144137143类型类型3134136133129类

33、型类型41291281341297教师对学生智力的评价是否影响学生智力的发展?为此任意抽取18名学生进行试验,将这18名学生随机地分为3组,每组6名,先对每名学生测试智商,然后教师对第一组学生宣称他们在今后一年中智力不可能有较大提高,对第二组学生宣称有中等程度的提高,对第三组学生宣称他们将有很大的提高,一年后再对这些学生测试智商,两次智商测试成绩的差如下所示: 据此能否认为教师的评估影响了学生智力的发展?( )第一第一组组3369115第二第二组组104111563第三第三组组20101615988在四台不同的纺织机上,用三种不同的加压水平,测得不同机器在不同加压水平下的纱支强度数据如下: 问不同机器和不同加压水平对纱支强度有无显著影响?( )机器机器加压加压B1B2B3B4A11577169018001642A21535164017831621A31592165218101663

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号