补充：线性回归与方差分析课件

资源描述

《补充：线性回归与方差分析课件》由会员分享，可在线阅读，更多相关《补充：线性回归与方差分析课件（71页珍藏版）》请在金锄头文库上搜索。

1、第第5 5章章线性回归分析与方差分析线性回归分析与方差分析5.1 5.1 一元线性回归分析一元线性回归分析 5.2 5.2 可线性化的非线性回归可线性化的非线性回归5.3 5.3 多元线性回归简介多元线性回归简介5.4 5.4 方差分析方差分析5.1 5.1 一元线性回归分析一元线性回归分析在许多实际问题中，我们常常需要研究多个变量之间的相互关系。一般来说，变量之间的关系可分为两类：一类是确定性关系，确定性关系是指变量之间的关系可以用函数关系来表达，例如电流I电压V电阻R之间有关系式V=IR。另一类是非确定性关系，有些变量之间的关系是非确定性的关系，这种关系无法用一个精确的函数式来表示。

2、例如，农作物的单位面积产量与施肥量之间有密切的关系，但是不能由施肥量精确知道单位面积产量，这是因为单位面积产量还受到许多其他因素及一些无法控制的随机因素的影响。又如，人的身高与体重之间存在一种关系，一般来说，人身高越高，体重越大，但同样高度的人，体重却往往不同。这种变量之间的不确定性关系称之为相关关系。对于具有相关关系的变量，虽然不能找到他们之间的确定表达式，但是通过大量的观测数据，可以发现他们之间存在一定的统计规律，数理统计中研究变量之间相关关系的一种有效方法就是回归分析。一、一元线性回归模型其中yi是x=xi时随机变量Y的观测结果.将n对观测结果（xi，yi）（i=1,n）在直角

3、坐标系中进行描点，这种描点图称为散点图散点图.散点图可以帮助我们精略地看出Y与x之间的某种关系. 假定我们要考虑自变量x与因变量Y之间的相关关系假设x为可以控制或可以精确观察的变量，即x为普通的变量。由于自变量x给定后，因变量Y并不能确定，从而Y是一个与x有关的随机变量我们对于可控制变量x取定一组不完全相同的值x1，xn，作n次独立试验，得到n对观测结果：（x1,y1），（x2,y2），（xn, yn）例例1 对某广告公司为了研究某一类产品的广告费x用与其销售额Y之间的关系，对多个厂家进行调查，获得如下数据广告费与销售额之间不可能存在一个明确的函数关系，事实上，即使不同的厂家投入了相同的广

4、告费，其销售额也不会是完全相同的。影响销售额的因素是多种多样的，除了广告投入的影响，还与厂家产品的特色、定价、销售渠道、售后服务以及其他一些偶然因素有关。画出散点图如图5-1所示.从图中可以看出，随着广告投入费x的增加，销售额Y基本上也呈上升趋势，图中的点大致分布在一条向右上方延伸的直线附近.但各点不完全在一条直线上，这是由于Y还受到其他一些随机因素的影响.这样，Y可以看成是由两部分叠加而成，一部分是x的线性函数a+bx，另一部分是随机因素引起的误差，即Y=a+bx+oxy10020030040050020406080100120L*这就是所谓的这就是所谓的一元线性回归模型一元线性回归模型

5、图5-1一般地，假设x与Y之间的相关关系可表示为(1)其中：a, b为未知常数为随机误差且未知，x与Y的这种关系称为一元线性回归模型y=a+bx称为回归直线 b称为回归系数此时对于（x, Y）的样本（x1，y1），（xn，yn）有：一元线性回归主要解决下列一些问题：（1）利用样本对未知参数a、b、进行估计；（2）对回归模型作显著性检验；（3）当x=x0时对Y的取值作预测，即对Y作区间估计. 如果由样本得到式（1）中，a, b的估计值，则称为拟合直线或经验回归直线，它可作为回归直线的估计二、参数a、b、的估计最小二乘法就是选择a，b的估计，使得Q(a, b)为最小（图5-2）

6、现在我们用最小二乘法来估计模型（1）中的未知参数a,b.记称Q(a, b)为偏差平方和图5-2为了求Q（a, b）的最小值，分别求Q关于a，b的偏导数，并令它们等于零：经整理后得到式（2）称为正规方程组. （2）由正规方程组解得其中用最小二乘法求出的估计、分别称为a、b的最小二乘估计由矩估计法，可用估计此时，拟合直线为下面再用矩法求的估计由于，a、b分别由、代入而故可用作估计对于估计量、、的分布，有：定理定理1（1）（2）（3）（4）分别与、独立。例2 在例1中可分别求出a、b、的估计值为：故经验回归直线为：Y=4.37+0.323x三、线性回归的显著性检验在实际

7、问题中，事先我们并不能断定Y与x确有线性关系，Y=a+bx+ 只是一种假设.下面说明这一检验的方法.当然，这个假设不是没有根据的，我们可以通过专业知识和散点图来作出粗略判断.但在求出经验回归方程后，还需对这种线性回归方程同实际观测数据拟合的效果进行检验.若假设Y=a+bx+ 符合实际，则b不应为零因为如果b=0，则Y=a+意味着Y与x无关所以Y=a+bx是否合理，归结为对假设：H0: b=0进行检验下面介绍检验假设H0的二种常用方法.且与独立1t检验法若H0成立，即b=0，由定理7.1知，因而故为显著性水平即得H0的拒绝域为2相关系数检验法取检验统计量通常称R为样本相关系数.类似于随机变量

8、间的相关系数，R的取值r反映了自变量x与因变量Y之间的线性相关关系.可以推出:在显著性水平下,当时拒绝H0其中临界值在附表中给出相关系数检验法相关系数检验法是工程技术中广是工程技术中广泛应用的一种检泛应用的一种检验方法验方法（1）x对Y没有显著影响；（2）x对Y有显著影响，但这种影响不能用线性相关关系来描述；（3）影响Y取值的，除x外，另有其他不可忽略的因素. 当假设被拒绝时，就认为Y与x存在线性关系，从而认为回归效果显著；若接受H0，则认为Y与x的关系不能用一元线性回归模型来描述，即回归效果不显著.此时，可能有如下几种情形：因此，在接受H0的同时，需要进一步查明原因分别处理，此时，专业

9、知识往往起着重要作用. 四、预测当经过检验发现回归效果显著时，通过回归模型可对Y的取值进行预测. 即当x=x0时，对Y作区间估计.设当x=x0时Y的取值为y0，有可以取经验回归值作为y0的预测值.可以证明从而可得所以，给定置信概率，Y0的置信区间为其中可以看出在x0处y的置信区间的长度为当时置信区间的长度最短，估计最精确，置信区间愈长，估计的精度愈差。当n很大且x0位于附近时，有于是y0的置信概率为的预测区间近似为例3 检验例2中的回归效果是否显著，当x0=80时，求出Y0的预测区间。解解经计算 T=16.9 r=0.98查表，得t0.025（9）=2.26 r0.05=0.602易

10、见，t检验法、相关系数检验法都拒绝H0，即回归效果显著。于是，当x0=80时，y0的预测值为y0的95%的预测区间为（24.73，35.69）5.2 5.2 可线性化的非线性回归可线性化的非线性回归在实际问题中，常常会遇到这样的情形：散点图上的几个样本数据点明显地不在一条直线附近，而在某曲线周围：或者，用线性回归方程描述变量间的关系计算的结果与样本值误差较大，这表明变量之间不存在线性相关关系，而是一种非线性的相关关系.下面举例说明对这类问题用线性化处理的方法。例例1 在彩色显像技术中，考虑析出银的光学密度x与形成染料光学密度Y之间的相关关系，其中11个样本数据如下所示：解解根据这11个样

11、本数据点（xi,yi）作出散点图（图5-3）. 图5-3从散点图上看出，这些数据点在一条曲线L周围.根据有关的专业知识，结合散点图，可以认为曲线L大致为：对上式两边取对数：令即有：0.250.220.170.110.00-0.24-0.53-0.99-1.47-1.97-2.302.132.332.633.234.005.007.1410.0014.2916.6720.00于是数据（）相应地变换成（）将变换后的数据点（）画出散点图（图5-4）从散点图可以看出与具有线性相关关系，因此用一元线性回归分析.利用一元线性回归的方法可以计算出与的经验回归方程为图5-4可求得x与y之间相关关

12、系的一个经验公式：这里a=0.58，b= -0.15所以332.1213.9142.443.8619.729.95时间时间t（分（分秒秒）15001000800400200100距离距离x（米）（米）例例2 赛跑是大家熟知的一种体育活动。下表给出了截至1997年底在6个不同的距离上中短跑成绩的世界记录：试根据这些记录数据分析出运动员的赛跑成绩与所跑距离间的相关关系。解解根据记录数据点（xi，ti）作出散点图 (图5-5)图5-5从散点图上看出，全部点（xi，ti）分布在一条曲线附近，因而x与t之间可以存在一种线性关系。我们用一无线性回归分析，可计算出x与t间的线性回归模型为 t=-99.9

13、+0.1455x由此模型，当x=100,200,400,800,1000,1500(米)时，t的理论值分别为:4.56, 19.10,48.20,146.4,215.5,328.2可以看出t的理论值与实际记录数据多数都比较接近。仔细分析，可发现线性回归模型的一些不合理之处。如：当赛跑距离小于68米时，所需时间为负值；当赛跑距离为100米时所需时间只须4.56.再仔细分析，发现：短距离100米、200米及长距离1500米需要的时间实际值均高于线性模型的理论值，而中间的400米、800米、1000米需要的时间实际值均低于线性模型的理论值.它告诉我们x与t的关系可能为一曲线，且曲线是下凸的。具有这种

14、性质的最简单曲线当属幂函数：t=axb 它告诉我们x与t的关系可能为一曲线，且曲线是下凸的。对上式二边取对数lnt=lna+blnx令t=lnt a=lna x=lnx得t= a+bx为一线性关系具有这种性质的最简单曲线当属幂函数：t=axb用一元线性回归分析估计a、b，从而算出最后可得t与x间的幂函数模型： t=0.48x1.145当x=100，200，400，800，1000，1500（米）时，利用幂函数模型算出t的理论值分别为：9.39,20.78,45.96,141.68, 211.29,328.88比较计算结果可知：幂函数模型比线性回归模型更能确切地反映t与x间的关系。5.3 5.3

15、多元线性回归简介多元线性回归简介其中b0，b1，bp，为与x1，xp无关的未知参数。假定要考察p个自变量x1，x2，xp与因变量Y之间的相关关系。设这就是p元线性回归模型对变量x1，xp,Y作n次观测得到样本值：（） i=1,，n这里y1，yn独立、同分布，且有为了简化数学处理，引进矩阵表示，记则等式i=1，,n可表示为用最小二乘法求未知参数的估计，即参数应使为最小根据高等数学中求最小值的方法，可求得b0，b1，bp的估计：从而得到Y与x1，xp的经验回归方程：类似于一元线性回归，多元线性回归模型的假设是否符合实际，同时需要进行假设检验。另外，在实际问题中，影响因变量Y的因素往往

16、很多.如果将它们都取作自变量，必然会导致所得到的回归方程很复杂。因而，我们应剔除那些对Y影响较小的自变量，保留对Y有显著影响的自变量，以便我们对变量间的相关变化有更明确的认识。在此我们对多元性回归分析作一简单介绍.在实际问题中多元线性回归的应用非常广泛，有兴趣的读者可以查阅有关的专门书籍。5.4 5.4 方差分析方差分析一、单因素方差分析在实际问题中，影响一事物的因素往往是很多的。例如，在化工生产中，有原料成分、原料剂量、催化剂、反应温度、压力、反映时间等因素，每一因素的改变都有可能影响产品的质量。有些因素影响较大，有些影响较小.方差分析就是根据试验的结果进行分析，鉴别各有关因素对试验

17、结果影响的有效方法。在试验中，将要考察的指标称为试验指标，影响试验指标的条件称为因素因素因素所处的状态称为该因素的水平水平如果试验仅考虑一个因素，则称为单因素试验单因素试验，否则称为多因素试验多因素试验.我们先讨论单因素试验例例1 某消防队要考察4种不同型号冒烟报警器的反应时间（单位：秒）。今将每种型号的报警器5个安装在同一条烟道中，当烟量均匀时观测报警器的反应时间，得数据如下：这里，试验的指标是报警器的反应时间，报警器为因素。4种不同型号的报警器是因素的4个不同水平。这是一个单因素试验.我们要考察：各种型号的报警器的反应时间有无显著性差异？如果各种型号的报警器的反应时间有显著性差异，那么何种

18、型号的报警器最优？上表中数据可看作来自4个不同总体（每个水平对应一个总体）的样本值，将各个总体均值依记为则各型号报警器的反应时间有无显著性差异的问题相当于需检验假设不全相等。若再假定各总体均值为正态总体，且各总体方差相等，那么这是一个检验同方差的多个正态总体均值是否相等的问题。显然，检验假设H0可以用前面所讲的t检验法，只要检验任何二个总体均值相等就可以了。下面所要讨论的方差分析法就是解决这类问题的一种检验方法。但是这样做要检验3次，比较繁琐.总体均值总体均值样本均值样本均值Xs2X22X12Xs1X21X11AsA2A1 水平水平观测值观测值设影响指标值的因素A有s个水平A1，A2，As

19、在水平Ai（i=1,s）下，进行次独立试验，得样本Xij，j=1，ni：假定水平Ai下的样本来自正态总体，未知，且不同水平Ai下的样本独立记有j=1,，ni i=1，sXij相互独立于是为随机误差由假设在方差分析中，为了便于推广到多因素试验的情形，习惯上又有下列表示式：j=1,，ni i=1，s 其中称为总平均称为水平Ai的效应，满足现在，要检验等价于检验不全为零下面从平方和的分解着手,导出上述假设H0的检验方案记ST能反映全部试验数据之间的差异，因此称ST为总偏总偏差平方和差平方和由于于是有平方和分解式：ST=SE+SA其中称SE为误差平方和误差平方和，SA为因素A的平方和的平方和

20、SE反映了各水平Ai内由于随机误差而引起的抽样误差SA反映了因素A的水平不同而引起的误差外加随机误差定理定理1（1）（2）SE与ST相互独立；（3）当时，。为了检验取FF（s-1，n-s）当H0成立时，由定理1，直观上，当H0成立时，由因素水平的不同引起的偏差相对于随机误差而言可以忽略不计，即F的值应较小；反之，若F值较大，自然认为H0不成立。若检验结果认为假设H0不成立，则可用作为的点估计，或者对进行区间估计。由得到：在显著性水平下H0的拒绝域：计算F的值可用表9-1所示的方差分析表n-1ST总和总和n-sSE误差误差s-1SA因素因素AF值值均方和均方和自由度自由度平方和平方和

21、偏差来源偏差来源表表5-1 单因素方差方析表单因素方差方析表在实际应用中，一般在下若仍不能拒绝H0时则接受原假设H0例例2 在例1中，s=4,n1=n2=n3=n4=5,n=20，经计算列方差分析表如下：查表，得F0.10（3.16）=2.46，F0.05（3.16）=3.24从而在显著性水平下检验结果拒绝H0由方差分析可知，4种型号的报警器的反应时间确有显著性差异计算：故即反应时间较短的是甲，丙次之二、双因素方差分析。假定要考察两个因素A、B对某项指标值的影响因素A取s个水平A1，A2，As因素B取r个水平B1，B2，Br在A、B的每对组合水平（Ai，Bj）上作一次试验，试验结果为Xij，

22、i=1，s；j=1，r。所有Xij独立，数据列于下表：XsrXs2Xs1A As sX2rX22X21A2X1rX12X11A1BrB2B1 因素因素B因素因素A其中要考察因素A、B是否指标值产生显著性影响？设则有为随机误差，且相互独立 i=1，s j=1，, r再假定在水平组合（Ai, Bj）下的效应可以用水平Ai下的效应（记为）与水平Bj下的效应（记为）之和来表示，即其中作假设如果H01成立，那么与i无关这表明因素A对指标值无显著影响同样，作假设如果H02成立，则与i无关这表明因素B对指标值无显著影响类似于单因素方差分析，通过下面的平方和分解式可以检验假设H01，H02记通过简单推

23、导可以证明下列平方和分解式：SA是由因素A的不同效应和引起的偏差SB是由因素B的不同效应和引起的偏差而SE表示由引起的偏差因此，可用比较SA与SE的值来检验假设H01用比较SB与SE的值来检验假设H02 定理定理2（1）ST，SA，SB相互独立，且（2）当H01成立时，（3）当H01成立时，由定理2于是有所以H01的拒绝域为为显著性水平类似地，可给出H02的拒绝域：其中总和总和误差误差因素因素B因素因素AF值值均方和均方和自由度自由度平平方方和和偏差偏差来源来源表表5-2 双因素方差分析表双因素方差分析表4339.537.536A339.53836.533.5A238.535.535

24、32A1B4B3B2B1氧化锌氧化锌B促进剂促进剂A例例3 在某种橡胶的配方中，考虑了3种不同的促进剂，4种不同的氧化锌.各种配方试验一次，测得300%定强如下：问不同促进剂、不同份量氧化锌分别对定强有无显著性影响？解解由题意，影响定强这一指标值的因素有二个：促进剂A、氧化剂Bs=4,r=3，列出如下的方差分析表：取查表，得F0.05(2,6)=5.14 F0.05(3,6)=4.76比较可知 FA5.14 FB4.76所以不同促进剂和氧化锌的不同份量对橡胶定强都有显著影响在以上的双因素方差分析中，我们作了假定：如果此式不能成立，则需考虑二个因素A与B在不同水平组合下的交互作用。对有交互作用方差分析感兴趣的读者可进一步阅读有关的书籍

展开阅读全文

补充：线性回归与方差分析课件

最新文档