《第12章-回归分析》由会员分享,可在线阅读,更多相关《第12章-回归分析(93页珍藏版)》请在金锄头文库上搜索。
1、第十二章第十二章 回归分析回归分析 n学习目标学习目标n掌握简单线性回归模型基本原理。n掌握最小平方法。n掌握测定系数。n了解模型假定。n掌握显著性检验n学会用回归方程进行估计和预测。n了解残差分析。2021/5/2111. P370-1 4. P380-202. P372-7 5. P388-283. P380-18 6. P393-35习 题2021/5/212n案例讨论:n1.这个案例都告诉了我们哪些信息?n2.通过阅读这个案例你受到哪些启发?2021/5/213n 根据一个变量(或更多变量)来估计某一变量的方法,统计上称为回归分析回归分析(Regression analysis)。n
2、回归分析中,待估计的变量称为因变因变量量(Dependent variables),用y表示;用来估计因变量的变量称为自变量自变量(Independent variables),用x表示。 2021/5/214第一节第一节 简单线性回归模型简单线性回归模型 n 只涉及两个变量(一个自变量和一个因变量)之间关系的回归分析称为简简单回归分析单回归分析(Simple regression analysis)。n 两个变量之间的关系大约呈一条直线的简单回归分析称为简简单单线线性性回回归归分分析析(Simple linear regression analysis)。2021/5/215一、从一个实际问
3、题入手一、从一个实际问题入手n用回归分析可以预测运行一条商业航空线的成本吗?n如果可以,那么哪些变量与这一成本有关呢?2021/5/216飞机运行成本飞机型号飞行距离乘客数量乘客数量行李或货物重量天气状况2021/5/217n为了减少自变量个数,我们做如下假定:n飞机类别波音737飞机n飞行距离500公里n航线可比,而且在每年的相同季节n在这种条件下,可以用乘客数来预测飞行的成本吗?2021/5/218n 表12-1是每年相同季节波音737飞机在12条500公里的不同航线不同乘客数时的飞行成本。我们用这些数据以乘客数作为自变量构造模型来预测成本。 2021/5/2192021/5/2110二、
4、回归模型和回归方程二、回归模型和回归方程(12.1) :因变量(随机变量):因变量(随机变量) :自变量(给定变量):自变量(给定变量) :参数:参数 :误差项(随机变量),含义为说明在:误差项(随机变量),含义为说明在 中中不能被不能被 和和 之间线性关系解释的变异性。之间线性关系解释的变异性。 2021/5/2111n 在有关 假设中,有一个假设就是的期望值或均值等于0,即 (12.2) 如果简单线性回归模型满足了这个条件,如果简单线性回归模型满足了这个条件,那么就意味着那么就意味着 的均值或期望值就是一个的均值或期望值就是一个线性函数。线性函数。 描述描述 的均值与的均值与 的关系如何的
5、方的关系如何的方程称为程称为回归方程回归方程(Regression equation)。)。 2021/5/2112n在简单线性回归中 n1.回归方程的图形是一条直线(如图12.1所示); (12.3) 2021/5/21132021/5/21142. : 的截距;的截距; 3. :斜率(回归系数); 的的含含义义:当当自自变变量量 给给定定一一个个具具体体变变动动值值时,因变量时,因变量 平均平均变化的量。变化的量。2021/5/21152021/5/21162021/5/2117三、估计回归方程三、估计回归方程 n 估计回归方程估计回归方程(Estimated regression equ
6、ation) 就是用样本统计量作为参数的估计值所建立的回归方程。 (12.4) : 的估计值的估计值: 的估计值的估计值 : 的估计值的估计值 2021/5/21182021/5/2119第二节第二节 最小平方法最小平方法 n 最小平方法最小平方法(Least squares method),也称最小二乘法最小二乘法,是将回归模型的方差之和最小化,以得到一系列方程,从这些方程中解出模型中需要的参数的一种方法。n 2021/5/2120n(一)画散点图,以初步观察成本与乘客数量之间是否呈回归直线。 2021/5/2121n(二)建立估计回归方程(12.5) 最最小小平平方方法法运运用用样样本本数
7、数据据求求出出 和和 的的值值,使使得得因因变变量量的的实实际际观观察察值值 与与其其估估计计值值 之之差的平方和最小,即差的平方和最小,即(12.6) 2021/5/2122n(三)估计回归方程斜率和截距的计算公式(12.8)2021/5/21232021/5/21242021/5/21252021/5/2126 (四)将(四)将 和和 的计算结果代入式的计算结果代入式(12.5)有:)有: 计算结果表明,在其他条件相同情况下,计算结果表明,在其他条件相同情况下,12条航线上波音条航线上波音737飞机各条航线每次飞行时飞机各条航线每次飞行时每增加每增加1名乘客,将会使飞行成本平均增加名乘客,
8、将会使飞行成本平均增加40.70元。元。 结论:结论:2021/5/2127*Y = 4.48千元二者差千元二者差0.061千元或千元或61元。元。2021/5/2128第三节第三节 一元线性回归方程的评价一元线性回归方程的评价n测定系数n估计标准误差2021/5/2129n一、测定系数n 回归直线与各观测数据的接近程度回归直线与各观测数据的接近程度称为回归直线的称为回归直线的拟合优度拟合优度。n 度量回归直线的拟合优度最常用的度量回归直线的拟合优度最常用的指标是指标是测定系数测定系数,(,(又称又称可决系数可决系数、判定判定系数系数)。)。n 该指标是建立在对总离差平方和进该指标是建立在对总
9、离差平方和进行分解的基础之上的。行分解的基础之上的。 2021/5/2130离差分解图离差分解图xyy离差分解图2021/5/2131离差平方和的分解离差平方和的分解两端平方后求和有两端平方后求和有总离差平方和(SST)回归平方和(SSR)残差平方和(SSE)(12.9)(12.10)(12.11)2021/5/2132决定系数的取值决定系数的取值nR2的取值范围是的取值范围是0,1。nR2越接近于越接近于1,表明回归平方和占总离差,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点平方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度就越好。越接近,回归直线的拟合程度就越好。
10、n在一元线性回归中,相关系数在一元线性回归中,相关系数r的平方等于的平方等于判定系数,符号与自变量判定系数,符号与自变量x的系数一致。的系数一致。因此可以根据回归结果求出相关系数。因此可以根据回归结果求出相关系数。 2021/5/2133n(一)残差(一)残差 n 残残差差(Residual error)是因变量的观察值y和因变量的估计值 之间的偏差。 例如,上面的例子, (12.12)2021/5/2134表12-3 残差计算表2021/5/2135(二)误差平方和(二)误差平方和 n 残差平方的总和称为残差平方的总和称为误差平方和误差平方和(Sum of squares of error,
11、SSE)。)。 (12.13) SSE的值是用估计回归方程估计样本中因的值是用估计回归方程估计样本中因变量的值时所产生误差的一种测度。变量的值时所产生误差的一种测度。 2021/5/2136(三)总离差平方和(三)总离差平方和n 因变量的值与其均值之间离差的平方和称为总总离离差差平平方方和和(Total sum of squares,SST)。(12.14) 2021/5/2137(四)回归平方和(四)回归平方和 n 因变量的值与其估计值之间离差的平方和称为回归平方和回归平方和(Sum of squares due to regression,SSR)。 (12.15) 2021/5/2138
12、例如;飞行成本案例中各种有关数据计算如下n表12-4 计算表 2021/5/2139n由表12-4计算结果可知,nSSE = 0.31434,nSSR = 2.79775,nSST = 3.11209,n则 2021/5/2140n 这就是说,在一条商业航线上一架波音这就是说,在一条商业航线上一架波音737飞机飞行成本的方差中有飞机飞行成本的方差中有89.9%可以被可以被乘客数目说明或预测,换句话说,飞行成乘客数目说明或预测,换句话说,飞行成本本Y的方差中不能由的方差中不能由X或回归方程解释的有或回归方程解释的有10.1%。 2021/5/2141二、估计标准误二、估计标准误n 估计标准误估计
13、标准误:是对各观测数据在回归直线周围分散程度的一个度量值,它是对误差项的标准差的估计。n估计标准误反映了用估计的回归方程拟合因估计标准误反映了用估计的回归方程拟合因变量变量Y时平均误差的大小。时平均误差的大小。n各观测数据越靠近回归直线,各观测数据越靠近回归直线,sy 就越小,回就越小,回归直线对各观测数据的代表性就越好。归直线对各观测数据的代表性就越好。n与与R2不同的是,估计标准误是一个有单位的不同的是,估计标准误是一个有单位的平均数。平均数。(12.16)2021/5/2142n在飞行成本的案例中:nsse=0.31414 n=12【统计分析】计算结果表明,在12条商业航线上,每架波音7
14、37飞机在飞行500公里和其他条件相同情况下,其飞行成本与它们的平均飞行成本平均相差117.3元。2021/5/2143三、利用测定系数计算相关系数三、利用测定系数计算相关系数n样本相关系数 (12.17) 例如,例如,在飞行成本的例子中,在飞行成本的例子中, 2021/5/2144n 计算结果表明,波音计算结果表明,波音737飞机在相同季飞机在相同季节节12条航线上,乘客数量与运行成本之间条航线上,乘客数量与运行成本之间存在线性高度的正相关关系。存在线性高度的正相关关系。 2021/5/2145测定系数与相关系数的联系与区别测定系数与相关系数的联系与区别 n 两种系数都可以用来测量线性相关关
15、系的强弱;n 两种系数的取值范围不同:测定系数在01之间,相关系数在-1 +1之间。n 两种系数的作用范围不同:相关系数只能用来测定双变量之间的线性相关关系的强弱,测定系数除了可以测量双变量之间线性相关关系的强弱外,还可以用来测量非线性相关关系的强弱和多变量时的相关。因此,测定系数的应用范围比相关系数更广泛。2021/5/2146第四节第四节 模型假定模型假定 n 在进行回归分析时,为了建立适当的模型来说明因变量和自变量之间的关系,需要做出一些假定。n 简单线性回归的假定模型是: 2021/5/2147n 要确定假定模型是否恰当,就需要进行显著性检验。n 显著性检验建立在以下有关假定的基础上:
16、 关于回归模型中误差项 的假定 (1)误差项 是一个随机变量,它的均值或期望值为0,即 (12.18)2021/5/2148 (2)对于所有 值,误差项 的方差( )相等,即 (3)误差项)误差项 值是相互独立的。值是相互独立的。 (12.19)(12.20)2021/5/2149n(4)误差项 是一个服从正态分布的随机变量(12.21)2021/5/2150第五节第五节 回归分析中的显著性检验回归分析中的显著性检验 n回归分析中的显著性检验包括两方面的内容:回归分析中的显著性检验包括两方面的内容:n一是对一是对单个自变量回归系数单个自变量回归系数的显著性检验(的显著性检验( t检检验);验)
17、;n二是对二是对整个回归方程(所有自变量回归系数)整个回归方程(所有自变量回归系数)显显著性的整体检验(著性的整体检验( F检验)检验)n在一元线性回归模型中,由于只有一个解释在一元线性回归模型中,由于只有一个解释变量变量X,因此,对,因此,对10的的t检验与对整个方检验与对整个方程的程的F检验是等价的。检验是等价的。 2021/5/2151一、单个回归系数显著性的一、单个回归系数显著性的t检验检验n第第1步:提出假设。一般为步:提出假设。一般为n对于一些具体问题也可能需要进行单侧检验。对于一些具体问题也可能需要进行单侧检验。n第第2步:确定检验的统计量。可以证明在步:确定检验的统计量。可以证
18、明在回归模型的基本假设成立时,如果零假设回归模型的基本假设成立时,如果零假设正确,则有正确,则有(12.22)2021/5/2152(12.23)2021/5/2153n第第3步:计算检验统计量的样本观测值。步:计算检验统计量的样本观测值。n第第4步:进行决策:步:进行决策:n根据显著性水平根据显著性水平 和自由度和自由度dfn2确定检验统计量的临界值,确定检验统计量的临界值, t t时拒绝时拒绝H0;2021/5/2154例如,已知在飞行成本的例子中, 2021/5/2155查表查表 (P453)= 2021/5/2156n 由于t = 9.43 ,表明t值落在拒绝域。因此,总体斜率 的假设
19、被拒绝,说明X与Y之间线性关系是显著的。n 即12条航线上,波音737飞机在飞行500公里和其他条件相同情况下,其乘客数量与飞行成本之间的线性关系是显著的。2021/5/2157单个回归系数的显著性检验的几点说明单个回归系数的显著性检验的几点说明n 为什么要检验回归系数是否等于为什么要检验回归系数是否等于0?n如果总体中的回归系数等于零,说明相应的自变如果总体中的回归系数等于零,说明相应的自变量对量对y缺乏解释能力,在这种情况下我们可能需缺乏解释能力,在这种情况下我们可能需要中回归方程中去掉这个自变量。要中回归方程中去掉这个自变量。n 我们也可以对常数项进行我们也可以对常数项进行t检验,但大部
20、分检验,但大部分情况下我们并不关心常数项的检验结果。情况下我们并不关心常数项的检验结果。n 通常情况下即使常数项在模型中不显著,我通常情况下即使常数项在模型中不显著,我们也会在模型中保留常数项,去掉常数项可能会们也会在模型中保留常数项,去掉常数项可能会对模型带来不利影响。对模型带来不利影响。2021/5/2158n第第1步:提出假设。在一元回归为步:提出假设。在一元回归为 第第2步:确定检验统计量:步:确定检验统计量: 二、方程整体显著性的二、方程整体显著性的F检验检验 (12.24)2021/5/2159 MSE:均方误差均方误差(Mean square error)是残差平方和(SSE)除
21、以自由度(n-2)所得的一个平均数,它是残差项方差的一个无偏估计量。 (12.25)2021/5/2160n例如,在飞行成本的例子中nSSE=0.31434,(n-2)=(12-2)=10,n则2021/5/2161nMSR:均方回归均方回归(Mean square regression)是回归平方和(SSR)除以它的自由度所得的平均数。(12.26)2021/5/2162 在在这这一一节节所所考考虑虑的的模模型型里里,将将回回归归自自由度定义为自变量的个数,则由度定义为自变量的个数,则(12.27)2021/5/2163n 在双变量回归分析中自变量是1个,所以,MSR=SSRn 例如,在飞行
22、成本的例子中,n SSR = 2.79775,n 所以MSR=SSR=2.79775。 第第3步:计算检验统计量的样本观测值。步:计算检验统计量的样本观测值。2021/5/2164n第第4步:进行决策:步:进行决策:n根据显著性水平根据显著性水平 和自由度和自由度1,n2确定检确定检验统计量的临界值验统计量的临界值F ,FF 时拒绝时拒绝H0;n或者或者p值值 所以,我们拒绝 ,并得出结论: 当显著性水平为0.05时, F检验提供了必要的统计证据,使我们得出乘客数量与飞行成本之间存在显著性关系的结论。2021/5/2167n 在简单回归分析中,还可以利用F值与t值的关系来进行F检验。 例如,在
23、飞行成本的例子中,已知t=9.43 (12.28)2021/5/2168三、解释显著性检验时应注意的两个问题三、解释显著性检验时应注意的两个问题 n(一)拒绝了零假设(一)拒绝了零假设,并得出自变量和,并得出自变量和 因变量之间存在统计显著性关系的结论,因变量之间存在统计显著性关系的结论,并不能使我们认为和之间存在并不能使我们认为和之间存在因果关系因果关系。 2021/5/2169注意:相关关系注意:相关关系因果关系!因果关系!n 典型的错误推断:典型的错误推断:n庆祝生日有利于健康。统计庆祝生日有利于健康。统计分析表明,庆祝生日次数越分析表明,庆祝生日次数越多的人越长寿。多的人越长寿。n学生
24、穿的鞋越大,他的识字学生穿的鞋越大,他的识字水平就越高:对小学各年级学生的抽样调查表明,学生水平就越高:对小学各年级学生的抽样调查表明,学生的识字水平与他们鞋子的尺寸高度正相关。的识字水平与他们鞋子的尺寸高度正相关。n思考问题:如何证明两个变量之间存在思考问题:如何证明两个变量之间存在因果关系因果关系? 2021/5/2170(二)仅仅能够拒绝零假设(二)仅仅能够拒绝零假设和证明了统计和证明了统计的显著性,还不能得出结论:的显著性,还不能得出结论:Y和和X之间之间存在线性关系。存在线性关系。 2021/5/2171第六节第六节 回归估计和预测回归估计和预测n一、点估计一、点估计 n利用回归方程
25、,对给定的某一特定值时的均值进行估计或预测。例如,上面我们提到的在乘客人数为75人时,对飞行成本的预测就是一种点估计或预测。n二、区间估计二、区间估计n略2021/5/2172三、三、Y Y均值的置信区间估计均值的置信区间估计 (12.29)2021/5/2173n一般地说,当用 估计 时,不能希望二者正好相等。要推断 是如何接近 真实均值 ,就需要根据回归方程求出方差估计值。(12.30) : 的方差的方差2021/5/2174n 的标准差为: (12.31) 的置信区间估计公式为:的置信区间估计公式为: (12.32) 2021/5/2175n例如,在飞行成本的模型中,我们要预测当 (乘客
26、人数)为73时,在95%的置信度内 (飞行成本)的均值。置信度置信度=95%; df = n 2 = 12 2 =10;s = 0.1773; 2021/5/2176当当 时时2021/5/2177的置信区间为:的置信区间为: (12.33)2021/5/2178n这说明,当 时,在95%的可信度下,Y的均值会落在4.424.66千元之间。2021/5/2179四、预测某个四、预测某个Y值的单个区间值的单个区间 n 回归预测的另外一种区间是对每个给定自变量的值预测单个Y值的估计区间。 (12.34) 2021/5/2180n例如,我们利用上一个例子的所有资料,便可预测当X=73时单个Y值的估计
27、区间。2021/5/21812021/5/2182五、利用回归模型预测要注意的问题五、利用回归模型预测要注意的问题n适用于内插预测n进行外推预测时要慎重2021/5/2183第七节第七节 残差分析:有效模型假定残差分析:有效模型假定 n 残差分析的一个主要用途就是对回归假设进行检验,帮助我们确定建立回归模型所依据的假设是否恰当。n在有关假定的线性回归模型中,对 做了4个假定(见教科书东财版P467,机械版381)。n 2021/5/2184n这些假定为我们用来确定X与Y之间存在显著关系的t检验、F检验以及置信估计区间和预测估计区间等提供了理论依据。n但是,如果误差项的假定存在疑问,关于回归关系
28、和区间估计结果显著性的假设检验就可能不正确。2021/5/2185n 参差分析可以利用参差图来进行。n 参差图参差图(Residual plots),也称参差散参差散点图点图,是对某一特定的回归模型的参差沿着对应的X值做出的散点图。 2021/5/21862021/5/21872021/5/2188n 通过做出的残差散点图就能知道此回归模型与回归假设的拟合情况。n 样本越大,残差散点图就越有意义。小样本的残差散点图可能会导致误差或夸大。对于上面飞行成本的例子,由于其只有12组样本数据,对图12.9的结论也应当谨慎对待。 2021/5/2189根据参差图确定模型假设有效性的方法:根据参差图确定模
29、型假设有效性的方法:n 1.符合回归假设的回归分析残差图,是一个与教科书P469(P399)图12.12(A)极为相似的一种图形:方差大致相等;误差项与相临的误差项没有明显的关联;残差的均值大致等于0。(飞行成本残差图是一个符合回归假设的图形)。 2021/5/2190n 2.不符合回归假设的回归分析残差图,有以下情形:n (1)误差项的方差不相等。X值越大,方 差 越 小 ; X越 小 , 方 差 越 大 。 图12.12(B)n (2)线性关系不能恰当描述X与Y之间的关系。如图12.12(C)n (3)误差项相互不独立。表现在图形上,一个大的正残差会跟在一个大的正残差后面;一个小的负残差会跟在一个小的负残差后面。 2021/5/2191nQuestion ? Questions and Comments are welcome 2021/5/2192部分资料从网络收集整理而来,供大家参考,感谢您的关注!