《ch5回归分析》由会员分享,可在线阅读,更多相关《ch5回归分析(55页珍藏版)》请在金锄头文库上搜索。
1、第五章 多元回归分析 第一节 为什么要建立线性模型 第二节 一元回归模型的建立 第三节 一元回归模型的显著性检验 第四节 一元回归模型的诊断 第五节 曲线回归 第六节 多元回归模型的建立 第七节 多元回归模型与系数的显著性检验 第八节 多重共线性 回归这个术语是由英国著名统计学家 Francis Galton在19世纪末期研究孩子及他们的 父母的身高时提出来的。Galton发现身材高的父 母,他们的孩子也高。但这些孩子平均起来并不 像他们的父母那样高。对于比较矮的父母情形也 类似:他们的孩子比较矮,但这些孩子的平均身 高要比他们的父母的平均身高高。 Galton把这 种孩子的身高向中间值靠近的
2、趋势称之为一种回 归效应,而他发展的研究两个数值变量的方法称 为回归分析。 第一节 为什么要建立线性模型 线性模型简单、易分析 相关性意味着线性性 许多常用函数经过变换可以化为线性函 数,如 x ba y 11 )ln(xbay b axy bx aey x b aey x bea y 1 一般函数可以通过Tayer公式局部线性化 2 00000 )( ! 2 1 )()()(xxxfxxxfxfxfy 第二节 一元回归模型的建立 观察由n个样本 构成的 散点图或计算样本相关系数,若呈现明显的 相关性,建立数学模型 ),( ,),(),( 2211nn yxyxyx ), 0(, 2 10 N
3、xy 其中 是未知参数,需要利用样本 对它们进行估计。称 为回归系数,预 报变量x也称为回归变量。 2 10 , 10, 当利用样本对 作出的估计为 时, 有 10, 10 , xy 10 称为y的预报值或回归值或拟合值。上面 方程称为预报方程或回归方程或拟合方程, 对应直线称为回归直线或拟合直线。 y 参数 的最小二乘估计与 的无偏估计 10, 2 参数 的最小二乘估计及其矩阵表达 设n组观测值 有 模型1 10, ),(),( 11nn yxyx ), 0( ., .2 , 1 2 21 10 Ndi i nixy n iii 使 最小的 为 的最小二乘估计. n i i 1 2 10,
4、10 , 令 n i ii n i i xyQQ 1 2 10 1 2 10 )(),( n i iii n i ii xyx Q xy Q 1 10 1 1 10 0 )(2 )(2 最小二乘解: n i n i ii n i i n i i n i ii n i i n i ii xxn yxyxn xx yyxx xy 1 2 1 2 111 1 2 1 1 10 )()( )( 矩阵偏导数与样本矩阵表达 n y y y Y 2 1 n x x x X 1 1 1 2 1 2 1 n 2 1 xAA x Axx )( A x Ax 模型2 ),( ),( 2 2 nn nn XNY N
5、XY 最小二乘解: (1) 为y关于x的回归方程 (2)称 为方程 的回归系数 (3)称 为残差, 为残差向量 (4)称 为残差平方和 YXXX 1 )( xy 10 ) , ( 10 iii yy ) () (YYYYSE YY ) ( XY x y xy 10 i x i y i y iiiii xyyy 10 与 的性质 E S 性质1 )(,( 12 2 1 0 XXN 性质2 )2( 22 nSE 且 2 )2(nSE E 即 的无偏估计是 2 ) 2( 2 nSE AYYYXXXXIYYYYYSE )() () ( 1 AXXXXIA 12 )( ),( nn IXNY)( 22
6、)( 2 ARE S 1. 2. 3. 性质3 与 相互独立 E S )()() () ( 11 YXXXXIYXXXXIYYYYSE YXXX 1 )( 1. 2. YXXXXI)( 1 YXXX 1 )(3. 验证 与 相 互独立即可。 一个结论: 服从 ,AX与BX相互 独立. ),( pp IN 0BA X 第三节 一元回归模型的显著性检验 在实际中 ,事先我们并不能判定 X 与Y 确有 线性关系,只是一种假设。这种假设是根据专 业知识和散点图作出的粗略判断。在求出回归 方程之后,还需对回归方程同实际观测数据拟 合的效果进行检验。 由方程 ,当 越大,y随x变化的 趋势就越明显;反之,
7、当 越小,y随x变化就越 不明显,特别当 时,则认为y与x不存在线 性关系.当 时,则认为y与x有线性关系。因 此,问题归结为对假设: 进行检验。 xy 101 1 0 1 0 1 0: ; 0: 1110 HH 第三节 一元回归模型的显著性检验 若拒绝 ,就认为y与x存在线性关系,所求 的线性回归方程有意义;若接受 ,则认为y 与x的关系不能用一元线性回归模型来描述,所 得回归方程无意义。此时,可能有如下几种情 况: 0 H 0 H (1)x对y没有显著影响,此时应丢掉预报变量x, (2)x对y有显著影响,但这种影响不能用线性 相关关系表示,应该用非线性回归; (3)除x之外,还有不可忽略的
8、预报变量对y有 显著影响,从而消弱了x对y的影响,此时应用多 元线性回归。 第三节 一元回归模型的显著性检验 总平方和分解 222 )()()( iiii yyyyyy ERT SSS n i iT yyS 1 2 )(总平方和总平方和 反映了数据反映了数据 y 总的波动性的大小。总的波动性的大小。 回归平方和回归平方和 反映了拟合值与其平均值的总偏差,即由变反映了拟合值与其平均值的总偏差,即由变 量量 x 的变化引起的的变化引起的 y 的波动。的波动。 n i iR yyS 1 2 )( 总平方和总平方和 回归平方和回归平方和 残差平方和残差平方和 第三节 一元回归模型的显著性检验 残差平方
9、和残差平方和 反映了除去y 与 x 之间的线性关系以外的随机因 素引起的数据y 的波动。若SE = 0,则每个观测值可 由线性关系精确拟合, SE越大,观测值与线性拟合 值的偏差也越大。 n i iiE yyS 1 2 222 )()()( iiii yyyyyy 总离差平方和分解为两部分:前一部分是由回 归直线引起的。后一部分则是由于实际观测值没 有落在回归直线上引起的。因此, SR越大, SE 就越小,表示 y 与 x 的线性关系就越显著; 反之, SR越小, SE就越大,表示y 与 x 的线性关系 就越不显著。这样,我们找到了一种判别回归直线 拟合程度好坏的方法:决定系数法。 决定系数法
10、 可以解释为 y的总变化量ST中被线性回归方程所描 述的比例。R2越大,说明该回归方程描述因变量总 变化量的比例越大,从而拟合的残差平方和SE就越 小,即拟合效果越好。可见R2反映了回归方程对数 据的拟合程度,是衡量拟合优劣的一个很重要的统 计量。 R又被称为复(多重)相关系数。 T E T R S S S S R1 2 常用修正R2(AdjR2)来代替R2,其定义为: T E S S n n RAdj 2 1 1 2 AdjR2 与 R2类似,不同的是 AdjR2同时考虑了 样本容量 n 和模型中参数个数 k 的影响,为避 免增加自变量而高估R2,用样本容量n和模型中 参数个数 k 去修正
11、R2 ,这使得 AdjR2 永远小于 R2,而且AdjR2的值不会因为自变量个数的增加 而越来越接近1,因此,多元回归分析中,常 用修正决定系数来评价回归方程的拟合优度。 方差分析法 零假设 检验统计量的确定 0: 10 H 定理 在零假设下 (1) 含义?含义? ) 1( 2 2 n ST 在 0: 10 H下 ),(. . 2 0 Ndi iyi ) 1( )() 1( 2 2 2 2 2 n yysn iy (2) ),1 ( 2 2 R S 且与 2 E S 相互独立; 222 ERT SSSSSS 2 1n 2 2n 2 1 (3)检验统计量 ).2, 1 ( )2( nF nS S
12、 F E R 当H0不真时,线性回归效果显著,F的值 应比较大,否则就比较小。由此,对给定的 显著性水平 检验规则为: 当拒绝H0,否则就接受H0. 检验过程可用方 差分析表表示. )2, 1 (nFF 方差分析表 Analysis of Variance sourcedfSSMS F Error Total Model 1 2n 1n R SS E SS TOT SS R SS ) 2( nSSE )2( nSS SS E R 第四节 一元回归模型的诊断 回归诊断回归诊断 确定所选择的回归模型是否能够恰当地拟合 所研究的数据称为回归诊断。 在拟合一个回归模型之前,并不能肯定这个模 型适用于所有数据。如对回归函数的线性性假设、 误差的正态性和同方差性假设等,都有可能不适 合于所有数据。因此,拟合一个模型之后,再进 一步考察模型对所有数据的适用性,是将此模型 应用于实际之前所必须的,而且也是十分重要的 一个环节。 回归诊断 对回归模型进行回归诊断的方法有很多, 最重要的方法是残差分析和共线诊断(对多元回 归的情况)。 残差分析 如果拟合的模型不能很好地反映数据的特 点,就必须对模型作必要的修正或对数据作某些 处理。在这方面残差分析起着十分重要的作用。 残差 ), 1(niyy iii 如果模型正确,则可将