ch5回归分析－金锄头文库

资源描述

《ch5回归分析》由会员分享，可在线阅读，更多相关《ch5回归分析（55页珍藏版）》请在金锄头文库上搜索。

1、第五章多元回归分析第一节为什么要建立线性模型第二节一元回归模型的建立第三节一元回归模型的显著性检验第四节一元回归模型的诊断第五节曲线回归第六节多元回归模型的建立第七节多元回归模型与系数的显著性检验第八节多重共线性回归这个术语是由英国著名统计学家 Francis Galton在19世纪末期研究孩子及他们的父母的身高时提出来的。Galton发现身材高的父母，他们的孩子也高。但这些孩子平均起来并不像他们的父母那样高。对于比较矮的父母情形也类似：他们的孩子比较矮，但这些孩子的平均身高要比他们的父母的平均身高高。 Galton把这种孩子的身高向中间值靠近的

2、趋势称之为一种回归效应，而他发展的研究两个数值变量的方法称为回归分析。第一节为什么要建立线性模型线性模型简单、易分析相关性意味着线性性许多常用函数经过变换可以化为线性函数，如 x ba y 11 )ln(xbay b axy bx aey x b aey x bea y 1 一般函数可以通过Tayer公式局部线性化 2 00000 )( ! 2 1 )()()(xxxfxxxfxfxfy 第二节一元回归模型的建立观察由n个样本构成的散点图或计算样本相关系数，若呈现明显的相关性，建立数学模型 ),( ,),(),( 2211nn yxyxyx ), 0(, 2 10 N

3、xy 其中是未知参数，需要利用样本对它们进行估计。称为回归系数，预报变量x也称为回归变量。 2 10 , 10, 当利用样本对作出的估计为时，有 10, 10 , xy 10 称为y的预报值或回归值或拟合值。上面方程称为预报方程或回归方程或拟合方程, 对应直线称为回归直线或拟合直线。 y 参数的最小二乘估计与的无偏估计 10, 2 参数的最小二乘估计及其矩阵表达设n组观测值有模型1 10, ),(),( 11nn yxyx ), 0( ., .2 , 1 2 21 10 Ndi i nixy n iii 使最小的为的最小二乘估计. n i i 1 2 10,

4、10 , 令 n i ii n i i xyQQ 1 2 10 1 2 10 )(),( n i iii n i ii xyx Q xy Q 1 10 1 1 10 0 )(2 )(2 最小二乘解： n i n i ii n i i n i i n i ii n i i n i ii xxn yxyxn xx yyxx xy 1 2 1 2 111 1 2 1 1 10 )()( )( 矩阵偏导数与样本矩阵表达 n y y y Y 2 1 n x x x X 1 1 1 2 1 2 1 n 2 1 xAA x Axx )( A x Ax 模型2 ),( ),( 2 2 nn nn XNY N

5、XY 最小二乘解：（1）为y关于x的回归方程（2）称为方程的回归系数（3）称为残差，为残差向量（4）称为残差平方和 YXXX 1 )( xy 10 ) , ( 10 iii yy ) () (YYYYSE YY ) ( XY x y xy 10 i x i y i y iiiii xyyy 10 与的性质 E S 性质1 )(,( 12 2 1 0 XXN 性质2 )2( 22 nSE 且 2 )2(nSE E 即的无偏估计是 2 ) 2( 2 nSE AYYYXXXXIYYYYYSE )() () ( 1 AXXXXIA 12 )( ),( nn IXNY)( 22

6、)( 2 ARE S 1. 2. 3. 性质3 与相互独立 E S )()() () ( 11 YXXXXIYXXXXIYYYYSE YXXX 1 )( 1. 2. YXXXXI)( 1 YXXX 1 )(3. 验证与相互独立即可。一个结论：服从，AX与BX相互独立. ),( pp IN 0BA X 第三节一元回归模型的显著性检验在实际中，事先我们并不能判定 X 与Y 确有线性关系，只是一种假设。这种假设是根据专业知识和散点图作出的粗略判断。在求出回归方程之后，还需对回归方程同实际观测数据拟合的效果进行检验。由方程，当越大，y随x变化的趋势就越明显；反之，

7、当越小,y随x变化就越不明显，特别当时，则认为y与x不存在线性关系.当时，则认为y与x有线性关系。因此，问题归结为对假设：进行检验。 xy 101 1 0 1 0 1 0: ; 0: 1110 HH 第三节一元回归模型的显著性检验若拒绝，就认为y与x存在线性关系，所求的线性回归方程有意义；若接受，则认为y 与x的关系不能用一元线性回归模型来描述，所得回归方程无意义。此时，可能有如下几种情况： 0 H 0 H （1）x对y没有显著影响，此时应丢掉预报变量x, （2）x对y有显著影响，但这种影响不能用线性相关关系表示，应该用非线性回归；（3）除x之外，还有不可忽略的

8、预报变量对y有显著影响，从而消弱了x对y的影响，此时应用多元线性回归。第三节一元回归模型的显著性检验总平方和分解 222 )()()( iiii yyyyyy ERT SSS n i iT yyS 1 2 )(总平方和总平方和反映了数据反映了数据 y 总的波动性的大小。总的波动性的大小。回归平方和回归平方和反映了拟合值与其平均值的总偏差，即由变反映了拟合值与其平均值的总偏差，即由变量量 x 的变化引起的的变化引起的 y 的波动。的波动。 n i iR yyS 1 2 )( 总平方和总平方和回归平方和回归平方和残差平方和残差平方和第三节一元回归模型的显著性检验残差平方

9、和残差平方和反映了除去y 与 x 之间的线性关系以外的随机因素引起的数据y 的波动。若SE = 0，则每个观测值可由线性关系精确拟合， SE越大，观测值与线性拟合值的偏差也越大。 n i iiE yyS 1 2 222 )()()( iiii yyyyyy 总离差平方和分解为两部分：前一部分是由回归直线引起的。后一部分则是由于实际观测值没有落在回归直线上引起的。因此， SR越大， SE 就越小，表示 y 与 x 的线性关系就越显著；反之， SR越小， SE就越大，表示y 与 x 的线性关系就越不显著。这样，我们找到了一种判别回归直线拟合程度好坏的方法：决定系数法。决定系数法

10、可以解释为 y的总变化量ST中被线性回归方程所描述的比例。R2越大，说明该回归方程描述因变量总变化量的比例越大，从而拟合的残差平方和SE就越小，即拟合效果越好。可见R2反映了回归方程对数据的拟合程度，是衡量拟合优劣的一个很重要的统计量。 R又被称为复（多重）相关系数。 T E T R S S S S R1 2 常用修正R2（AdjR2）来代替R2，其定义为： T E S S n n RAdj 2 1 1 2 AdjR2 与 R2类似，不同的是 AdjR2同时考虑了样本容量 n 和模型中参数个数 k 的影响，为避免增加自变量而高估R2，用样本容量n和模型中参数个数 k 去修正

11、R2 ，这使得 AdjR2 永远小于 R2，而且AdjR2的值不会因为自变量个数的增加而越来越接近1，因此，多元回归分析中，常用修正决定系数来评价回归方程的拟合优度。方差分析法零假设检验统计量的确定 0: 10 H 定理在零假设下 (1) 含义？含义？ ) 1( 2 2 n ST 在 0: 10 H下 ),(. . 2 0 Ndi iyi ) 1( )() 1( 2 2 2 2 2 n yysn iy （2） ),1 ( 2 2 R S 且与 2 E S 相互独立; 222 ERT SSSSSS 2 1n 2 2n 2 1 （3）检验统计量 ).2, 1 ( )2( nF nS S

12、 F E R 当H0不真时，线性回归效果显著，F的值应比较大，否则就比较小。由此，对给定的显著性水平检验规则为：当拒绝H0，否则就接受H0. 检验过程可用方差分析表表示. )2, 1 (nFF 方差分析表 Analysis of Variance sourcedfSSMS F Error Total Model 1 2n 1n R SS E SS TOT SS R SS ) 2( nSSE )2( nSS SS E R 第四节一元回归模型的诊断回归诊断回归诊断确定所选择的回归模型是否能够恰当地拟合所研究的数据称为回归诊断。在拟合一个回归模型之前，并不能肯定这个模型适用于所有数据。如对回归函数的线性性假设、误差的正态性和同方差性假设等，都有可能不适合于所有数据。因此，拟合一个模型之后，再进一步考察模型对所有数据的适用性，是将此模型应用于实际之前所必须的，而且也是十分重要的一个环节。回归诊断对回归模型进行回归诊断的方法有很多，最重要的方法是残差分析和共线诊断（对多元回归的情况）。残差分析如果拟合的模型不能很好地反映数据的特点，就必须对模型作必要的修正或对数据作某些处理。在这方面残差分析起着十分重要的作用。残差 ), 1(niyy iii 如果模型正确，则可将

展开阅读全文

ch5回归分析

最新文档