线性回归分析－金锄头文库

资源描述

《线性回归分析》由会员分享，可在线阅读，更多相关《线性回归分析（25页珍藏版）》请在金锄头文库上搜索。

1、第十章线性回归分析变量之间的关系有两种：确定型的函数关系不确定型的函数关系这里主要研究不确定型的函数关系，如收入与受教育程度之间的关系，等等问题。但它们之间存在明显的相互关系（称为相关关系），又是不确定的。回归分析是研究随机变量之间相关关系的统计方法。其研究一个被解释变量（因变量）与一个或多个解释变量（自变量）之间的统计关系。例：人均收入 X 与人均食品消费支出 Y 的散点图的关系如图。1.一元线性回归是研究一个自变量与一个因变量的统计关系。一. 一元线性回归人均收入X人均食品支出 Y这两个变量之间的不确定关系，可以用下式表示：式中，人均食品消费支出Y 是被解释变

2、量，人均收入 X 是解释变量，1， 2是待估计参数；u 是随机干扰项，且与 X 无关，它反映了 Y 被 X 解释的不确定性。如果随机干扰项 u 的均值为 0，对上式求条件均值，有反映出从“平均”角度看，是确定性关系。例：地区的多孩率与人均国民收入的散点图如下：人均收入X多孩率 Y这两个变量之间的不确定关系，大致可以用下式表示：设 Z =Ln X ，可将上式线性关系为：线性回归的任务：就是用恰当的方法，估计出参数 1， 2 ，并且使估计出来的参数具有良好的统计特征，所以，回归问题从某种视角看，视同参数估计问题。如果把X，Y的样本观测值代到线性回归方程中，就得到i =1,2,

3、 ,n, n为样本容量.从重复抽样的角度看， Xi，Yi也可以视为随机变量。2. 高斯基本假设对于线性回归模型i =1,2, ,n, n为样本容量.高斯基本假设如下:(1) ui 为随机变量 ( 本假设成立, 因为我们研究就是不确定关系).(2) E(ui) =0, 随机干扰项的期望值等于零(本假设成立, 如果其均值不是零, 可以把它并入到 1 中).(3) Var(ui) =2u , 随机干扰项的方差等于常数(本假设有可能不成立, 以后讨论不成立时如何处理).(4) E(uiuj)=0 (ij) 随机干扰项协方差等于零(本假设有可能不成立, 以后讨论不成立时如何处理).(5) ui 服从

4、 N(0, 2u )分布;(6) E(Xiuj)=0, 对Xi 的性质有两种解释:a. Xi 视为随机变量, 但与uj无关, 所以(6)成立.b. Xi 视为确定型变量, 所以(6)也成立.3. 普通最小二乘法 (OLS)设线性回归模型其中为1， 2 的估计值, 则 Y 的计算值, 可以用下式表达:所要求出待估参数 , 要使 Y 与其计算值之间的“误差平方和”最小. 即：使得最小. 为此, 分别求Q 对的偏导, 并令其为零:由上两式, 就可求出待估参数的值.4. 所求参数的计算公式的另一个表达式为:5. 几何解释残差向量 e =Y = (Y-Y) - (-Y) = y- 向量 y, ,

5、 e 三者之间关系如图所示,普通最小二乘法要使残差平方和 e2i 最小, 也就是要使 e 的长度尽可能小, 等价于在几何上 e x . 或者说, 的长度应当是 y 在 x 上的投影长度.yxe二. 多元线性回归本节要研究一个被解释变量 (因变量) , 多个解释变量(自变量)的线性模型, 即1. 基本假设(1) u 为随机变量向量；(2) E(u) =0；(3) cov(u) =E(u uT) = 2u In (包含了两个其本假设：一是不存在序列相关，即 ij 时, cov(ui, uj)=E(uiuj)=0; 二是具有同方差性(齐次方差性), 即Var(ui) =2u ).(4) u

6、N(0, 2u In ) (5) E(XTu) =0 , 或者, X 为确定矩阵(6) 秩 ( X ) = k, ( k f(k-1, n-k), 就表示回归效果是好的, 在水平下, 已解释方差(Y的变化中已经解释的部分)明显大于未解释方差(Y的变化中尚未解释的部分).8. F与 R2的关系F 统计量与R2的统计量的关系, 可以从下式的推演中看到:推演中用到勾股定理：。9. 校正的判定系数（Adjusted R2）统计量R2中不含有自由度。所谓校正的判定系数，就是指“考虑了自由度的判定系数R2adj”。其定义如下：这样，R2adj剔除了自由度的影响。10. 回归系数的 T 检验假设H

7、o: j=0;备择假设H1: j 0 (即 Ho 不成立).用统计量:服从t (n-k), 可以完成上述假设检验.当时, H1成立, 即 j 显著异于0.( n 5 时, 若取 =0.05, 则当t 2 时, 有H1 成立, 即j显著异于0 )针对回归系数的 t 统计量的显著性检验, 决定了相应的变量能否作为解释变量进入回归方程.注意:11. 回归系数的置信区间得到区间为水平上的置信区间.例: =0.05, 则给定一置信水平 , 用统计量即14. 标准回归系数在上述回归方程中, 自变量的单位对回归系数的数量级有很大影响, 例如: 元、百元、千元、万元等。为了从回归系数的大小中

8、，简单比较相应的自变量对因变量的作用大小，就应当剔除自变量单位的影响。一般的处理方法是把所有的变量“标准化”。所谓标准化就是指对变量Y, X2, ,Xk进行如下处理:式中, 于是, 原始方程:就转化为标准方程:注: 在SPSS中, 所谓标准回归系数, 就是指这一方程的回归系数.2、逐步回归法逐步回归法的基本思想：在考虑 Y 对已知的一群变量( X2, ,Xk )回归时, 从变量X2, ,Xk中, 逐步选出对已解释变差的贡献 (也就是偏解释变差) 最大的变量,进入回归方程. 而对已解释变差的贡献大小的判别依据, 就是包含了偏解释变差的 F 统计量Fj. 统计量Fj 的值 fj 最大的

9、 xj , 先进入方程; 最后一个进入方程的自变量 xj , 也应当满足: 统计量的值 fj 的显著性概率 p 小于等于选定的显著性水平 (即, 要求其系数 j 显著异于 0).逐步回归法也可以按照反过来的顺序进行. 先把 Y 对所有的自变量 X2, ,Xk 回归, 然后逐步把 fj 最小的 xj 剔除出方程. 所有剔除出方程的 xj , 在剔除时, 其统计量的值 fj 的显著性概率 p 大于选定的显著性水平 (即, 要求其系数j 与 0 没有显著性差异).注意: 逐步添加法或逐步剔除法, 都应当强调“逐步” . 不能一次按照各个变量的统计量的值 fj 的显著性概率 p 是否小于

10、等于选定的显著性水平 , 来决定是否作为 Y 的自变量. 因为每添加或剔除一个变量, 都会引起所有回归系数的变化和统计量的值 fj 的变化. 一次处理会造成误判, 只有逐步处理, 才是恰当的.逐步回归的第三种方法: 一边进, 一边出.“进”与“出”的判别准则通常是不同的. “进”的变量的 fj 的显著性概率 p 所对照的显著性水平 1 通常取得大一些, 以便能够有更多的 fj 的外侧概率(显著性概率)小于1 , 也就是使更多的系数 j 显著异于 0 , 从而更多的变量进入方程. 而“出”的变量的 fj 的显著性概率 p 所对照的显著性水平2 , 通常取得小一些, 以便能够有较少的 fj 的显著性概率 p 小于2 , 从而有更少的变量被剔除出方程.

展开阅读全文