线性回归分析

上传人:206****923 文档编号:50946984 上传时间:2018-08-11 格式:PPT 页数:25 大小:451.50KB
返回 下载 相关 举报
线性回归分析_第1页
第1页 / 共25页
线性回归分析_第2页
第2页 / 共25页
线性回归分析_第3页
第3页 / 共25页
线性回归分析_第4页
第4页 / 共25页
线性回归分析_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《线性回归分析》由会员分享,可在线阅读,更多相关《线性回归分析(25页珍藏版)》请在金锄头文库上搜索。

1、第十章线性回归分析变量之间的关系有两种: 确定型的函数关系 不确定型的函数关系这里主要研究不确定型的函数关系,如收入 与受教育程度之间的关系,等等问题。 但它们之 间存在明显的相互关系(称为相关关系),又是 不确定的。回归分析是研究随机变量之间相关关系的统计方 法。其研究一个被解释变量(因变量)与一个或 多个解释变量(自变量)之间的统计关系。例:人均收入 X 与人均食品消费支出 Y 的散点图的关系 如图。1.一元线性回归是研究一个自变量与一个因变量的统计 关系。一. 一元线性回归人均收入X人 均 食 品 支 出 Y这两个变量之间的不确定关系,可以用下式表示:式中,人均食品消费支出Y 是被解释变

2、量, 人均收入 X 是解释变量,1, 2是待估计参数;u 是随机干扰项, 且与 X 无关, 它反映了 Y 被 X 解释的不确定性。如果随机干扰项 u 的均值为 0, 对上式求条件均值, 有反映出从“平均”角度看,是确定性关系。例:地区的多孩率与人均国民收入的散点图如下:人均收入X多 孩 率 Y这两个变量之间的不确定关系,大致可以用下式表示:设 Z =Ln X ,可将上式线性关系为:线性回归的任务:就是用恰当的方法,估计出参 数 1, 2 ,并且使估计出来的参数具有良好的统 计特征,所以,回归问题从某种视角看,视同参 数估计问题。如果把X,Y的样本观测值代到线性回归方程中,就得 到i =1,2,

3、 ,n, n为样本容量.从重复抽样的角度看, Xi,Yi也可以视为随机变量。2. 高斯基本假设对于线性回归模型i =1,2, ,n, n为样本容量.高斯基本假设如下:(1) ui 为随机变量 ( 本假设成立, 因为我们研究就是不确 定关系).(2) E(ui) =0, 随机干扰项的期望值等于零(本假设成立, 如果其均值不是零, 可以把它并入到 1 中).(3) Var(ui) =2u , 随机干扰项的方差等于常数(本假设 有可能不成立, 以后讨论不成立时如何处理).(4) E(uiuj)=0 (ij) 随机干扰项协方差等于零(本假设有可能不成立, 以后讨论不成立时如何处理).(5) ui 服从

4、 N(0, 2u )分布;(6) E(Xiuj)=0, 对Xi 的性质有两种解释:a. Xi 视为随机变量, 但与uj无关, 所以(6)成立.b. Xi 视为确定型变量, 所以(6)也成立.3. 普通最小二乘法 (OLS)设线性回归模型其中为1, 2 的估计值, 则 Y 的计算值, 可以用下式表达:所要求出待估参数 , 要使 Y 与其计算值之间 的“误差平方和”最小. 即: 使得最小. 为此, 分别求Q 对 的偏导, 并令其为零:由上两式, 就可求出待估参数 的值.4. 所求参数的计算公式的另一个表达式为:5. 几何解释残差向量 e =Y = (Y-Y) - (-Y) = y- 向量 y, ,

5、 e 三者之间关系如图所示,普通最小二乘法要使残差平方和 e2i 最小, 也就是要 使 e 的长度尽可能小, 等价于在几何上 e x . 或者说, 的长度应当是 y 在 x 上的投影长度.yxe二. 多元线性回归本节要研究一个被解释变量 (因变量) , 多个解释变量(自 变量)的线性模型, 即1. 基本假设(1) u 为随机变量向量 ;(2) E(u) =0;(3) cov(u) =E(u uT) = 2u In (包含了两个其本假设:一 是不存在序列相关,即 ij 时, cov(ui, uj)=E(uiuj)=0; 二是具有同方差性(齐次方差性), 即Var(ui) =2u ).(4) u

6、N(0, 2u In ) (5) E(XTu) =0 , 或者, X 为确定矩阵(6) 秩 ( X ) = k, ( k f(k-1, n-k), 就表示回归效果是好的, 在 水平下, 已解释方差(Y的变化中已经解 释的部分)明显大于未解释方差(Y的变化中尚未解释的部 分).8. F与 R2的关系F 统计量与R2的统计量的关系, 可以从下式的推演中看到:推演中用到勾股定理: 。9. 校正的判定系数(Adjusted R2)统计量R2中不含有自由度。所谓校正的判定系数,就是 指“考虑了自由度的判定系数R2adj”。其定义如下:这样,R2adj剔除了自由度的影响。10. 回归系数的 T 检验假设H

7、o: j=0;备择假设H1: j 0 (即 Ho 不成立).用统计量:服从t (n-k), 可以完成上述假 设检验.当 时, H1成立, 即 j 显著异于0.( n 5 时, 若取 =0.05, 则当t 2 时, 有H1 成立, 即j显 著异于0 )针对回归系数的 t 统计量的显著性检验, 决定了相应的变 量能否作为解释变量进入回归方程.注意:11. 回归系数的置信区间得到区间 为 水平上 的置信区间.例: =0.05, 则给定一置信水平 , 用统计量即14. 标准回归系数在上述回归方程中, 自变量的单位对回归系数的数量 级有很大影响, 例如: 元、百元、千元、万元等。为了从 回归系数的大小中

8、, 简单比较相应的自变量对因变量的 作用大小, 就应当剔除自变量单位的影响。一般的处理 方法是把所有的变量“标准化”。所谓标准化就是指对变量Y, X2, ,Xk进行如下处理:式中, 于是, 原始方程:就转化为标准方程:注: 在SPSS中, 所谓标准回归系数, 就是指这一方程的 回归系数.2、逐步回归法逐步回归法的基本思想:在考虑 Y 对已知的一群变量( X2, ,Xk )回归时, 从变量X2, ,Xk中, 逐步选出对已解释变差的贡献 (也就是偏解释变差) 最大的变量,进入回归方程. 而对已解释变差的贡献大小的判 别依据, 就是包含了偏解释变差的 F 统计量Fj. 统计量Fj 的值 fj 最大的

9、 xj , 先进入方程; 最后一个进入方程的自变量 xj , 也 应当满足: 统计量的值 fj 的显著性概率 p 小于等于选定的显 著性水平 (即, 要求其系数 j 显著异于 0).逐步回归法也可以按照反过来的顺序进行. 先把 Y 对所有 的自变量 X2, ,Xk 回归, 然后逐步把 fj 最小的 xj 剔除出方程. 所有剔除出方程的 xj , 在剔除时, 其统计量的值 fj 的显著性概 率 p 大于选定的显著性水平 (即, 要求其系数j 与 0 没有显 著性差异).注意: 逐步添加法或逐步剔除法, 都应当强调“逐步” . 不能 一次按照各个变量的统计量的值 fj 的显著性概率 p 是否小 于

10、等于选定的显著性水平 , 来决定是否作为 Y 的自变量. 因为每添加或剔除一个变量, 都会引起所有回归系数的变 化和统计量的值 fj 的变化. 一次处理会造成误判, 只有逐步 处理, 才是恰当的.逐步回归的第三种方法: 一边进, 一边出.“进”与“出”的判别准则通常是不同的. “进”的变量的 fj 的显著性概率 p 所对照的显著性水平 1 通常取得大一 些, 以便能够有更多的 fj 的外侧概率(显著性概率)小于1 , 也就是使更多的系数 j 显著异于 0 , 从而更多的变量进入 方程. 而“出”的变量的 fj 的显著性概率 p 所对照的显著性 水平2 , 通常取得小一些, 以便能够有较少的 fj 的显著性 概率 p 小于2 , 从而有更少的变量被剔除出方程.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号