大学生课件_数学统计学:回归模型的扩展课件:第三节 多重共线性

上传人:w****6 文档编号:127689313 上传时间:2020-04-04 格式:PPT 页数:42 大小:235KB
返回 下载 相关 举报
大学生课件_数学统计学:回归模型的扩展课件:第三节 多重共线性_第1页
第1页 / 共42页
大学生课件_数学统计学:回归模型的扩展课件:第三节 多重共线性_第2页
第2页 / 共42页
大学生课件_数学统计学:回归模型的扩展课件:第三节 多重共线性_第3页
第3页 / 共42页
大学生课件_数学统计学:回归模型的扩展课件:第三节 多重共线性_第4页
第4页 / 共42页
大学生课件_数学统计学:回归模型的扩展课件:第三节 多重共线性_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《大学生课件_数学统计学:回归模型的扩展课件:第三节 多重共线性》由会员分享,可在线阅读,更多相关《大学生课件_数学统计学:回归模型的扩展课件:第三节 多重共线性(42页珍藏版)》请在金锄头文库上搜索。

1、第三节多重共线性 Multi Collinearity 3 3多重共线性 一 多重共线性的概念 对于模型Yi 0 1X1i 2X2i kXki ii 1 2 n其基本假设之一是解释变量是互相独立的 如果某两个或多个解释变量之间出现了相关性 则称为多重共线性 Multicollinearity 如果存在c1X1i c2X2i ckXki 0i 1 2 n其中 ci不全为0 则称为解释变量间存在完全共线性 perfectmulticollinearity 如果存在c1X1i c2X2i ckXki vi 0i 1 2 n其中ci不全为0 vi为随机误差项 则称为近似共线性 approximatem

2、ulticollinearity 或交互相关 intercorrelated 在矩阵表示的线性回归模型Y X 中 完全共线性指 秩 X k 1 即 中 至少有一列向量可由其他列向量 不包括第一列 线性表出 如 X2 X1 则X2对Y的作用可由X1代替 注意 完全共线性的情况并不多见 一般出现的是在一定程度上的共线性 即近似共线性 二 实际经济问题中的多重共线性 一般地 产生多重共线性的主要原因有以下三个方面 1 经济变量的内在联系经济系统中各要素之间只要是相互依存 相互制约的 在数量关系上必然存在一定的联系 因此 多重共线性不可避免 只是影响程度有所不同而已 2 经济变量变化趋势的 共向性 有

3、些经济变量虽无明显的内在联系 但在考察的样本期内其变化方向一致 如 时间序列样本 经济繁荣时期 各基本经济变量 收入 消费 投资 价格 都趋于增长 衰退时期 又同时趋于下降 横截面数据 生产函数中 资本投入与劳动力投入往往出现高度相关情况 大企业二者都大 小企业都小 3 滞后变量的引入 在经济计量模型中 往往需要引入滞后经济变量来反映真实的经济关系 例如 消费 f 当期收入 前期收入 显然 两期收入间有较强的线性相关性 含有滞后变量的模型一般都有多重共线性 4 样本资料的限制 由于完全符合理论模型所要求的样本数据较难收集 特定样本可能存在某种程度的多重共线性 一般经验 时间序列数据样本 简单线

4、性模型 往往存在多重共线性 截面数据样本 问题不那么严重 但多重共线性仍然是存在的 二 多重共线性的影响 1 完全共线性下参数估计量不存在 如果存在完全共线性 则 X X 1不存在 无法得到参数的估计量 的OLS估计量为 例 对离差形式的二元回归模型 如果两个解释变量完全相关 如x2 x1 则 这时 只能确定综合参数 1 2的估计值 2 增大OLS估计的方差 近似共线性下OLS估计量非有效 近似共线性下 可以得到OLS参数估计量 但参数估计量方差的表达式为 由于 X X 0 引起 X X 1主对角线元素较大 使参数估计值的方差增大 OLS参数估计量非有效 仍以二元线性模型为例 称VIF为方差膨

5、胀因子 VarianceInflatingFactor 可见 多重共线性使参数估计值的方差增大1 当完全不共线时 当近似共线时 当完全共线时 3 难以区分每个解释变量的单独影响 参数估计量经济含义不合理 如果模型中两个解释变量具有线性相关性 例如X2 X1 这时 X1和X2前的参数 1 2并不反映各自与被解释变量之间的结构关系 而是反映它们对被解释变量的共同影响 1 2已经失去了应有的经济含义 于是经常表现出似乎反常的现象 例如 1本来应该是正的 结果恰是负的 4 变量的显著性 t 检验的可靠性降低 以至失去意义 存在多重共线性时 参数估计值的方差与标准差变大 容易使通过样本计算的t值小于临界

6、值 误导作出参数为0的推断 可能将重要的解释变量排除在模型之外 5 模型的稳定性降低 预测功能失效 当模型存在多重共线性时 即使数据有微小的变化 也会导致系数估计值发生明显的变化 即会使得模型的稳定性降低 从同一个总体中抽取不同的样本 得到的估计值虽不会完全相同 但也不应有显著差异 这既是模型的 稳定性 而变大的方差容易使区间预测的 区间 变大 使预测失去意义 注意 除非是完全共线性 多重共线性并不意味着任何基本假设的违背 G M假设中对有无共线性无特别要求 因此 即使出现较高程度的多重共线性 OLS估计量仍具有线性性等良好的统计性质 问题在于 即使OLS法仍是最好的估计方法 它却不是 完美的

7、 尤其是在统计推断上无法给出真正有用的信息 多重共线性检验的任务是 1 检验多重共线性是否存在 2 估计多重共线性的范围 即判断哪些变量之间存在共线性 多重共线性表现为解释变量之间具有相关关系 所以用于多重共线性的检验方法主要是统计方法 如判定系数检验法 逐步回归检验法等 三 多重共线性的检验 1 相关系数检验 1 对两个解释变量的模型 采用简单相关系数法求出X1与X2的简单相关系数r 若 r 接近1 则说明两变量存在较强的多重共线性 2 对多个解释变量的模型 采用综合统计检验法 若在OLS法下 R2与F值较大 但t检验值较小 说明各解释变量对Y的联合线性作用显著 但各解释变量间存在共线性而使

8、得它们对Y的独立作用不能分辨 故t检验不显著 命令方式 COR解释变量名 菜单方式 将所有解释变量设置成一组 在数组窗点击View Correlations 2 辅助回归模型检验 相关系数检验只能判断解释变量之间的如果存在多重共线性 需进一步确定究竟由哪些变量引起 1 辅助回归模型 的判定系数 检验法使模型中每一个解释变量分别以其余解释变量为解释变量进行回归 并计算相应的拟合优度 如果某一种 辅助 回归模型 的判定系数较大 说明与其他X间存在共线性 对辅助回归模型的检验不仅能检验模型是否存在多重共线性 而且可以得到多重共线性的具体形式 如再结合偏相关系数检验 还可以判断是那些解释变量引起了多重

9、共线性 这有助于分析如何消除多重共线性的影响 在模型中排除某一个解释变量 估计模型 如果拟合优度与包含时十分接近 则说明与其它解释变量之间存在共线性 另一等价的检验是 3 方差膨胀因子检验 对多元线性回归模型 有 4 特征值检验 考察解释变量的样本数据矩阵 线性回归模型Y X 存在完全共线性时 有 rank X k 1 当模型存在严重的共线性时 有 因此可以利用特征值中是否有近似等于零来检验模型的共线性 逐步回归法 也可以用此法解决共线性问题见P114 以Y为被解释变量 逐个引入解释变量 构成回归模型 进行模型估计 根据拟合优度的变化决定新引入的变量是否独立 如果拟合优度变化显著 则说明新引入

10、的变量是一个独立解释变量 如果拟合优度变化很不显著 则说明新引入的变量与其它变量之间存在共线性关系 找出引起多重共线性的解释变量 将它排除出去 注意 这时 剩余解释变量参数的经济含义和数值都可能发生了变化 如果模型被检验证明存在多重共线性 则需要发展新的方法估计模型 最常用的方法有三类 四 多重共线性的解决方法 1 第一类方法 排除引起共线性的变量 剔除变量的方法有直接法和间接法 P111 1 直接剔除次要或可替代的变量根据理论 经验 相关系数 相关图等 2 间接剔除重要的解释变量 P111 b 变换模型的形式 a 利用附加信息 c 综合使用时间序列数据和截面数据 3 逐步回归 P114 a

11、先选取相关性最强的解释变量建立一元回归模型 b 在一元模型中分别加入第二个变量 共建立k 1个二元模型 从中选取一个最优的 c 以二元模型为基础 引入第三各变量 如此下去 直至无法引入新的变量为止 2 第二类方法 用 差分法 削弱共线性 时间序列数据 线性模型 将原模型变换为差分模型 Yi 1 X1i 2 X2i k Xki i可以有效地消除原模型中的多重共线性 一般讲 增量之间的线性关系远比总量之间的线性关系弱得多 例如 由表中的比值可以直观地看到 增量的线性关系弱于总量之间的线性关系 进一步分析 Y与C之间的判定系数为0 9988 Y与 C之间的判定系数为0 7567 近似 例题5服装需求

12、函数 P114 3 第三类方法 减小参数估计量的方差 多重共线性的主要后果是参数估计量具有较大的方差 所以采取适当方法减小参数估计量的方差 虽然没有消除模型中的多重共线性 但确能消除多重共线性造成的后果 例如 增加样本容量 可使参数估计量的方差减小 岭回归法 RidgeRegression 70年代发展的岭回归法 以引入偏误为代价减小参数估计量的方差 受到人们的重视 具体方法是 引入 使参数估计量为 六 案例 中国粮食生产函数 根据理论和经验分析 影响粮食生产 Y 的主要因素有 农业化肥施用量 X1 粮食播种面积 X2 成灾面积 X3 农业机械总动力 X4 农业劳动力 X5 已知中国粮食生产的

13、相关数据 建立中国粮食生产函数 Y 0 1X1 2X2 3X3 4X4 4X5 1 用OLS法估计上述模型 R2接近于1 给定 5 得F临界值F0 05 5 12 3 11F 638 4 15 19 故认上述粮食生产的总体线性关系显著成立 但X4 X5的参数未通过t检验 且符号不正确 故解释变量间可能存在多重共线性 0 91 8 39 3 32 2 81 1 45 0 14 2 检验简单相关系数 发现 X1与X4间存在高度相关性 列出X1 X2 X3 X4 X5的相关系数矩阵 3 找出最简单的回归形式 可见 应选第1个式子为初始的回归模型 分别作Y与X1 X2 X4 X5间的回归 25 58 11 49 R2 0 8919F 132 1DW 1 56 0 49 1 14 R2 0 075F 1 30DW 0 12 17 45 6 68 R2 0 7527F 48 7DW 1 11 1 04 2 66 R2 0 3064F 7 07DW 0 36 4 逐步回归 将其他解释变量分别导入上述初始回归模型 寻找最佳回归方程 回归方程以Y f X1 X2 X3 为最优 5 结论 讨论请参见 李子奈 p79 粮食生产模型 其使用数据是83 95年的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号