【2017年整理】c3 多元回归模型

上传人:豆浆 文档编号:987723 上传时间:2017-05-24 格式:DOCX 页数:13 大小:89.48KB
返回 下载 相关 举报
【2017年整理】c3  多元回归模型_第1页
第1页 / 共13页
【2017年整理】c3  多元回归模型_第2页
第2页 / 共13页
【2017年整理】c3  多元回归模型_第3页
第3页 / 共13页
【2017年整理】c3  多元回归模型_第4页
第4页 / 共13页
【2017年整理】c3  多元回归模型_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《【2017年整理】c3 多元回归模型》由会员分享,可在线阅读,更多相关《【2017年整理】c3 多元回归模型(13页珍藏版)》请在金锄头文库上搜索。

1、第 3 章 多元回归模型:估计摘要: 一元回归分析中,关键假定 SLR.4(所有影响 y 的因素都和 x 不相关)不现实,也就是很难得到在“其它条件不变”的情形下进行因果推断。多元回归模型(Multiple regression analysis)则由于可以控制其它影响 y 的因素(这些因素之间可以允许一定程度的相关性)而使得“其它条件不变”的要求容易满足。多个解释因素的引入,改善了对 y 的解释和预测,也意味着更为一般的函数形式。3.1 使用多元回归的动机1. 含有两个自变量的模型例 1: =0+1+2+通过引入 ,有效地控制了 ,也就是可以讨论在 保持不变的情况下, 对 wage 的影响。

2、虽然任然需要假 定 u 和 、 不相关,但显然比一元回归中假定 u 和不相关弱多了。一般地,一个二元回归模型为:.=0+11+22+为截距, 度量了在其它条件不变的情形下 对 y 的影响,0 1 1etc.例 2: 假定家庭消费(cons)是家庭收入(inc)的二次函数:,如何解释这个模型?边际消费 =0+1+22+倾向如何度量?零条件均值假定 E(u|x1,x2)=0,即无论 x1 和 x2 在总体中怎么组合取值,无法观测项的平均取值为 0 的假定,仍然是得到OLS 估计量无偏的关键假定。对于例 2,该假定简化为 E(u|inc)=0.2. 含有 k 个自变量的模型一般地,一个 k 元线性回

3、归模型(多元回归模型,multiple linear regression model)为:. =0+11+22+(3.1)为截距,其它 k 个参数为斜率参数(slope parameter),0度量了在其它条件不变的情形下 对 y 的影响,etc. u 为1 1误差项或称干扰项。零条件均值假定 E(u|x1,x2,,xk)=0,仍然是得到 OLS 估计量无偏的关键假定。同样,多元回归中的线性是指对参数的线性,,(salary)=0+1()+2+32+的 CEO 的任职期。 3.2 普通最小二乘法的机制和解释1. 含有 k 个自变量的模型(3.1)的估计方程如下:, (3.2)=0+11+22

4、+如何得到该方程中的估计参数?如果有 n 个随机抽样样本(),i=1,2,n,普通最小二乘 (ordinary least 1,;squares)法选择能最小化残差平方的估计值,即:,(-0-11-22-)2对该方程的 k+1 个参数分别进行求导可得到关于这些参数的(k+1)个线性方程:,(-0-11-22-)=0,1(-0-11-22-)=0.(-0-11-22-)=0求解上述方程可得 OLS 估计值。(3.2)式子被称为OLS回归线(OLS regression line)或被称为样本回归函数(sample regression function, SRF)。, 被称为0 被称为 截距估计

5、值 ( ) 斜率估计值(OLS slope estimates).2. 对 OLS 回归方程的解释由(3.2)可得增量方程,=11+22+在其它因素不变的情况下,有,=即 表示,在其它因素不变(ceteris paribus)的情况下, 对 y 的偏效应(partial effect)或影响(这是多元回归如此有用的原因).例 3:小时工资方程的log()=0.284+0.092+0.004+0.022解释?3. 多元回归中“保持其它因素不变“的含义在多元回归中,尽管不能在保持其它因素不变的情况下收集数据,但它提供的系数仍可作为其它条件不变下的解释。4. 同时改变不止一个自变量5. OLS 的拟

6、合值和残差第 i 个样本(观测)的残差被定义为:,=-残差的性质:1)其平均值为 0;2)每个自变量和 OLS 残差的样本协方差为 0,从而 OLS 拟合值和残差之间的样本协方差也为 0;3 ) 样本重心在 OLS 回归线上.6. 在多元回归中对“剔除其它影响因素“的解释可以证明,斜率参数估计值满足:,=1=12其中, 为其它自变量对 回归后的残差. 表示的是在排除了 其它 k-1 个因素的影响之后, 对 y 的影响。 (一)7. 一元回归和多元回归估计值的比较假设 y 对 x1 的一元回归方程记为: ,而对 y 对=0+11x1,x2 的二元回归方程记为:,那么有下的关系:=0+11+22,

7、1=1+21其中 为 x2 对 x1 进行一元回归后的斜率系数。上式表明1成立,需满足下面条件之一:1=1;或者 .也表明如果 x2 对 y 有偏效应,而且 x2 和 2=0 1=0x1 相关,在回归中忽略 x2,那么 x1 的 OLS 估计是一个有偏估计。例4: In Example 3.1, the sample correlation between hsGPA and ACT is about 0.346, which is a nontrivial correlation. But the coefficient on ACT is fairly little. It is not

8、surprising to find that the simple regression of colGPA on hsGPA produces a slope estimate of .482, which is not much different from the estimate .453 in (3.15).8. 拟合优度定义总平方和(total sum of squares ,SST),解释平方和(explained sum of squares ,SSE)和残差平方和(residual sum of squares ,SSR)如下:,i=1()2,i=1()2,i=12且有 S

9、ST=SSE+SSR. 回归 (R-squared)提供了解释 x 解释 y 的能R2力度量指标(因为其是 y 和 相关系数的平方):.R2=1-/还可以证明 其实是 y 的实际值和预测值之间的相关系数的平方。R2的缺陷在于在多增加一个回归变量就会提高 ,而是否增加一R2 R2个变量原因在于该变量的偏效应是否显著。9. 过原点回归如果截距不为 0,那么过原点回归中的斜率参数是有偏的;反之,使用带截距的回归,斜率估计量不是有效的。过原点回归中, 可能为负数,表明 比解释变量更多地解R2 释了 y,从而要么采用带截距模型,要么推断解释变量没有很好地解释 y.(二)3.3 OLS 估计值的期望值假设

10、 MLR.1(线性于参数)在总体模型中,因变量 y、自变量 x1xk 和误差项 u等随机变量满足如下关系:, (3.2)=0+11+其中, 和 等分别表示总体的截距和斜率参数。0 1(3.2)式被称为总体模型或真实模型(population model or true model). 线性于参数赋予了该模型很大的灵活性!假设 MLR.2(随机抽样)从上述总体中,通过随机和独立的方式抽取了一个随机样本,其样本容量为 n: . (1,;),=1,2,假设 MLR.3(解释变量的不完全共线性)在样本(因而在总体)中,没有一个自变量是常数,且自变量之间不存在严重的线性关系。如果(3.1)式中的一个自变

11、量是其它变量的一个线性组合,则称该模型有完全共线性问题(perfect collinearity),从而该模型无法估计。假设 MLR.4(条件均值为 0)在给定自变量 x 的任何值条件下,误差项的均值为 0,即:件E(u|x1,xk)=0.条件均值为 0 不成立的情形:遗漏变量;函数形式设定错误(C9);变量测度误差(C15)和一个或多个解释变量和 y 一起确定(C16)。若MLR.4成立,则称模型具有外生解释变量(exogenous explanatory variables),出于某种原因某xj和u相关,则称自变量xj为内生解释变量(endogenous explanatory varia

12、ble).定理 3.1 OLS 估计值的无偏性在假设 MLR.1MLR.4 的条件下,对任意 和 都有:0 和 .(0)=0 ()=,=1,.,注意是在四个条件都成立时,无偏性才成立。假设 MLR.1MLR.3成立则可以给出OLS估计值。1. 回归模型中包含了无关变量包含了无关的变量(inclusion of an irrelevant variable)或说对模型过度设定(overspecifying the model) ,不影响参数估计值的无偏性,但影响其有效性(C3.4)。2. 遗漏变量的偏误: 简单情形排除一个相关变量或者称模型设定不足(excluding a relevant va

13、riable or underspecifying the model),会导致参数估计值产生偏误。下面进行误设分析(misspecification analysis):假设 y 对 x1 的一元回归方程记为: ,而 y 对=0+11x1,x2 的二元回归方程记为:,那么有如下的关系:=0+11+22,1=1+21其中 为x2对x1进行一元回归后的斜率系数。若x2是重要相关变1量,却由于疏忽或数据不足被遗漏了,则只对x1进行回归时会产生如下的偏误:,则 (3.3)(1)=1+21 (1)=21式(3.3)被称为遗漏变量的偏误(omitted variable bias).有下表:Corr(x1,x2)0 Corr(x1,x2)0 偏误为正 偏误为负21 1有向下的偏误(downward bias). 向零的偏误(biased toward zero)是指 比 更近于

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号