多元回归分析――估计

上传人:我*** 文档编号:134887591 上传时间:2020-06-09 格式:PPT 页数:49 大小:1.07MB
返回 下载 相关 举报
多元回归分析――估计_第1页
第1页 / 共49页
多元回归分析――估计_第2页
第2页 / 共49页
多元回归分析――估计_第3页
第3页 / 共49页
多元回归分析――估计_第4页
第4页 / 共49页
多元回归分析――估计_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《多元回归分析――估计》由会员分享,可在线阅读,更多相关《多元回归分析――估计(49页珍藏版)》请在金锄头文库上搜索。

1、多元回归分析 估计 模型与简单回归的相似点多元回归的意义多元回归的最小二乘法多元回归的代数性质多元回归的统计性质遗漏变量拟合度多重共线性 引子 使用简单的回归分析 可以把因变量y解释成一个自变量x的函数 然而在实际的经验研究中使用简单回归分析的主要缺陷是 它很难得到x在其他条件不变情况下对y的影响 因为关键假定SLR 3 所有其他影响y的因素都与x不相关 通常都不现实 很自然 如果我们在模型中多增加一些有助于解释y的因素 那么 y的变动就能更多地得到解释 因此 多元回归分析可用于建立更好的因变量预测模型 多元回归分析 multipleregressionanalysis 允许我们明确地控制许多

2、其他也同时影响因变量的因素 所以它更适合于其他条件不变情况下的分析 在使用非实验数据的情况下 这对检验经济理论和评价经济政策都很重要 多元回归模型能够容纳许多可能相关的解释变量 在简单回归分析可能误导的情况下 可以寄希望于多元回归模型来推断因果关系 多元回归分析的另外一个优点是 它可以用以添加相当一般化的函数关系 在简单的回归模型中 方程中只能出现单一个解释变量的一个函数 如我们将看到的那样 多元回归模型的灵活性则大得多 使用多元回归的动因 先用两个例子来说明 如何用多元回归分析来解决简单回归所不能解决的问题 wage 0 1educ 2exper u 3 1 其中exper是在劳动市场上以年

3、计的工作经历 则工资wage由受教育水平和工作经历这两个解释变量或自变量及那些观测不到的其他因素来决定 我们首要感兴趣的 是在保持所有其他影响工资的因素不变情况下 educ对wage的影响 即我们只对参数 1感兴趣 与仅联系wage和educ的简单回归分析相比 方程 3 1 有效地把exper从误差项中取出并把它明确地放到方程之中 所以系数 2度量了exper在其他条件不变情况下对工资的影响 这点也有意义 就像在简单回归中一样 我们将不得不对 3 1 中的u如何与自变量educ和exper相关做出假定 但像我们在第3 2节中将看到的那样 有一点我们充满信心 因为 3 1 中明确地包含了工作经历

4、 所以我们就能在保持工作经历不变的情况下 度量教育对工资的影响 如果将工作经历放到误差项的简单回归分析中 我们就不得不假定工作经历与受教育水平无关 显然这是一个脆弱的假定 第二个例子 问题 解释在高中阶段对每个学生的平均开支 expend 对平均标准化考试成绩 avgscore 的影响 假设平均考试成绩取决于学校基金 平均家庭收入 avginc 及其他不可观测因素 avgscore 0 1expend 2avginc u 3 2 出于政策目的 所关心的系数是expend在其他条件不变情况下对avgscore的影响 1 通过在模型中明确包括avginc 我们就能控制其对avgscore的影响 由

5、于平均家庭收入与每个学生的开支趋于相关 所以加入这个变量可能很重要 简单回归中 avginc被包括在误差项中 而avginc与expend可能相关 从而导致在两变量模型中对 1的OLS估计有偏误 前面两个例子已经说明 除主要关心的变量外 如何把其他的可观测因素也包括在回归模型中 一般地 我们可以把含有两个自变量的模型写作y 0 1x1 2x2 u 3 3 其中 0是截距 1度量了在其他条件不变情况下y相对x1的变化 而 2则度量了在其他条件不变情况下y相对x2的变化 多元回归分析对推广变量之间的函数关系也有帮助 例如 假设家庭消费 cons 是家庭收入 inc 的一个二次函数 cons 0 1

6、inc 2inc2 u 3 4 其中u包括了影响消费的其他因素 在这个模型中 消费只取决于收入这一个观测变量 所以看上去 一个简单的回归分析就可以对付 但简单回归不能处理这个模型 因为它包括了收入的两个函数inc和inc2 因此就有三个参数 0 1和 2 尽管如此 通过令x1 inc和x2 inc2 消费函数还是可以很容易地写成一个含两个自变量的回归模型 机械地看 用普通最小二乘法去估计方程 3 1 和 3 4 应该没有什么差别 每个方程都可以写成像 3 3 那样的方程 但重要的差别在于 人们对参数的解释 3 1 中 1是educ在其他条件不变情况下对wage的影响 而方程 3 4 中的参数

7、1则没有这样的解释 换句话说 度量inc在保持inc2不变的情况下对cons的影响是毫无意义的 如果inc变化 则inc2也一定会变化 相反 相对收入变化的消费变化 即边际消费倾向 可近似为 换句话说 收入对消费的边际效应取决于 2 1和收入水平 这个例子表明 在任何一个特定应用中 对自变量的定义都是至关重要的 在含有两个自变量的模型中 u与x1和x2如何相关的关键假定是 E u x1 x2 0 3 5 意味着 对总体中x1和x2的任何值 非观测因素的平均都等于零 如何解释前面例子中条件均值为零的假定 在 3 1 中 这个假定是E u educ exper 0 意味着 影响wage的其他因素都

8、与educ和exper无关 因此 如果我们认为天生能力是u的一部分 那我们就需要假定 对工人总体中受教育和工作经历的各种组合 其平均能力水平都相同 这可能正确也可能不正确 但我们将看到 这正是为了判断普通最小二乘法是否导致无偏估计量而需要知道的问题 3 2 的例子类似于工资方程 其零条件均值的假定为E u expend avginc 0 它意味着 影响学生考试成绩的因素 学校或学生的个人特征 总体上与学生的平均开支和平均家庭收入无关 在 3 4 中的二次消费函数 对零条件均值假定的解释则略有不同 直接照写 3 5 就变成了E u inc inc2 0 因为一旦知道了inc 那就会知道inc2

9、所以在预期表达式中包括inc2项是多此一举 E u inc inc2 0等价于E u inc 0 虽然在表述这个假定时让inc2和inc一起出现在预期项中并没有错 但E u inc 0更简明扼要 问题 用定罪概率 prbconv 和宣判监禁的平均时间长度 avgsen 来解释城市谋杀率 murdrate 的一个简单模型 murdrate 0 1prbconv 2avgsen uu中包含了一些什么因素 你认为关键假定 3 5 有可能成立吗 因素包括了年龄和性别分布 警力规模 或更一般地 投入到与犯罪做斗争的资源 人口和一般历史因素 这些因素当然有可能与prbconv和avgsen相关 这时就意味

10、着 3 5 不成立 比如 某些在预防犯罪和执法方面投入较多气力的城市 其警力规模可能与prbconv和avgsen都相关 含有K个自变量的模型 一旦开始多元回归 没有必要局限于两个自变量 多元回归分析允许多个可观测因素影响y 在上述工资的例子中 我们还可以包括在职培训的数量 现任工作的任期 个人能力的某种度量 甚至是像兄弟姐妹的个数或母亲受教育程度等人口变量 在学校基金的例子中 额外的变量可能包括对教师质量和学校规模的某种度量 多元回归分析模型 y b0 b1x1 b2x2 bkxk u 一般的多元线性回归模型 multiplelinearregressionmodel 也称为多元回归模型 在

11、总体中可以写成y 0 1x1 2x2 3x3 kxk u 3 6 其中 0为截距 intercept 1是与x1相联系的参数 2是与x2相联系的参数 等等 由于有k个自变量和一个截距项 所以方程 3 6 包含了k 1个 未知的 总体参数 为了表达上的简便 把这种不同于截距的参数称为斜率参数 slopeparameter 尽管它们并不一定表示斜率 如方程 3 4 其中 1和 2本身都不是斜率 但它们一起决定了消费与收入之关系的斜率 多元回归的术语类似于简单回归的术语 恰如简单回归中一样 变量u表示误差项 errorterm 或干扰项 disturbance 它包括除x1 x2 x3 xk之外仍影

12、响y的一些因素 无论在我们的模型中包含了多少个解释变量 总有一些因素我们无法包括进来 而所有这些因素就包括在u中 多元线性回归模型中的 线性 一词 意味着方程 3 6 是其诸参数 j的一个线性函数 多元线性回归的许多运用中都涉及到主要变量之间的非线性关系 多元回归与简单回归的相似点 b0仍然是截距b1到bk都成为斜率参数u仍然是误差项 或称扰动项 仍然需要做一个条件期望为0的假设 现在假设 E u x1 x2 xk 0仍然最小化残差的平方和 所以现在有k 1个一阶条件 课堂问题 设想CEO的薪水 salary 与企业的销售量和CEO在这个企业的任期相关 log salary 0 1log sa

13、les 2ceoten 3ceoten2 u 3 7 定义y log salary x1 log sales x2 ceoten和x3 ceoten2 得一多元回归模型 k 3 试解释参数 参数 1是 其他条件不变情况下 薪水对销售量的弹性 如果 3 0 那么在其他条件不变情况下 100 2就表示ceoten增加一年导致salary提高的百分数 当 3 0时 ceoten对salary的影响则复杂一些 关键假定用条件预期的形式可以表示为E u x1 x2 xk 0 3 8 3 8 要求不可观测的误差项中所有的因素都与解释变量无关 它还意味着 已经正确地表述了被解释变量和解释变量之间的函数关系

14、任何一个导致u与某个自变量相关的问题 都会导致 3 8 式不成立 假定条件 3 8 式还表明OLS是无偏的 而如果方程中省略了一个关键变量 所得到的结论便会产生偏误 多元回归模型的关键假定 普通最小二乘法的操作和解释 即将解决的问题 将普通最小二乘法用于一个特定的数据集时 在计算和代数上会有些什么特征及讨论如何解释所估计的方程 如何得到OLS估计值 先考虑对含有两个自变量模型的估计 被估计的OLS方程在形式上与简单回归情况下的方程相似 3 13 通常被称为OLS一阶条件 firstorderconditions 像在简单回归模型中一样 OLS一阶条件也可以通过矩法得到 在假定条件 3 8 下

15、E u 0 E xju 0 其中j 1 2 k 3 13 就是这些总体矩在样本中的对应样本矩 易见即便只是对中等大小 通过手算来求解 3 13 也是十分繁重的任务 不过 借助现代的计算机和统计与计量软件 对较大的n和k 也能很快解出这些方程 注意 目前必须只能这样假定 3 13 只能得到的唯一解 这是规范设定模型的常见情形 与简单回归分析相同 3 11 被称为OLS回归线 OLSregressionline 或样本回归方程 sampleregressionfunction 简记为SRF 把称为OLS截距估计值 OLSinterceptestimate 而把 称为OLS斜率估计值 OLSslop

16、eestimate 与自变量对应 说 将y对x1 x2 xk进行了一个OLS回归 或 将y对x1 x2 xk进行回归 是使用普通最小二乘法而得到 3 13 OLS方程 Equation 的简单说法 一般默认是把截距与斜率一起估计 比在计算的背后存在的所有细节都重要的是 对所估计的方程进行解释 对OLS回归方程的解释 方程中的截距项是y在x1 0和x2 0情况下的预测值 虽然它在大多数情况下都没有什么意义 但对于设定的总体模型而言截距项总是必需的 估计值和局部效应 partialeffect 或其他情况不变效应的解释 能在给定x1和x2的变化的情况下 预测y的变化 特别是当x2固定 因而x2 0时 于是有 对OLS回归方程的解释 关键是 通过把x2包含在模型中 所得到的x1的系数 可解释为在其他条件不变下的影响 这正是多元回归分析有用的原因所在 含有k个自变量的一般情形 因此 在估计x1对y的影响时 已经控制了变量x2到xk的影响 其他系数与此相似 多元回归中 保持其他因素不变 的含义 对多元回归分析中斜率参数的局部效应解释可能会导致混淆 要尽量避免这个问题 多元回归分析的功能在于 尽管

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号