高级计量经济学及Stata应用全套配套课件第二版陈强 第6章 最大似然估计

上传人:f****u 文档编号:128319034 上传时间:2020-04-20 格式:PDF 页数:54 大小:362.66KB
返回 下载 相关 举报
高级计量经济学及Stata应用全套配套课件第二版陈强 第6章 最大似然估计_第1页
第1页 / 共54页
高级计量经济学及Stata应用全套配套课件第二版陈强 第6章 最大似然估计_第2页
第2页 / 共54页
高级计量经济学及Stata应用全套配套课件第二版陈强 第6章 最大似然估计_第3页
第3页 / 共54页
高级计量经济学及Stata应用全套配套课件第二版陈强 第6章 最大似然估计_第4页
第4页 / 共54页
高级计量经济学及Stata应用全套配套课件第二版陈强 第6章 最大似然估计_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《高级计量经济学及Stata应用全套配套课件第二版陈强 第6章 最大似然估计》由会员分享,可在线阅读,更多相关《高级计量经济学及Stata应用全套配套课件第二版陈强 第6章 最大似然估计(54页珍藏版)》请在金锄头文库上搜索。

1、 陈强 高级计量经济学及 Stata 应用 课件 第二版 2014 年 高等教育出版社 第第 6 章章 最大似然估计最大似然估计 如果回归模型存在非线性 常使用最大似然估计法 MLE 6 1 最大似然估计法的定义最大似然估计法的定义 假设随机向量y的概率密度函数为 f y 其中 为 K 维 未知参数向量 为参数空间 即参数 所有可能取值所构成的集合 2 通过抽取随机样本 1 n yy来估计 假设 1 n yy为 iid 则样本数据的联合密度函数为 12 n fff yyy 在抽样前 1 n yy为随机向量 抽样后 1 n yy有了特定的样本值 可将样本联合密度 函数视为在 1 n yy给定情况

2、下 未知参数 的函数 3 定义似然函数 likelihood function 为 1 1 n ni i Lf yyy 似然函数与联合密度函数完全相等 只是 与 1 n yy的 角色互换 即把 作为自变量 而视 1 n yy为给定 为了运算方便 常把似然函数取对数 1 1 ln ln n ni i Lf yyy 4 最大似然估计法 Maximum Likelihood Estimation 简 记 MLE 或 ML 的思想 给定样本取值后 该样本最有可能 来自参数 为何值的总体 寻找 ML 使得观测到样本数据的可能性最大 即最大化对 数似然函数 loglikelihood function m

3、ax ln L y 最大似然估计量 ML 可写为 ML argmax ln L y 5 其中 argmax argument of the maximum 表示能使 ln Ly 最大化的 取值 假设存在唯一内点解 一阶条件 1 ln ln ln K L L L 0 y y s y y 6 一阶条件要求 对数似然函数的梯度向量 gradient 偏导 数 斜率 sy 为0 实际上是 K 个未知参数 12 K K 个方程的方程组 该向量也称 得分函数 score function 或 得分向 量 score vector 得分函数 sy 是y的函数 也是随机向量 在下面 记真实参数为 0 而 为该

4、参数的任何可能取值 7 命题命题 得分函数的期望为 0 如果似然函数正确 correctly specified 则 0 E 0sy 其中 0 sy 表示得分函数 sy 在 0 处的取值 例例 假设随机样本 0 1 i yN 1 in 则样本数据的对 数似然函数为 2 1 1 ln2 22 n i i n Ly 8 其得分函数为 1 n i i L sy 故得分函数的期望值为 0 11 E E nn i ii sy 在 0 处 9 0 0 0 1 E 0 n i s 此结果与上述命题一致 得分函数可分解为 1 11 ln ln l n ii n i i nn i ii f L f y y s

5、sy y y 10 其中 ln i i i f y sy 为第 i 个观测值对得分函数的 贡献 在上例中 1 n i i sy y 而 iii syy 二阶条件要求 对数似然函数的黑赛矩阵 Hessian matrix 2 ln ln L L y y 11 为负定矩阵 即对数似然函数为严格凹函数 strictly concave 黑赛矩阵可分解为 22 11 ln ln nn i ii ii LL y y H yH y 其中 ii H y为第 i 个观测值对黑赛矩阵的贡献 在 上 例 中 1 n i i y n s Hy 而 1 ii ii sy y H 12 6 2 线性回归模型的最大似然估

6、计线性回归模型的最大似然估计 例 假设 2 XN 其中 2 已知 得到一个样本容量 为 1 的样本 1 2x 求对 的最大似然估计 似然函数为 2 2 2 1 2 exp 2 2 L 似然函数在 2 处取最大值 见图 6 1 13 图 6 1 选择参数使观测到样本的可能性最大 14 例 非正式 某人操一口浓重的四川口音 则判断他最有 可能来自四川 考虑线性回归模型 y X 假设 2 n N X0I 则 2 n N y XXI 条件密度 函数为 22 2 1 2 exp 2 n f y XyXyX 15 用假想 2 代替真实 2 取对数可得 22 2 1 ln ln2ln 222 nn L yX

7、yX 分两步最大化 第一步 给定 2 选择最优 第二步 代入第一步的最优 选择最优 2 第 一 步 由 于 只 出 现 在 第 三 项 中 故 等 价 于 使 yXyX 最小 正是 OLS 的目标函数 e e 16 1 MLOLS X XX y 第二步 对数似然函数变为 2 2 1 ln2ln 222 nn e e 称 为 集中对数似然函数 concentrated log likelihood function 因为 的取值已在第一步固定 称为 concentrated with respect to 对 2 求导可得 24 11 0 22 n e e 求解 2 的 MLE 估计量为 17

8、222 MLOLS s nnK e ee e MLE 对 的估计与 OLS 一样 但对 2 的估计略有不同 此差别在大样本下消失 由于OLS估计量 2 s是对 2 的无偏估计 故MLE估计量 2 ML 是有偏的 小样本性质 MLE 的主要优点是大样本性质良好 比如一致性 最小渐 近方差 18 6 3 最大似然估计的数值解最大似然估计的数值解 最大似然估计通常没有解析解 只能寻找 数值解 numerical solution 方法一为 网格搜索 grid search 如果待估参数 为一维 且大致知道取值范围 比如 0 1 如果待估参数 为多维 或对 的取值范围所知不多 网格 搜索不现实 19

9、方法二为 高斯 牛顿法 Gauss Newton method 图 6 2 牛顿法 20 牛顿法收敛很快 是二次的 比如 如果本次迭代的误差 为 0 1 则下次迭代的误差约为 0 12 如果初始值 x0选择不当 可能出现迭代不收敛的情形 使用牛顿法得到的可能只是 局部最大值 local maximum 而非 整体最大值 global maximum 牛顿法也适用于多元函数的情形 0f x 将切线替换为 超 切平面即可 如对原函数 f x作二阶近似 二阶泰勒展开 称为 牛顿 拉夫森法 Newton Raphson method 21 6 4 信息矩阵与无偏估计的最小方差信息矩阵与无偏估计的最小方

10、差 定义信息矩阵 information matrix 为对数似然函数的黑塞 矩阵之期望值 对y求期望 的负数 2 ln E L y I 一维情形下 2 2 lnL 为对数似然函数的二阶导数之负数 对数似然函数为凹函数 故二阶导数为负数 加负号为正数 22 2 ln L y 表 示 对 数 似 然 函 数 在 空 间 中 的 曲 率 curvature 取期望值之后为平均曲率 对y进行平均 如果曲率大 对数似然函数陡峭 较易根据样本分辨真实 的位置 反之 如果曲率小 对数似然函数平坦 不易根据 样本判断真实 的位置 如果似然函数完全平坦 则似然函数不存在唯一最大值 MLE 没有唯一解 则无法根

11、据样本数据来判断 的位置 I 包含了 是否容易估计的信息 故称 信息矩阵 23 图 6 3 平坦 左 与陡峭 右 的对数似然函数 24 命题命题 信息矩阵等式 在 0 处 以下 信息矩阵等式 information matrix equality 成立 2 0 0 00 00 ln E ln ln EE ss L LL y I y yy y 证明参见附录 25 命题命题 得分函数的方差为信息矩阵 在 0 处 信息矩阵 0 I 就是得分函数的协方差矩阵 0 ar Vs y 证明 00000 00 00 0 VarE EE E sssss ss yyyyy y I y 最后一步用到了信息矩阵等式

12、26 假设 是对真实参数 0 的任意无偏估计 则在一定的正则 条件 regularity conditions 下 的方差不会小于 1 0 I 即 1 0 Var I 称 1 0 I 为 克莱默 劳下限 Cramer Rao Lower Bound 无偏估计所能达到的最小方差与信息矩阵有关 曲率 0 I 越大 则 1 0 I 越小 无偏估计可能达到的最小方差越小 在古典线性回归模型中 可证明 参见附录 27 21 1 0 4 2n 0 0 X X I 其 中 2 0 由 于 21 OLS Var X X 故 MLOLS 均达到了无偏估计的最小方差 命题 在高斯 马尔可夫定理中 如果加上扰动项为

13、正态分 布的假定 则 OLS 是 最佳无偏估计 Best Unbiased Estimator 简记 BUE 而不仅仅是 BLUE 28 克莱默 劳下限的结论可推广到渐近分布的情形 在一定的正则条件下 对于真实参数 0 的渐近正态一致估 计 Consistent and Asymptotically Normally distributed estimators 简记 CAN 所能达到的最小方差为 1 0 I 即克 莱默 劳下限 6 5 最大似然法的大样本性质最大似然法的大样本性质 定理定理 MLE 的大样本性质的大样本性质 在一定的正则条件下 MLE 估 计量拥有以下良好的大样本性质 29

14、1 一致性 即 ML0 plim n 2 渐近有效性 即渐近协方差矩阵 1 ML0 Avar n I 在大样本下达到了克莱默 劳下限 3 渐近正态 即 1 ML00 d nNn 0I 可近 似地认为 1 ML0 d N I 证明证明 选读 30 定理定理 不变性不变性 如果将参数 参数变换 reparameterize 为 g 则对 的最大似然估计就是 MLML g 其中 g可以是多维函数 也不要求 与 有一一对应的 函数关系 利用最大似然估计的不变性 有时可以大大简化计算 例 对 22 的最大似然估计就是 22 MLML 31 6 6 MLE 估计量的渐近协方差矩阵 在大样本下 最大似然估计

15、量的渐近协方差矩阵为 1 2 1 0 ML0 ln Avar E L nn y I 此表达式依赖于未知参数 0 有三种估计方法 1 期望值法 期望值法 如果知道黑塞矩阵期望值的具体函数形式 则直接以 ML 替代 0 可得 32 1 2 ML ML ln Avar E L n y 黑塞矩阵通常包含复杂的非线性函数 期望值可能无解析解 2 观测信息矩阵法 观测信息矩阵法 以 ML 替代 0 后 将期望算子忽略掉 1 2 ML ML ln Avar L n y 此法称为 观测信息矩阵 Observed Information Matrix 33 简记 OIM 法 但二阶偏导数可能不易计算 3 梯度向

16、量外积或 梯度向量外积或 BHHH 法 法 利用信息矩阵等式 用 1 n i i i s s来估计 0 I 即 1 ML 1 Avar n i i i n s s 其中 ML ln i i f y s 为第 i 个观测值对得分函数的贡献 之估计值 此法称为 梯度向量外积 Outer Product of Gradients 简记 OPG 或 BHHH 法 只需计算一阶偏导数 34 且协方差估计量总是非负定的 nonnegative definite 而 OIM 法的协方差估计量无此保证 这 三 种 方 法 在 大 样 本 下 渐 近 等 价 asymptotically equivalent 在有限样本中 计算结果可能差别较大 甚至导致统计推 断作出不同的结论 参见 Greene 2012 p 522 这三种方法都建立在似然函数正确的前提上 如果似然函 数不正确 则三种方法都失效 应使用稳健标准误 35 6 7 三类渐近等价的统计检验三类渐近等价的统计检验 对于线性回归模型 检验原假设 00 H 其中 1K 为未 知参数 0 已知 共有 K 个约束 1 沃尔德检验沃尔德检验 Wald

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号