第八章_内生性及其来源

上传人:公**** 文档编号:557491352 上传时间:2023-02-07 格式:DOCX 页数:13 大小:43.86KB
返回 下载 相关 举报
第八章_内生性及其来源_第1页
第1页 / 共13页
第八章_内生性及其来源_第2页
第2页 / 共13页
第八章_内生性及其来源_第3页
第3页 / 共13页
第八章_内生性及其来源_第4页
第4页 / 共13页
第八章_内生性及其来源_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《第八章_内生性及其来源》由会员分享,可在线阅读,更多相关《第八章_内生性及其来源(13页珍藏版)》请在金锄头文库上搜索。

1、第八章 内生性及其来源在前一章中我们在大样本条件下,放松了误差服从正态分布的假设,以及误 差为同方差的假设。而且说明了完全共线性条件在大样本条件下很容易满足,通 常不必特别担心这一条件是否满足。当这几个假设被放松后,剩下的就是模型设 定假设和自变量与误差同期相关假设这两个核心假设,如果某一自变量与误差同 期相关,则称之为内生变量。定义:y = x0 + u中,若E(xu)丰0,则称x为内生变量内生变量通常与模型设定密切相关,因此在这一章我们集中讨论这两个假设 当自变量与误差同期相关这一假设不成立时, OLS 估计是非一致的,因而是没 有任何意义的。而导致这一相关的根源很多,解决这一问题的办法也

2、是多样的。一、遗漏变量从经济学最基本的成本收益角度来看教育,我们之所以决定再多上一年学, 是因为上学的边际收益大于边际成本。问题是,多上一年学会多增加多少收入 呢?你收集了很多人的上学年数和他们第一份工资,列出每个不同上学年数对应 的平均工资,相邻工资的差距就是多受一年教育的回报吗?似乎对,但实际上却不对。想想发生在我们身边的很多故事,一个上过很多 年学的人最后却学成了书呆子(我姥爷就给我讲过他亲眼所见的一个故事,村里 有一个人上了12 年长学,却越学越呆,有一次他穿的棉衣着火了,他在田野奔 走呼号,却不知道躺下来就地打个滚),另一方面,也有许多没有读过多少书的 人成了大老板。他们成功是因为他

3、们本来能力就强,上不上学他们都可以成功。在一个人的收入决定中,能力与教育一样是非常重要的因素。更重要的是, 能力(或天赋)也是决定受教育程度很重要的因素,同样的知识,天赋高的人学 起来很快很轻松,也不需要留级,因此能以更低的成本获得更高的教育。从上面的故事中,我们看到,能力同时导致人们的教育水平高和收入更高。 这意味着,也许上不上学本无所谓,或者说教育可能没有发挥真正的作用,即使 发挥作用也许没有将所有收入差异归因于教育所导致的那么大的作用。有一个笑 话甚至说,办一所名校的唯一要求是,招最优异的学生,然后让老师们远离他们。以上的逻辑,可以用数学思维表述如下,其中y可以被假想为收入,x为教 育,

4、而z为能力。假设真实模型为y = P x+a z + uE (xu) = 0且 a h 0(1)当模型被错误设定为y = p x + *因为我们的目标是获得卩的一致估计,显然必须有E (xs) = E x(a z + u) = a E (xz) + E (xu) =a E (xz) = 0(3)因为a丰0,因此必须E(xz) = 0即除非x与z不相关,否则(3)必不等于零,也就无法获得卩的一致估计*=begin=*遗漏变量:被遗漏的变量与其他解释变量相关capt prog drop _allprog bbdrop _alldrawnorm x1 x2 x3 x4,n(100) means(m)

5、 cov(sd)g u=3*invnorm(uniform()g y=12+5*x1+10*x2+3*x3+x4+uquietly reg y x2 x3 x4/能力 x1 被遗漏endsimulate _b,reps(200) :bbsum /当存在遗漏变量时,0LS估计量是有偏的*遗漏变量:被遗漏的变量与所有的其他解释变量均不相关capt prog drop _allprog bbdrop _alldrawnorm x1 x2 x3 x4,n(100) means(m) cov(sd)g u=invnorm(uniform()g y=12+5*x1+10*x2+3*x3+x4+uquiet

6、ly reg y x1 x2 x3 /相貌 x4 被遗漏endsimulate _b,reps(200): bbsum /当被遗漏变量与其他自变量均不相关时, OLS 估计量是无偏的*=end=二、函数形式误设假设真实模型为y = P x+a x 2 + uE (xu) = 0且 a h 0(1)当模型被错误设定为y = p x + * 我们的目标是获得卩的一致估计,显然必须有E (xs) =a E (xx 2) + E (xu) =a E (xx 2) = 0(3)当aH0时,(3)不可能为零,因此无法获得卩的一致估计设更一般的模型为y=g(x)+uu = y - g (x) = y - E

7、(y I x) + E(y I x) - g (x)u2 = y - E (y I x)2 + E (y I x) - g (x)2 + 2 y - E (y I x) E (y I x) - g (x)(2)=y-E(yIx)2+E(yIx)-g(x)2E(u2Ix)=var(yIx)+E(yIx)-g(x)2因为y和x的总体联合分布是客观存在的,所以var(y I x)的取值就是客观决 定的,不是我们可以左右的。因此,要使E(u2Ix)最小,就要使g(x)= E(yI x)至此,我们得到一个非常重要的结论:我们所寻找的最佳的函数形式是y关 于x的条件期望E(y I x)。因为这一结论来自对

8、总体的直接回归,所以E(y I x)又 叫作总体回归函数,即 PRF。在y = g (x) + u两边取关于x的条件期望,得到E(yIx)= g(x)+E(uIx)= g(x)if E(uI x) =0即“零条件均值假设”可以保证g (x) g(x)的形式确实就是E(y I x)。然而,E(y I x)的具体形式到底是怎样的呢?上面说过,y和x的总体联合分 布是客观存在的,所以E(y I x)的具体形式也就是确定的。如果我们非常幸运地 知道y和x的总体联合分布的信息,我们也就可以确定地写出E(y I x)的确切形式, 我们的任务也就彻底完成了。不幸的是,我们很难知道两者的确切函数形式。 为了直

9、观地看到模型误设会导致什么后果,我们来看下面的模拟案例。当模型正确设定假设不成立时,即使其他假设均成立,且样本很大,OLS估计量 也是有偏的,不一致的。*=begin= *函数形式误设 capt prog drop _allprog bbdrop _all drawnorm x1 x2 x3 x4,n(100) means(m) cov(sd) g u=invnorm(uniform()g y=12+5*x1+10*x2+5*x2A2+3*x3+x4+uquietly reg y x1 x2 x3 x4/误将平方项遗漏end simulate _b,reps(200) : bbsum _b_z

10、 /当函数形式误设时,OLS估计量是有偏的,不一致的 *设定检验drawnorm x1 x2 x3 x4,n(100) means(m) cov(sd) g u=invnorm(uniform()g y=12+5*x1+10*x2+5*x2A2+3*x3+x4+uquietly reg y x1 x2 x3 x4 /误将平方项遗漏 ovtest /设定检验ovtest, rhsg z=x2A2reg y x1 x2 z x3 x4/正确的形式*=end=三、测量误差因变量的测量误差如果与自变量不相关,则 OLS 估计具有良好的性质,是无 偏和一致的,否则将是有偏的,不一致的。真实模型为:y =

11、 P x + u(1)但因变量存在测量误差8,实际测量值y * 二 y + 8(2)将(2)代入(1)得到y * = Px + 8 +u,因为计算时使用的数据是(x,y*),故有E x(8 + u) = E (x8)+ E (xu) = E (x8)(3)除非E(x8)二0,否则必不为零,无法得到P的一致估计仍然以教育与收入的关系为例,对收入的调查通常是非常困难的,真实的收 入可能永远是个迷,我们能收集到的只能是受访者自报收入,自报收入与真实收 入之间存在测量误差,而且这个测量误差往往与教育水平相关,如教育水平越低, 越可能算不清楚他的收入。还可能因为收入越高的人,他回忆的误差越大(比如 收入

12、来源太多),而收入越高的人,通常更可能是教育水平较高的人。上述两种 相关都会导致无法得到一致估计。自变量的测量误差分两种情形,一种涉及到测量误差与观测值之间的相关性, 另一种涉及到测量误差与真实值之间的相关性。第一种情形:测量值与测量误差不相关。真实模型为 :y 二 P x + u(1)但x观测不到,x的测量值为x*,测量误差为8 ,即x * 二 x + 8(2)将(2)代入 (1)得到y 二 P x + u 二 P (x* - 8) + u 二 P x* + u - P8Ex*(u - P8 )二 E(x*u) 一 PE(x*8)二 0(if E (x*u)二 0 且 E (x*8)二 0)

13、当测量误差8与测量值x*不相关,且测量值x*与误差U不相关时,才能得到一致估计 ,但方差变大Var (u - P8 ) = o 2 + P 20 2 o 28例如,y为学习成绩,x为旷课次数,当一个人很少旷课时,他所报告的旷 课次数更准确,相反,随着旷课次数的增多,他能够准确回忆并报告其次数的可 能性也下降,因此测量误差与报告结果存在正相关。第二种情形,如果测量误差与观测不到的变量无关,则测量误差必然与测量 值相关。真实模型:y二卩x + u,但x观测不到,x的测量值为x*,测量误差为,即X* 二 x + y 二卩x + u 二卩(x* -) + u 二卩x* + u 一卩 如果测量误差与观测

14、不到的变量x无关,E(x)二 0则测量误差必然与观测变量x相关,因为E(x*)二 E(x + )二 E(x) +o2 =G2 0 Ex*(u 一卩)二 E(x*u) 一卩 E(x*)二 E(x*u) 一卩o 2 丰 0 OLS估计量是不一致的四、联立因果联立因果关系普遍存在,尤其是在经济学的经典供求关系中。实际上,经济 学中的供给方程和需求方程都只是我们的一个理论抽象,真实世界中是不存在的, 我们能从真实世界中观察到的价格和供需量都只有一个,即均衡价格和均衡供需 量。利用这样的均衡供需量对均衡价格进行估计,试问,我们究竟估计的是需求 方程呢还是供给方程呢?估计系数是正还是负呢?因为供给方程和需求方程的 系数正好是一正一负,那么是否意味着,我们可以根据估计结果来判断是供给方 程还是需求方程?实际上,这种估计即非供给方程也非需求方程,我们可以证明,采用均衡数 据对单一供给方程或需求方程进行估计,都无法得到一致的估计结果。假设真实模型是如下的联立方程f x = a y + u(1) 1 1I y =a x + u(2)22对于上述联立方程,如果仅估计单一方程(2)并要求得到系数a的一致估计,则必须满足2E(yu )=0(3)1将(1)代入

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号