一元线性回归-计量经济学及Stata应用

上传人:101****457 文档编号:44655869 上传时间:2018-06-14 格式:PDF 页数:52 大小:232.55KB
返回 下载 相关 举报
一元线性回归-计量经济学及Stata应用_第1页
第1页 / 共52页
一元线性回归-计量经济学及Stata应用_第2页
第2页 / 共52页
一元线性回归-计量经济学及Stata应用_第3页
第3页 / 共52页
一元线性回归-计量经济学及Stata应用_第4页
第4页 / 共52页
一元线性回归-计量经济学及Stata应用_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《一元线性回归-计量经济学及Stata应用》由会员分享,可在线阅读,更多相关《一元线性回归-计量经济学及Stata应用(52页珍藏版)》请在金锄头文库上搜索。

1、 1 陈强,2015 年, 计量经济学及 Stata 应用 ,高等教育出版社。 第第 4 章章 一元线性回归一元线性回归 4.1 一元线性回归模型一元线性回归模型 为什么在青少年时期要选择上学? 除了满足好奇心、求知欲及个人成长外,一个重要原因是教育 能提高未来的收入水平。 如何从理论上解释教育投资的回报率(returns to schooling)? 2 Mincer (1958)提出基于效用最大化的理性选择模型: 个体选择多上一年学, 则需推迟一年挣钱(另需交学费); 为弥补 其损失,市场均衡条件要求给予受教育多者更高的未来收入。 由此可得工资对数与教育年限的线性关系: lnws (4.1

2、) lnw 为工资对数,s 为教育年限(schooling),而与为参数。 为截距项,表示当教育年限为 0 时的工资对数水平,因为ln0w。 3 为斜率,表示教育年限对工资对数的边际效应,即每增加一 年教育,将使工资增加百分之几,因为对方程(4.1)两边求导可得 lndww dwww dsdss(4.2) 教育年限只是影响工资的因素之一。严格来说,方程(4.1)应为 lnws其他因素 (4.3) 将其他因素记为,则有 lnws (4.4) 4 方程(4.4)即劳动经济学(labor economics)中著名的明瑟方程(the Mincer equation)的基本形式(Mincer, 197

3、4)。 但多上一年学,究竟能使未来收入提高百分之几? 这取决于参数的取值。明瑟模型并未提供关于与具体取值 的信息。 对于这种定量问题(quantitative question),只有通过数据才能给 出定量回答(quantitative answer)。 需要用计量经济学方法,通过样本数据来估计未知参数与。 5 明瑟模型推断工资对数与教育年限为线性关系,此预言是否与 现实数据相符? 使用数据集 grilic.dta 来考察,此数据集包括 758 位美国年轻男 子的教育投资回报率数据。 先看此数据集的变量 s 与 lnw 的前 10 个观测值 . use grilic.dta,clear . l

4、ist s lnw in 1/10 6 10. 18 6.382 9. 12 5.737 8. 15 5.808 7. 18 6.512 6. 9 4.804 5. 9 5.927 4. 12 5.481 3. 14 5.71 2. 16 5.438 1. 12 5.9 s lnw 为了考察工资对数与教育年限的关系,画二者的散点图,并在 图上画出离这些样本点最近的“回归直线” ,参见图 4.1。 . twoway scatter lnw s | lfit lnw s 其中, “lfit”表示“linear fit” ,即线性拟合。 7 4.555.566.5781012141618 Schoo

5、lingln(wage)Fitted values图 4.1 工资对数与教育年限的散点图与线性拟合 工资对数与教育年限正相关,似乎存在线性关系,在形式上与 明瑟方程相一致。 8 更一般地,假设从总体随机抽取n位个体,则一元线性回归模型 可写为 (1, )iiiyxin (4.5) iy:被解释变量(dependent variable, regressand) ix: 解释变量(explanatory variable, independent variable, regressor) :截距项(intercept)或常数项(constant);:斜率(slope) 与:统称“回归系数”(re

6、gression coefficients)或“参数” (parameters) 。 9 i: “误差项”(error term)或“扰动项”(disturbance),包括遗漏 的其他因素、变量的测量误差、回归函数的设定误差(比如,忽略 了非线性项)以及人类行为的内在随机性等。 除ix以外,影响iy的所有其他因素都在i中。 下标 i 表示个体 i,比如第 i 个人,第 i 个企业,第 i 个国家等。 i 的取值为1,n,其中n为“样本容量”(sample size)。 方程(4.5)右边的确定性部分为ix,称为总体回归线 (population regression line)或总体回归函数

7、(population regression function,简记 PRF)。 10 方程(4.5)假设总体回归函数为线性,可视为一阶近似(忽略二次 项及高阶项)。 模 型iiiyx也 称 为 数 据 生 成 过 程 (Data Generation Process,简记 DGP),参见图 4.2。 从数据生成的角度来看, 随机变量ix与i首先从相应的概率分布 中抽取观测值(observation)。 确定ix与i的取值后,根据方程iiiyx生成iy的取值。 由于i通常无法观测(unobservable),故研究者只知道( ,)iix y。 11 计量经济学的主要任务之一就是通过数据1,n

8、iiix y来获取关于总体参数( , ) 的信息。 图 4.2 数据生成过程 xab+ ( ,)iix yiexyab112 4.2 OLS 估计量的推导估计量的推导 如何根据观测值1,n iiix y来估计总体回归直线ix? 希望在( , )x y平面上找到一条直线, 使得此直线离所有这些点(观 测值)最近,参见图 4.3。 在此平面上, 任意给定一条直线,iiyx(其中,读为 alpha hat,读为 beta hat),计算每个点(观测值)到这条线的距离, iiieyx,称为“残差”(residual)。 13 图 4.3 残差平方和最小化 如直接把残差加起来,1ni ie,会出现正负相

9、抵的现象。 解决方法之一为使用绝对值,即11nniii iieyx。 xab+22(,)xy2exy1e11( ,)x y14 但绝对值不易运算(无法微分),故考虑其平方,2211()nniii iieyx,称为“残差平方和”(Sum of Squared Residuals,简记 SSR;或 Residual Sum of Squares,简记 RSS)。 “普通最小二乘法”(Ordinary Least Squares,简记 OLS)就是选 择, ,使得残差平方和最小化。可将 OLS 的目标函数写为 22,11min()nniii iieyx (4.6) OLS 是线性回归模型的基本估计方

10、法。 15 此最小化问题的一阶条件为 2112112()02()0nniii iinniiii iieyxeyx x (4.7) 消去方程左边的“-2”可得 16 11()0()0nii iniii iyxyx x (4.8) 对上式各项分别求和,移项可得 112111nnii iinnniiii iiinxyxxx y (4.9) 17 这是有关估计量, 的二元一次线性方程组,称为“正规方程 组”(normal equations)。从方程组(4.9)的第 1 个方程可得 yx (4.10) 其中,11ni iyyn,11ni ixxn。 将表达式(4.10)代入方程组(4.9)的第 2 个

11、方程可得 2111()nnniiii iiiyxxxx y(4.11) 18 合并同类项,移项可得: 21111nnnniiiii iiiixxxx yyx(4.12) 使用关系式1ni ixnx,求解: 1221nii i ni ix ynxyxnx (4.13) 上式可写为更直观的离差形式: 19 121()() ()nii i ni ixxyyxx (4.14) OLS 估计量要有定义,必须分母21()0ni ixx。 解释变量ix应有所变动,不能是常数,是对数据的最基本要求。 如果ix没有任何变化,则相同的ix取值将对应于不同的iy取值, 无法估计x对y的作用,参见图 4.4。 20

12、图 4.4 解释变量 x 没有变化的情形 根据方程(4.10)与(4.14),可求解 OLS 估计量, ,得到 iyx,称为样本回归线(sample regression line)或样本回归函 数(sample regression function,简记 SRF),参见图 4.5。 从方程(4.10)可知,yx,即样本回归线一定经过( , )x y。 xy( ,)iixy21 图 4.5 总体回归线与样本回归线 4.3 OLS 的正交性的正交性 定义被解释变量iy的 “拟合值” (fitted value)或 “预测值” (predicted value)为 iiyx (4.15) xab

13、+22(,)xy2e xy1e11( ,)x yxab+ 2e1e( ,)x y22 可将残差写为 ()iiiieyxyy (4.16) 根据正规方程组(4.8): 1100ni ini i iexe (4.17) 写为向量内积的形式: 23 111110,0nnnee xx ee (4.18) 定义常数向量、残差向量、解释向量以及拟合值向量为 11111 ,1nnnnexyexy 1exy(4.19) 则方程(4.18)可写为 0,01 ex e (4.20) 24 故残差向量e与常数向量1正交,而且e也与解释向量x正交。 将常数项视为取值都为 1 的解释变量,而为此变量的系数。 残差向量与

14、所有解释变量(包括1与x)正交。 残差向量e也与拟合值向量 y正交,因为 11 111100()0nnnnni iiiii i iiii ne yyy ex eexe e y e(4.21) 25 OLS 残差与解释变量及拟合值的正交性是 OLS 的重要特征, 为推导证明提供了方便。 比如,考虑方程(4.16),iiieyy,将两边对 i 加总,并除以 n 可得: 1111110nnniii iiieyyyynnn(4.22) 其中,11ni iyyn。故被解释变量的均值恰好等于拟合值的均值,即 yy (4.23) 26 4.4 平方和分解公式平方和分解公式 被解释变量可分解为相互正交的两个部分,即 iiiyye (4.24) 如回归方程有常数项(通常都有),则被解释变量的离差平方和21()ni iyy(Total Sum of Squares,TSS)可分解为 222111RSSTSSESS()

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号