简单线性回归Final课件

资源描述

《简单线性回归Final课件》由会员分享，可在线阅读，更多相关《简单线性回归Final课件（94页珍藏版）》请在金锄头文库上搜索。

1、1,计量经济学,第二章 (1) 简单二元回归 y = b0 + b1x + u,2,本章大纲,简单回归模型的定义普通最小二乘法的推导 OLS的操作技巧测量单位和函数形式 OLS估计量的期望值和方差过原点回归,3,本节主要内容,本章目的：以估计教育回报率为例一些术语的注解一个简单假定条件期望零值假定何为普通最小二乘法普通最小二乘法的推导,4,我们学习的目标是什么？,教育的回报率假如已经收集到一个具有代表性的样本：村子里面小学同学（100人）（Xi，Yi）：（教育水平，工资的差别）(i=1, ,100) 问题：教育水平提高对工资的作用有多大？简单演示如何操作,5,两个要点,我

2、们需要对残差的性质做出什么样的假设？基于数据样本，如何估计模型（参数）？,6,术语注解,在简单二元回归模型y = b0 + b1x + u中， y通常被称为因变量，左边变量，被解释变量，或回归子。 x通常被称为自变量，右边变量，解释变量，回归元，协变量，或控制变量。,7,等式y = b0 + b1x + u只有一个非常数回归元。我们称之为简单回归模型，两变量回归模型或双变量回归模型. b0 , b1被称为回归系数。 b0也被称为常数项或截矩项，或截矩参数。 b1代表了回归元x的边际效果，也被成为斜率参数。 u 为误差项或扰动项，它代表了除了x之外可以影响y的因素。,8,线性的含义： y 和

3、x 之间并不一定存在线性关系，但是，只要通过转换可以使y的转换形式和x的转换形式存在相对于参数的线性关系，该模型即称为线性模型。如, y=eb0+b1x+u 。,9,简单二元回归模型例子,如：简单的工资方程 wage= b0 + b1(years of education) + u 上述简单工资函数描述了受教育年限和工资之间的关系, b1 衡量了多接受一年教育工资可以增加多少。,10,关于u的假定,假定总体中误差项u的平均值为零 E(u) = 0(2.5) 该假定是否具有很大的限制性呢?,11,关于u的假定,比如, E(u)=5. 那么 y = (b0 +5)+ b1x + (u-5), 所

4、以, E(u*)=E(u-5)=0. 上述推导说明我们总可以通过调整常数项来实现误差项的均值为零, 因此该假定的限制性不大。,12,条件期望零值假定,我们需要对u和 x之间的关系做一个关键假定。理想状况是对x的了解并不增加对u的任何信息。换句话说，我们需要u和x完全不相关： E(u|x) = E(u),13,由于我们已经假定了E(u) = 0，因此有E(u|x) = E(u) = 0。该假定是何含义？ E(u|x) = E(u) = 0. (2.6),条件期望零值假定,14,在教育一例中，假定u 代表内在能力，条件期望零值假定说明不管解释教育的年限如何，该能力的平均值相同。 E(ability

5、|edu=6)=E(ability|edu=18)=0.,条件期望零值假定,15,假设期末成绩分数取决于出勤次数和影响学生现场发挥的因素，如学生个人素质。 score =b0 + b1attend +u 那么上述模型中假设（2.6）何时能够成立？,条件期望零值假定,16,普通最小二乘法的推导,回归的基本思想是从样本去估计总体参数。我们用(xi,yi): i=1, ,n 来表示一个随机样本，并假定每一观测值满足yi = b0 + b1xi + ui。,17,.,.,.,.,y4,y1,y2,y3,x1,x2,x3,x4,u1,u2,u3,u4,x,y,总体回归线，样本观察点和相应误差,E(y|

6、x) = b0 + b1x,18,普通最小二乘法的推导,首先由E(u|x) = E(u) = 0 可知： Cov(x,u) = E(xu) = 0 为什么? 由于 Cov(x,u) = E(xu) E(x)E(u) 而由E(u|x) = E(u) = 0 可得Cov(x,u) = E(xu) = 0 。,19,普通最小二乘法的推导,这样我们可以得到两个矩条件约束： E(y b0 b1x) = 0 Ex(y b0 b1x) = 0 可将u = y b0 b1x代入以得上述两个矩条件。,20,使用矩方法推导普通最小二乘法,矩方法? 是将总体的矩限制应用于样本中。,21,普通最小二乘法的推导,目标是

7、通过选择参数值，使得在样本中矩条件也可以成立。样本中矩条件可以表示为：,22,普通最小二乘法的推导,根据样本均值的定义以及加总的性质，可将第一个条件写为,23,普通最小二乘法的推导,24,因此OLS估计出的斜率为,25,OLS斜率估计法总结,斜率估计量等于样本中x 和 y 的协方差除以x的方差。若x 和 y 正相关则斜率为正，反之为负。,26,关于OLS的更多信息,OLS法是要找到一条直线，使残差平方和最小。残差是对误差项的估计，因此，它是拟合直线（样本回归函数）和样本点之间的距离。,27,.,.,.,.,y4,y1,y2,y3,x1,x2,x3,x4,1,2,3,4,x,y,样本回归线

8、，样本数据点和相关的误差估计项,28,推导方法二,正式解一个最小化问题，即通过选取参数而使下列值最小：,29,推导方法二,如果直接解上述方程我们得到下面两式，这两个式子等于前面两式乘以n,30,本节小结,介绍简单线性回归模型介绍通过随机样本的数据运用普通最小二乘法估计斜率和截距的参数值,31,(2)简单二元回归,y = b0 + b1x + u,32,本章大纲,简单回归模型的定义推导普通最小二乘法的估计量 OLS的操作技巧测量单位和回归方程形式 OLS估计量的期望值和方差过原点的回归,33,本节大纲,OLS的代数特性拟合优度Goodness of fit 使用stata做OLS 回归

9、改变测量单位对OLS统计量的效果,34,例：CEO的薪水和资本权益报酬率,35,例：CEO的薪水和资本权益报酬率,变量salary衡量了已1000美元为单位的年薪，其最小值，均值和最大值分别为：(min, mean, max)=(223, 1281, 14822). Roe净收入/所有者权益，为三年平均值。 N=209. 估计得到的关系为： (estimated salary)=963.191 + 18.501 roe.,36,例：CEO的薪水和资本权益报酬率,对估计量的解释： 963.19:常数项的估计值衡量了当roe为零时CEO的薪水。 18.5:b1 的估计值反应了ROE若增加一个百分

10、点工资将增加18500美元。如果 roe=30, 估计的薪水应该是多少?,37,OLS的代数性质,OLS 的样本残差平均值也为零.,38,OLS的代数性质,回归元（解释变量）和OLS残差之间的样本协方差为零 (p25),39,OLS的代数性质,OLS回归线总是通过样本的均值。,40,OLS的代数性质,我们可把每一次观测看作由被解释部分和未解释部分构成. 预测值和残差在样本中是不相关的,41,OLS的代数性质,42,更多术语,定义总平方和为,43,更多术语,总平方和SST是对y在样本中所有变动的度量，即它度量了y在样本中的分散程度将总平方和除以n-1,我们得到y的样本方差。,44,更多术语,

11、解释平方和定义为它度量了y的预测值的在样本中的变动,45,更多术语,残差平方和定义为残差平方和度量了残差的样本变异,46,SST, SSR and SSE,y 的总变动可以表示为已解释的变动SSE和未解释的变动SSR之和，即 SST=SSE+SSR,47,证明 SST = SSE + SSR,48,证明 SST = SSE + SSR,Therefore, SST = SSE + SSR. 该证明中我们使用了一个事实, 即样本中因变量的拟合值和残差不相关.,49,Goodness-of-Fit拟合优度,我们如何衡量样本回归线是否很好地拟合了样本数据呢? 可以计算模型解释的总平方和的比例，

12、并把它定义为回归的R-平方 R2 = SSE/SST = 1 SSR/SST,50,拟合优度,R-平方是已解释的变动占所有变动的比例它因此可被看作是y的样本变动中被可以被x解释的部分 R-平方的值总是在0和1之间,51,拟合优度,在社会科学中，特别是在截面数据分析中, 回归方程得到低的R-平方值并不罕见。值得强调的是表面上低的R-平方值不一定说明 OLS回归方程是没有价值的,52,拟合优度,Example 2.8 CEO薪水和净资产回报 Example 2.9 竞选结果和选举活动开支,53,使用 Stata 进行OLS回归,我们已经推导出公式计算参数的OLS估计值，所幸的是我们不必亲手去计

13、算它们。在Stata中进行回归非常简单，要让y对x进行回归，只需要输入 reg y x,54,测量单位,假定薪水的单位是美元，而不是千美元，salarys. 在Salarys对roe进行回归时OLS截距和斜率的估计值是多少？,55,测量单位,原估计方程 (estimated salarys)=963.191 + 18.501 roe 现在估计方程 (estimated salarys)=963191 + 18501 roe 一般而言，当因变量乘上常数c，而自变量不改变时，OLS的截距和斜率估计量也要乘上c。,56,测量单位,如果定义 roedec = roe/100，那么样本回归线将会从 (

14、estimated salary)=963.191 + 18.501roe 改变到 (estimated salary)=963.191 + 1850.1roedec 一般而言，如果自变量除以或乘上某个非零常数，c，那么OLS斜率将乘以或除以c，而截距则不改变。,57,在简单回归中加入非线性,线性关系并不适合所有的经济学运用然而，通过对因变量和自变量进行恰当的定义, 我们可以在简单回归分析中非常容易地处理许多y和x之间的非线性关系.,58,自然对数,59,在工资-教育的例子中，假定每增加一年的教育，工资的百分比增长都是相同的能够给出不变的百分比效果的模型是如果 , 可以得到,60,例 2

15、.10,将对数工资方程和该方程相比,61,自然对数的另一个重要用途是用于获得弹性为常数的模型在CEO的薪水和企业销售额的例子中，常数弹性模型是,62,变量的原始形式和其自然对数的不同组合,63,简单二元回归 (3),y = b0 + b1x + u,64,本章大纲,二元回归模型的定义推导普通最小二乘法的估计量 OLS的操作技巧测量单位和函数形式 OLS估计量的期望值和方差过原点回归,65,OLS估计量的期望值和方差,从总体中抽取的不同的随机样本可得到不同的OLS估计量，我们将研究这些OLS估计量的分布。首先，我们在一些假定下证明OLS的无偏性。,66,假定SLR.1 （关于参数是线

16、性的）,在总体模型中，因变量 y 和自变量 x 和误差 u 的关系可写作 y = b0 + b1x + u , 其中 b0 和 b1 分别是总体的截距参数和斜率参数,67,假定SLR.2 (随机抽样):,假定我们从总体模型随机抽取容量为n的样本, (xi, yi): i=1, 2, , n, 那么可以写出样本模型为 yi = b0 + b1xi + ui,68,假定 SLR.3 和 SLR.4,SLR.3, 零条件期望：假定 E(u|x) = 0 . 那么在随机样本中我们有 E(ui|xi) = 0 SLR.4 (自变量中的样本变动): 在样本中，自变量 x 并不是一个不变常数。,69,定理2.1 ( OLS的无偏性),使用假定SLR.1到SLR.4，我们可以得到无论b0,和b1 取什么值，它们的OLS估计量的期望值等于它们各自的真值。证明:,70,OLS的无偏性(继续）,为了考虑无偏性，我们需要用总体的参数改写估计量把公式简单地改写为,

展开阅读全文