jsy2一元线性回归模型剖析

上传人:今*** 文档编号:107044849 上传时间:2019-10-17 格式:PPT 页数:137 大小:1.36MB
返回 下载 相关 举报
jsy2一元线性回归模型剖析_第1页
第1页 / 共137页
jsy2一元线性回归模型剖析_第2页
第2页 / 共137页
jsy2一元线性回归模型剖析_第3页
第3页 / 共137页
jsy2一元线性回归模型剖析_第4页
第4页 / 共137页
jsy2一元线性回归模型剖析_第5页
第5页 / 共137页
点击查看更多>>
资源描述

《jsy2一元线性回归模型剖析》由会员分享,可在线阅读,更多相关《jsy2一元线性回归模型剖析(137页珍藏版)》请在金锄头文库上搜索。

1、第二章 经典单方程计量经济学模型: 一元线性回归模型,回归分析概述 一元线性回归模型的参数估计 一元线性回归模型检验 一元线性回归模型预测 实例,2.1 回归分析概述,一、高尔顿与回归分析方法 二、变量间的关系及回归分析的基本概念,一、高尔顿与回归分析方法,高尔顿生于英格兰伯明翰一个显赫的银行家家庭,达尔文(1809-1882)是其表哥。高尔顿对人类学、优生学、地理学、气象学、统计学、心理学和遗传学等方面均有研究,还是位发明家和热带探险家。 高尔顿一生中发表了超过340篇的报告和书籍。他在1883年率先使用“优生学”(euaenics)一词。在他于1869年的著作遗传的天才(Hereditar

2、y Genius)中,高尔顿主张人类的才能是能够透过遗传延续的。,高尔顿(1822-1911),高尔顿对统计学的最大贡献是相关性概念的提出和回归分析方法的建立,被誉为现代回归和相关分析技术的创始人。 1877年他发表了关于种子的研究结果,指出回归到平均值现象的存在,这个概念与现代统计学中的“回归”并不相同,但是却是“回归”一词的起源。在此后的研究中,高尔顿第一次使用了相关系数(correlation coefficient)的概念。他使用字母“r”来表示相关系数,这个传统一直延续至今。,父代与子代的关系:回归,1875年,Galton 利用豌豆实验来确定尺寸的遗传规律。他挑选了7组不同尺寸的豌

3、豆,并说服他在英国的不同地区的朋友每一组种植10粒种子,最后把原始的豌豆种子(父代)与新长的豌豆种子(子代)进行尺寸比较。当结果被绘制出来之后,他发现并非每一个子代与父代一样,有趣的是尺寸小的豌豆会得到更大的子代,而尺寸大的豌豆会得到较小的子代。高尔顿把这一现象叫做“返祖”现象(趋向于祖先的某种平均类型),后来又称之为“向平均回归” (rearession toward the mean) 。一个总体中在某一时期具有某一极端特征(低于或高于总体均值)的个体在未来的一段时期将减弱它的极端性(或者是单个个体或者是整个子代),这一趋势现在被称作“回归”效应。,例:父亲们的身高与儿子们的身高之间 关系

4、的研究,传统认为身高受遗传影响,高爸爸生高儿子,矮爸爸生矮儿子(我国民间也有“爹矮矮一个,妈矮矮一窝”的说法)。如果高者越高,矮者越矮,那么经过漫长的岁月后,高的应该伸进了天,低的应该贴到了地。然而实际上各人种的平均身高都是相当稳定的。难道传统看法有误,其实人和豌豆是一样的? 1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录; 企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式; 下图是根据1078个家庭的调查所作的散点图(简图),儿子们的身高向着平均身高“回归”以保持种族的稳定,第1代到第2代的身高变化(横轴为第1代),174,174,就是

5、这个“0.516”体现出“回归”效应同样适用于人类!最后高尔顿得到结论:儿子们的身高回复于全体男子的平均身高见1889年F.Gallton的论文普用回归定律。后人将高尔顿寻找父代与子代关系的最小二乘法普遍用于寻找变量之间的规律。,从图上可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。高尔顿对上图中的散点运用最小二乘法得到的具体规律如下:,(即红线的方程),祖宗八代的身高变化(横轴为第1代),15个家族各代的身高变化(横轴为世代数),二、变量间的关系及回归分析的基本概念,1. 变量间的关系 (1)确定性关系或函数关系:研究的是确定现象非随机变量间的

6、关系。,(2)统计依赖或相关关系:研究的是非确定现象随机变量间的关系。,对变量间统计依赖关系的考察主要是通过相关分析(correlation analysis)或回归分析(rearession analysis)来完成的,不线性相关并不意味着不相关。 有相关关系并不意味着一定有因果关系(如肺癌患病率与吸烟的关系就是相关关系而非因果关系)。 相关分析和回归分析都是研究随机变量的统计依赖关系的,都能测度线性依赖程度大小。 相关分析主要研究随机变量间的相关形式及相关程度,而无需考虑二者间是否有因果关系,因此变量的地位是对称的。回归分析则关注于有统计相关性的变量间的因果关系分析,对变量的处理方法存在不

7、对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是。,注意,回归分析(rearession analysis)是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。 其目的在于通过后者的已知或设定值,去估计和(或)预测前者的(总体)均值。 被解释变量(Explained Variable)或应变量(Dependent Variable)。 解释变量(Explanatory Variable)或自变量(Independent Variable)。,2. 回归分析的基本概念,回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值,即当解释变量

8、取某个确定值时,与之统计相关的被解释变量所有可能的对应值的平均值。,回归分析:用以估计随机变量数学期望(它是自变量的函数)的分析程序,称之为回归分析。,相关分析:用以测定随机变量与其影响因素之间关系的密切程度的分析程序,称为相关分析。,回归分析是关于研究一个叫做因变量的变量对另一个或多个叫做解释变量的变量的依赖关系,其用意在于通过后者(在重复抽样中)的已知或设定值,去估计和(或)预测前者的(总体)均值。,可暂时不讲,(1)根据样本观察值对经济计量模型参数进行估计,求得回归方程; (2)对回归方程、参数估计值进行显著性检验; (3)利用回归方程进行分析、评价及预测。,回归分析构成计量经济学的方法

9、论基础,其主要内容包括:,2.2 一元线性回归模型的参数估计,一、一元线性回归模型的基本假设 二、参数的普通最小二乘估计(OLS) 三、参数估计的最大或然法(ML) 四、最小二乘估计量的性质 五、参数估计量的概率分布及随机干 扰项方差的估计,说 明,单方程计量经济学模型分为两大类:线性模型和非线性模型 线性模型中,变量之间的关系呈线性关系 非线性模型中,变量之间的关系呈非线性关系 一元线性回归模型:只有一个解释变量,i=1,2,n,Y为被解释变量,X为解释变量,0与1为待估参数, 为随机干扰项,在解释变量中被忽略的因素的影响; 变量观测值的观测误差的影响; 模型关系的设定误差的影响; 其他随机

10、因素的影响。 产生并设计随机误差项的主要原因: 理论的含糊性; 数据的欠缺; 节省原则。,随机干扰项主要包括下列因素:,回归分析的主要目的是要通过样本回归函数(样本回归方程)尽可能准确地估计回归模型。 估计方法有多种,其中最广泛使用的是普通最小二乘法(ordinary least squares, OLS)。 为保证参数估计量具有良好的性质,通常对模型提出若干基本假设。 实际这些假设与所采用的估计方法紧密相关。,一、线性回归模型的基本假设,假设1. 解释变量X是确定性变量,不是随机变量; 假设2. 随机误差项具有零均值、同方差和不序列相关性: E(i)=0 i=1,2, ,n Var (i)=

11、2 i=1,2, ,n Cov(i, j)=0 ij i,j= 1,2, ,n,假设3. 随机误差项与解释变量X之间不相关: Cov(Xi, i)=0 i=1,2, ,n 假设4. 服从零均值、同方差、零协方差的正态分布 iN(0, 2 ) i=1,2, ,n,如果假设1、2满足,则假设3也满足; 如果假设4满足,则假设2也满足。,注意:,以上假设也称为线性回归模型的经典假设或高斯(Gauss)假设,满足该假设的线性回归模型,也称为经典线性回归模型(Classical Linear Rearession Model, CLRM)。,二、参数的普通最小二乘估计(OLS),最小二乘法的思路,1为了

12、精确地描述Y与X之间的关系,必须使用这两个变量的每一对观察值,才不至于以偏概全。 2Y与X之间是否是直线关系(协方差或相关系数)?若是,将用一条直线描述它们之间的关系。 3在Y与X的散点图上画出直线的方法很多。 4. 我们的任务?找出一条能够最好地描述Y与X(代表所有点)之间的直线。 5什么是最好?找出判断“最好”的原则。 最好指的是找一条直线使得这些散点到该直线的纵向距离的和(平方和)最小。,三种距离,y,x,纵向距离,横向距离,距离,A为实际点,B为拟合直线上与之对应的点,距离是度量实际值与拟合值 是否相符的有效手段,点到直线的距离点到直线的垂直线的长度。 横向距离点沿(平行)X轴方向到直

13、线的距离。 纵向距离点沿(平行)Y轴方向到直线的距离。也就是实际观察点的Y坐标减去根据直线方程计算出来的Y的拟合值。 这个差数就是前面曾提到的 ei 残差。,最小二乘法的数学原理,纵向距离是Y的实际值Y与拟合值之差,差异大拟合不好,差异小拟合好,所以又称为拟合误差或残差。 将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。 于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小。,参数的普通最小二乘估计(OLS),给定一组样本观测值(Xi, Yi)(i=1,2,n)要求样本回归函数尽可能好地拟合这组值. 普通最小二乘法(Ordinary least

14、 squares, OLS)给出的判断标准是:二者之差的平方和,最小。,方程组(*)称为正规方程组(normal equations)。方程组(*)还可表示为: (Yi i ) = ei = 0 (Yi i )Xi = ei Xi = 0,记,上述参数估计量可以写成:,称为OLS估计量的离差形式(deviation form)。 由于参数的估计结果是通过最小二乘法得到 的,故称为普通最小二乘估计量(ordinary least squares estimators)。,顺便指出 ,记,则有,可得,(*)式也称为样本回归函数的离差形式。,(*),注意: 1、在计量经济学中,往往以小写字母表示对均

15、值的离差。 2、注意区别估计值和估计量。,三、参数估计的最大或然法(ML),最大或然法(Maximum Likelihood,简称ML),也称最大似然法,是不同于最小二乘法的另一种参数估计方法,是从最大或然原理出发发展起来的其他估计方法的基础。 基本原理: 对于最大或然法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。,对于最小二乘法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据。,ML原理的图示,5,f (X),x6,0,10,x2,x3,x4,x1,x5,已知随机变量 X N(m , 2

16、) , m = 5或10. 现对其进行观测,得到6个样本观测值x1, x2, x3, x4, x5, x6, 按照ML原理,,在满足基本假设条件下,对一元线性回归模型:,随机抽取n组样本观测值(Xi, Yi)(i=1,2,n)。,那么Yi服从如下的正态分布:,于是,Y的概率函数为,(i=1,2,n),假如模型的参数估计量已经求得,为,上述的P(Yi)即概率论中的概率密度函数f(Yi),因为Yi是相互独立的,所以的所有样本观测值的联合概率,也即或然函数(likelihood function)为:,将该或然函数极大化,即可求得到模型参数的极大或然估计量。,由于或然函数的极大化与或然函数的对数的极大化是等价的,所以,取对数或然函数如下:,解得模型的参数估计量为:,可见,在满足一系列基本假设的情况下,模型结构参数的最大或然估计量与普通最小二乘估

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号