第二章 一元线性回归模型 理论与方法§1、回归分析概述§2、一元线性回归模型§2.1 回归分析概述l一、变量间的关系及回归分析的基本概 念l二、总体回归函数(方程)PRFl三、总体回归函数(方程) PRF的随机 设定l四、随机误差项的含义l五、样本回归方程(函数)SRF一、变量间的关系及回归分析的基本概念l经济变量间的关系l⑴ 确定性关系(函数关系):研究的是确定现象而非随机变量间的关系l例如:圆的面积S=*r² 其中,r为半径l⑵ 统计依赖关系(相关关系):研究的是非确定现象随机变量间的关系l例如:农作物的产量=F(气温,降雨量,阳光,施 肥量)统计依赖(相关关系)线性相关非线性相关正相关不相关负相关正相关不相关负相关相关系数(-1≤≤1)有因果关系无因果关系回归分析相关分析注意:⑴ 不线性相关并不意味着不相关⑵ 有相关关系并不意味着一定有因果关系⑶ 回归分析与相关分析研究一个变量对另一个 (些)变量的统计依赖关系,但它们并不意味 着一定有因果关系⑷ 回归分析对变量的处理方法存在不对称性, 即区分被解释变量和解释变量:前者是随机变 量,后者不是相关分析则对称地对待被解释变量和解释变量 ,二者都被看作是随机的。
回归分析:l回归分析是研究一个变量关于另一个(些)变 量的统计依赖关系的计算方法和理论其用意 在于通过后者的已知或设定值,去估计和(或 )预测前者的(总体)均值l前一个变量称为被解释变量(Explained Variable)或应变量(Dependent Variable),后一个 变量称为解释变量(Explanatory Variable)或自变 量(Independent Variable )回归分析的主要内容:⑴ 根据样本观察值对计量经济模型参数进行估计,求得回归方程⑵ 对回归方程、参数估计值进行显著性检验⑶ 利用回归方程进行分析、评价及预测二、总体回归函数(方程)PRF( population regression function)l回归分析是研究一个变量关于另一个(些) 变量的统计依赖关系的计算方法和理论其用意在于通过后者的已知或设定值,去估计 和(或)预测前者的(总体)均值l回归分析关心的是根据解释变量的已知或给 定值,考察被解释变量的总体均值l例2.1:一个假想的社区人口总体有60户家庭组成,要研究该社区每月家庭消 费支出Y与每月可支配家庭收入X的关系,即知道了家庭的每月收入,预测每 月消费支出的(总体)水平。
为达到此 目的,将该60户家庭划分为组内收入差 不多的10组,以分析每一收入组的家庭消费支出表2.1 某社区每月家庭收入与消费支出调查统计表每月家庭收入X(元)800100012001400160018002000220024002600每月 家庭 消费 支出 Y(元 )550650790800102011001200135013701500600700840930107011501360137014501520650740900950110012001400140015501750700800940103011601300144015201650178075085098010801180135014501570175018000880011301250140001600189018500001150000162001910共计325046204450707067807500685010430966012110f(Y|X)1/51/61/51/71/61/61/51/71/61/7E(Y|X)6507708901010113012501370149016101730PRF总体回归函数:在给定解释变量Xi条件下,被解释变量Yi的 期望轨迹称为总体回归线(population regression line),更一般称为总体回归曲线 ( population regression curve )。
其相应的函数(方程)E(Y/Xi)=f(Xi)称为(双变量)总体回归函数(方程)其 中,f代表一种函数关系注意:⑴ 回归函数(PRF)说明被解释变量Yi的平 均状态(总体条件期望)随解释变量Xi变化的规律⑵ 总体回归函数的函数形式可以是线性的,也可以是非线性的以线性函数为例,其形 式为:其中,0与1为固定的参数,称为回归系数 三、PRF的随机设定l个别家庭的消费支出与给定收入水平间的关 系:其中,i称为观察值Yi围绕它的期望值E(Y/Xi) 的离差(deviation),是一个不可观测的随机变量,又称为随机干扰项或随机误差项将上述公式加以变幻,可得出个别家庭的消 费支出如下:公式表明,给定收入水平Xi,个别家庭的支出 可表示为两部分之和:⑴ 该收入水平下所有家庭的平均消费支出 E(Y/Xi),称为系统性(systematic)部分,或确 定性(deterministic)部分⑵ 随机或非确定性部分该公式称为总体回归函数(PRF)的随机设定 形式它表明被解释变量Y除了受解释变量X的系统性影响外,还受其他未包括在模型中 而又集体地影响着Y的全部变量的随机性影响 ,i即为这些集体变量的替代物。
正是因为模型中引入了随机项,才称为计量 经济学模型,又称为总体回归模型四、随机误差项的含义l随机误差项是在模型设定中省略下来而又集 体地影响着被解释变量Y的全部变量的替代物主要内容包括:l⑴ 在解释变量中被忽略的因素的影响在研究一经济现象时,影响某一经济变量的因素有许 多,但是,在建立计量经济学模型时,我们不 可能将所有因素都作为自变量包括在模型中, 只能选择主要因素,其他被省略掉的因素对被 解释变量的影响都归入了随机误差项 l⑵ 变量观测值的观测误差的影响对于变量的样本观测值,无论是实际测量得来的,或是调查 统计得来得,都不可避免的会产生误差这些误 差归并到随机误差项中l⑶ 模型关系的设定误差的影响即为数学模型形式的误差经济现象实际上是很复杂的,自变 量与因变量之间的关系在许多情况下并非完全的 线性关系,可是我们为了简单起见往往用线性模 型来代替,这就造成了模型形式的误差,它对因 变量的影响也包括在随机误差项中l⑷ 其他随机因素的影响由于经济行为不象科学实验那样完全在人为地控制下进行, 有些因素是无法控制的,是一种随机现象 如一个消费者对某种商品的购买,可能由于广告的宣传本不想买而购买了;也可能由于 某些人的劝告本想买反而不购买了等等。
将 这些不易预测和无法度量的因素,在模型中 都有随机误差项表示产生并设计随机误差项的主要原因:⑴ 理论的含糊性;⑵ 数据的欠缺;⑶ 节省原则五、样本回归方程(函数) SRF(sample regression function)l例2.2:在例2.1的总体中有如下一个样本 (见下表),问:能否用该样本预测总 体中对应于选定X的平均每月消费支出? 即能否用该样本估计总体回归函数PRF?l表2.2X800100012001400160018002000220024002600Y700650900950110011501200140015501500每月家庭收入与消费支出数据表(样本) X800100012001400160018002000220024002600Y700650900950110011501200140015501500SRF样本回归曲线(sample regression lines) 和样本 回归函数(sample regression function):上图中的样本散点图近似于一条直线,划一 条直线以尽可能好地拟合该散点图,该直线 称为样本回归曲线将上述样本回归线以函数形式表示为:称为样本回归函数(SRF)。
对比这两个公式,可以看出:公式(2)是公式(1)的近似替代物;是E(Y/Xi)的估计量; 为0的估计量;(1 )(2)是1的估计量样本回归函数的随机形式及样本回归 模型:其中,样本残差项(residual),代表了其他 影响Yi的随机因素的集合体,可看成为i的估计量该模型由于引入了随机项,成 为计量经济模型,将该模型称为样本回归 模型样本残差项回归分析的主要目的:根据样本回归函数(SRF),估计总体回归函数 (PRF),即根据公式(2)估计公式(1)1)(2)即:设计一“方法”构造SRF,使得SRF尽可 能地“接近”PRF,或者说使 尽可能 地接近0和1样本与总体回归线lYXi XSRFPRF§2.2 一元线性回归模型l一、线性回归模型的特征l二、线性回归模型的普遍性l三、线性回归模型的基本假定l四、参数估计:OLS 1、OLSl 2、离差形式l 3、SRF的性质l五、OLS估计量的性质l五、OLS估计量的性质 1、线性性l 2、无偏性l 3、有效性l六、参数估计量的概率分布和随机误差项 的方差估计l七、统计检验 1、拟合优度检验l 2、参数的显著性检验l (t检验)l八、回归系数的置信区间检验l九、回归分析的应用:预测问题一、线性回归模型的特征l单方程线性回归模型的概念和一般形式:l单方程计量经济学模型是以单一经济现象为研 究对象而建立的模型,模型中只包括一个方程 ,是应用最为普遍的计量经济学模型,分为线 性模型和非线性模型两大类。
l一般形式为:i=1,2, …,n其中,i为观测下标,n为样本容量一元线性回归模型:l形如的计量经济学模型称为一元线性回归模型( 双变量线性模型)其中,Y为被解释变量, X为解释变量,0与1为待估参数,为随机误差项一元线性回归模型举例:凯恩斯的绝对收入假设消费理论认为,消费 是由收入唯一决定的,是收入的线性函数, 事实上,消费与收入之间的关系并不是准确 实现的,其计量经济学模型为:每给定一个收入Y的值,消费C并不是单一确定的,而是由许多因素共同确定,其概率 分布与随机误差项的概率分布相同线性回归模型的特征:l⑴ 通过引入随机误差项,将变量之间的关系用一个线性随机方程来描述, 并用随机数学的方法来估计方程中的 参数l⑵ 性回归模型中,被解释变量的特征由解释变量与随机误差项共同决 定二、线性回归方程的普遍性l将非线性关系转化为线性关系的常用的处 理方法:l⑴ 直接置换法l双曲线:如商品的需求曲线是一种双曲线 形式,商品需求量q与商品价格p之间的关 系表现为双曲线关系现令:y=1/q;x= 1/p则原方程转换为:y=a+bx抛物线:如拉弗曲线描述的税收s和税率r的关 系是一种抛物线的形式:s=a+br+cr² c<0现令:x1=r,x2=r²原方程置换为:s=a+bx1+cx2 c<0⑵对数变换法l幂函数:如著名的Cobb-Dauglas生产函数将产 出量Q与投入要素(K,L)之间的关系描述为幂函数的形式:现将方程两边取对数,则变换为线性形式如 下:指数函数:如生产中成本C与产出量q的关系:将方程两边取对数后,即成为线性形式如下 :结论:l实际经济生活中的许多问题,都可以最终 转化为线性问题,因此,线性回归模型具 有普遍意义。
即使对于无法采取任何变换方法使之变成线性的非线性模型,目前使 用的较多的参数估计方法——非。