第二章一元线性回归模型蓝色

资源描述

《第二章一元线性回归模型蓝色》由会员分享，可在线阅读，更多相关《第二章一元线性回归模型蓝色（280页珍藏版）》请在金锄头文库上搜索。

1、经济计量学,第二章一元线性回归模型,本章介绍一元线性回归模型的概念及一元线性回归模型所依据的理论与应用。一元线性回归模型只包含一个解释变量和一个被解释变量，是最简单的线性回归模型。通过一元线性回归模型的学习，可较容易地理解回归分析的基本理论与应用。,第一节回归分析的相关概念,一、回归的含义,回归一词最早由F高尔顿(Francis Galton)提出。在一篇研究父母身高与子女身高相互关系的论文中，高尔顿发现，虽然有一个趋势，父母高，子女也高；父母矮，子女也矮，但给定父母的身高，子女的平均身高却趋向于或者回归到全体人口的平均身高。,也就是说，当父母双亲都异常高或异常矮，则子女的身高有趋向于人口

2、总体平均身高的趋势。这种现象被称为高尔顿普遍回归定律。这就是回归一词的原始含义。,在现代，回归一词已演变为一种新的概念。回归分析就是研究被解释变量对解释变量的依赖关系，其目的就是通过解释变量的已知或设定值，去估计或预测被解释变量的总体均值。在下面的几个例子中，我们可以清晰地看到回归分析的实际意义。,1高尔顿普遍回归定律。高尔顿的目的在于发现为什么人口的身高分布有一种稳定性。在现代，我们并不关心这种解释，我们关心的是：在给定父辈身高的情形下，找到儿辈平均身高的变化规律。,就是说，我们如果知道了父辈的身高，就可预测儿辈的平均身高。假设我们得到了一组父亲、儿子身高的数据，制成如下的散点图。图中按统计

3、分组的方法将父亲身高分为若干组。,图4.1,给定父亲身高儿子身高的分布,图4.1中对应于设定的父亲身高，儿子身高有一个分布范围。随着父亲身高的增加，儿子的平均身高也在增加，画一条通过儿子平均身高的线，说明儿子的平均身高是如何随着父亲身高的增加而增加的，这条线就是回归线。,2在经济学中，经济学家要研究个人消费支出与个人可支配收入的依赖关系。这种分析有助于估计边际消费倾向，就是可支配收入每增加一元引起消费支出的平均变化。,3在企业中，我们很想知道人们对企业产品的需求与广告费开支的关系。这种研究有助于估计出相对于广告费支出的需求弹性，即广告费支出每变化百分之一的需求变化百分比，这有助于制定最优广告策

4、略。,4农业工作需要预计粮食产量，需要研究粮食产量与播种面积、施肥量、降雨量之间的依赖关系。这种一个变量依赖于另一个或多个变量的事例在经济系统中普遍存在。回归分析就是要研究这种变量之间的依存关系。,二、统计关系与确定性关系,如果给定一个变量X的结果值就可确定另一个变量Y 的结果值，则称变量Y是变量X 的函数，即X、Y之间是函数关系。,在经典物理学中，给定电阻,电流I 和电压V 之间的关系即为函数关系，即。这种典型的变量关系就是确定性关系。,在经济系统中，这种变量之间的函数关系或确定性关系就很少见。常见的是变量之间是一种不确定的关系，既使变量X 是变量Y 的原因，给定变量X 的值也不能具体

5、确定变量Y的值，而只能确定变量Y 的统计特征，通常称变量X 与Y 之间的这种关系为统计关系。,例如，企业总产出Y 与企业的资本投入K 、劳动力投入L 之间的关系就是统计关系。虽然资本K 和劳动力L 是影响产出Y 的两大核心要素，但是给定K 、L 的值并不能确定产出Y 的值。因为，总产出Y 除了受资本投入K、劳动力投入L 的影响外，还要受到技术进步、自然条件等其它因素的影响。,三、回归分析与相关分析,与回归分析密切相联的是相关分析。相关分析主要测度两个变量之间的线性关联度，相关系数就是用来测度两个变量之间的线性关联程度的。例如，吸烟与肺癌、统计学成绩与数学成绩、身高与体重等等之间的相关程度，就

6、可用相关系数来测度。,而在回归分析中，我们的主要目的在于根据其它变量的给定值来估计或预测某一变量的平均值。例如，我们想知道能否从一个学生的数学成绩去预测他的统计学平均成绩。,在回归分析中，被解释变量Y 被当作是随机变量，而解释变量X 则被看作非随机变量。而在相关分析中，我们把两个变量都看作是随机变量。,例如，在学生的数学成绩与统计学成绩的分析中，如为回归分析，则统计学成绩是随机变量，数学成绩是非随机变量，即数学成绩被固定在给定的水平上，以此求得统计学的平均成绩。而在相关分析中，两者处于平等地位，不存在谁为解释变量，谁为被解释变量的问题，两者均为随机变量。,第二节一元线性回归模型,一、引例,

7、假定我们要研究一个局部区域的居民消费问题，该区域共有80户家庭组成，将这80户家庭视为一个统计总体。,我们研究每月家庭消费支出Y 与每月可支配收入X 的关系。就是说，已知家庭每月可支配收入，要预测家庭每月消费支出的总体平均水平。为此，将80户家庭分为10组。表4.1给出了人为数据。,表4.1 居民收入、消费数据,从表4.1中可以看出，对于每月1000元收入的7户家庭，每月消费支出为700元到940元不等。同样，当X=3000元时，9户家庭的每月消费支出在2180元到2660元之间。,表4.1给出了以X 的给定值为条件的Y 的条件分布。,对于Y 的每一条件分布，我们能计算出它的条件期望，记为E（

8、Y/X=Xi），即在X取特定Xi 值时Y 的期望值。例如，X=1000时，Y 的期望值为：,将表4.1中的数据在直角坐标系中描出，则得到图4.2的散点图。,收入、消费散点图,图4.2,该图表明了对应于各X 值的Y 的条件分布。虽然每个个别家庭的消费支出都有异，但图4.2清楚地表明随着收入的增加，消费支出平均地说也在增加。就是说，散点图启示我们，Y 的条件均值随X 的增加而增加。,如果我们观察图4.2中那些代表Y 的各个条件均值的粗圆点，则表明这些条件平均值落在一根有正斜率的直线上。我们称这根直线叫做总体回归线，它是Y 对X 的回归。,总体回归线就是当解释变量取给定值时,被解释变量的条件均值或期

9、望值的轨迹。图4.2表明，对每一Xi 都有Y 值的一个总体和一个相应的均值。而回归线是穿过这些条件均值的线。,二、总体回归函数,从图4.2我们可以看出，条件均值E（Y/Xi）是Xi 的函数，即:,其中，f (Xi)表示解释变量Xi 的某个函数。在我们的引例中，E(Y/Xi)是Xi 的一个线性函数。,式（4.1）就是总体回归函数，简称总体回归。它表明在给定Xi 下Y 的分布的总体均值与Xi有函数关系，就是说它给出了Y 的均值是怎样随X 值的变化而变化的。,函数f (Xi)采取什么函数形式，是一个需要解决的重要问题。在实际经济系统中，我们不会得到总体的全部数据，因而就无法据已知数据确定总体回归函数

10、的函数形式。同时，对总体回归函数的形式只能据经济理论与经验去推断。,例如，我们可以假定消费支出与收入有线性关系。则总体回归函数为,（4.2）,其中，和为未知而固定的参数，称为回归系数；为截距系数，为斜率系数。式（4.2）为线性总体回归函数。,三、线性的含义,1对变量为线性,对线性的第一种解释是指Y 的条件期望是Xi 的线性函数，例如式（4.2）就是线性回归函数，该回归线是一条直线。,按这种解释就不是线性的，因为对的一阶导数不是常数。,2对参数为线性,对线性的第二种解释是指Y 的条件期望是参数的一个线性函数。它可以是也可以不是变量的X 的线性函数。,此时，就是线性回归函数。但

11、则不是线性回归函数，而是非线性回归函数。,在本课中，主要考虑的是对参数为线性的回归模型，线性回归是指对参数为线性的一种回归（即参数只以它的1次方出现）；对解释变量X则可以不是线性的。,从图4.2可清楚地看到，随着家庭收入Xi的增加，家庭平均消费支出E(Y/Xi )也在增加，这表明了Xi与Y的平均水平的关系。我们想知道对于具体家庭而言，消费支出Y与它的收入水平Xi的关系。,四、总体回归函数的随机设定,就个别家庭而言，收入水平增加，消费支出不一定会增加。,例如从表4.1可以看到，对于每月3000元的收入水平，有一户家庭的消费支出为2180元，少于每月收入为2500元的两户家庭的消费支出（2200

12、元和2260元）。但应看到，每月收入为3000元的家庭的平均消费支出大于每月收入2500元的家庭的平均消费支出（2420元大于2020元）。,从图4.2可以看到，给定收入水平Xi 的个别家庭的消费支出处于在该收入水平的家庭平均消费支出左右，也就是围绕着它的条件均值。我们把个别的Yi 围绕它的期望值的离差表示如下：,其中，离差ui 是一个不可观测的可正可负的随机变量，在专业术语中，把ui 称为随机干扰项或随机误差项。,在式（4.3）中，给定收入X 的水平，个别家庭的消费支出，可表示为两个成份之和。,（1）代表相同收入水平的所有家庭的平均消费支出。这是系统性或确定性成份。（2）ui 为随机或非系

13、统性成份，代表所有可能影响Y，但又未能包括到回归模型中来的被忽略变量的代理变量。,假设对 Xi 为线性的，则：,（4.4）,式（4.4）表示一个家庭的消费支出线性地依赖于它的收入加干扰项。,例如，给定X =1000，各家庭的消费支出可表达为,五、随机误差项u 的意义,1理论的欠缺。虽然有决定Y 的行为的理论，但常常是不能完全确定的，理论常常有一定的含糊性。我们可以肯定每月收入X 影响每月消费支出Y。但不能确定是否有其它变量影响Y，只好用ui 作为模型所忽略的全部变量的替代变量。,2数据的欠缺。即使能确定某些变量对Y 有显著影响，但由于不能得到这些变量的数据信息而不能引入该变量。例如，从经济理

14、论分析，家庭财富量是影响家庭消费的重要因素，应该引入该变量作为解释变量。但是，通常我们得不到有关家庭财富的信息。因此，我们只得把这个很重要的解释变量舍弃掉。,3核心变量与非核心变量。例如，在引例的居民消费模型中，除了收入X1 外，家庭的人口数X2 、户主宗教信仰X3、户主受教育水平X4也影响家庭消费支出。但很可能X2、X3、X4合起来的影响也是很微弱的，是一种非系统的或随机的影响。从效果与成本角度来看，引入它们是不合算的。所以，人们把它们的联合效用当作一个随机变量来看待。,4人类行为的内在随机性。即使我们成功地把所有有关的变量都引进到模型中来，在个别的Y 中仍不免有一些“内在”的随机性，无论我

15、们花了多少力气都解释不了的。随机误差项ui 能很好地反映这种随机性。,5节省原则，我们想保持一个尽可能简单的回归模型。如果我们能用两个或三个变量就基本上解释了Y 的行为，就没有必要引进更多的变量。让ui 代表所有其它变量是一种很好的选择。,在实际回归分析中，我们无法获得像引例中的总体数据，而只能获得对应于某些固定X的Y值的一个样本。我们只能根据抽样信息估计总体回归函数。,六、样本回归函数,我们从表4.1随机抽取对应于固定X 值的Y 值的一个样本如表4.2所示，对应于给定的每个Xi 值只有一个Y 值。为了对比分析，按同样的方法再抽取另一个样本，如表4.3所示。,表4.2 总体的一个随机样本,表4.3 总体的另一个随机样本,将表4.2和表4.3的数据描点，得到图4.3。在这个散点图中画两根样本回归线以尽好地拟合这些散点。,我们可以看出，两个样本存在着差异，这是由于抽样的随机性而造成的波动。,图4.3 两个不同样本的回归线,S1是根据第1个样本画的；S2是根据第2个样本画的。那么，两条样本回归线中哪一条代表“真实”的总体回归线呢？在未知总体数据的情况下，我们就不可能知道哪一条代表真实的总体回归线。,

展开阅读全文

第二章一元线性回归模型蓝色

最新文档