计量经济学第2章回归与回归分析讲义

资源描述

《计量经济学第2章回归与回归分析讲义》由会员分享，可在线阅读，更多相关《计量经济学第2章回归与回归分析讲义（48页珍藏版）》请在金锄头文库上搜索。

1、第2章回归与回归分析,学习目标,1、掌握线性相关系数的意义及计算方法 2、理解统计关系与确定性关系的意义 3、理解总体线性回归方程与总体回归模型的意义 4、理解随机扰动项的意义 5、理解样本回归方程与总体回归模型的意义,2.1回归的基本问题,现代意义的“回归”已经演变成建立回归方程或模型研究一个随机变量Y对另一个变量(X)或多个变量(X1，X2，Xk)的相互依存关系的统计分析方法。在经济领域，很多变量之间都存在着相互依存关系。,【例2-1】边际消费倾向是凯恩斯宏观经济学的核心概念之一。通俗的讲当人们的收入增加时，消费支出也会增加，但消费支出增加的没有收入增加的快，而消费支出的增加值比收入的

2、增加就是边际消费倾向。在这个理论中，叙述了两个经济变量-收入与消费之间的关系，那么两者之间存在怎样的关系呢？我们抽取2010年广东省各地区城镇居民可支配收入与消费支出的数据（数据见例2-1，数据来源：广东统计年鉴2011），并绘制散点图如下：,图2-1 广东省各地区城镇居民可支配收入与消费支出的关系,其中，X表示收入，Y表示消费。从图2-1可以看出，当X增加时，Y也在增加，并且这些散点散布在某条直线附近。于是我们可以用一条直线“近似”表示收入(X)与消费支出（Y）的关系：（2-1）而其中的斜率项系数，即消费支出的增量比收入的增量，其含义是边际消费倾向。,【例2-2】新西兰经济学家W菲利普

3、斯根据英国近100年货币工资变化的百分比（Y）与失业率（X）的经验统计资料提出了一条用以表示失业率和货币工资变动率之间交替关系的曲线（如图2-2）。这条曲线表明：当失业率较低时，货币工资增长率较高；反之，当失业率较高时，货币工资增长率较低，甚至是负数。根据成本推动的通货膨胀理论，货币工资可以表示通货膨胀率。因此，这条曲线就可以表示失业率与通货膨胀率之间的交替关系。,图2-2 菲利普斯曲线,由图2-2，我们可以用一条双曲线“近似”表示货币工资增长率（Y）与失业率（X）这两个变量的规律性：（2-2）,【例2-3】经济理论告诉我们，影响经济增长的主要因素是消费、投资和净出口，如果用GDP作为经济总

4、量的代表变量，则可以用以下方程“近似”地表示这些变量的关系：（2-3）其中 YGDP，X1消费，X2投资，X3净出口。,2.2 相关分析,相关分析是研究现象（变量）之间是否存在某种依存关系（相关关系）的一种统计方法，主要研究变量之间相关关系的形式、方向和密切程度。 1.统计关系与确定性关系在我们所观察的经济变量中，存在着各种各样的关系，从整体上划分可以分为统计关系和确定性关系。,确定性关系是指经济变量之间的关系可以用精确的公式表示，如：资产=负债+所有者权益、销售额=销售量价格等等。但是这类关系在经济变量之间相对较少，大部分经济变量之间的关系是如前面所举例的关系统计关系。,经济变量大多都

5、是随机变量，例如消费支出、失业率、净出口等等，正是由于这种随机性，导致经济变量之间很难保持确定性的关系。但是，经济运行存在的内在规律性会使经济变量之间存在着某种“相关”，这些“相关”在实践中被反复大量的观察，并在某种程度上被证实，于是人们描述出这些“相关”意义，总结成相应的经济理论，这些“相关”就是我们所理解的经济意义上的统计关系相关关系。,两个变量之间存在相关关系，还需要考虑两个变量之间的逻辑关系因果关系，即哪个变量依赖于哪个变量。例如消费支出与收入之间的关系，一定是消费支出依赖于收入，即收入是“自变量”，消费支出是“因变量”；但是也有一些经济变量之间是互相依赖的，如某种商品的价格与供应量之

6、间的关系就是互相依赖的关系。判断因果关系依据是相关的经济理论，在统计意义上是无法判断的，所以在进行相关分析时一般不区分因果关系。,相关分析就是研究统计关系的形式、方向和密切程度的统计方法。为了表达问题的方便，我们约定在本书中，用大写字母表示变量，如Y、X、X1、Xk等等。,2.相关关系的种类（1）按相关的程度可分为完全相关、不完全相关和不相关当两个变量之间的关系是确定性关系是，称这两种现象间的关系为完全相关；当两个变量之间彼此互不影响，其数量变化各自独立时，称为不相关；两个变量之间的关系介于完全相关和不相关之间，称为不完全相关，一般的相关关系就是指这种不完全相关。,（2）按相关的方向可分为

7、正相关和负相关当一个变量的数量增加（或减少），另一个变量的数量也随之增加（或减少）时，称为正相关；反之，当一个变量的数量增加（或减少），而另一个变量的数量向相反方向变动时，称为负相关。,（3）按相关的形式可分为线性相关和非线性相关当两种相关变量之间的关系大致呈现为线性关系时，称之为线性相关；如果两种相关变量之间，并不表现为直线的关系，而是近似于某种曲线方程的关系，则这种相关关系称为非线性相关。（4）按所研究的变量多少可分为简单相关、复相关两个变量之间的相关，称为简单相关；当所研究的是一个变量对两个或两个以上其他变量的相关关系时，称为复相关。,3. 简单线性相关关系的度量简单线性相关关

8、系是最简单也是最常见的相关形式，一般用简单线性相关系数度量这种关系的密切程度。简单线性相关系数简称相关系数（correlation coefficient），如果是根据总体全部数据计算的，则称为总体相关系数，通常记为，计算公式为：（2-4）其中变量X和Y的协方差变量X的方差变量Y的方差,可以证明，的取值范围为-1 1；若为正，则表明两变量为正相关；若为负，则表明两变量为负相关；如果 =1或1，则表明两个变量完全相关。根据样本数据计算的相关系数称为样本相关系数，记为r。由于总体一般是不能全面观测的，所以相关系数一般只能计算样本相关系数，计算公式为：（2-5）其中变量X

9、的平均数变量Y的平均数,注意到式（2-5）中计算项都是离差，设，，则有：（2-6）式（2-6）称为r的离差形式。 r与有相同的取值范围与意义。但是，r是由样本数据计算得到的，其值会随样本的波动而波动，故r是统计量，我们可以用r检验总体是否存在相关关系。,可以证明，在的条件下，关于r的统计量服从t分布：（2-7）其中 r样本相关系数 n样本容量,显著性检验的步骤如下： 1）提出假设：，； 2）由式（2-7）计算检验统计量的值； 3）确定显著性水平，根据给定的显著性水平和自由度（n-2）查t分布表查构造拒绝域； 4）决策判断：若，拒绝H0, 表明总体的两个变量之间存在显著的线

10、性相关关系。,2.3 一元线性回归分析,回归分析是指在相关分析的基础上，将变量之间的变动关系模型化，即寻找出一个能够“近似”刻画变量间变化关系的函数关系式，并据此“精确”的表达变量之间影响的结构、方向和程度。通过回归分析，可以将相关变量之间不确定、不规则的数量关系一般化、规范化，从而可以根据自变量的某一个给定值推断出因变量的可能值（或估计值）。,2.3.1总体线性回归方程与回归模型【例2-4】假设一个总体中只有100个家庭。由于这个总体非常小，我们可以对这个总体中的所有数据进行调查。经过调查，这100个家庭的月度收入和消费支出数据如下：,表2-1 100个家庭收入与消费支出数据单位：元,根

11、据这些数据，说明收入对消费支出影响的规律性。,解：由经济理论可知，收入是解释变量，消费支出是被解释变量。从这些数据可以看出，虽然每一个收入水平对应下的消费支出是不相同的，但平均而言当收入增加时，消费支出也会增加。计算每一个收入水平对应的平均消费支出，由于这个平均值是在给定的收入条件下得到的，所以称为条件均值，一般用符号表示，如，表示在收入水平为4000元的条件下，消费支出是2720元。,绘制X与Y的散点图：图2-3 收入与消费支出的散点图,由图（2-3）可以看出，消费支出的条件均值可以用一条直线来表示：（2-8）我们称式（2-8）为总体线性回归方程，因为它是一个一元一次方程，所以也称

12、为总体一元线性回归方程。对于相同收入水平的家庭，消费支出并不一定相同。每个家庭的具体消费支出与其条件均值会一个“偏离”，这个偏离记为，之所以加下标是因为在同一个收入水平下，这样的偏离有多个。显然有：（2-9）,由式（2-8）和（2-9）可得：（2-10）我们称式（2-10）为总体回归模型，它是刻画总体真实统计关系的模型。由【例2-1】的分析可知，斜率项系数表示边际消费倾向。由以上分析可知，收入对消费支出的影响可以用一元线性方程来刻画。,对于总体线性回归方程和模型我们要做如下理解和说明：第一，总体线性回归方程是被解释变量（Y）的条件均值与解释变量（X）真实关系的描述，总体回归模型

13、是两者统计关系的描述；第二，要确定总体线性回归方程，只需确定截距项系数和斜率项系数即可，而且这些系数往往表示特定的经济学含义，如在消费模型中斜率项系数表示边际消费倾向。由于在研究的同一个问题中，总体是唯一确定的，所以这些系数也是唯一确定的或者说是一种客观存在，它们是统计意义上的参数，称为总体回归系数。,第三，表示在同一X水平下每一个实际Y与其条件均值的离差，这样的偏离是一种误差，这种误差的形成是由随机原因造成的，故是随机误差，项也称为随机扰动项。第四，本例完全是一个假设的总体，在实际中这样小的总体是不存在的。我们可以设想，当我们观察的总体足够大时，在同一收入水平下的消费支出数据是非常多的，

14、它们在一个比较狭小的区域中“堆积”，会形成一个消费支出（Y）的分布，我们相信消费支出数据会在其均值附近集中，而偏离均值的数据是较少的。,由于，所以根据Y的分布可以得到关于的分布，而且这两个分布在形态上应该是相同的。那么，这个分布的形态是怎样的呢？我们用计算机随机生成10000个收入水平为4000元的家庭消费支出数据，这些数据以2720元为均值，绘制消费支出和随机扰动项的直方图。可以明显看到，这个分布的形态近似的是正态分布。,a)消费支出 b)随机扰动项图2-4 由10000个模拟数据生成的分布图,在模型中引入随机扰动项的原因是复杂的，归纳起来有以下几点： (1) 随机误差项代表了模型中并

15、未包括的变量的影响。例如，当我们要研究居民的收入对消费行为的影响，即用收入（解释变量X）解释消费支出（被解释变量Y）。但是从实际的经济活动来看，不仅仅是收入会影响消费支出，如商品的价格、营销策略、消费者对该商品的需求状况、需求偏好等因素都会对消费支出造成影响，我们就可以把这些影响因素用随机扰动项来表示。 (2) 经济行为内在的随机性。虽然人类的经济行为是理性的，也不可以完全可预测，所以这些行为的结果经济变量是随机变量，这是我们做何种努力都无法精确解释的，随机扰动项则反映了经济行为中的一些内在随机性。,(3) 数据的测量误差。一般来说消费支出的数据相对真实，但收入数据可能是有偏差的，比如有些人会

16、夸大或隐瞒收入，有些人可能会超前消费，故与消费支出数据对应的收入数据非常可能不是与实际情况相吻合的；另外在数据统计时往往会四舍五入，也会会产生误差。所有这些误差我们用随机扰动项来表示。 (4)引入随机扰动项有利于建立比较简单的模型。如果我们要考虑影响消费的所有因素，显然是不现实的，此外模型中的解释变量过多，会使模型变得非常复杂，让我们无从下手，也会影响我们分析核心的影响因素。,特别需要说明的是，对于“线性”可以做两方面的理解：第一个方面的理解是，对于变量而言是线性的，即对于解释变量（X）与被解释变量（Y）之间是线性关系；另外一个方面理解是对于系数而言是线性的，即回归系数（）与被解释变量（Y）之间是线性关系，而且这种线性对于我们特别重要，这在以后的内容里

展开阅读全文