《第四章违反经典假定的回归模型(蓝色)new》由会员分享,可在线阅读,更多相关《第四章违反经典假定的回归模型(蓝色)new(210页珍藏版)》请在金锄头文库上搜索。
1、1 在前面几章里我们讨论的回归模在前面几章里我们讨论的回归模型中都有一些基本的假定。只有当一型中都有一些基本的假定。只有当一个回归模型满足经典假定条件时,才个回归模型满足经典假定条件时,才能得到一个较好的估计。然而,在研能得到一个较好的估计。然而,在研究实际的社会经济等问题时,经常会究实际的社会经济等问题时,经常会遇到一些违背经典假定的情况。遇到一些违背经典假定的情况。第四章违背经典假定的回归模型第四章违背经典假定的回归模型 2 在这些情况下,如果直接用普通最小在这些情况下,如果直接用普通最小二乘法建立模型,会得到很不理想的结二乘法建立模型,会得到很不理想的结果。因此果。因此,如何处理这些问题
2、,就是我如何处理这些问题,就是我们需要面对的问题。们需要面对的问题。3 在这一章里我们将重点讨论模型中在这一章里我们将重点讨论模型中出现了违背经典假定的几种情况时出现了违背经典假定的几种情况时的诊断及解决办法。的诊断及解决办法。 异方差异方差 序列相关序列相关 多重共线性多重共线性4第一节异方差性第一节异方差性 一、异方差性的概念和产生的原因一、异方差性的概念和产生的原因一、异方差性的概念和产生的原因一、异方差性的概念和产生的原因 (一)异方差性的概念(一)异方差性的概念5 在回归模型的基本假设中,假定在回归模型的基本假设中,假定随机误差项随机误差项u1,u2,un 具有相同具有相同的方差,独
3、立或不相关,即对于所有的方差,独立或不相关,即对于所有样本点,有:样本点,有:(4.14.14.14.1) 6 但是在建立实际问题的回归模型时,经但是在建立实际问题的回归模型时,经常存在与此假设相违背的情况,一种是经常存在与此假设相违背的情况,一种是经济计量建模中常说的方差非齐性或异方差济计量建模中常说的方差非齐性或异方差性,即:性,即:当当当当 时时时时 (4.24.24.24.2) 7 异方差性异方差性: 在线性模型的基本在线性模型的基本假定中,关于方差不变的假定不成假定中,关于方差不变的假定不成立,其他假定不变的情形称为异方立,其他假定不变的情形称为异方差性。差性。8 (二)异方差产生的
4、原因(二)异方差产生的原因 实际问题是非常错综复杂的,因而在建实际问题是非常错综复杂的,因而在建立实际问题的回归分析模型时,经常会出立实际问题的回归分析模型时,经常会出现某一因素或一些因素随着解释变量观测现某一因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,值的变化而对被解释变量产生不同的影响,导致随机误差项产生不同方差。通过下面导致随机误差项产生不同方差。通过下面的几个例子,我们可以了解产生异方差性的几个例子,我们可以了解产生异方差性的背景和原因。的背景和原因。9 【例例4.1】按照差错按照差错学习模式学习模式,当人们当人们学习时,动作上出现的差错随时间的增学习时,动作上
5、出现的差错随时间的增加而逐渐减少。如在某一时期内测验打加而逐渐减少。如在某一时期内测验打字差错数(字差错数(Y)与打字实习小时数()与打字实习小时数(X)之间的关系。随着打字实习小时数的增之间的关系。随着打字实习小时数的增加,打字差错平均字数及它们的方差不加,打字差错平均字数及它们的方差不是不变的,而是随之减少的。这个模型是不变的,而是随之减少的。这个模型中就出现了异方差。中就出现了异方差。10【例例4.24.2】在研究城镇居民收入与消费的在研究城镇居民收入与消费的关系时,我们知道居民收入与消费水平有关系时,我们知道居民收入与消费水平有着密切的关系。用着密切的关系。用 Xi 表示第表示第 i
6、户的收入,户的收入,Y Yi 表示第表示第 i 户的消费额,那么反映收入与户的消费额,那么反映收入与消费之间的模型为消费之间的模型为: :(4.34.34.34.3) 11 在式(在式(4.3)的模型中,因为各户的)的模型中,因为各户的收入不同,消费观念和习惯的差异,收入不同,消费观念和习惯的差异,导致消费的差异非常大,模型中存在导致消费的差异非常大,模型中存在明显的异方差性。明显的异方差性。 一般情况下,低收入的家庭购买一般情况下,低收入的家庭购买差异性较小,大都购买生活必需品;差异性较小,大都购买生活必需品;12 但是高收入的家庭购买行为差异就但是高收入的家庭购买行为差异就很大,高档消费品
7、很多,房子、汽车很大,高档消费品很多,房子、汽车的规格选择余地也很大,这样购买金的规格选择余地也很大,这样购买金额的差异就很大;导致消费模型的随额的差异就很大;导致消费模型的随机误差项具有不同的方差。机误差项具有不同的方差。13【例例4.34.3】利用某行业的不同企业的截面样利用某行业的不同企业的截面样本数据估计本数据估计生产函数生产函数(4.44.44.44.4) 由于这里的由于这里的u表示了包括不同企业的工艺、表示了包括不同企业的工艺、地理条件、工人素质、管理水平上的差异地理条件、工人素质、管理水平上的差异以及其他因素。对于不同企业,这些因素以及其他因素。对于不同企业,这些因素对产出的影响
8、程度不同,引起对产出的影响程度不同,引起ui偏离均偏离均值的程度不同,出现了异方差。值的程度不同,出现了异方差。14 引起异方差的原因还有很多,如引起异方差的原因还有很多,如模型中省略了重要的解释变量,模型模型中省略了重要的解释变量,模型的函数形式设定不准确等都容易产生的函数形式设定不准确等都容易产生异方差。一般情况下样本数据为截面异方差。一般情况下样本数据为截面数据时容易产生异方差性。数据时容易产生异方差性。15 二、异方差产生的后果二、异方差产生的后果 当一个回归模型中的随机误差项当一个回归模型中的随机误差项存在异方差时,是否可以继续使用普存在异方差时,是否可以继续使用普通的最小二乘法?倘
9、若我们仍然使用,通的最小二乘法?倘若我们仍然使用,将会产生什么样的后果?将会产生什么样的后果?1617 当模型中存在异方差时,普通最当模型中存在异方差时,普通最小二乘估计存在以下问题。小二乘估计存在以下问题。18 1. 1.参数估计量虽是无偏的,但不是参数估计量虽是无偏的,但不是最小方差线性无偏估计最小方差线性无偏估计 根据经典线性回归中关于参数估计根据经典线性回归中关于参数估计量的无偏性和有效性的证明过程,可以量的无偏性和有效性的证明过程,可以看出,当线性回归模型出现异方差性时,看出,当线性回归模型出现异方差性时,其普通最小二乘法参数估计量仍然具有其普通最小二乘法参数估计量仍然具有无偏性,但
10、不具有有效性。无偏性,但不具有有效性。 19 2.2.参数的显著性检验失效参数的显著性检验失效 在经典线性回归模型中,关于变量的在经典线性回归模型中,关于变量的显著性检验构造了显著性检验构造了t 统计量,在该统计量统计量,在该统计量中包含有随机误差项共同的方差中包含有随机误差项共同的方差 ,并且该并且该t t 统计量服从自由度为统计量服从自由度为(n-k)的的t 分分布。如果出现了异方差性,布。如果出现了异方差性,t 检验就失去检验就失去意义。采用其他检验也是如此。意义。采用其他检验也是如此。20 3.回归方程的应用效果极不理想,或者回归方程的应用效果极不理想,或者说模型的预测失效。说模型的预
11、测失效。 一方面,由于上述后果,使得模型一方面,由于上述后果,使得模型不具有良好的统计性质;另一方面,在不具有良好的统计性质;另一方面,在预测值的置信区间中也包含有随机误差预测值的置信区间中也包含有随机误差项共同的方差项共同的方差 。所以,当模型出现。所以,当模型出现异方差性时,它的预测功能失效。异方差性时,它的预测功能失效。21 三、异方差性的检验三、异方差性的检验三、异方差性的检验三、异方差性的检验 对于异方差性的检验,人们进对于异方差性的检验,人们进行了大量的研究,提出的诊断方法行了大量的研究,提出的诊断方法已有已有10多种,但没有一个公认的最多种,但没有一个公认的最优方法,下面介绍几种
12、常见的方法。优方法,下面介绍几种常见的方法。22(一)残差图分析法(一)残差图分析法 残差图分析法是一种直观、方便的分残差图分析法是一种直观、方便的分析方法。它以残差析方法。它以残差 为纵坐标,以其他为纵坐标,以其他适宜的变量为横坐标画散点图。常用的横适宜的变量为横坐标画散点图。常用的横坐标有三种选择:坐标有三种选择:(1)(1)以拟合值以拟合值 为横坐为横坐标;标;(2)(2)以以X Xi i为横坐标;为横坐标;(3)(3)以观测时间或以观测时间或序号为横坐标。序号为横坐标。23X X图图4.14.124X X图图4.24.225 图图4.14.1和图和图4.24.2是以是以X X 为横坐标
13、,残为横坐标,残差差e2为纵坐标的为纵坐标的残差图残差图,表现出残差有一,表现出残差有一定的趋势。这样的情况下,我们就可以判定的趋势。这样的情况下,我们就可以判断出该回归模型有一定的异方差性。图断出该回归模型有一定的异方差性。图4.14.1表明表明ui的方差的方差 反比于解释变量反比于解释变量Xi,图,图4.24.2表明表明ui 的方差的方差 正比于解释变正比于解释变量量Xi 。26 在在EViews软件包中,直接给出软件包中,直接给出了以了以ei 为纵坐标,以观测时间或序为纵坐标,以观测时间或序号为横坐标的残差图。号为横坐标的残差图。27 如果回归模型适合于样本数据,那如果回归模型适合于样本
14、数据,那么残差么残差ei 应反映应反映ui 所假定的性质,因所假定的性质,因此可以根据此可以根据ei 来判断回归模型来判断回归模型ui 是否是否具有某些性质。一般情况下,当回归具有某些性质。一般情况下,当回归模型满足所有假定时,以模型满足所有假定时,以ei 为纵坐标为纵坐标的残差图上的的残差图上的n 个点散布应是随机的、个点散布应是随机的、无任何规律。无任何规律。28 等级相关系数法又称等级相关系数法又称斯皮尔曼斯皮尔曼(Spearman)(Spearman)检验检验,是一种应用较广泛的方,是一种应用较广泛的方法。这种检验方法既适用于大样本,也适法。这种检验方法既适用于大样本,也适用于小样本。
15、将异方差性与误差项和某个用于小样本。将异方差性与误差项和某个解释变量之间相关程度联系起来,从而将解释变量之间相关程度联系起来,从而将对异方差性的研究转化为对它们之间相关对异方差性的研究转化为对它们之间相关程度的研究。程度的研究。 (二)等级相关系数法(二)等级相关系数法29 进行等级相关系数检验通常进行等级相关系数检验通常有三个步骤有三个步骤: 第一步第一步,作,作Y 关于关于X 的普通最小二乘的普通最小二乘估计,求出估计,求出ui 的估计值,即的估计值,即ei 的值。的值。30第二步第二步,取,取ei 的绝对值,即的绝对值,即 ,把,把 Xi 和和 按递增或递减的次序划分等级按递增或递减的次
16、序划分等级。按下式计算按下式计算出等级相关系数出等级相关系数(4.54.54.54.5) 其中,其中,n为样本容量,为样本容量,di 为对应于为对应于Xi 和和 的等级的差数。的等级的差数。31 第三步,第三步,做等级相关系数的显著做等级相关系数的显著性检验。在性检验。在n88的情况下,用下式对样本的情况下,用下式对样本等级相关系数等级相关系数 rs 进行进行t 检验。检验的统检验。检验的统计量为计量为(4.64.64.64.6) 32 如果如果 ,则可以认为异方,则可以认为异方差性问差性问 不存在,如果不存在,如果 ,说明说明 Xi 和和 之间存在系统关系,则之间存在系统关系,则说明模型中存
17、在异方差。说明模型中存在异方差。33 在多元的情况下,需对每一个解在多元的情况下,需对每一个解释变量做等级相关系数检验。只有当释变量做等级相关系数检验。只有当每个解释变量检验都不存在异方差时每个解释变量检验都不存在异方差时模型中才不存在异方差。否则,模型模型中才不存在异方差。否则,模型中存在异方差。中存在异方差。34 首先将样本按某个解释变量的大小顺序首先将样本按某个解释变量的大小顺序排列,并将样本从中间截成两段;然后各排列,并将样本从中间截成两段;然后各段分别用普通最小二乘法拟合回归模型,段分别用普通最小二乘法拟合回归模型,并分别计算各段的残差平方和。并分别计算各段的残差平方和。 (三)戈德
18、菲尔德匡特检验(样(三)戈德菲尔德匡特检验(样本分段比检验)本分段比检验)35令第一段为高方差段,第二段为低方差令第一段为高方差段,第二段为低方差段,并记两段的样本容量分别为段,并记两段的样本容量分别为n1 和和n2,模型参数个数为,模型参数个数为k,两段样本回归残差,两段样本回归残差分别为分别为e1i和和e2i,则两段的残差平方和分,则两段的残差平方和分别为别为 和和 ,从而可计算出各段模型的随机误差项,从而可计算出各段模型的随机误差项的方差估计量分别为的方差估计量分别为 和和36由此可构造出检验统计量为由此可构造出检验统计量为(4.74.74.74.7) 37 该统计量服从自由度为该统计量
19、服从自由度为(n1-k)和和(n2-k)的的分布。在给定的显著性水平分布。在给定的显著性水平 之下,若此统计量之下,若此统计量的值大于临界值的值大于临界值 则可认为有异方差的存在。则可认为有异方差的存在。38 为了提高此检验的功效,戈德菲为了提高此检验的功效,戈德菲尔德和匡特曾经建议,将观测样本分尔德和匡特曾经建议,将观测样本分成两段时,可将中间的部分数据删掉。成两段时,可将中间的部分数据删掉。然而,删掉的数据越多,各段中估计然而,删掉的数据越多,各段中估计的自由度就越小,从而又会影响检验的自由度就越小,从而又会影响检验的功效。因此,删掉的中间部分数据的功效。因此,删掉的中间部分数据也不能太多
20、。一般地,删掉的数据不也不能太多。一般地,删掉的数据不应多于样本观测数据的应多于样本观测数据的/3/3。39 用残差绝对值用残差绝对值 对每个解释变量建对每个解释变量建立各种回归模型,如立各种回归模型,如 等等,并检验回归系数等等,并检验回归系数 2 是否为是否为。(四)戈里瑟(四)戈里瑟(Glejser)检验)检验40 设原假设为设原假设为 H0: 2=0 , 备择假设为备择假设为H1: 20 ,应用,应用t 检验判断,如果检验判断,如果20 则有异方差。则有异方差。这种方法不仅能检验出模型中存在的异方这种方法不仅能检验出模型中存在的异方差,而且把差,而且把异方差的表现形式找出来便于异方差的
21、表现形式找出来便于后面改进时使用。后面改进时使用。41 (五)怀特检验(五)怀特检验用残差平方用残差平方 对所有解释变量及其对所有解释变量及其平方项和交叉乘积项平方项和交叉乘积项 进行线性回归,并检验各回归系数是否进行线性回归,并检验各回归系数是否为。为。42对于两个解释变量的回归模型对于两个解释变量的回归模型(4.8) 怀特检验步骤如下:怀特检验步骤如下: 第一步,第一步,使用普通最小二乘法估计模使用普通最小二乘法估计模型(型(4.84.8),并获得残差),并获得残差 e ei i。43第二步,做如下的辅助回归第二步,做如下的辅助回归(4.94.94.94.9) 就是将残差就是将残差ei 的
22、平方的平方 对所有的解释对所有的解释变量及变量及解释变量解释变量的平方与交叉积回归,的平方与交叉积回归,求这个辅助回归的判定系数求这个辅助回归的判定系数 R2 。44 第三步,第三步,在无异方差的原假设下,可以在无异方差的原假设下,可以证明,辅助回归的证明,辅助回归的 R2 乘以样本容量乘以样本容量n n,渐,渐近地服从自由度为辅助回归中解释变量个近地服从自由度为辅助回归中解释变量个数数 r(不包括常数项)(不包括常数项)的的x2分布,即分布,即(4.104.104.104.10) 在本例中,辅助回归有在本例中,辅助回归有5个解释变量,因此个解释变量,因此r=5。45 第四步,第四步,如果如果
23、 nRnR2 2大于选定显著性大于选定显著性水平的临界水平的临界 2 2 值,则有异方差。如果不大值,则有异方差。如果不大于临界于临界 2 2值,则无异方差,即在辅助回归值,则无异方差,即在辅助回归中中, , 2= 3= 4= 5=6= 0. 在在EViews软件中,给出了怀特检验软件中,给出了怀特检验程序,可以直接输入相应条件,即可获得程序,可以直接输入相应条件,即可获得怀特检验的结果。怀特检验的结果。46 四、异方差性的修正办法四、异方差性的修正办法四、异方差性的修正办法四、异方差性的修正办法 当我们所研究的问题存在异方差当我们所研究的问题存在异方差性时,就违背了线性回归模型的经典性时,就
24、违背了线性回归模型的经典假定。此时,就不能用普通最小二乘假定。此时,就不能用普通最小二乘法进行参数估计。法进行参数估计。47 必须寻求适当的补救方法,对原来的必须寻求适当的补救方法,对原来的模型进行变换,使变换后的模型满足模型进行变换,使变换后的模型满足同方差性假定,然后进行模型参数的同方差性假定,然后进行模型参数的估计,就可得到理想的回归模型。估计,就可得到理想的回归模型。48我们考虑一元线性回归模型我们考虑一元线性回归模型(4.114.114.114.11) 加权最小二乘法加权最小二乘法49(一)(一) 已知时已知时如果每个观察值的误差项方差如果每个观察值的误差项方差 是已是已知的,使用知
25、的,使用 为权数,对模型为权数,对模型(4.114.11)作如下变换:)作如下变换:(4.124.124.124.12) 50由于由于通过加权变换使误差项变成同方差了。通过加权变换使误差项变成同方差了。 51 如果模型的其他假定条件都满足,则如果模型的其他假定条件都满足,则模型模型(4.12)就变成满足经典假定的回归模型就变成满足经典假定的回归模型了,就可利用普通最小二乘法估计参数,了,就可利用普通最小二乘法估计参数,得到的估计量是最佳线性无偏估计量。得到的估计量是最佳线性无偏估计量。52 通过加权变换使原模型中的异通过加权变换使原模型中的异方差误差项转换为同方差误差项,使方差误差项转换为同方
26、差误差项,使加权变换后的模型满足最小二乘法的加权变换后的模型满足最小二乘法的假定,从而使用普通最小二乘法估计假定,从而使用普通最小二乘法估计参数,这种方法称为加权最小二乘法。参数,这种方法称为加权最小二乘法。53(二)(二) 未知时未知时 如果如果 是未知的,一般情况下,是未知的,一般情况下,我们可根据误差与解释变量或被解我们可根据误差与解释变量或被解释变量的关系来确定变换的权数。释变量的关系来确定变换的权数。一般我们先采用戈里瑟检验方法确一般我们先采用戈里瑟检验方法确定定ei 与与Xi 之间的关系。之间的关系。541如如 之间为线性关系,之间为线性关系,则可认为则可认为(4.134.134.
27、134.13) 这时,选择这时,选择 为权数,即对模型为权数,即对模型(4.11)两边同时乘以两边同时乘以 ,将异方差,将异方差模型变为同方差模型。模型变为同方差模型。 55即将模型即将模型(4.11)变为变为(4.144.14) 56 容易证实模型容易证实模型(4.14)(4.14)为同方差模型。为同方差模型。可用普通最小二乘法估计模型可用普通最小二乘法估计模型(4.14)(4.14)的参的参数,得到最佳线性无偏估计量。数,得到最佳线性无偏估计量。 模型模型(4.14)(4.14)是无截距模型,要用过原是无截距模型,要用过原点回归去估计参数点回归去估计参数 ,EViewsEViews软软件包
28、提供了这种功能。件包提供了这种功能。57 2如如 之间为线性关系,则之间为线性关系,则可认为可认为(4.154.154.154.15) 58 这时,选择这时,选择1/Xi为权数,可将模型为权数,可将模型(4.11)变换为如下模型:变换为如下模型:(4.164.16) 59 容易证实,模型容易证实,模型(4.16)(4.16)为同方为同方差模型,可使用普通最小二乘法估计参差模型,可使用普通最小二乘法估计参数数 1 , 1 , 2 2 。注意,在变换后的模型。注意,在变换后的模型(4.16)(4.16)中,斜率项中,斜率项1 1是原模型是原模型(4.11)(4.11)的的距截项,截距项距截项,截距
29、项 2 2是原模型是原模型(4.11)(4.11)的的斜率项。斜率项。60 五、实际案例五、实际案例五、实际案例五、实际案例 现有现有2001年北京市规模最大的年北京市规模最大的41个百货零售商店的商品销售收入个百货零售商店的商品销售收入和利税总额资料如表和利税总额资料如表4.1所示。所示。61商店名称商店名称销销售收入售收入X X利税利税总额总额Y Y北京百盛北京百盛轻轻工工发发展有限公司展有限公司97108971081280312803北京北辰北京北辰购购物中心物中心11501011501088028802北京北京华联华联商厦有限公司商厦有限公司87792877921208712087城城
30、乡贸乡贸易中心股份有限公司易中心股份有限公司82964829641342413424赛赛特特购购物中心物中心78652786521048710487王府井百王府井百货货大楼大楼11005011005099609960北京双安商北京双安商场场993339933367016701北京庄北京庄胜胜崇光百崇光百货货商商场场865628656235803580北京燕莎友北京燕莎友谊谊商城商城95472954721016110161西西单单商商场场股份有限公司股份有限公司13803013803093339333表表表表4.1 4.1 4.1 4.1 北京市北京市北京市北京市41414141家最大百货商店销
31、售资料家最大百货商店销售资料家最大百货商店销售资料家最大百货商店销售资料 单位:万元单位:万元单位:万元单位:万元 62商店名称商店名称销销售收入售收入X X利税利税总额总额Y Y北京物美商城有限北京物美商城有限责责任公司任公司11877011877034903490菜市口百菜市口百货货有限有限责责任公司任公司454654546595169516北京翠微集北京翠微集团团10280310280357925792北京中友百北京中友百货货有限有限责责任公司任公司518765187624592459西西单赛单赛特商城有限特商城有限责责任公司任公司233542335417741774北京市复北京市复兴兴
32、商商业业城城406444064425622562北京北京蓝岛蓝岛大厦大厦10277710277731963196北京北京东东安集安集团团公司公司长长安商安商场场665596655929142914北京北京锐锐步体育用品中心步体育用品中心139441394419431943北京城北京城乡华乡华懋商厦有限公司懋商厦有限公司165661656612181218续表续表63商店名称商店名称销销售收入售收入X X利税利税总额总额Y Y华远华远西西单购单购物中心股份公司物中心股份公司152851528517871787北京燕莎望京北京燕莎望京购购物中心物中心463054630510161016北京中旭三利
33、百北京中旭三利百货货公司公司1969519695823823北京北京创创益佳商益佳商场场4359943599581581北京世都百北京世都百货货有限有限责责任公司任公司2204122041979979北京北京兴兴城商厦城商厦2707027070696696百盛百盛购购物中心百盛商物中心百盛商场场1240212402956956北京小白羊超市北京小白羊超市5911259112716716北京市大明眼北京市大明眼镜镜公司公司8840884020932093亿亿客隆商客隆商业业股份有限公司股份有限公司4381443814999999北京友北京友谊谊商店股份有限公司商店股份有限公司1630916309
34、13901390方庄方庄购购物中心股份有限公司物中心股份有限公司1200512005795795北京市北京市顺义顺义国泰商国泰商业业大厦大厦1365213652537537北京西北京西单单商商场顺义联营场顺义联营大楼大楼1368413684514514北京市朝阳商北京市朝阳商业业大楼大楼109251092541141164 利用普通最小二乘法,根据表利用普通最小二乘法,根据表4.1中的中的数据,我们可以估计出该回归方程为数据,我们可以估计出该回归方程为(4.174.174.174.17) 65 根据此回归方程,可以求出利税根据此回归方程,可以求出利税总额的回归估计值和残差总额的回归估计值和残差
35、 ,然后将销售收入,然后将销售收入Xi 作为横坐标,作为横坐标,残差残差ei 为纵坐标,画出回归残差图。为纵坐标,画出回归残差图。从残差图看,残差的有不断扩大的从残差图看,残差的有不断扩大的趋势,趋势,ui 存在明显的异方差性。存在明显的异方差性。66图图图图4.3 4.3 4.3 4.3 残差图残差图残差图残差图67 我们运用戈里瑟检验,可得如我们运用戈里瑟检验,可得如下的残差回归方程:下的残差回归方程:(4.184.184.184.18) 68(4.194.194.194.19) 很明显,对这二个残差回归方程的回归很明显,对这二个残差回归方程的回归系数的显著性检验,均拒绝同方差假设,系数的
36、显著性检验,均拒绝同方差假设,表明存在异方差性。表明存在异方差性。69 对原模型进行怀特检验,统计量对原模型进行怀特检验,统计量nRnR2 2=11.296x=11.296x0.100.10(2)=4.605 (2)=4.605 ,p p值为值为0.00350.100.0035 ,p值为值为0.012 ,p值为值为0.02550.10,说明异方差依然存在。,说明异方差依然存在。72nR2=1.616 ,p值为值为0.6560.10,说明异方差已消除。应采用,说明异方差已消除。应采用该模型。该模型。73 最后,我们得到的最佳估计值应为最后,我们得到的最佳估计值应为-327.006和和0.073,
37、最终模型应为,最终模型应为(4.214.214.214.21) 74第二节序列相关第二节序列相关 一、序列相关的概念和产生的原因一、序列相关的概念和产生的原因(一)(一) 序列相关的概念序列相关的概念75 在进行回归分析时,我们总假定其随在进行回归分析时,我们总假定其随机误差项是不相关的,即机误差项是不相关的,即(4.224.224.224.22) 上式表示不同时点的误差项之间不相上式表示不同时点的误差项之间不相关。如果一个回归模型不满足上式,即关。如果一个回归模型不满足上式,即 , ,则我们称随机误差项则我们称随机误差项之间存在着序列相关现象,也称为自相关。之间存在着序列相关现象,也称为自相
38、关。76(二)(二)(二)(二) 序列相关产生的背景和原因序列相关产生的背景和原因序列相关产生的背景和原因序列相关产生的背景和原因 我们在实际问题的研究中,经常遇到我们在实际问题的研究中,经常遇到时间序列中出现序列相关的情形。产生时间序列中出现序列相关的情形。产生序列相关的背景及其原因通常有以下几序列相关的背景及其原因通常有以下几个方面。个方面。77 遗漏了重要的解释变量遗漏了重要的解释变量 在回归分析的建模过程中,如果忽略在回归分析的建模过程中,如果忽略了一个或几个重要的解释变量,而这些遗了一个或几个重要的解释变量,而这些遗漏的重要变量随着时间的推移而呈现出相漏的重要变量随着时间的推移而呈现
39、出相关的趋势,回归模型中的误差项就会具有关的趋势,回归模型中的误差项就会具有明显的相关趋势,这是因为误差项包含了明显的相关趋势,这是因为误差项包含了遗漏的变量。遗漏的变量。78 经济变量的滞后性经济变量的滞后性 在实际问题的研究中,许多经济变量在实际问题的研究中,许多经济变量都会产生滞后影响,例如物价指数、基都会产生滞后影响,例如物价指数、基建投资、国民收入、消费、货币发行量建投资、国民收入、消费、货币发行量等都有一定的滞后性。如前期消费额对等都有一定的滞后性。如前期消费额对后期消费额一般会有明显的影响。后期消费额一般会有明显的影响。79 消费支出对收入的回归分析中,经常会消费支出对收入的回归
40、分析中,经常会发现当期的消费支出除了依赖于其他变量发现当期的消费支出除了依赖于其他变量外,还依赖于前期的消费支出,用模型表外,还依赖于前期的消费支出,用模型表示为:示为: 。 出出 现这种现象的原因是由于心理、技现这种现象的原因是由于心理、技术及制度上等等的原因,消费者不轻易改术及制度上等等的原因,消费者不轻易改变他们的消费习惯。这个模型中就出现了变他们的消费习惯。这个模型中就出现了序列相关。序列相关。80 回归函数形式的设定错误也可回归函数形式的设定错误也可能引起序列相关能引起序列相关 例如,假定某实际问题的正确回归例如,假定某实际问题的正确回归函数应由指数模型函数应由指数模型 (4.23)
41、 (4.23) 来表示。来表示。(4.234.234.234.23) 81 但是,研究者误用线性回归模型但是,研究者误用线性回归模型 (4.24) 来表示。来表示。(4.24) 这时,误差项这时,误差项 表现为序列相表现为序列相关。关。82 蛛网现象蛛网现象(Cobweb Phenomenon)。 是微观经济学中的一个概念。它表示是微观经济学中的一个概念。它表示某种商品的供给量因受前一期价格影响某种商品的供给量因受前一期价格影响而表现出来的某种规律性,即呈蛛网状而表现出来的某种规律性,即呈蛛网状收敛或发散于供需的均衡点。由于规律收敛或发散于供需的均衡点。由于规律性的作用,使得所用回归模型的误差
42、项性的作用,使得所用回归模型的误差项不再是随机的了,而产生了某种自相关。不再是随机的了,而产生了某种自相关。83 例如,许多农产品的当期供给受前一期的例如,许多农产品的当期供给受前一期的例如,许多农产品的当期供给受前一期的例如,许多农产品的当期供给受前一期的价格的影响。这样,今年某种农产品的生产和价格的影响。这样,今年某种农产品的生产和价格的影响。这样,今年某种农产品的生产和价格的影响。这样,今年某种农产品的生产和供给计划取决于上一年的价格。因此,农产品供给计划取决于上一年的价格。因此,农产品供给计划取决于上一年的价格。因此,农产品供给计划取决于上一年的价格。因此,农产品的供给函数可表示为的供
43、给函数可表示为的供给函数可表示为的供给函数可表示为(4.254.254.254.25) 其中,其中,其中,其中,S S S St t t t= = = =t t t t 时期农产品供给量;时期农产品供给量;时期农产品供给量;时期农产品供给量;P P P Pt-1t-1t-1t-1= = = =t-t-t-t-1 1 1 1时期农时期农时期农时期农产品的价格。产品的价格。产品的价格。产品的价格。84 假设在假设在t 时期末,价格时期末,价格Pt 低于低于Pt-1,于是在于是在t+1期初,农民决定比期初,农民决定比t 时期少时期少生产一些,则生产一些,则t+1期的产量会低于期的产量会低于t期。期。
44、这样下去,就会形成蛛网现象。这样下去,就会形成蛛网现象。85 对原始数据加工整理。对原始数据加工整理。 在回归分析建模中,我们经常要对原在回归分析建模中,我们经常要对原始数据进行一些处理,如在具有季节性时始数据进行一些处理,如在具有季节性时序资料的建模中,我们常常要消除季节性,序资料的建模中,我们常常要消除季节性,对数据作修匀处理。但如果采用了不恰当对数据作修匀处理。但如果采用了不恰当的差分变换,也会带来序列相关。的差分变换,也会带来序列相关。86 序列相关问题不仅在时序资料的建模序列相关问题不仅在时序资料的建模中会经常碰到,而且在截面样本中有时也中会经常碰到,而且在截面样本中有时也会存在。大
45、多数经济时间序列由于受经济会存在。大多数经济时间序列由于受经济波动规律的作用,一般随着时间的推移有波动规律的作用,一般随着时间的推移有一种向下或向上变动的趋势。所以,随机一种向下或向上变动的趋势。所以,随机误差项误差项ut 一般会出现序列相关的情形。一般会出现序列相关的情形。87二、序列相关性带来的后果二、序列相关性带来的后果 当一个线性回归模型的随机误差项当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方存在序列相关时,就违背了线性回归方程的经典假定,如果仍然直接用普通最程的经典假定,如果仍然直接用普通最小二乘法估计未知参数,将会产生严重小二乘法估计未知参数,将会产生严重后果,
46、一般情况下序列相关产生的后果后果,一般情况下序列相关产生的后果与异方差类似。与异方差类似。88 2可能严重低估误差项的方差可能严重低估误差项的方差1参数的估计量是无偏的参数的估计量是无偏的,但不是但不是 有效的有效的89 3 3常用的常用的 检验和检验和t t 检验失效检验失效 使用普通最小二乘法估计参数可能使用普通最小二乘法估计参数可能导致回归参数统计检验为显著,但实导致回归参数统计检验为显著,但实际上并不显著的严重错误结论。际上并不显著的严重错误结论。90 4如果不加处理地运用普通如果不加处理地运用普通最小二乘法估计模型参数,回归参最小二乘法估计模型参数,回归参数的置信区间和利用回归模型进
47、行数的置信区间和利用回归模型进行预测的结果会存在较大的误差。预测的结果会存在较大的误差。91三、序列相关的检验三、序列相关的检验 当随机误差项存在序列相关时会给当随机误差项存在序列相关时会给普通最小二乘法的应用带来非常严重的普通最小二乘法的应用带来非常严重的后果。因此,如何诊断随机误差项是否后果。因此,如何诊断随机误差项是否存在序列相关就成为一个极其重要的问存在序列相关就成为一个极其重要的问题。下面介绍几种主要的诊断方法。题。下面介绍几种主要的诊断方法。92图示检验法图示检验法 DWDW检验法检验法 序列相关的检验序列相关的检验序列相关的检验序列相关的检验 自相关系数法自相关系数法 93(一)
48、图示检验法(一)图示检验法 图示法是一种直观的诊断方法,它图示法是一种直观的诊断方法,它是把给定的回归模型直接用普通最小二是把给定的回归模型直接用普通最小二乘法估计参数,求出残差项乘法估计参数,求出残差项e et t , ,e et t作为作为u ut t随机项的真实估计值,再描绘随机项的真实估计值,再描绘e et t 的散点的散点图,根据散点图来判断图,根据散点图来判断e et t的相关性。残的相关性。残差差e et t的散点图通常有两种绘制方式的散点图通常有两种绘制方式 。94etet-1图图 4.4 et与与et-1的关系的关系95 绘制绘制et-1 ,et 的散点图。用的散点图。用(e
49、t-1 ,et )(t = 1,2,n)作为散布点绘图,如果大部分点作为散布点绘图,如果大部分点落在第落在第、象限,表明随机误差项象限,表明随机误差项ut存存在着正的序列相关,如图在着正的序列相关,如图4.4所示。所示。 96如果大部分点落在第如果大部分点落在第、象限,那么随机象限,那么随机误差项误差项u ut t 存在着负自相关,如图存在着负自相关,如图4.54.5所示。所示。 et-1et图图 4.5 et与与et-1的关系的关系97t te et t图图 4.6 et的分布的分布 按照时间顺序绘制回归残差项的按照时间顺序绘制回归残差项的按照时间顺序绘制回归残差项的按照时间顺序绘制回归残差
50、项的按照时间顺序绘制回归残差项的按照时间顺序绘制回归残差项的ee et t t 图形。如果图形。如果图形。如果图形。如果图形。如果图形。如果e ee e e et tt tt t( ( ( ( (t tt t t t=1,2,=1,2,=1,2,=1,2,=1,2,=1,2, , , , ,n nn n n n) ) ) ) )随着随着随着随着随着随着t t t 的变化逐次有规律地变化,呈现锯的变化逐次有规律地变化,呈现锯的变化逐次有规律地变化,呈现锯的变化逐次有规律地变化,呈现锯的变化逐次有规律地变化,呈现锯的变化逐次有规律地变化,呈现锯齿形或循环形状的变化,就可断言齿形或循环形状的变化,就
51、可断言齿形或循环形状的变化,就可断言齿形或循环形状的变化,就可断言齿形或循环形状的变化,就可断言齿形或循环形状的变化,就可断言e ee e e et t t t t t 存在相关,表明存在存在相关,表明存在存在相关,表明存在存在相关,表明存在存在相关,表明存在存在相关,表明存在着序列相关;如果着序列相关;如果着序列相关;如果着序列相关;如果着序列相关;如果着序列相关;如果e ee e e et t t t t t 随着随着随着随着随着随着t tt t t t的变化逐次变化并不断地改变的变化逐次变化并不断地改变的变化逐次变化并不断地改变的变化逐次变化并不断地改变的变化逐次变化并不断地改变的变化逐
52、次变化并不断地改变符号,那么随机误差项符号,那么随机误差项符号,那么随机误差项符号,那么随机误差项符号,那么随机误差项符号,那么随机误差项u uu u u ut t t t t t 存在负的序列相关;如图存在负的序列相关;如图存在负的序列相关;如图存在负的序列相关;如图存在负的序列相关;如图存在负的序列相关;如图4.64.64.64.64.64.6所所所所所所示。示。示。示。示。示。 98图图 4.7 et的分布的分布t te et t 如果如果如果如果如果如果e ee e e et t t t t t 随着随着随着随着随着随着t t t t t t 的变化逐次变化并不频繁地改变符号,的变化逐
53、次变化并不频繁地改变符号,的变化逐次变化并不频繁地改变符号,的变化逐次变化并不频繁地改变符号,的变化逐次变化并不频繁地改变符号,的变化逐次变化并不频繁地改变符号,而是几个正的而是几个正的而是几个正的而是几个正的而是几个正的而是几个正的e ee e e et t t t t t 后面跟着几个负的,则表明随机误差项存后面跟着几个负的,则表明随机误差项存后面跟着几个负的,则表明随机误差项存后面跟着几个负的,则表明随机误差项存后面跟着几个负的,则表明随机误差项存后面跟着几个负的,则表明随机误差项存u uu u u ut t t t t t 在正的序列相关,如图在正的序列相关,如图在正的序列相关,如图在
54、正的序列相关,如图在正的序列相关,如图在正的序列相关,如图4.74.74.74.74.74.7所示。所示。所示。所示。所示。所示。 99(二)(二) 自相关系数法自相关系数法误差序列误差序列 的自相关系数的自相关系数定义为定义为(4.264.264.264.26) 100 自相关系数自相关系数 的取值范围是的取值范围是-1,1, 当当 接近于接近于1时,表明误差序列存时,表明误差序列存在正相关,当在正相关,当 接近于接近于-时,表明误时,表明误差序列存在负相关。差序列存在负相关。 101在实际应用中,误差序列在实际应用中,误差序列 u1,u2, , ,un 的真实值是未知的,需要用其估计值的真
55、实值是未知的,需要用其估计值et 代替,得自相关系数的估计值为代替,得自相关系数的估计值为(4.274.274.274.27) 102 作为自相关系数作为自相关系数的估计值与样本的估计值与样本量有关,需要做统计显著性检验才能确量有关,需要做统计显著性检验才能确定自相关性的存在,通常采用下面介绍定自相关性的存在,通常采用下面介绍的的DW检验代替对检验代替对 的检验。的检验。103(三)(三)(三)(三)DWDWDWDW检验检验检验检验 DWDW检验是检验是J.Durbin(J.Durbin(杜宾杜宾) )和和G.S.Watson(G.S.Watson(沃特森沃特森) )于于19511951年提出
56、的一种年提出的一种适用于小样本的检验方法。适用于小样本的检验方法。DWDW检验只能用检验只能用于检验随机误差项具有一阶自回归形式的于检验随机误差项具有一阶自回归形式的序列相关问题。这种检验方法是建立经济序列相关问题。这种检验方法是建立经济计量模型中最常用的方法,一般的计算机计量模型中最常用的方法,一般的计算机软件都可以计算出软件都可以计算出DWDW值。值。104随机误差项的一阶自回归形式为随机误差项的一阶自回归形式为随机误差项的一阶自回归形式为随机误差项的一阶自回归形式为为了检验序列的相关性,构造的原假设是为了检验序列的相关性,构造的原假设是为了检验序列的相关性,构造的原假设是为了检验序列的相
57、关性,构造的原假设是 (4.28) (4.28)(4.29)(4.29)105 为了检验上述假设,构造为了检验上述假设,构造为了检验上述假设,构造为了检验上述假设,构造DWDW统计量首先统计量首先统计量首先统计量首先要求出回归估计式的残差要求出回归估计式的残差要求出回归估计式的残差要求出回归估计式的残差eett 定义定义定义定义DWDW统计统计统计统计量为量为量为量为(4.30)(4.30)106我们推导出我们推导出我们推导出我们推导出DWDW值的取值范围。值的取值范围。值的取值范围。值的取值范围。 (4.31)107在认为:在认为:在认为:在认为: 则:则:则:则:(4.32)108因此因此
58、由于由于1094(2,4)2(0,2)0-1(-1,0)0(0,1)1DW表表表表 4.2 4.2 4.2 4.2 DWDWDWDW值与值与值与值与 的值的对应关的值的对应关的值的对应关的值的对应关系系系系 所以,所以,所以,所以,DWDW值与值与值与值与 的对应关系如的对应关系如的对应关系如的对应关系如表表表表4.24.2所示。所示。所示。所示。 110 由上述讨论可知由上述讨论可知由上述讨论可知由上述讨论可知DWDW的取值范围为的取值范围为的取值范围为的取值范围为 DWDW 根据样本容量根据样本容量根据样本容量根据样本容量 n n 和解释变量的数和解释变量的数和解释变量的数和解释变量的数目
59、目目目kk( ( (不包括常数项不包括常数项不包括常数项不包括常数项) ) )查查查查DWDWDWDW分布表,得临分布表,得临分布表,得临分布表,得临界值界值界值界值 d dd dL L L L 和和和和 d dd dU U U U ,然后依下列准则考察计,然后依下列准则考察计,然后依下列准则考察计,然后依下列准则考察计算得到的算得到的算得到的算得到的DWDWDWDW值,以决定模型的自相关状值,以决定模型的自相关状值,以决定模型的自相关状值,以决定模型的自相关状态。态。态。态。111误误差差项项u u1 1, ,u u2 2,u un n间间存在存在负负相关相关dLDW不能判定是否有自相关不能
60、判定是否有自相关d dU U DWDWd dL L误误差差项项u u1 1, ,u u2 2,u un n间间无自相关无自相关 d dU UDWDWd dU U不能判定是否有自相关不能判定是否有自相关 d dL LDWDW d dU U误误差差项项u u1 1, ,u u2 2,u un n间间存在正存在正相相关关 DWDW d dL L表表表表4.3 4.3 4.3 4.3 DW DW DW DW 检验决策规则检验决策规则检验决策规则检验决策规则112表表表表4.34.3可以用坐标图更加直观地表示可以用坐标图更加直观地表示可以用坐标图更加直观地表示可以用坐标图更加直观地表示出来:出来:出来:
61、出来: 113f f ( (DWDW) )不不不不能能能能确确确确定定定定正正正正自自自自相相相相关关关关无无无无自自自自相相相相关关关关不不不不能能能能确确确确定定定定负负负负自自自自相相相相关关关关DWDW4 44-d4-dL L4-4- d dU U2 2d dU Ud dL L图图图图图图4.3 4.3 4.3 4.3 4.3 4.3 DW DW DW DW DW DW 检验示意图检验示意图检验示意图检验示意图检验示意图检验示意图 114 需要注意的是,需要注意的是,需要注意的是,需要注意的是,DWDW检验尽管有着广泛检验尽管有着广泛检验尽管有着广泛检验尽管有着广泛的应用,但也有明显的
62、缺点和局限性。的应用,但也有明显的缺点和局限性。的应用,但也有明显的缺点和局限性。的应用,但也有明显的缺点和局限性。 DWDW检验有两个不能确定的区域,一检验有两个不能确定的区域,一检验有两个不能确定的区域,一检验有两个不能确定的区域,一旦旦旦旦DWDW值落在这两个区域,就无法判断。值落在这两个区域,就无法判断。值落在这两个区域,就无法判断。值落在这两个区域,就无法判断。这时,只有增大样本容量或选取其他方法。这时,只有增大样本容量或选取其他方法。这时,只有增大样本容量或选取其他方法。这时,只有增大样本容量或选取其他方法。115 DWDWDWDW统计量的上、下界表要求统计量的上、下界表要求统计量
63、的上、下界表要求统计量的上、下界表要求nnnn15151515,这是因为样本如果再小,利用残差就很难,这是因为样本如果再小,利用残差就很难,这是因为样本如果再小,利用残差就很难,这是因为样本如果再小,利用残差就很难对自相关的存在性做出比较正确的诊断对自相关的存在性做出比较正确的诊断对自相关的存在性做出比较正确的诊断对自相关的存在性做出比较正确的诊断。 DWDWDWDW检验不适应随机误差项具有高阶检验不适应随机误差项具有高阶检验不适应随机误差项具有高阶检验不适应随机误差项具有高阶序列相关的检验序列相关的检验序列相关的检验序列相关的检验。 只适用于有常数项的回归模型并且只适用于有常数项的回归模型并
64、且只适用于有常数项的回归模型并且只适用于有常数项的回归模型并且解释变量中不能含滞后的被解释变量。解释变量中不能含滞后的被解释变量。解释变量中不能含滞后的被解释变量。解释变量中不能含滞后的被解释变量。 116检验如下的约束回归检验如下的约束回归 (四)拉格朗日乘数检验(四)拉格朗日乘数检验(Breusch-Goldfrey)高阶自相关检验高阶自相关检验117 为经典误差项为经典误差项原假设为原假设为118检验步骤:检验步骤:1.Ols估计回归方程,得到残差估计回归方程,得到残差e2.作辅助回归作辅助回归119 3. LM统计量大于临界值,就拒绝统计量大于临界值,就拒绝原假设,表明存在自相关。原假
65、设,表明存在自相关。120四、补救措施四、补救措施 当一个回归模型存在序列相关性时,当一个回归模型存在序列相关性时,首先要查明序列相关产生的原因。如果是首先要查明序列相关产生的原因。如果是回归模型选用不当,则应改用适当的回归回归模型选用不当,则应改用适当的回归模型;如果是缺少重要的解释变量,则应模型;如果是缺少重要的解释变量,则应增加该解释变量;如果以上两种方法都不增加该解释变量;如果以上两种方法都不能消除序列相关,则需采用方法处理。本能消除序列相关,则需采用方法处理。本书在此介绍几种常用的方法。书在此介绍几种常用的方法。121(一)差分法(一)差分法 差分法是一类克服序列相关的有效差分法是一
66、类克服序列相关的有效的方法,被广泛地采用。差分法是将原的方法,被广泛地采用。差分法是将原模型变换为差分模型,分为一阶差分法模型变换为差分模型,分为一阶差分法和广义差分法。和广义差分法。122一阶差分法一阶差分法(4.33)变换为变换为(4.34)一阶差分法是将原模型一阶差分法是将原模型123 其中,其中, 如果原模型存在完全一阶正自相关,即:如果原模型存在完全一阶正自相关,即:(4.35)其中,其中, 为经典误差项。为经典误差项。124 那么对于式(那么对于式(4.34)的差分模型,则)的差分模型,则应满足应用普通最小二乘法的经典假定,应满足应用普通最小二乘法的经典假定,用普通最小二乘法估计式
67、(用普通最小二乘法估计式(4.34)的差分)的差分模型,得到的参数估计量即为原模型参数模型,得到的参数估计量即为原模型参数的无偏、有效的估计量。的无偏、有效的估计量。125 实际问题中,完全一阶正自相关的情实际问题中,完全一阶正自相关的情况并不多见,所以人们不是经常直接使用况并不多见,所以人们不是经常直接使用差分模型。对于非完全一阶正自相关的情差分模型。对于非完全一阶正自相关的情况,只要存在一定程度的一阶正自相关,况,只要存在一定程度的一阶正自相关,差分模型就可以有效地加以克服。通常人差分模型就可以有效地加以克服。通常人们采用下面的广义差分法,但估计的过程们采用下面的广义差分法,但估计的过程将
68、变得较为复杂。将变得较为复杂。126 广义差分法可以克服所有类型的序列广义差分法可以克服所有类型的序列相关带来的问题,一阶差分法是它的一个相关带来的问题,一阶差分法是它的一个特例。特例。2广义差分法广义差分法127 如果原模型如果原模型(4.33)(4.33)存在存在(4.36) v vt t为经典误差项,则可以将原模型为经典误差项,则可以将原模型(4.33)(4.33)变换为变换为128(4.37)1293 3随机误差项相关系数的估计随机误差项相关系数的估计 应用广义差分法,必须已知不同样本点应用广义差分法,必须已知不同样本点之间随机误差项的相关系数之间随机误差项的相关系数 。实际上,人们并
69、不知道它们的具体数值,。实际上,人们并不知道它们的具体数值,所以必须首先对它们进行估计。于是发展所以必须首先对它们进行估计。于是发展了许多估计方法,诸如迭代法、杜宾两步了许多估计方法,诸如迭代法、杜宾两步法等。法等。130 其基本思路是采用普通最小二乘法估其基本思路是采用普通最小二乘法估计原模型,得到随机误差项的计原模型,得到随机误差项的“近似估计近似估计值值”,然后利用该,然后利用该“近似估计值近似估计值”求得随求得随机误差项相关系数的估计量。不同的方法机误差项相关系数的估计量。不同的方法旨在力图使得这些估计量更加逼近实际。旨在力图使得这些估计量更加逼近实际。131 例如,例如,杜宾两步法杜
70、宾两步法就是其中一种常用就是其中一种常用的方法。以采用普通最小二乘法估计原模的方法。以采用普通最小二乘法估计原模型得到的随机误差项的型得到的随机误差项的“近似估计值近似估计值”作作为模型为模型(4.36)的样本观测值,采用普通最小的样本观测值,采用普通最小二乘法估计该模型,得到二乘法估计该模型,得到 ,作为随机误差项的相关系数作为随机误差项的相关系数 的的估计值。估计值。132(4.36)133将将 的第一步估计值的第一步估计值 ,替换方程,替换方程(4.37)(4.37)右边的右边的 ,然后再采用普通最小二乘法估计该方程,然后再采用普通最小二乘法估计该方程。134(4.37)135(二)广义
71、最小二乘法(二)广义最小二乘法(GLS)(GLS) 广义最小二乘法广义最小二乘法,顾名思义,是最具,顾名思义,是最具有普遍意义的最小二乘法。其中普通最小有普遍意义的最小二乘法。其中普通最小二乘法和加权最小二乘法是它的特例。二乘法和加权最小二乘法是它的特例。 136 表表4.4是北京市是北京市19781996年城镇居民年城镇居民家庭人均收入与人均支出的数据。以人均家庭人均收入与人均支出的数据。以人均实际支出为被解释变量实际支出为被解释变量, 以人均实际收入以人均实际收入为解释变量可建立消费函数。为解释变量可建立消费函数。五、实际案例五、实际案例137年份年份人均收入人均收入 ( (元元) )人均
72、生活消人均生活消费支出费支出( (元元) )商品零售物商品零售物价指数价指数(%)(%)人均实际人均实际收入收入( (元元) )人均实际人均实际支出支出( (元元) )残差残差19781978450.18 450.18 359.86 359.86 100.00 100.00 450.18 450.18 359.86 359.86 -30.91 -30.91 19791979491.54 491.54 408.66 408.66 101.50 101.50 484.28 484.28 402.62 402.62 -11.70 -11.70 19801980599.40 599.40 490.44
73、 490.44 108.60 108.60 551.93 551.93 451.60 451.60 -9.43 -9.43 19811981619.57 619.57 511.43 511.43 110.20 110.20 562.22 562.22 464.09 464.09 -4.05 -4.05 19821982668.06 668.06 534.82 534.82 112.30 112.30 594.89 594.89 476.24 476.24 -14.45 -14.45 19831983716.60 716.60 574.06 574.06 113.00 113.00 634.16
74、 634.16 508.02 508.02 -9.79 -9.79 19841984837.65 837.65 666.75 666.75 115.40 115.40 725.87 725.87 577.77 577.77 -3.36 -3.36 198519851158.84 1158.84 923.32 923.32 136.80 136.80 847.11 847.11 674.94 674.94 10.09 10.09 198619861317.33 1317.33 1067.38 1067.38 145.90 145.90 902.90 902.90 731.58 731.58 28
75、.21 28.21 表表4.4 4.4 北京市城镇居民家庭收入与支出数据北京市城镇居民家庭收入与支出数据表表 (单位:元)(单位:元)138年份年份人均收入人均收入( (元元) )人均生活消人均生活消费支出费支出( (元元) )商品零售物价商品零售物价指数指数(%)(%)人均实际收人均实际收入入( (元元) )人均实际支人均实际支出出( (元元) )残差残差198719871413.24 1413.24 1147.60 1147.60 158.60 158.60 891.07 891.07 723.58 723.58 28.38 28.38 198819881767.67 1767.67 14
76、55.55 1455.55 193.30 193.30 914.47 914.47 753.00 753.00 41.64 41.64 198919891899.57 1899.57 1520.41 1520.41 229.10 229.10 829.14 829.14 663.64 663.64 11.20 11.20 199019902067.33 2067.33 1646.05 1646.05 238.50 238.50 866.81 866.81 690.17 690.17 11.72 11.72 199119912359.88 2359.88 1860.17 1860.17 258.
77、80 258.80 911.85 911.85 718.77 718.77 9.22 9.22 199219922813.10 2813.10 2134.65 2134.65 280.30 280.30 1003.60 1003.60 761.56 761.56 -11.34 -11.34 199319933935.39 3935.39 2939.60 2939.60 327.70 327.70 1200.91 1200.91 897.04 897.04 -12.10 -12.10 199419945585.88 5585.88 4134.12 4134.12 386.40 386.40 14
78、45.62 1445.62 1069.91 1069.91 -8.20 -8.20 199519956748.68 6748.68 5019.76 5019.76 435.10 435.10 1551.06 1551.06 1153.70 1153.70 2.78 2.78 199619967945.78 7945.78 5729.45 5729.45 466.90 466.90 1701.82 1701.82 1227.13 1227.13 -27.89 -27.89 续表续表续表续表139采用普通最小二乘法,估计出回归方程为采用普通最小二乘法,估计出回归方程为(4.38)140 模型中,模
79、型中,DW0.575,取,取, 查查DW上上下界表下界表 dL=1.18,dU=1.40, DW1.18说明误说明误差项存在正自相关。差项存在正自相关。141 回归模型的残差列在表回归模型的残差列在表4.4中中, 可以明可以明显地看出残差序列存在着某种模式的变动,显地看出残差序列存在着某种模式的变动,该残差的前项均为负值,中间连续项该残差的前项均为负值,中间连续项均为正值,然后又连续多项为负值,且这均为正值,然后又连续多项为负值,且这些残差值由小逐渐增大然后又逐些残差值由小逐渐增大然后又逐 渐渐 减小,减小,这表明该残差序列存在着较强的正自相关,这表明该残差序列存在着较强的正自相关,预示着回归
80、模型的随机误差项可能存在着预示着回归模型的随机误差项可能存在着一阶自回归变动模式。一阶自回归变动模式。142 为经典误差项。为经典误差项。 设原模型的误差项为,序列相关的设原模型的误差项为,序列相关的形式为一阶自相关。即形式为一阶自相关。即(4.39)143 使用普通最小二乘法估计使用普通最小二乘法估计 的估计值的估计值 ,得,得(4.40) =0.657=0.657,t t 检验表明检验表明 是高度显著是高度显著的,显然误差项的,显然误差项ut 有一阶正自相关。有一阶正自相关。144将将 =0.657代入模型代入模型(4.41),令,令 使用使用 进行广义差分变换,变换后的模进行广义差分变换
81、,变换后的模型形式为:型形式为:(4.40)145 使用普通最小二乘法估计式使用普通最小二乘法估计式(4.41)(4.41)的参的参数,得数,得(4.42) 显然,在模型显然,在模型显然,在模型显然,在模型(4.42)(4.42)(4.42)(4.42)中,中,中,中,DWDWDWDW=1.830=1.830=1.830=1.830,已,已,已,已知知知知 。因此,在广义。因此,在广义。因此,在广义。因此,在广义差分模型差分模型差分模型差分模型(4.42)(4.42)(4.42)(4.42)中已无序列相关。中已无序列相关。中已无序列相关。中已无序列相关。 146据据 ,可得,可得(4.43)因
82、此,原回归模型应为因此,原回归模型应为(4.44)147 在进行广义差分时,解释变量在进行广义差分时,解释变量X 与与被解释变量被解释变量Y均以差分形式出现,因而均以差分形式出现,因而样本容量由样本容量由n减少为减少为n-1,即丢失了第一,即丢失了第一个观测值。如果样本容量较大,减少一个观测值。如果样本容量较大,减少一个观测值对估计结果影响不大。但是,个观测值对估计结果影响不大。但是,如果样本容量较小,则对估计精度产生如果样本容量较小,则对估计精度产生较大的影响。较大的影响。148 此时,可采用普莱斯此时,可采用普莱斯温斯滕(温斯滕(Prais-Winsten)变换,将第一个样本观测值补)变换
83、,将第一个样本观测值补充到差分序列中。第一个观测值变换为充到差分序列中。第一个观测值变换为 此时,样本容量依然为此时,样本容量依然为n。 149 本例中,采用普莱斯本例中,采用普莱斯温斯滕变温斯滕变换后的普通最小二乘估计结果为换后的普通最小二乘估计结果为(4.45)150 对比式对比式(4.45)和式和式(4.42),两者差异较小。,两者差异较小。因为本例中因为本例中n=19,是一个不算小的样本。,是一个不算小的样本。151第三节多重共线性第三节多重共线性一、多重共线性的概念及产生的原因一、多重共线性的概念及产生的原因(一)多重共线性的概念(一)多重共线性的概念152 多元线性回归模型有一个经
84、典假定,多元线性回归模型有一个经典假定,就是要求多元线性回归模型就是要求多元线性回归模型 中的解释变量中的解释变量 X 之间无线性关系。之间无线性关系。153为了考虑常数项,取变量为了考虑常数项,取变量 ,则,则如果存在不全为如果存在不全为0 0的的k k个数个数 ,使得,使得(4.46)则称解释变量则称解释变量 之间存在完全之间存在完全多重共性线。多重共性线。154如如 ,则式,则式(4.46)(4.46)可写为可写为(4.47)即即 是其它解释变量的精确线性组是其它解释变量的精确线性组合。合。155称解释变量称解释变量 之间存在近似多之间存在近似多重共性线。重共性线。 在实际问题中,完全的
85、多重共线性并不多在实际问题中,完全的多重共线性并不多见,常见的是式见,常见的是式(4.46)近似成立的情形,即近似成立的情形,即存在不全为存在不全为0的的k个数个数 ,使得,使得(4.48)156式式(4.48)(4.48)可表达为可表达为(4.49)其中其中 为随机误差项。为随机误差项。 如如 ,则式,则式(4.49)(4.49)可写可写为为(4.50)157 式式(4.50)表明,不是其它解释变量表明,不是其它解释变量的精确线性组合,而是其它解释变量的精确线性组合,而是其它解释变量的线性组合与随机误差项的和。的线性组合与随机误差项的和。158 解释变量解释变量 之间存在的多重共线性,也称为
86、复之间存在的多重共线性,也称为复共线性。在实际经济问题的多元回共线性。在实际经济问题的多元回归分析中,多重共线性的情形很多。归分析中,多重共线性的情形很多。159 1. 如何诊断解释变量间的多重共线性如何诊断解释变量间的多重共线性? 2.多重共线性情形会给多元线性回归多重共线性情形会给多元线性回归分析带来什么影响?分析带来什么影响? 3.如何克服多重共线性的影响?如何克服多重共线性的影响?160 在现实的生活当中,解释变量之间完在现实的生活当中,解释变量之间完全不相关的情形是非常少见的,尤其是全不相关的情形是非常少见的,尤其是研究某个经济问题时,涉及的解释变量研究某个经济问题时,涉及的解释变量
87、较多,我们很难找到一组解释变量,它较多,我们很难找到一组解释变量,它们之间互不相关,而且它们又都对被解们之间互不相关,而且它们又都对被解释变量有显著影响。释变量有显著影响。(二)多重共线性产生的背景和原因(二)多重共线性产生的背景和原因161 客观地说,某一经济现象,涉及到客观地说,某一经济现象,涉及到多个影响因素时,这些影响因素之多个影响因素时,这些影响因素之间大都有一定的相关性。间大都有一定的相关性。162 当我们所研究的经济问题涉及到时当我们所研究的经济问题涉及到时间序列资料时,由于经济变量随时间间序列资料时,由于经济变量随时间往往存在共同的变化趋势,使得它们往往存在共同的变化趋势,使得
88、它们之间容易出现共线性。之间容易出现共线性。163二、多重共线性的后果二、多重共线性的后果设多元线性回归模型设多元线性回归模型(4.51) 存在完全的多重共线性,即存在不全为存在完全的多重共线性,即存在不全为存在完全的多重共线性,即存在不全为存在完全的多重共线性,即存在不全为的一组数,的一组数,的一组数,的一组数, 使得:使得:使得:使得:(4.52)这里,这里, 。164 由样本数据由样本数据 所组成的设计矩阵所组成的设计矩阵X X 的秩的秩rank(rank(X X)k k,k k 阶正阶正规方程组规方程组 的解不唯一,的解不唯一,就是说不能得到就是说不能得到 的唯一解。(注:的唯一解。(
89、注:此正规方程组为矩阵表达式)此正规方程组为矩阵表达式)165在实际问题的研究中,经常见到的是近似共线性在实际问题的研究中,经常见到的是近似共线性在实际问题的研究中,经常见到的是近似共线性在实际问题的研究中,经常见到的是近似共线性的情形,即存在不全为的一组数的情形,即存在不全为的一组数的情形,即存在不全为的一组数的情形,即存在不全为的一组数 ,使得,使得,使得,使得(4.53)166 此时,设计矩阵此时,设计矩阵X 的秩的秩rank(X)=k成立,成立,解释变量间无完全的多重共线性,满足经解释变量间无完全的多重共线性,满足经典假定,普通最小二乘估计量典假定,普通最小二乘估计量 是是 的最佳线性
90、无偏估计量。就是说最小二乘的最佳线性无偏估计量。就是说最小二乘估计量是所有线性无偏估计量中方差最小估计量是所有线性无偏估计量中方差最小的,但这并不意味着最小二乘估计量的方的,但这并不意味着最小二乘估计量的方差一定是很小的。差一定是很小的。167 实际上,由于解释变量间的高度共线实际上,由于解释变量间的高度共线性,将使估计量性,将使估计量 的方差很大的方差很大 的估计精度很低,这一点在第三章中的估计精度很低,这一点在第三章中已有说明已有说明, 在后面的方差扩大因子分在后面的方差扩大因子分析中可以得到证实。析中可以得到证实。168 此时,我们无法正确判断解释此时,我们无法正确判断解释变量对被解释变
91、量的影响程度,甚变量对被解释变量的影响程度,甚至出现估计值的经济意义无法解释。至出现估计值的经济意义无法解释。这样的情况在进行实际问题的回归这样的情况在进行实际问题的回归分析时会经常碰到。分析时会经常碰到。 一般情况下,完全多重共线性一般情况下,完全多重共线性的情况比较少见,也不难发现。的情况比较少见,也不难发现。169 1.1. 多重共线性不改变参数估计量多重共线性不改变参数估计量的无偏性。事实上,对于严重多重共线性,的无偏性。事实上,对于严重多重共线性,参数估计量仍为最优的估计。参数估计量仍为最优的估计。 2.2. 多重共线性使参数的最小二乘多重共线性使参数的最小二乘估计的方差很大,即估计
92、值的精度很低。估计的方差很大,即估计值的精度很低。 严重多重共线性情形的后果严重多重共线性情形的后果 170 3. 各个回归系数的值很难精确估计,各个回归系数的值很难精确估计,甚至可能出现符号错误的现象。甚至可能出现符号错误的现象。 4.回归系数对样本数据的微小变化回归系数对样本数据的微小变化变得非常敏感。变得非常敏感。171三、多重共线性的检验三、多重共线性的检验 近年来,人们已经提出了许多可行近年来,人们已经提出了许多可行的判断方法,下面我们介绍几种主要方的判断方法,下面我们介绍几种主要方法。法。172(一)方差扩大因子法(一)方差扩大因子法由第五章第二节的式由第五章第二节的式(5.25)
93、可知可知(4.54)173 当解释变量当解释变量Xj 与其它解释变量无线性关与其它解释变量无线性关系时,辅助回归的判定系数系时,辅助回归的判定系数 。此时,。此时, 的方差为的方差为(4.55)174 度量了由于度量了由于Xj 与其它解释变量之与其它解释变量之 间的线性关联程度对估计量间的线性关联程度对估计量 的方差的的方差的影响。称其为方差扩大因子,定义为影响。称其为方差扩大因子,定义为 (4.56)由式由式(4.56)可知可知 。175 由于由于 度量了解释变量度量了解释变量X Xj j与其余与其余k k-1-1个个解释变量(包括常数项)的线性相关程度,解释变量(包括常数项)的线性相关程度
94、, 这种相关程度越强,说明解释变量之间的这种相关程度越强,说明解释变量之间的多重共线性越严重,多重共线性越严重, 也就越接近于,也就越接近于,VIFVIFj j 也就越大。也就越大。 反之,反之,Xj 与其余与其余k-1个个解释变量的线性相关程度越弱,解释变量解释变量的线性相关程度越弱,解释变量之间的多重共线性也就越弱,之间的多重共线性也就越弱, 也也就越接近于,就越接近于,VIFj也就越接近于。也就越接近于。 176 由此可见,由此可见, VIFj 的大小反映了解释变量的大小反映了解释变量之间是否存在多重共线性,因此可由它来之间是否存在多重共线性,因此可由它来度量多重共线性的严重程度。经验表
95、明,度量多重共线性的严重程度。经验表明,当当 VIFj 10时,就说明解释变量时,就说明解释变量Xj 与其余与其余解释变量之间有严重的多重共线性,且这解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘种多重共线性可能会过度地影响最小二乘估计值。估计值。177 也可以用个也可以用个 k 解释变量所对应的方差扩解释变量所对应的方差扩大因子的平均数来度量多重共线性。当大因子的平均数来度量多重共线性。当(4.57) 远远大于远远大于10时就表示存在严重的多重时就表示存在严重的多重共线性问题。共线性问题。178(二)直观判定法二)直观判定法 R R2 2 较高,而显著较高,而显著t
96、 t 统计量较少统计量较少时,可能存在多重共线性问题。时,可能存在多重共线性问题。 有些解释变量的回归系数所带符有些解释变量的回归系数所带符号与定性分析结果违背时,可能存在多重号与定性分析结果违背时,可能存在多重共线性问题。共线性问题。179 一些重要的解释变量在回归方程一些重要的解释变量在回归方程中没有通过显著性检验时,可初步判断中没有通过显著性检验时,可初步判断存在着严重的多重共线性。存在着严重的多重共线性。 当增加或剔除一个解释变量,或当增加或剔除一个解释变量,或者改变一个观测值时,回归系数的估计者改变一个观测值时,回归系数的估计值发生较大变化,我们就认为回归方程值发生较大变化,我们就认
97、为回归方程存在严重的多重共线性。存在严重的多重共线性。 解释变量间的相关系数较大时,解释变量间的相关系数较大时,可能会出现多重共线性问题。可能会出现多重共线性问题。180 当通过某种检验,发现解释变量中当通过某种检验,发现解释变量中存在严重的多重共线性时,我们就要设存在严重的多重共线性时,我们就要设法消除或缓解这种共线性。处理多重共法消除或缓解这种共线性。处理多重共线性问题的方法很多,常用的有下面几线性问题的方法很多,常用的有下面几种。种。四、补救措施四、补救措施181 如果据先前的经济计量分析或经济理论如果据先前的经济计量分析或经济理论分析已知模型中的共线性解释变量的参数分析已知模型中的共线
98、性解释变量的参数间具有某种线性关系,则可利用此条件消间具有某种线性关系,则可利用此条件消除解释变量间的多重共线性。除解释变量间的多重共线性。 (一)使用非样本先验信息(一)使用非样本先验信息182例如,柯布例如,柯布道格拉斯生产函数,其对道格拉斯生产函数,其对数线性形式为数线性形式为 式中,式中,Y=国内生产总值,国内生产总值,L=劳动力投劳动力投入,入,K=资本投入。资本投入。(4.59)183 由于在时间序列数据中劳动力投入由于在时间序列数据中劳动力投入L 和资本投入和资本投入 K 有很高的相关性,因此有很高的相关性,因此该模型中往往有较严重的多重共线性。该模型中往往有较严重的多重共线性。
99、如果有先验信息判断该经济系统是规模如果有先验信息判断该经济系统是规模报酬不变的,则有报酬不变的,则有 +=1 。184则式则式(4.59)(4.59)变为变为即将式即将式(4.59)(4.59)的二个解释变量的对数线性的二个解释变量的对数线性模型,转变为式模型,转变为式(4.60)(4.60)的一个解释变量的的一个解释变量的对数线性模型,消除了多重共线性。对数线性模型,消除了多重共线性。(4.60)185 使用普通最小二乘法估计出式使用普通最小二乘法估计出式(4.60)的的资本弹性资本弹性 ,则劳动力弹性为,则劳动力弹性为 。从而得到式。从而得到式(4.59)的的CD生产函数。生产函数。186
100、 就是先利用横截面数据估计某一参就是先利用横截面数据估计某一参数,将结果代入原方程后,再利用时间数,将结果代入原方程后,再利用时间序列数据估计另一参数。序列数据估计另一参数。 (二)横截面与时间序列数据并用(二)横截面与时间序列数据并用187例如,要研究汽车需求量,则可设定模型为例如,要研究汽车需求量,则可设定模型为(4.61)其中其中: Y =汽车销售量,汽车销售量,P =汽车价格,汽车价格,I =收收入。入。 在时间序列数据中,价格和收入有着在时间序列数据中,价格和收入有着较高的相关关系。因此,在式较高的相关关系。因此,在式(4.61)中将中将有多重共线性问题。有多重共线性问题。188 如
101、果我们能够取得此期间横截面数如果我们能够取得此期间横截面数据,此时价格保持不变,则式据,此时价格保持不变,则式(4.61)(4.61)变为变为对的一元回归模型,则可得到收入弹性的对的一元回归模型,则可得到收入弹性的估计值。然后再利用时间序列数据估计式估计值。然后再利用时间序列数据估计式(4.62)(4.62)(4.62)得到得到 ,从而得到汽车需求模型。,从而得到汽车需求模型。189 这种方法假定横截面数据估计的这种方法假定横截面数据估计的收入弹性与时间序列数据估计的收收入弹性与时间序列数据估计的收入弹性是相等的。入弹性是相等的。190 (三)剔除一些不重要的共线性解释变量(三)剔除一些不重要
102、的共线性解释变量 通常在经济问题的建模中,通常在经济问题的建模中, 由于我由于我们认识水平的局限,们认识水平的局限, 容易考虑过多的解容易考虑过多的解释变量。释变量。 当涉及解释变量较多当涉及解释变量较多 时,大时,大多数回归方程都受到多重共线性的影响。多数回归方程都受到多重共线性的影响。这时,最常用的办法是首先作解释变量的这时,最常用的办法是首先作解释变量的筛选,舍去一些解释变量。筛选,舍去一些解释变量。191 当回归方程中的全部解释变量都通过当回归方程中的全部解释变量都通过显著性检验后,如果有几个变量的方差扩显著性检验后,如果有几个变量的方差扩大因子大于大因子大于10,我们可把方差扩大因子
103、最,我们可把方差扩大因子最大者所对应的解释变量首先剔除,再重新大者所对应的解释变量首先剔除,再重新建立回归方程,如果仍然存在严重的多重建立回归方程,如果仍然存在严重的多重共线性,则再继续剔除方差扩大因子最大共线性,则再继续剔除方差扩大因子最大者所对应的解释变量,直到回归方程中不者所对应的解释变量,直到回归方程中不再存在严重的多重共线性为止。再存在严重的多重共线性为止。192 总之,在选择回归模型时,可以将回归总之,在选择回归模型时,可以将回归系数的显著性检验、方差扩大因子系数的显著性检验、方差扩大因子VIF的多的多重共线性检验与解释变量的经济意义结合起重共线性检验与解释变量的经济意义结合起来考
104、虑,以引进或剔除变量。来考虑,以引进或剔除变量。193 建立一个实际经济问题的回归模型,建立一个实际经济问题的回归模型,如果所收集的样本数据太少,也容易产如果所收集的样本数据太少,也容易产生多重共线性。从本质上讲,多重共线生多重共线性。从本质上讲,多重共线性是样本现象。性是样本现象。 (四)增大样本容量(四)增大样本容量194据第五章第二节式据第五章第二节式(5.17)(5.17)的分析可知,当的分析可知,当增加样本容量增加样本容量n n 时,会增大时,会增大 。因此,在。因此,在 固定不变的条件下,会固定不变的条件下,会减少估计量减少估计量 的方差,从而减弱了多的方差,从而减弱了多重共线性对
105、回归方程的影响。因此,增大重共线性对回归方程的影响。因此,增大样本容量也是缓解多重共线性的一个途径。样本容量也是缓解多重共线性的一个途径。 195 增大样本容量的方法在有些经济问增大样本容量的方法在有些经济问题中是不现实的,因为在经济问题中,题中是不现实的,因为在经济问题中,许多解释变量是不受控制的,或由于种许多解释变量是不受控制的,或由于种种原因不可能再得到一些新的样本数据。种原因不可能再得到一些新的样本数据。196(五)使用有偏估计(五)使用有偏估计(五)使用有偏估计(五)使用有偏估计 处理多重共线性对回归模型的影响是近处理多重共线性对回归模型的影响是近处理多重共线性对回归模型的影响是近处
106、理多重共线性对回归模型的影响是近40404040年来统计学家们关注的热点课题之一,除以上年来统计学家们关注的热点课题之一,除以上年来统计学家们关注的热点课题之一,除以上年来统计学家们关注的热点课题之一,除以上方法被人们应用外,统计学家还致力改进古典方法被人们应用外,统计学家还致力改进古典方法被人们应用外,统计学家还致力改进古典方法被人们应用外,统计学家还致力改进古典的最小二乘法,提出以采用有偏估计为代价来的最小二乘法,提出以采用有偏估计为代价来的最小二乘法,提出以采用有偏估计为代价来的最小二乘法,提出以采用有偏估计为代价来提高估计量稳定性的方法,如岭回归法、主成提高估计量稳定性的方法,如岭回归
107、法、主成提高估计量稳定性的方法,如岭回归法、主成提高估计量稳定性的方法,如岭回归法、主成分法、偏最小二乘法等。分法、偏最小二乘法等。分法、偏最小二乘法等。分法、偏最小二乘法等。197五、实际案例五、实际案例 为了研究我国民航客运量的变化趋势及为了研究我国民航客运量的变化趋势及其成因,我们以我国连续其成因,我们以我国连续1616年的数据进行年的数据进行分析。其中,民航客运量作为被解释变量,分析。其中,民航客运量作为被解释变量,以国民收入、消费额、铁路客运量、民航以国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数为影响民航航线里程、来华旅游入境人数为影响民航客运量的主要因素。客运量的主
108、要因素。198 Y 表示民航客运量(万人),表示民航客运量(万人),X1表示国表示国民收入(亿元),民收入(亿元),X2表示消费额(亿元)表示消费额(亿元),X3表示铁路客运量(万人),表示铁路客运量(万人),X4表示表示民航航线里程(万公里),民航航线里程(万公里), X5表示来表示来华旅游入境人数(万人)。华旅游入境人数(万人)。 199 据表据表4.54.5的数据,使用普通最小二乘法,的数据,使用普通最小二乘法,得到以下回归模型。得到以下回归模型。(4.63)200Dependent Variable: YDependent Variable: YMethod: Least Square
109、sMethod: Least SquaresDate: 03/01/05 Time: 07:45Date: 03/01/05 Time: 07:45Sample: 1 16Sample: 1 16Included observations: 16Included observations: 16VariableVariableCoefficientCoefficientStd. ErrorStd. Errort-Statistict-StatisticProb. Prob. C C450.9092450.9092178.0777178.07772.5320922.5320920.02980.0
110、298X1X10.3538980.3538980.0852300.0852304.1522884.1522880.00200.0020X2X2-0.561476-0.5614760.1253840.125384-4.478039-4.4780390.00120.0012X3X3-0.007254-0.0072540.0020670.002067-3.509806-3.5098060.00560.0056X4X421.5778621.577864.0300514.0300515.3542415.3542410.00030.0003X5X50.4351880.4351880.0515600.051
111、5608.4404818.4404810.00000.0000R-squaredR-squared0.9982310.998231 Mean dependent var Mean dependent var1159.1251159.125Adjusted R-squaredAdjusted R-squared0.9973460.997346 S.D. dependent var S.D. dependent var960.6724960.6724S.E. of regressionS.E. of regression49.4924049.49240 Akaike info criterion
112、Akaike info criterion10.9215110.92151Sum squared residSum squared resid24494.9824494.98 Schwarz criterion Schwarz criterion11.2112311.21123Log likelihoodLog likelihood-81.37209-81.37209 F-statistic F-statistic1128.3031128.303Durbin-Watson statDurbin-Watson stat1.9928461.992846 Prob(F-statistic) Prob
113、(F-statistic)0.0000000.000000201从输出结果可以看出,从输出结果可以看出,DWDW=1.993=1.993,表明该,表明该模型不存在序列相关,虽然各回归系数均模型不存在序列相关,虽然各回归系数均通过了通过了5%5%显示水平的显示水平的t t 检验,但通过调用检验,但通过调用EViewsEViews的的ScalarScalar命令计算得知,命令计算得知,X X1 1, ,X X2 2的方的方差扩大因子很大,分别为差扩大因子很大,分别为 , ,远远超过,远远超过1010,并且并且X X2 2的系数估计值为负,与理论分析不的系数估计值为负,与理论分析不符。符。202剔除
114、剔除X1,建立对四个解释变量的回归方,建立对四个解释变量的回归方程,结果如下程,结果如下 (4.64)203式式(4.64)(4.64)的解释变量的解释变量X X2 2的回归系数为负,的回归系数为负, 与经济理论不符。与经济理论不符。 的方差扩大因子分别为的方差扩大因子分别为 , , , , X X2 2的方差扩大因子为的方差扩大因子为77.54677.546,远大于,远大于1010,说,说明模型明模型(4.64)(4.64)中依然有较严重的多重共线中依然有较严重的多重共线性。性。204 剔除剔除X2,用,用Y与三个解释变量与三个解释变量X3,X4,X5,建建立回归方程,得到如下回归模型。立回
115、归方程,得到如下回归模型。(4.65)205模型模型(4.65)(4.65)中的三个解释变量系数的方差中的三个解释变量系数的方差扩大因子分别为:扩大因子分别为: , , ,都小于都小于1010,并且回归系数,并且回归系数也都有合理的解释,说明模型也都有合理的解释,说明模型(4.65)(4.65)中已中已不存在严重的多重共线性。因为其它检验不存在严重的多重共线性。因为其它检验均已通过,因此可将该模型确认为最终使均已通过,因此可将该模型确认为最终使用模型。用模型。206 据该模型的最终结果可知,铁路客运据该模型的最终结果可知,铁路客运量与民航客运量呈反向关系,铁路客运量量与民航客运量呈反向关系,铁
116、路客运量每增加每增加1万人,民航客运量将减少万人,民航客运量将减少100人;人;民航航线里程每增加民航航线里程每增加1万公里,民航客运量万公里,民航客运量将增加将增加26万人;来华旅游入境人数每增加万人;来华旅游入境人数每增加1万人,民航客运量将增加万人,民航客运量将增加0.317万人。如此万人。如此可知,对民航客运量影响最大的因素是民可知,对民航客运量影响最大的因素是民航航线里程和来华旅游入境人数。航航线里程和来华旅游入境人数。207 此回归模型的拟合优度很高,调整此回归模型的拟合优度很高,调整的判定系数的判定系数 ,说明铁,说明铁路客运量、民航航线里程和来华旅游入路客运量、民航航线里程和来华旅游入境人数这三个解释变量解释了民航客运境人数这三个解释变量解释了民航客运量总变异的量总变异的99.3%99.3%。208END209210