ch05线性回归的定式偏差讲述

上传人:cn****1 文档编号:567413248 上传时间:2024-07-20 格式:PPT 页数:88 大小:1.76MB
返回 下载 相关 举报
ch05线性回归的定式偏差讲述_第1页
第1页 / 共88页
ch05线性回归的定式偏差讲述_第2页
第2页 / 共88页
ch05线性回归的定式偏差讲述_第3页
第3页 / 共88页
ch05线性回归的定式偏差讲述_第4页
第4页 / 共88页
ch05线性回归的定式偏差讲述_第5页
第5页 / 共88页
点击查看更多>>
资源描述

《ch05线性回归的定式偏差讲述》由会员分享,可在线阅读,更多相关《ch05线性回归的定式偏差讲述(88页珍藏版)》请在金锄头文库上搜索。

1、ch05ch05线性回归的定式偏差线性回归的定式偏差讲述讲述5.1变量关系非线性变量关系非线性一、问题一、问题线线性性回回归归模模型型都都假假设设变变量量关关系系是是线线性性随随机机函函数数关关系系,或者经过或者经过特定数学变换特定数学变换以后是线性随机函数关系。以后是线性随机函数关系。但但实实际际变变量量关关系系可可能能会会存存在在偏偏差差,存存在在用用线线性性模模型型分分析非线性关系的可能性。析非线性关系的可能性。把把非非线线性性变变量量关关系系当当作作线线性性关关系系处处理理,违违反反误误差差项项均均值值为为0的的假假设设,对对线线性性回回归归分分析析的的有有效效性性有有根根本本性性的的

2、破破坏作用坏作用。 二、发现与判断二、发现与判断首先首先是用是用数理经济分析数理经济分析的方法,对模型的函数关系进行更的方法,对模型的函数关系进行更深入的分析。深入的分析。其次其次是根据数据及其是根据数据及其分布图形、散点图分布图形、散点图进行直接判断。进行直接判断。更重要的方法更重要的方法是根据是根据回归残差序列回归残差序列,从技术角度发现和判断,从技术角度发现和判断异常值问题。异常值问题。(1)回回归归残残差差序序列列根根据据被被解解释释变变量量的的实实际际值值和和回回归归理理论论值之差计算。值之差计算。(2 2)在)在EVIEWSEVIEWS软件进行回归分析时,可以在得到回归结软件进行回

3、归分析时,可以在得到回归结果后在回归结果窗口点击果后在回归结果窗口点击View/Actual, Fitted, View/Actual, Fitted, Residual/ View/Actual, Fitted, Residual tableResidual/ View/Actual, Fitted, Residual table,直直接得到回归残差序列和残差序列图。接得到回归残差序列和残差序列图。(3)如果模型存在变量关系非线性问题,回归残差序列)如果模型存在变量关系非线性问题,回归残差序列会变现出会变现出有规律的变化有规律的变化。当发现模型的回归残差序列有下图所示的规律性变化,就应该考虑

4、存在把非线性关系(二次函数等)当作线性关系进行回归的问题。 非线性变量关系的残差序列三、问题的处理和非线性回归第一步第一步是恢复变量之间的真实函数关系;是恢复变量之间的真实函数关系;第二步第二步是设法通过幂函数、对数化等数学变换等,把是设法通过幂函数、对数化等数学变换等,把非线性关系转化为正确的线性回归模型。非线性关系转化为正确的线性回归模型。当函数无法通过初等数学变换转化为线性模型时,需当函数无法通过初等数学变换转化为线性模型时,需要要直接处理直接处理非线性回归模型。非线性回归模型。假设不能通过初等数学变换转化为线性关系的假设不能通过初等数学变换转化为线性关系的非线非线性函数关系为性函数关系

5、为:其中,其中,X1,X2, XK是是K个解释变量个解释变量,1,2 , P是是P个个参数,参数,f为为多元非线性函数,且对多元非线性函数,且对1,2 , P是连续可是连续可微的。微的。对于这种非线性回归模型,解决的方法之一是利用对于这种非线性回归模型,解决的方法之一是利用级数级数展开展开方法做非线性函数的方法做非线性函数的近似线性函数近似线性函数,把模型强制性,把模型强制性转化为线性模型。转化为线性模型。泰勒级数展开泰勒级数展开先要取一组泰勒级数展开先要取一组参数的初始值参数的初始值:将上述非线性函数在将上述非线性函数在处对处对做泰勒级数展开,并只取其中的线性项而忽略所有的高次做泰勒级数展开

6、,并只取其中的线性项而忽略所有的高次项,得到项,得到整理上述展开式,移项合并可化为:整理上述展开式,移项合并可化为:其中,其中,为原变量关系中误差项为原变量关系中误差项与泰勒级数展开的高阶项之和。与泰勒级数展开的高阶项之和。若令:若令:我们得到:我们得到:经过泰勒级数展开得到的线性模型只是原变量关系的经过泰勒级数展开得到的线性模型只是原变量关系的近似近似,虽然可以把,虽然可以把作为原模型参数的估计,作为原模型参数的估计,但效果可能没有保证。但效果可能没有保证。由于由于和参数真实值的近似程度越高,级数展和参数真实值的近似程度越高,级数展 开开忽忽略略的的高高阶阶项项越越不不重重要要,因因此此提提

7、高高级级数数展展开开初初始始值值与与参数真实值的近似程度有利于提高上述间接估计的精度参数真实值的近似程度有利于提高上述间接估计的精度。 提提高高近近似似程程度度的的方方法法是是,把把前前一一次次回回归归得得到到的的估估计计值值作作为为新新的的级级数数展展开开初初始始值值,再再进进行行新新的的级级数数展展开开。然然后后再再作变换和线性回归,得到另一组参数估计值作变换和线性回归,得到另一组参数估计值。 这个程序可以这个程序可以反复反复进行,直到参数估计值进行,直到参数估计值收敛收敛或不再有或不再有大的变化。大的变化。除了泰勒级数展开线性化近似的迭代方法以外,还可以除了泰勒级数展开线性化近似的迭代方

8、法以外,还可以直接进行非线性回归分析直接进行非线性回归分析。非线性回归分析的原理与线性回归分析是相似的,只非线性回归分析的原理与线性回归分析是相似的,只是非线性回归参数估计涉及的非线性优化分析要复杂是非线性回归参数估计涉及的非线性优化分析要复杂一些。一些。由计量软件进行非线性回归的迭代优化分析只要由计量软件进行非线性回归的迭代优化分析只要直接直接输入相关命令输入相关命令即可。即可。例51某地消费函数 表表5.1 某地消费函数相关数据某地消费函数相关数据年度 Y C 年度 Y C 年度 Y C1950 791.8 733.2 1962 1170.2 1069.0 1974 1896.6 1674

9、.01951 819.0 748.7 1963 1207.3 1108.4 1975 1931.7 1711.91952 844.3 771.4 1964 1291.0 1170.6 1976 2001.0 1803.91953 880.0 802.5 1965 1365.7 1236.4 1977 2066.6 1883.81954 894.0 822.7 1966 1431.3 1298.9 1978 2167.4 1961.01955 944.5 873.8 1967 1493.2 1337.7 1979 2212.6 2004.41956 989.4 899.8 1968 1551.3

10、 1405.9 1980 2214.3 2000.41957 1012.1 919.7 1969 1599.8 1456.7 1981 2248.6 2024.21958 1028.8 932.9 1970 1688.1 1492.0 1982 2261.5 2050.71959 1067.2 979.4 1971 1728.4 1538.8 1983 2334.6 2145.91960 1091.1 1005.1 1972 1797.4 1621.9 1984 2468.4 2239.91961 1123.2 1025.2 1973 1916.3 1689.6 1985 2509.0 231

11、2.6根据对上述散点图的直观判断,对消费和收入进行根据对上述散点图的直观判断,对消费和收入进行线性回归分析基本上是合理的。线性回归分析基本上是合理的。但是,如果我们进一步通过该回归结果窗口的菜单但是,如果我们进一步通过该回归结果窗口的菜单操作得到下列残差序列图,可以发现该回归残差序操作得到下列残差序列图,可以发现该回归残差序列显示出明显的规律性变化,包含了明显的趋势性。列显示出明显的规律性变化,包含了明显的趋势性。可以考虑变量之间存在非线性关系的可能,因此可可以考虑变量之间存在非线性关系的可能,因此可考虑采用非线性最小二乘回归考虑采用非线性最小二乘回归。5.2 5.2 异常值、规律性扰动和虚拟

12、变量回归异常值、规律性扰动和虚拟变量回归一、异常值异常值二、规律性扰动规律性扰动三、虚拟变量回归虚拟变量回归异常值现象异常值现象现现实实经经济济中中常常常常存存在在这这样样的的情情况况,一一些些突突发发事事件件或或变变化化对对经经济济活活动动、经经济济关关系系造造成成短短暂暂的的,但但却却是是很很显显著著的冲击影响。的冲击影响。这这些些影影响响既既不不能能被被看看作作微微小小的的随随机机扰扰动动,但但又又不不会会决决定或改变长期的经济关系,或者说经济规律。定或改变长期的经济关系,或者说经济规律。 这这种种情情况况在在经经济济数数据据上上反反映映出出来来,就就会会表表现现为为一一个个脱脱离基本趋

13、势离基本趋势的异常值。的异常值。 如果所研究的经济问题或相关数据中存在这种情况,建立如果所研究的经济问题或相关数据中存在这种情况,建立线性回归模型时又没有预先处理或剔除这种影响,就会表线性回归模型时又没有预先处理或剔除这种影响,就会表现为模型现为模型误差项误差项在相应时点存在在相应时点存在均值非均值非0 0的问题。的问题。例如变量例如变量 Y 和和 X 在长期中的关系基本满足线性回归模型在长期中的关系基本满足线性回归模型的各个假设,但在时刻的各个假设,但在时刻 有一个突发情况,使得有一个突发情况,使得 Y 出现出现一个一个 C 单位的暂时性波动。那么如果用线性回归模型:单位的暂时性波动。那么如

14、果用线性回归模型:其误差项的均值是:其误差项的均值是:这这种种情情况况如如果果不不作作处处理理,线线性性回回归归分分析析的的有有效效性性也也会会受到不利影响。受到不利影响。显然不是显然不是对任意对任意i i 都成立。都成立。异异常常值值会会使使回回归归分分析析结结果果出出现现较较大大偏偏差差,参参数数估估计计量的性质和相关统计推断都会失效。量的性质和相关统计推断都会失效。异常值的发现判断异常值的发现判断发现和判断异常值的方法之一是分析经济问题的相关发现和判断异常值的方法之一是分析经济问题的相关背景情况,包括对经济现象、相关社会经济事件以及背景情况,包括对经济现象、相关社会经济事件以及数据序列的

15、数据序列的直接分析直接分析等。等。残差序列分析残差序列分析也是从技术角度发现和判断异常值问题也是从技术角度发现和判断异常值问题的基本方法。的基本方法。因为异常值只是个别情况,最小二乘估计仍然是一致因为异常值只是个别情况,最小二乘估计仍然是一致估计量,回归残差中会包含由于异常值所导致模型误估计量,回归残差中会包含由于异常值所导致模型误差项均值非差项均值非0 0的信息。的信息。 回归残差序列分析发现和判断异常值问题的方法回归残差序列分析发现和判断异常值问题的方法 在在模模型型假假设设成成立立的的前前提提下下,回回归归残残差差是是服服从从正正态态分分布布的的随随机机变变量量,其其取取值值95%95%

16、左左右右的的概概率率应应分分布布在在均均值值加加减减2 2倍倍标标准准差的范围内。差的范围内。如果发现某个残差如果发现某个残差出现:出现:其中,其中,是是残残差差的的标标准准差差,模模型型在在时时点点i i处处就就很很可可能能存存在在异异常常值值问题。问题。上述回归残差序列分析等价于上述回归残差序列分析等价于残差序列图分析残差序列图分析:(1)把根据回归残差序列和残差标准差计算出的)把根据回归残差序列和残差标准差计算出的数据序列,描绘到以数据序列,描绘到以i i为横轴,以为横轴,以为纵轴的坐标平面为纵轴的坐标平面为为纵纵轴轴的的坐坐标标平平面面上上,再再在在纵纵轴轴的的22处处画画上上两两条条

17、水水平平的临界线。的临界线。(2)以以误误差差序序列列中中是是否否有有点点落落在在两两条条临临界界线线范范围围之之外作为判断异常值的初步标准。外作为判断异常值的初步标准。图图 异常值的残差序列图检验异常值的残差序列图检验 如如果果有有个个别别 坐坐标标落落在在两两条条临临界界线线的的范范围围以以外外,就就意意味着在味着在i i 时点上有异常值。时点上有异常值。 用用EViewsEViews软软件件进进行行回回归归分分析析可可以以直直接接输输出出残残差差序序列列图图,并并且且在在图图形形中中包包括括有有两两倍倍标标准准差差的的临临界界值值,因因此此可可以以直直接接根根据据EViewsEViews

18、输输出出的的残残差差序序列列图图判判断断是是否否有有异异常常值值的可能性。的可能性。当然,如果落在临界线以外的点有多个,那么一方面可当然,如果落在临界线以外的点有多个,那么一方面可以考虑存在多个异常值的可能性,另外也应该怀疑存在以考虑存在多个异常值的可能性,另外也应该怀疑存在其他系统性偏差。其他系统性偏差。存存在在多多个个较较大大残残差差不不能能简简单单地地认认为为是是多多个个异异常常值值,而而是是应应该该作作进进一一步步的的深深入入分分析析,结结合合对对其其他他问问题题的的分分析析进进行行判断。判断。此此外外,上上述述残残差差序序列列判判断断异异常常值值的的临临界界值值标标准准是是95%95

19、%置置信信度度的的,当当 的的绝绝对对值值落落在在2 2到到3 3之之间间时时,用用95%95%的的置置信信度度判判断断有有异异常常值值,而而用用99%99%的的置置信信度度判判断断则则可可能能没没有有异异常常值值,因因此此仍仍然然存存在在模糊的地方。模糊的地方。这这时时候候必必须须与与问问题题背背景景分分析析结结合合起起来来考考虑虑,并并考虑各点残差相对情况等。考虑各点残差相对情况等。问题的处理问题的处理 解决的方法是引进一个针对性的虚拟变量解决的方法是引进一个针对性的虚拟变量D D,其定义式为:,其定义式为: 如果判断模型存在异常值问题,必须作针对性的处理。如果判断模型存在异常值问题,必须

20、作针对性的处理。例如一个两变量线性回归模型:例如一个两变量线性回归模型:在在处存在异常值问题:处存在异常值问题:在在引引进进虚虚拟拟变变量量D D 的的新新模模型型中中,异异常常值值就就不不会会造造成成模模型型误误差差项项出出现现均均值值非非0 0的的问问题题了了,从从而而可以保证回归分析的有效性。可以保证回归分析的有效性。 得到一个得到一个新的回归模型:新的回归模型:例例 消费函数模型的异常值问题消费函数模型的异常值问题 图图5.5 消费函数残差序列图消费函数残差序列图 残差序列图分析残差序列图分析根根据据图图中中的的残残差差分分布布可可以以看看出出,19961996、20012001和和2

21、0022002年年的的回回归归残残差差绝绝对对值值,都都大大于于2 2倍倍的的残残差差标准差,因此可能属于异常值。标准差,因此可能属于异常值。由由于于相相比比之之下下19961996、19991999、20002000和和20012001四四年年的的残残差差偏偏离离更更大大,而而在在去去掉掉这这几几年年趋趋势势以以后后的的其其余余年年份份基基本本上上都都在在长长期期趋趋势势上上,因因此此考考虑虑引引进进四个虚拟变量四个虚拟变量。再再看看引引进进虚虚拟拟变变量量后后回回归归的的下下列列残残差差序序列列图图,则则现现在在是是有有多多点点而而不不是是个个别别点点在在2 2倍倍标标准准差差临临界界值值

22、之之外外,而而且且都都离离临临界界值值不不远远,并并且且2 2倍倍标标准准差差的的临临界界值值范范围围也也比比未未引引进进虚虚拟拟变变量量时时小小了了许多,因此可不再认为存在异常值。许多,因此可不再认为存在异常值。 图图5.6 5.6 引进虚拟变量后的回归残差引进虚拟变量后的回归残差 规律性扰动周周期期性性或或其其他他规规律律性性扰扰动动,也也会会使使线线性性回回归归模模型的误差项偏离零均值假设。型的误差项偏离零均值假设。 周周期期性性扰扰动动比比较较典典型型的的例例子子是是商商业业销销量量指指标标的的季节性变化。季节性变化。 这这些些问问题题并并不不影影响响变变量量关关系系的的总总体体趋趋势

23、势,但但都都会会对对变变量量关关系系产产生生规规律律性性的的影影响响,如如果果不不预预先先加加以以处处理理或或排排除除掉掉,就就会会导导致致误误差差项项均均值值非非0 0问题的出现,影响回归分析的效果。问题的出现,影响回归分析的效果。一个例子一个例子例如变量例如变量Y Y 的季度数据中,的季度数据中,第一季度第一季度总是受到总是受到一个季节性因素的影响。一个季节性因素的影响。如果我们忽视这种影响,用两变量模型或多元如果我们忽视这种影响,用两变量模型或多元模型研究模型研究 Y Y 的规律,就会遇到的规律,就会遇到误差项均值非误差项均值非0 0问题问题 问题的发现与判断问题的发现与判断由规律性扰动

24、导致的误差项均值非零问题的发现、判断和处理,与异常值问题基本相似。 在发现和判断方面,经济问题的背景分析,以及同样的回归残差序列分析,基本上都可以适用于规律性扰动问题。 规律性扰动在残差序列图上会表现为多个有规律的较大残差,可以通过与问题背景的相互印证和分析,确定是否属于规律性扰动。 问题的处理问题的处理解决规律性扰动问题的方法之一是对数据进行统计平滑处理,消除季节性或其他周期性扰动的影响。但平滑处理存在两个问题,一是不能区别趋势因素和季节性扰动,不能真正确定所研究变量关系的具体变化轨迹,二是容易导致另一种问题,就是误差序列自相关问题(以后会介绍)。因此平滑处理并不是克服规律性扰动对线性回归分

25、析影响的好方法。引进虚拟变量引进虚拟变量处理规律性扰动问题的较好方法也是引进虚拟变量,处理规律性扰动问题的较好方法也是引进虚拟变量,但有时需要引进但有时需要引进多个虚拟变量多个虚拟变量。以上面第一季度存在季节性因素影响的问题为例。如以上面第一季度存在季节性因素影响的问题为例。如果在这个例子中,使用虚拟变量果在这个例子中,使用虚拟变量把模型改为把模型改为:或那么新模型就不再存在误差项均值非那么新模型就不再存在误差项均值非0 0的问题,回归的问题,回归分析的效果就能得到保证。分析的效果就能得到保证。如如果果第第一一季季度度受受到到一一种种季季节节性性因因素素扰扰动动,第第三三季季度度受受到到另另一

26、一种种方方向向和和力力度度不不同同因因素素的的扰扰动动。那那么么可可以以引引进进两个虚拟变量两个虚拟变量 :把这两个虚拟变量同时引入模型,模型变为:把这两个虚拟变量同时引入模型,模型变为:或或新模型同样可以避免由于上述季节性扰动所导致的误新模型同样可以避免由于上述季节性扰动所导致的误差项均值非差项均值非0 0问题。问题。在在对对截截面面数数据据的的计计量量经经济济分分析析中中,观观测测对对象象特特征征差差异异导致的规律性扰动,也可以利用虚拟变量加以处理。导致的规律性扰动,也可以利用虚拟变量加以处理。虚拟变量模型虚拟变量模型 一、虚拟变量的基本含义一、虚拟变量的基本含义 二、虚拟变量的引入二、虚

27、拟变量的引入 三、虚拟变量的设置原则三、虚拟变量的设置原则一、虚拟变量的基本含义一、虚拟变量的基本含义许多经济变量是可以定量度量可以定量度量的,如:如:商品需求量、价格、收入、产量等但也有一些影响经济变量的因素无法定量度量无法定量度量,如:如:职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。 这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚虚拟拟变变量量(dummy variables),记为D。例如例如,反

28、映教育程度的虚拟变量可取为,反映教育程度的虚拟变量可取为: 1, 本科学历 D= 0, 非本科学历 一般地,在虚拟变量的设置中: 基础类型、肯定类型取值为基础类型、肯定类型取值为1; 比较类型,否定类型取值为比较类型,否定类型取值为0。概念:概念: 同同时时含含有有一一般般解解释释变变量量与与虚虚拟拟变变量量的的模模型型称称为为虚虚拟拟变变 量量 模模 型型 或或 者者 方方 差差 分分 析析 ( analysis-of variance: ANOVA)模型模型。 一个以性别为虚拟变量考察企业职工薪金的模型:其中:Yi为企业职工的薪金,Xi为工龄, Di=1,若是男性,Di=0,若是女性。 二

29、、虚拟变量的引入二、虚拟变量的引入 虚拟变量做为解释变量引入模型有两种基本方式:加法方式加法方式和乘法方式乘法方式。 企业男职工的平均薪金为:企业男职工的平均薪金为: 上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。 在该模型中,如果仍假定E(i)=0,则 企业女职工的平均薪金为:企业女职工的平均薪金为: 1 1、加法方式、加法方式几何意义:几何意义:假定20,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对工龄的变化率是一样的,但两者的平均薪金水平相差2。可以通过传统的回归检验,对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。02 又例又例:

30、在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。 教育水平考虑三个层次:高中以下, 高中, 大学及其以上 模型可设定如下: 这时需要引入两个虚拟变量: 在E(i)=0 的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的函数:高中以下: 高中: 大学及其以上: 假定32,其几何意义: 还可将多个虚拟变量引入模型中以考察多种还可将多个虚拟变量引入模型中以考察多种“定定性性”因素的影响。因素的影响。 如如在上述职工薪金的例中,再引入代表学历的虚拟变量D2:本科及以上学历本科以下学历职工薪金的回归模型可设计为:女职工本科以下学历的平均薪金:女职工本科以上学历的平均薪金:

31、于是,不同性别、不同学历职工的平均薪金分别为:男职工本科以下学历的平均薪金:男职工本科以上学历的平均薪金: 2 2、乘法方式、乘法方式加法方式引入虚拟变量,考察:截距的不同截距的不同,许多情况下:往往是斜率就有变化,或斜率、截或斜率、截距同时发生变化距同时发生变化。斜率的变化可通过以乘法的方式引入虚拟变量来斜率的变化可通过以乘法的方式引入虚拟变量来测度测度。 例例:根据消费理论,消费水平C主要取决于收入水平Y,但在一个较长的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。这里,虚拟变量D以与X相乘

32、的方式引入了模型中,从而可用来考察消费倾向的变化。假定E(i)= 0,上述模型所表示的函数可化为: 正常年份: 反常年份:如,设消费模型可建立如下: 当截距与斜率发生变化时,则需要同时引入加当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量法与乘法形式的虚拟变量。例例:考察1990年前后的中国居民的总储蓄-收入关系是否已发生变化。 表5.1.1中给出了中国19792001年以城乡储蓄存款余额代表的居民储蓄以及以GNP代表的居民收入的数据。 以Y为储蓄,X为收入,可令:1990年前: Yi=1+2Xi+1i i=1,2,n1 1990年后: Yi=1+2Xi+2i i=1,2,n2

33、则有可能出现下述四种情况中的一种:(1) 1=1 ,且2=2 ,即两个回归相同,称为重重合合回归回归(Coincident Regressions);(2) 11 ,但2=2 ,即两个回归的差异仅在其截距,称为平行回归平行回归(Parallel Regressions);(3) 1=1 ,但22 ,即两个回归的差异仅在其斜率,称为汇合回归汇合回归(Concurrent Regressions);(4) 11,且22 ,即两个回归完全不同,称为相相异回归异回归(Dissimilar Regressions)。这一问题可通过引入乘法形式的虚拟变量来解决。 将n1与n2次观察值合并,并用以估计以下回

34、归:Di为引入的虚拟变量:于是有:可分别表示1990年后期与前期的储蓄函数。 在统计检验中,如果4=0的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。具体的回归结果为:具体的回归结果为: (-6.11) (22.89) (4.33) (-2.55) 由3与4的t检验可知:参数显著地不等于0,强烈示出两个时期的回归是相异的, 储蓄函数分别为:储蓄函数分别为:1990年前:1990年后:=0.9836这一问题也可以用邹氏结构变化的检验(Chow test)来解决。具体方法是以怀疑发生结构(参数)变化的时点为界,把观测样本分为两组 。然后用两组子样本和全样本分别进行回归,其中K是模型(不包括常数项

35、)的解释变量个数,n1和n2分别是两个子样本的样本容量。 该统计量服从两个自由度为K+1和n1+n2-2K-2的F 分布。 因此,如果该F 统计量不大于相应自由度的F 分布临界值,说明有约束和无约束的两个回归残差平方和的差别不明显,模型结构(参数)并没有发生显著变化。反之则说明模型结构确实发生了明显变化。直接把1990年作为发生可能的结构变化的转折点,也就是把样本区间分为1979,1990和1991,2001两个区间。直接对这两个样本区间分别回归,得到两个残差平方和分别为2057709和179000000,因此邹检验的无约束残差平方和为181057709。整个样本区间回归的残差平方和,也就是邹

36、检验的受约束残差平方和为362000000。把这两个残差平方和与样本容量和模型解释变量数一起代入邹检验的F统计量,得到 显然,该统计量是显著的(大于临界值),可以认为模型的结构发生了变化。 3 3、临界指标的虚拟变量的引入、临界指标的虚拟变量的引入 在经济发生转折时期,可通过建立临界指标的虚拟变量模型来反映。 例例如如,进口消费品数量Y主要取决于国民收入X的多少,中国在改革开放前后,Y对X的回归关系明显不同。 这时,可以t*=1979年为转折期,以1979年的国民收入Xt*为临界值,设如下虚拟变量:则进口消费品的回归模型可建立如下:则进口消费品的回归模型可建立如下: OLS法得到该模型的回归方

37、程为法得到该模型的回归方程为则两时期进口消费品函数分别为:当tt*=1979年,当tt*=1979年,三、虚拟变量的设置原则三、虚拟变量的设置原则 虚拟变量的个数须按以下原则确定:虚拟变量的个数须按以下原则确定: 每一定性变量所需的虚拟变量个数要比该定性变每一定性变量所需的虚拟变量个数要比该定性变量的类别数少量的类别数少1,即如果有,即如果有m个类别,只在模型中引个类别,只在模型中引入入m-1个虚拟变量。个虚拟变量。 例例。已知冷饮的销售量Y除受k种定量变量Xk的影响外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引入三个虚拟变量即可:则冷饮销售量的模型为:在上述模型中,若再引入

38、第四个虚拟变量则冷饮销售模型变量为:其矩阵形式为: 如果只取六个观测值,其中春季与夏季取如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则式中的:了两次,秋、冬各取到一次观测值,则式中的: 显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。 这就是所谓的这就是所谓的“虚拟变量陷井虚拟变量陷井”,应避免。5.3 相关变量遗漏或包含无关变相关变量遗漏或包含无关变量量 相关变量的遗漏相关变量的遗漏无关变量的误选无关变量的误选遗漏相关变量偏误遗漏相关变量偏误包含无关变量偏误包含无关变量偏误检验是否含有无关变量检验是否含有无关变量检验是否有相

39、关变量的遗漏检验是否有相关变量的遗漏 1、相关变量的遗漏、相关变量的遗漏 (omitting relevant variables) 例如例如,如果“正确”的模型为而我们将模型设定为 即设定模型时漏掉了一个相关的解释变量。这类错误称为遗漏相关变量遗漏相关变量。 动态设定偏误动态设定偏误(dynamic mis-specification):遗漏相关变量表现为对Y或X滞后项的遗漏 。 2、无关变量的误选、无关变量的误选 (including irrevelant variables) 例如例如,如果 Y=0+1X1+2X2+仍为“真”,但我们将模型设定为 Y=0+ 1X1+ 2X2+ 3X3 +

40、即设定模型时,多选了一个无关解释变量。 3、遗漏相关变量偏误遗漏相关变量偏误 采用遗漏相关变量的模型进行估计而带来的偏误称为遗漏相关变量偏误遗漏相关变量偏误(omitting relevant variable bias)。 设正确的模型为 Y=0+1X1+2X2+却对 Y=0+ 1X1+v进行回归,得将正确模型 Y=0+1X1+2X2+ 的离差形式 代入得(1)如果漏掉的X2与X1相关,则上式中的第二项在小样本下求期望与大样本下求概率极限都不会为零,从而使得OLSOLS估估计量在小样本下有偏,在大样本下非一致计量在小样本下有偏,在大样本下非一致。 (2)如果X2与X1不相关,则1的估计满足无

41、偏性与一致性;但这时0的估计却是有偏的。 由 Y=0+ 1X1+v 得由 Y=0+1X1+2X2+ 得如果X2与X1相关,显然有如果X2与X1不相关,也有Why? 4、包含无关变量偏误、包含无关变量偏误 采用包含无关解释变量的模型进行估计带来的偏误,称为包含无关变量偏误包含无关变量偏误(including irrelevant variable bias)。 设 Y=0+ 1X1+v (*) 为正确模型,但却估计了 Y=0+1X1+2X2+ (*) 如果2=0,则(*)与(*)相同,因此,可将(*)式视为以2=0为约束的(*)式的特殊形式。 由于所有的经典假设都满足,因此对 Y=0+1X1+2

42、X2+ (*)式进行OLS估计,可得到无偏且一致的估计量。 但是,但是,OLS估计量却不具有最小方差性。估计量却不具有最小方差性。Y=0+ 1X1+v 中X1的方差:Y=0+1X1+2X2+ 中X1的方差: 当X1与X2完全线性无关时: 否则:注意:注意:5、检验是否含有无关变量、检验是否含有无关变量 可用可用t 检验与检验与F检验完成。检验完成。 检验的基本思想检验的基本思想: :如果模型中误选了无关变量,则其系数的真值应为零。因此,只须对无关变量系数的显著性进行检验。 t t检验检验:检验某1个变量是否应包括在模型中; F F检验检验:检验若干个变量是否应同时包括在模型中 6、检验是否有相

43、关变量的遗漏或函数、检验是否有相关变量的遗漏或函数形式设定偏误形式设定偏误 (1)残差图示法)残差图示法 残差序列变化图残差序列变化图(a)趋势变化)趋势变化 :模型设定时可能遗漏了一随着时间的推移而持续上升的变量 (b)循环变化:)循环变化:模型设定时可能遗漏了一随着时间的推移而呈现循环变化的变量 模型函数形式设定偏误时残差序列呈现正负模型函数形式设定偏误时残差序列呈现正负交替变化交替变化 图示:图示:一元回归模型中,真实模型呈幂函数形式,但却选取了线性函数进行回归。 (2)一般性设定偏误检验)一般性设定偏误检验 但更准确更常用的判定方法是拉姆齐(Ramsey)于1969年提出的所谓RESE

44、T 检验检验(regression error specification test)。 基本思想:基本思想: 如果事先知道遗漏了哪个变量,只需将此变量引入模型,估计并检验其参数是否显著不为零即可; 问题是不知道遗漏了哪个变量,需寻找一个替代变量Z,来进行上述检验。 RESET检验中,采用所设定模型中被解释变量Y的估计值的若干次幂来充当该“替代”变量。 例如例如,先估计 Y=0+ 1X1+v 得 再根据增加解释变量的增加解释变量的F F检验检验来判断是否增加这些“替代”变量。 若仅增加一个“替代”变量,也可通过t t检验检验来判断。 例如,例如,在一元回归中,假设真实的函数形式是非线性的,用泰

45、勒定理将其近似地表示为多项式: RESET检验也可用来检验函数形式设定偏误的检验也可用来检验函数形式设定偏误的问题。问题。 因此,如果设定了线性模型,就意味着遗漏了相关变量X12、 X13 ,等等。 因此,在一元回归中,可通过检验(*)式中的各高次幂参数的显著性来判断是否将非线性模型误设成了线性模型。(*) 对多元回归多元回归,非线性函数可能是关于若干个或全部解释变量的非线性,这时可按遗漏变量的按遗漏变量的程序进行检验程序进行检验。 例如,例如,估计 Y=0+1X1+2X2+但却怀疑真实的函数形式是非线性的。 这时,只需以估计出的的若干次幂为“替代”变量,进行类似于如下模型的估计再判断各“替代”变量的参数是否显著地不为零即可。 人有了知识,就会具备各种分析能力,明辨是非的能力。所以我们要勤恳读书,广泛阅读,古人说“书中自有黄金屋。”通过阅读科技书籍,我们能丰富知识,培养逻辑思维能力;通过阅读文学作品,我们能提高文学鉴赏水平,培养文学情趣;通过阅读报刊,我们能增长见识,扩大自己的知识面。有许多书籍还能培养我们的道德情操,给我们巨大的精神力量,鼓舞我们前进。结束结束

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号