线性回归问题与非线性回归分析

资源描述

《线性回归问题与非线性回归分析》由会员分享，可在线阅读，更多相关《线性回归问题与非线性回归分析（84页珍藏版）》请在金锄头文库上搜索。

1、第第3章章线性回归问题与非线性回线性回归问题与非线性回归分析归分析3.1 线性回归的常见问题线性回归的常见问题n n3.1.1 多重共线性n n3.1.2 异方差性n n3.1.3 自相关性 3.1.1 多重共线性多重共线性 1.1.概念概念i=1,2,n 其其基基本本假假设设之之一一是是解解释释变变量量之之间间不不存存在在完完全共线性。全共线性。如果某两个或多个解释变量之间出现了相关性,则称为多重共线性(Multicollinearity)。如果存在如果存在如果存在如果存在 c c1 1X X1 1i i+ +c c2 2X X2 2i i+c ck kX Xkiki=0 =0 i i

2、 =1,2,=1,2,n n 其中其中其中其中: : c ci i 不全为不全为不全为不全为0 0，则称为解释变量间存在完全共线性。，则称为解释变量间存在完全共线性。，则称为解释变量间存在完全共线性。，则称为解释变量间存在完全共线性。多重共线性在实际的多元线性回归分析尤其是涉及经济变里的模型中很常见。即在决定一个因变量的多个自变量中，有部分自变量呈高度相关，也就是说，这些变量被用来解释因变量时导致所提供的信息出现“重叠”。例如、模型中如果有多个自变量有共同的上升趋势，它们之间很可能有高度的相关关系导致共线性。实际经济问题中的多重共线性实际经济问题中的多重共线性（1 1 1 1）经济变量相关的

3、共同趋势）经济变量相关的共同趋势）经济变量相关的共同趋势）经济变量相关的共同趋势时间序列样本：经济繁荣时期，各基本经济时间序列样本：经济繁荣时期，各基本经济时间序列样本：经济繁荣时期，各基本经济时间序列样本：经济繁荣时期，各基本经济变量（收入、消费、投资、价格）都趋于增长；变量（收入、消费、投资、价格）都趋于增长；变量（收入、消费、投资、价格）都趋于增长；变量（收入、消费、投资、价格）都趋于增长；衰退时期，又同时趋于下降。衰退时期，又同时趋于下降。衰退时期，又同时趋于下降。衰退时期，又同时趋于下降。横截面数据：生产函数中，资本投入与劳动横截面数据：生产函数中，资本投入与劳动横截面数据：生产

4、函数中，资本投入与劳动横截面数据：生产函数中，资本投入与劳动力投入往往出现高度相关情况，大企业二者都大，力投入往往出现高度相关情况，大企业二者都大，力投入往往出现高度相关情况，大企业二者都大，力投入往往出现高度相关情况，大企业二者都大，小企业都小。小企业都小。小企业都小。小企业都小。（2 2 2 2）滞后变量的引入）滞后变量的引入）滞后变量的引入）滞后变量的引入在经济计量模型中，往往需要引入滞后经济变量来反在经济计量模型中，往往需要引入滞后经济变量来反映真实的经济关系。映真实的经济关系。例如，消费例如，消费=f(=f(当期收入当期收入, , 前期收入）前期收入）显然，两期收入间有较强的线性

5、相关性。显然，两期收入间有较强的线性相关性。（3 3 3 3）样本资料的限制）样本资料的限制）样本资料的限制）样本资料的限制由于完全符合理论模型所要求的样本数据较难收集，特由于完全符合理论模型所要求的样本数据较难收集，特由于完全符合理论模型所要求的样本数据较难收集，特由于完全符合理论模型所要求的样本数据较难收集，特定样本可能存在某种程度的多重共线性定样本可能存在某种程度的多重共线性定样本可能存在某种程度的多重共线性定样本可能存在某种程度的多重共线性一般经验：诊断方法诊断方法n n1.一些经验方法2.条件指数条件指数（condition index）可以用来判断多重共线性是否存在以及多重共

6、线性的严重程度，通常认为：n n 从条件指数可以看到，最大的条件数为从条件指数可以看到，最大的条件数为162.804162.804，说明自变，说明自变量间存在严重的共线性。量间存在严重的共线性。n n 如果有某几个自变量的方差比例值在某一行同时较大（接如果有某几个自变量的方差比例值在某一行同时较大（接近近1 1），则这几个自变量间就存在共线性。），则这几个自变量间就存在共线性。例例3.1 3.1 根据例根据例2.12.1计算特征值及条件指数计算特征值及条件指数多重共线性检验多重共线性检验SPSSSPSS 打开Linear Regression: Statistics子对话框，选择Colline

7、arity diagnostics(共线性诊断)，单击Continue返回主对话框并单击OK按钮。这样SPSS 便可输出所有检查多重共线性的指标。3.方差扩大因子法与特征根法比较，方差扩大因子法可以较准确地说明哪些变量与其他变量有严重的共线性，严重程度如何n n例例例例3.2 3.2 3.2 3.2 承接例承接例承接例承接例3.13.13.13.1，用方差扩大因子法检验，用方差扩大因子法检验，用方差扩大因子法检验，用方差扩大因子法检验 n n多重共线性检验多重共线性检验多重共线性检验多重共线性检验SPSSSPSSSPSSSPSSn n除除PMGPMG外，其他变量都与别的变量存在程度不同的外，

8、其他变量都与别的变量存在程度不同的共线性问题，其中共线性问题，其中MOBMOB的共线性最严重。的共线性最严重。克服多重共线性的方法 1.排除引起共线性的变量n n n n 找出引起多重共线性的解释变量，将它排除出去，找出引起多重共线性的解释变量，将它排除出去，找出引起多重共线性的解释变量，将它排除出去，找出引起多重共线性的解释变量，将它排除出去，是最为有效的克服多重共线性问题的方法。是最为有效的克服多重共线性问题的方法。是最为有效的克服多重共线性问题的方法。是最为有效的克服多重共线性问题的方法。n n 注意：注意：注意：注意：n n剩余解释变量参数的经济含义和数值都发生了变化。剩余解释变量参数

9、的经济含义和数值都发生了变化。剩余解释变量参数的经济含义和数值都发生了变化。剩余解释变量参数的经济含义和数值都发生了变化。例2.1 删去POP，再进行回归2.增大样本容量n n 由于多重共线性是一样本特征，故有可能由于多重共线性是一样本特征，故有可能在关于同样变量的另一样本中共线性没有第一个在关于同样变量的另一样本中共线性没有第一个样本那么严重。一般认为：解释变量之间的相关样本那么严重。一般认为：解释变量之间的相关程度与样本容量成反比，即样本容量越小，相关程度与样本容量成反比，即样本容量越小，相关程度越高；样本容量越大，相关程度越小。因此，程度越高；样本容量越大，相关程度越小。因此，收集更多观

10、测值，增加样本容量，就可以避免或收集更多观测值，增加样本容量，就可以避免或减轻多重共线性的危害。减轻多重共线性的危害。n n 在实践中，当我们所选的变量个数接近样在实践中，当我们所选的变量个数接近样本容量时，自变量间就容易产生共线性。所以，本容量时，自变量间就容易产生共线性。所以，我们在运用回归分析研究经济问题时，要尽可能我们在运用回归分析研究经济问题时，要尽可能使样本容量远大于自变量个数。使样本容量远大于自变量个数。3.差分法时间序列数据、线性模型：将原模型时间序列数据、线性模型：将原模型变换为差分模型变换为差分模型: : Y Yi i = = 1 1 X X1 1i i+ + 2 2 X

11、 X2 2i i + + + k k X Xkiki+ + i i 可以相对有效地消除原模型中的多可以相对有效地消除原模型中的多重共线性。重共线性。一般讲，增量之间的线性关系远比总量之间的线性关系弱得多。例如例如例如例如: : : :中国中国GDPGDP与居民消费与居民消费C C的总量与增量数据的总量与增量数据YearGDPCONSCONS/GDPGDPCONSCONS / GDP1980NA2976NANANANA1981490133090.675168NA333NA1982548936380.662785883290.5595241983607640210.6617845873830.6

12、52471984716446940.65522110886730.618566198587925773 0.65662162810790.66277619861013365420.64561313417690.57345319871178474510.63229816519090.55057519881470493600.636561292019090.653767198916466105560.641079176211960.678774199018320113620.62019718548060.434736199121280131460.617763296017840.602703199

13、225864159520.616765458428060.612129199334501201820.584969863742300.489753199447111272160.5776991261070340.557811199559405345290.5812471229473130.594843199668498401720.58647909356430.620587 由表中的比值可以直观地看到，增量的线性由表中的比值可以直观地看到，增量的线性由表中的比值可以直观地看到，增量的线性由表中的比值可以直观地看到，增量的线性关系弱于总量之间的线性关系，可以部分克服共线关系弱于总量之间的线性关系

14、，可以部分克服共线关系弱于总量之间的线性关系，可以部分克服共线关系弱于总量之间的线性关系，可以部分克服共线性的问题。性的问题。性的问题。性的问题。进一步分析：进一步分析： GDPGDPGDPGDP与与与与CONSCONSCONSCONS(-1)(-1)(-1)(-1)之间的可决系数为之间的可决系数为之间的可决系数为之间的可决系数为0.9880.9880.9880.988，GDPGDPGDPGDP与与与与CONSCONSCONSCONS(-1)(-1)(-1)(-1)之间的可决系数为之间的可决系数为之间的可决系数为之间的可决系数为0.7460.7460.7460.746 一般认为，两个变量之间

15、的可决系数大于一般认为，两个变量之间的可决系数大于一般认为，两个变量之间的可决系数大于一般认为，两个变量之间的可决系数大于0.80.80.80.8时，二者之间存在强烈的线性关系。时，二者之间存在强烈的线性关系。时，二者之间存在强烈的线性关系。时，二者之间存在强烈的线性关系。原模型和差分模型经过检验都具有多重共原模型和差分模型经过检验都具有多重共原模型和差分模型经过检验都具有多重共原模型和差分模型经过检验都具有多重共线性，但程度不同。线性，但程度不同。线性，但程度不同。线性，但程度不同。n n命令n nLs d(y) d(x1) d(x2) .d(xp)n nLs y-y(-1) x1-x1(

16、-1) x2-x2(-1)xp-xp(-1)4.重新定义方程n n比如可以在例2.1中考虑用人均汽油消费量、人均机动车数量、人均国民生产总值和油价这四个变量建模。取消原模型中的人口数变量。由于减少了变量，也就降低了发生共线性的可能性。5.回归系数的有偏估计n n岭回归法n n主成分法n n偏最小二乘法n n差分法 n n 1. 1.异方差的概念异方差的概念即即对对于于不不同同的的样样本本点点，随随机机误误差差项项的的方方差差不不再是常数，则认为出现了再是常数，则认为出现了异方差性异方差性。n n 3.1.2 3.1.2 异方差性异方差性n n异方差就是对同方差假设的违反。经典回归中同异方差

17、就是对同方差假设的违反。经典回归中同方差是指随着样本观察点方差是指随着样本观察点X X的变化，线性模型中的变化，线性模型中随机误差项随机误差项的方差并不改变，保持为常数，的方差并不改变，保持为常数，即即 i=1,2,ni=1,2,nn n如果的数值对不同的样本观察值各不相同，则称如果的数值对不同的样本观察值各不相同，则称随机误差项具有异方差，即随机误差项具有异方差，即 n n 常数常数 i=1,2,n i=1,2,n n n n n为什么会产生这种异方差性呢？为什么会产生这种异方差性呢？n n一方面是因为随机误差项包括了测量误差和模型一方面是因为随机误差项包括了测量误差和模型中被省略的一些因

18、素对因变量的影响，另一方面中被省略的一些因素对因变量的影响，另一方面来自不同抽样单元的因变量观察值之间可能差别来自不同抽样单元的因变量观察值之间可能差别很大。很大。因此，异方差性多出现在横截面样本之中。因此，异方差性多出现在横截面样本之中。至于时间序列，则由于因变量观察值来自不同时至于时间序列，则由于因变量观察值来自不同时期的同一样本单元，通常因变量的不同观察值之期的同一样本单元，通常因变量的不同观察值之间的差别不是很大，所以异方差性一般不明显。间的差别不是很大，所以异方差性一般不明显。 2.异方差性的后果n n n n1 1 1 1. . . .参数估计量非有效参数估计量非有效参数估计量非有

19、效参数估计量非有效n n2.2.2.2.变量的显著性检验失去意义变量的显著性检验失去意义变量的显著性检验失去意义变量的显著性检验失去意义n n3.3.3.3.模型的预测失效模型的预测失效模型的预测失效模型的预测失效3.异方差性的检验n n图示检验法n n White异方差性检验图示检验法图示检验法(残差图形态及判别残差图形态及判别)(a)(a)满意模式满意模式残残差差x x0 0一般认为，如果回归方程满足所给出的基本假设，所有残差应该在e0的附近随机变化，并在变化不大的一条带子内。图a中的残差都落在变化不大的一条带子内，也就可以说明回归模型满足基本假设。残差图残差图(形态及判别形态及判别)(b

20、)(b)非常数方差非常数方差残残残差差差x x0 00当回归模型满足所有假定时，残差图上的散点应该是随机的，无任何规律。如果回归模型存在异方差时，残差图上的散点呈现出相应的趋势。当然，如果存在异方差，也可能随着x的增加而减少。图b的情况表明，残差图上的散点随着x的增加而增加。n n 例2.1 GNP与残差散点图，存在异方差。从残差图可以看出，误差项具有明显的异方差性，误差随着自变量的增加而增加White异方差性检验 EViews EViews显示两个检验统计量：显示两个检验统计量：显示两个检验统计量：显示两个检验统计量： F F统计量和统计量和统计量和统计量和 Obs*R2 Obs*R2 统计

21、量。统计量。统计量。统计量。WhiteWhite检验的原假设：不存在异方差性检验的原假设：不存在异方差性检验的原假设：不存在异方差性检验的原假设：不存在异方差性n n方程对象窗口方程对象窗口: :n nView/Residual Test/Heteroskasticity/WhiteView/Residual Test/Heteroskasticity/White 例例例例3.3 3.3 3.3 3.3 对例对例对例对例2.12.12.12.1进行怀特检验进行怀特检验进行怀特检验进行怀特检验回归方程的回归方程的 White White 异方差检验的结果：异方差检验的结果：该结果该结果F F

22、统计量和统计量和 Obs*RObs*R2 2 统计量的统计量的P P值均很小，值均很小，表明拒绝原假设，即残差存在异方差性。表明拒绝原假设，即残差存在异方差性。 4.异方差性的修正方法(1)加权最小二乘法(WLS)Weighted Least Squares加权最小二乘法的基本思想加权最小二乘法是对原模型加权，使之变成一个新的不存在异方差性的模型，然后采用普通最小二乘法估计其参数。例如，在递增异方差下，对来自较小Xi的子样本，其真实的总体方差较小，Yi与回归线拟合值之间的残差ei的信度较大，应予以重视; 而对较大Xi的子样本，由于真实总体的方差较大，残差反映的信息应打折扣。加权最小二乘

23、法就是对加了权重的残差平方和加权最小二乘法就是对加了权重的残差平方和实施实施OLS法：法：对较小的残差平方ei2赋予较大的权数，对较大的残差平方ei2赋予较小的权数。尝试一些m值，如m= -2, -1.5, -1, -0.5, 0, 0.5, 1, 1.5, 2等，建立不同的模型，然后选择其中表现最好的模型。例3.4 承接例2.1和例3.3 ls qmg c mob pmg gnpgenr w=gnp-1.5 或series 点击options 选加权最小二乘法，然后再进行Harvey检验。结果各统计量在0.05显著性水平下都无法拒绝原假设，说明异方差问题得到较好的解决。寻找最优权函

24、数利用SPSS软件可以确定（6.6）式幂指数m的最优取值。对例6.3的数据，依次点选Analyze-Regression-Weight Estimation进入估计权函数对话框，默认的幂指数m的取值为m=-2.0，-1.5，-1.0，-0.5，0，0.5，1.0，1.5，2.0，这一默认值可以更改。先将因变量y与自变量x选入各自的变量框，再把x选入Weight变量框，幂指数（Power）取默认值，计算结果如下（格式略有变动）：对异方差问题的处理至今没有什么更好的方法，对异方差问题的处理至今没有什么更好的方法，一些方法的处理效果往往不甚明显，所以此例能一些方法的处理效果往往不甚明显，所以此例能有

25、所改进也就不错了。有所改进也就不错了。3.1.3 自相关性一、自相关的概念一、自相关的概念自相关（自相关（auto correlationauto correlation），又称序列相关（），又称序列相关（serial serial correlationcorrelation）是指总体回归模型的随机误差项之间存在）是指总体回归模型的随机误差项之间存在相关关系。即不同观测点上的误差项彼此相关。相关关系。即不同观测点上的误差项彼此相关。即即: : 二、自相关产生的原因二、自相关产生的原因大多数经济时间数据都有一个明显的特点大多数经济时间数据都有一个明显的特点: :惯性，惯性，表现在时间序列不同

26、时间的前后关联上。表现在时间序列不同时间的前后关联上。 1 1 1 1、经济变量固有的惯性、经济变量固有的惯性、经济变量固有的惯性、经济变量固有的惯性如如GDP、价格、就业等经济指标都会随经济系、价格、就业等经济指标都会随经济系统的周期而波动。例如，在经济高涨时期，较高的统的周期而波动。例如，在经济高涨时期，较高的经济增长率会持续一段时间，而在经济衰退期，较经济增长率会持续一段时间，而在经济衰退期，较高的失业率也会持续一段时间，这种现象就会表现高的失业率也会持续一段时间，这种现象就会表现为经济指标的自相关现象。为经济指标的自相关现象。滞后效应是指某一指标对另一指标的影响不滞后效应是指某一指

27、标对另一指标的影响不滞后效应是指某一指标对另一指标的影响不滞后效应是指某一指标对另一指标的影响不仅限于当期而是延续若干期。由此带来变量的自仅限于当期而是延续若干期。由此带来变量的自仅限于当期而是延续若干期。由此带来变量的自仅限于当期而是延续若干期。由此带来变量的自相关。相关。相关。相关。例如，居民当期可支配收入的增加，不会使例如，居民当期可支配收入的增加，不会使例如，居民当期可支配收入的增加，不会使例如，居民当期可支配收入的增加，不会使居民的消费水平在当期就达到应有水平，而是要居民的消费水平在当期就达到应有水平，而是要居民的消费水平在当期就达到应有水平，而是要居民的消费水平在当期就达到应有水

28、平，而是要经过若干期才能达到。因为人的消费观念的改变经过若干期才能达到。因为人的消费观念的改变经过若干期才能达到。因为人的消费观念的改变经过若干期才能达到。因为人的消费观念的改变客观上存在自适应期。客观上存在自适应期。客观上存在自适应期。客观上存在自适应期。2.2.经济活动的滞后效应经济活动的滞后效应 3 3 3 3、模型设定的偏误、模型设定的偏误、模型设定的偏误、模型设定的偏误所谓模型设定偏误（所谓模型设定偏误（Specification error）是指）是指所设定的模型所设定的模型“不正确不正确”。主要表现在模型中丢掉。主要表现在模型中丢掉了重要的解释变量或模型函数形式有偏误。了重要的

29、解释变量或模型函数形式有偏误。例如例如，本来应该估计的模型为，本来应该估计的模型为 Yt= 0+ 1X1t+ 2X2t + 3X3t + t但在模型设定中做了下述回归：但在模型设定中做了下述回归： Yt= 0+ 1X1t+ 1X2t + vt因此，因此， vt= 3X3t + t，如果，如果X3确实影响确实影响Y，则，则出现出现序列相关。序列相关。三、诊断方法三、诊断方法n n1.杜宾-瓦森（Durbin-Watson）检验n n2.LM检验1.1.杜宾杜宾- -瓦森（瓦森（Durbin-WatsonDurbin-Watson）检验）检验 DW DW DW DW 检验是检验是检验是检验是J

30、.Durbin(J.Durbin(J.Durbin(J.Durbin(杜宾杜宾杜宾杜宾) ) ) )和和和和G.S.Watson(G.S.Watson(G.S.Watson(G.S.Watson(沃特森沃特森沃特森沃特森) ) ) )于于于于1951195119511951年提出的一种适用于小样本的检验方法。年提出的一种适用于小样本的检验方法。年提出的一种适用于小样本的检验方法。年提出的一种适用于小样本的检验方法。DWDWDWDW检验只检验只检验只检验只能用于检验随机误差项具有一阶自回归形式的自相关问能用于检验随机误差项具有一阶自回归形式的自相关问能用于检验随机误差项具有一阶自回归形式的自相关

31、问能用于检验随机误差项具有一阶自回归形式的自相关问题。这种检验方法是建立经济计量模型中最常用的方法，题。这种检验方法是建立经济计量模型中最常用的方法，题。这种检验方法是建立经济计量模型中最常用的方法，题。这种检验方法是建立经济计量模型中最常用的方法，一般的计算机软件都可以计算出一般的计算机软件都可以计算出一般的计算机软件都可以计算出一般的计算机软件都可以计算出DW DW DW DW 值。值。值。值。随机误差项的一阶自回归形式为：随机误差项的一阶自回归形式为：为了检验序列的相关性，构造的原假设是：为了检验序列的相关性，构造的原假设是：为了检验上述假设，构造为了检验上述假设，构造DW统计量首先要求

32、出统计量首先要求出回归估计式的残差回归估计式的残差定义定义DW统计量为统计量为：（无一阶自相关）（无一阶自相关）由由可得可得DW 值与值与的对应关系如表所示。的对应关系如表所示。 4(2, 4)2(0, 2)0-1(-1, 0)0(0, 1)1DW误差项的相关性完全负自相关负自相关无自相关正自相关完全正自相关由上述讨论可知由上述讨论可知DW的取值范围为：的取值范围为： 0DW根据样本容量根据样本容量和解释变量的数目和解释变量的数目 (不包括常数不包括常数项项)查查DW分布表，得临界值分布表，得临界值和和，然后依下，然后依下列准则考察计算得到的列准则考察计算得到的DW值，以决定模型

33、的自值，以决定模型的自相关状态。相关状态。DW检验决策规则检验决策规则误差项误差项间存在间存在负相关负相关不能判定是否有自相关不能判定是否有自相关误差项误差项间间无自相关无自相关不能判定是否有自相关不能判定是否有自相关误差项误差项间存在间存在正相关正相关用坐标图更直观表示用坐标图更直观表示DW检验规则检验规则：不不能能确确定定正正自自相相关关无无自自相相关关不不能能确确定定负负自自相相关关420缺陷缺陷n nD.W.D.W.检验检验n n 该方法有三点不足：（该方法有三点不足：（1 1）存在无法作出判断）存在无法作出判断的区域；（的区域；（2 2）如果模型中存在因变量的滞后项，）如果模

34、型中存在因变量的滞后项，检验失败；（检验失败；（3 3）只对一阶自相关的检验有效，不）只对一阶自相关的检验有效，不能检验是否有高阶自相关。能检验是否有高阶自相关。 3 3、拉格朗日乘数（、拉格朗日乘数（Lagrange multiplierLagrange multiplier）检验）检验拉格朗日乘数检验（拉格朗日乘数检验（LM检验检验) )克服了克服了DW检验的缺检验的缺陷，适合于高阶序列相关以及模型中存在滞后被解释陷，适合于高阶序列相关以及模型中存在滞后被解释变量的情形。变量的情形。如果怀疑随机扰动项存在如果怀疑随机扰动项存在p阶序列相关：阶序列相关：提出原假设为：提出原假设为： H0

35、: 1= 2= p =0 （无自相关）（无自相关）根据观测量根据观测量nR2的的P值可以值可以做出判断，做出判断，实际检验中，实际检验中，可从可从1阶、阶、2阶、阶、逐次向更高阶检验。逐次向更高阶检验。不妨设含有高阶扰动项和滞后项的方程形式为：不妨设含有高阶扰动项和滞后项的方程形式为：n nLMLM检验操作检验操作n n原假设：不存在从一阶到原假设：不存在从一阶到p p阶的自相关阶的自相关n n方程对象窗口：方程对象窗口：n nView/Residual Test/Serial Correlation LM Test View/Residual Test/Serial Correlatio

36、n LM Test n n例例2.12.1（存在自相关）（存在自相关）n n 3.3.自相关的处理自相关的处理n n 当一个回归模型存在序列相关性时，其参数估计当一个回归模型存在序列相关性时，其参数估计不能用普通的最小二乘法。这时需要对原始数据进行不能用普通的最小二乘法。这时需要对原始数据进行一些变换，使得变换后的数据为样本所建的模型不存一些变换，使得变换后的数据为样本所建的模型不存在序列相关性。通常有以下几种处理方法。在序列相关性。通常有以下几种处理方法。（1 1）迭代法）迭代法n n 差分法就是用增量数据代替原来的样本数据，将原来的回差分法就是用增量数据代替原来的样本数据，将原来的回归模型

37、变为差分形式的模型。归模型变为差分形式的模型。n n或根据式或根据式（2）重新定义模型）重新定义模型n n新定义的模型可能避免序列自相关新定义的模型可能避免序列自相关n n例例3.53.5n nls qmg/qmg(-1)-1=c(1)+c(2)*(mob/mob(-1)-1)+c(3)*(pmg/pmgls qmg/qmg(-1)-1=c(1)+c(2)*(mob/mob(-1)-1)+c(3)*(pmg/pmg(-1)-1)+c(4)*(pop/pop(-1)-1)+c(5)*(gnp/gnp(-1)-1)(-1)-1)+c(4)*(pop/pop(-1)-1)+c(5)*(gnp/gnp

38、(-1)-1)n n采用优化方法，模型最后为采用优化方法，模型最后为n nqmg/qmg(-1)- 1=c(1)+c(2)*(mob/mob(-1)-1)+c(3)*(pmg/pmgqmg/qmg(-1)- 1=c(1)+c(2)*(mob/mob(-1)-1)+c(3)*(pmg/pmg(-1)-1)(-1)-1)n nLMLM检验在检验在p=1,2,3p=1,2,3时，均不能拒绝原假设，说明残差时，均不能拒绝原假设，说明残差项无序列自相关，新模型较好地解决了序列自相关项无序列自相关，新模型较好地解决了序列自相关问题。问题。3.2 非线性回归分析非线性回归分析n n 3.2.1 3.2.1

39、非线性模型非线性模型非线性模型指的是关于参数或自变量是非线非线性模型指的是关于参数或自变量是非线性函数的模型。在某些情形下，可以通过一定的性函数的模型。在某些情形下，可以通过一定的变换线性化将这些非线性模型作为线性模型处理。变换线性化将这些非线性模型作为线性模型处理。这类模型称为可线性化的非线性模型。这类模型称为可线性化的非线性模型。3.2 非线性回归分析非线性回归分析（1 1）线性化不涉及参数。线性化不涉及参数。n n有许多非线性模型通过对变量进行直接变换，可以线性化。有许多非线性模型通过对变量进行直接变换，可以线性化。这类模型这类模型. .及变换如表所示。及变换如表所示。这类变换的共同

40、点是原模型的是变换本身不涉及模型参数，这类变换的共同点是原模型的是变换本身不涉及模型参数，对变换后得到的模型，其参数估计就是原模型的参数估计。化对变换后得到的模型，其参数估计就是原模型的参数估计。化为线性模型后，可对线性模型直接进行为线性模型后，可对线性模型直接进行OLSOLS估计，按变换后的估计，按变换后的方程估计，得到的参数估计值就是原模型的参数估计值。方程估计，得到的参数估计值就是原模型的参数估计值。（2）线性化涉及参数（3）不可线性化模型n n表表3.103.10中的模型有三个待估计的参数，这些参数中的模型有三个待估计的参数，这些参数的任何一个均无法事先通过经验或历史数据得到的任何一个

41、均无法事先通过经验或历史数据得到时，不能将其线性化。时，不能将其线性化。n n表表3.10 3.10 一些不能线性化的模型一些不能线性化的模型3.2.2 3.2.2 非线性最小二乘法非线性最小二乘法n n乘性误差形式：乘性误差形式：n n加性误差形式：加性误差形式：n n如果采用乘性误差形式，则可按可线性化处理，如果采用加如果采用乘性误差形式，则可按可线性化处理，如果采用加性误差形式，则无法线性化，只能用非线性最小二乘法来估性误差形式，则无法线性化，只能用非线性最小二乘法来估计，这会导致处理结果与线性模型处理结果存在差异。计，这会导致处理结果与线性模型处理结果存在差异。n n 用非线性最小二乘

42、法参数估计操作与普通最小二乘法基本相用非线性最小二乘法参数估计操作与普通最小二乘法基本相同，只是在方程估计窗口或命令行中，模型必须以方程式的同，只是在方程估计窗口或命令行中，模型必须以方程式的形式出现，没有简化形式。如方程式为：形式出现，没有简化形式。如方程式为： ls y=c(1)*kc(2)*lc(3)ls y=c(1)*kc(2)*lc(3)ls y=c(1)*kc(2)*lc(3)ls y=c(1)*kc(2)*lc(3)n n在较为复杂的情况下，非线性最小二乘法无法求出精确解，在较为复杂的情况下，非线性最小二乘法无法求出精确解，需要采用迭代法。需要采用迭代法。 3.2.3 3.2.3

43、应用实例应用实例例例例例3.63.63.63.6（表（表（表（表3.113.113.113.11）n n表表3. 1 3. 1 是某企业是某企业1616个月的某产品产量和单位成本个月的某产品产量和单位成本资料，研究二者关系资料，研究二者关系n n为了明确产量和单机为了明确产量和单机成本是何种关系，先成本是何种关系，先绘制散点图如图绘制散点图如图3.33.3所示所示n n选择双曲线模型选择双曲线模型n n第一种方式：对线性化模型实施线性最小二乘估计第一种方式：对线性化模型实施线性最小二乘估计第一种方式：对线性化模型实施线性最小二乘估计第一种方式：对线性化模型实施线性最小二乘估计n n命令：命令

44、：命令：命令：n nSeries x1=1/xSeries x1=1/xn nLs y c x1Ls y c x1n n还可以：还可以：n nls y c inv(x)ls y c inv(x)n nls y c 1/xls y c 1/xn n第二种方式：直接对原模型实施非线性最小二乘第二种方式：直接对原模型实施非线性最小二乘第二种方式：直接对原模型实施非线性最小二乘第二种方式：直接对原模型实施非线性最小二乘估计估计估计估计n n命令：命令： ls y=c(1)+c(2)/xls y=c(1)+c(2)/x 例例3.73.7（表（表3.133.13）n n乘性误差形式：乘性误差形式：n n加

45、性误差形式：加性误差形式：n nls log(y) c log(k) log(l) ls log(y) c log(k) log(l) 线性化方法线性化方法线性化方法线性化方法n nls y=c(1)*kc(2)*lc(3) ls y=c(1)*kc(2)*lc(3) 非线性化方法非线性化方法非线性化方法非线性化方法n n两者本质上是两个模型两者本质上是两个模型n n此外，两者模型中此外，两者模型中L L的回归系数均未通过显著性检验。的回归系数均未通过显著性检验。n n因为因为L L、K K两者相关系数太大，两者存在非常强的共线两者相关系数太大，两者存在非常强的共线性。性。例例3.73.7n

46、n在实践中，常用在实践中，常用来简化这个模型，来简化这个模型，如果满足这个条件，则如果满足这个条件，则CDCD函数变为：函数变为：模型简化为：是人均产量，是人均资本投入例例3.7（表（表3.133.13）n n问题是这个条件问题是这个条件是否成立？是否成立？n n要进行要进行WaldWald检验。检验。n n原假设：原假设：原假设：原假设：c(2)+c(3)=1,c(2)+c(3)=1,即即即即1 1 1 1n n在模型在模型log(y)= c(1)+c(2)*log(k)+ c(3)*log(l)log(y)= c(1)+c(2)*log(k)+ c(3)*log(l)的基础的基础上

47、检验。上检验。n nView/Coefficient Test/WaldView/Coefficient Test/Waldn n输入输入c(2)+c(3)=1c(2)+c(3)=1n n由此可知，在由此可知，在0.050.05的显著性水平下，的显著性水平下，F F统计量不能统计量不能拒绝原假设，卡方统计量的收尾概率也近似拒绝原假设，卡方统计量的收尾概率也近似0.050.05。因此约束条件基本可以接受。因此约束条件基本可以接受。例例3.73.7n n估计方程n n线性化后参数估计 ls log(y/l) c log(k/l)n n非线性化最小二乘估计 ls y/l=c(1)*(k/l)c(2)

48、n n估计结果差不多，线性化模型略好，采用这个模型估计结果差不多，线性化模型略好，采用这个模型n n还原后为：还原后为：n nScalar co=exp(-0.69388)Scalar co=exp(-0.69388)不可线性化模型不可线性化模型名称名称模型模型LogisticLogisticCompertzCompertzWeibullWeibully yt t=k/(1+ae=k/(1+ae-bt-bt) )y yt t=ka=kab bt tyt=k-abyt=k-abt tc ct、c均为上上标例：例：例：例：设消费函数为非线性形式：设消费函数为非线性形式：其其中：中：cscst

49、 t 是实际居民消费，是实际居民消费，incinct t 是实际可支配收入。利是实际可支配收入。利用用19591959年第一季度（年第一季度（1959Q11959Q1）至）至19791979第四季度（第四季度（1979Q41979Q4）的人）的人均消费支出（均消费支出（cs)cs)和人均可支配收入（和人均可支配收入（incinc）共）共8484个观察值数据个观察值数据估计此非线性方程。估计此非线性方程。由于用迭代法计算，首先要赋初值，比如可以设由于用迭代法计算，首先要赋初值，比如可以设 3 3的估计值的估计值b b3 3初值是初值是1 1，则可以利用，则可以利用OLSOLS估计值，然后，非线

50、性方程估计。估计值，然后，非线性方程估计。3.2.4 3.2.4 3.2.4 3.2.4 确定非线性模型形式的方法和模型的比较确定非线性模型形式的方法和模型的比较确定非线性模型形式的方法和模型的比较确定非线性模型形式的方法和模型的比较非线性模型的形式复杂多样，如何根据实际的数据选非线性模型的形式复杂多样，如何根据实际的数据选择合适的模型，是建模的关键。总的说来可参考下面的择合适的模型，是建模的关键。总的说来可参考下面的. .方方法法: :n n 1. 1.根据散点图来确定类型。确定类型一般是把样本观根据散点图来确定类型。确定类型一般是把样本观测位画成散点图，由散点图的形状来大体确定模型类型。

51、测位画成散点图，由散点图的形状来大体确定模型类型。n n 2.2.根据一定的经济知识背景。如商品的销售量与广告根据一定的经济知识背景。如商品的销售量与广告费用之间的关系，一般用费用之间的关系，一般用S S型曲线来描述，这足由于广告费型曲线来描述，这足由于广告费用只有在一定范围内用只有在一定范围内. .才会对销售量有明显的影响。才会对销售量有明显的影响。n n 有时对一个问题需要用不同的模型来拟合，以找到效有时对一个问题需要用不同的模型来拟合，以找到效果最好的一个。需要对它们进行比较。首先应从经济学角果最好的一个。需要对它们进行比较。首先应从经济学角度考虑，因为数据分析的目的是解释经济现象，所以

52、要重度考虑，因为数据分析的目的是解释经济现象，所以要重视经济学理论和行为规律提供的理由。其次从统计分析角视经济学理论和行为规律提供的理由。其次从统计分析角度比较。最重要的是残差分析。如果模型的残差平方和最度比较。最重要的是残差分析。如果模型的残差平方和最小，并且看起来残差最随机化，则这样的模型应当被选择。小，并且看起来残差最随机化，则这样的模型应当被选择。3.3 逐步回归法逐步回归法n n3.3.1 3.3.1 单向前进逐步回归单向前进逐步回归n n单向前进逐步回归法（单向前进逐步回归法（ Uni-directional-ForwardsUni-directional-Forwards ）的思

53、想）的思想是变量由少到多，每次增加一个最重要的变量，即利是变量由少到多，每次增加一个最重要的变量，即利用回归系数用回归系数p p值最小（等价地，值最小（等价地，t t统计量最大）的准则，统计量最大）的准则，直至没有引入的变量为止。直至没有引入的变量为止。n n例例3.83.8（表（表3.173.17）n n(1)(1)在工作在工作栏中选择栏中选择Quick/Estimate EquationQuick/Estimate Equation 或选择或选择Object/New Object/EquationObject/New Object/Equationn n(2)(2)在在MethodMet

54、hod中选择中选择STEP LS-Stepwise Least SquaresSTEP LS-Stepwise Least Squaresn n(3)(3)在上框中输入因变量及始终包含的自变量，在下框中输入在上框中输入因变量及始终包含的自变量，在下框中输入自变量序列。自变量序列。n n(4)(4)点击点击OptionsOptions，在方法框中选择，在方法框中选择Uni-directional-ForwardsUni-directional-Forwardsn n(5)(5)设置参数：显著性水平设置参数：显著性水平a=0.1a=0.1，回归量的最大数目为，回归量的最大数目为8 8，其他，其他选

55、项采用默认形式。选项采用默认形式。n n(5)(5)预测。点击预测。点击EquationEquation对象工具栏中对象工具栏中ForecastForecast，或选择，或选择Proc/ Proc/ ForecastForecastn n3.3.1 单向后退逐步回归n n单向后退逐步回归（单向后退逐步回归（ Uni-directional-Backwards Uni-directional-Backwards ）与）与前进法相反，先用前进法相反，先用mm个自变量建立一个回归方程，然个自变量建立一个回归方程，然后在这后在这mm个变量中选择一个最不重要的变量，即利用个变量中选择一个最不重要的变量，

56、即利用回归系数回归系数p p值最大（等价地，值最大（等价地，t t统计量最小）的准则，统计量最小）的准则，将它从方程中删除。将它从方程中删除。n n在方法栏中选择在方法栏中选择BackwardsBackwards，将显著性水平，将显著性水平a a仍然设仍然设为为0.10.1，回归方程中所包含的回归量最小数目设为，回归方程中所包含的回归量最小数目设为1 1，其他选项采用默认形式。其他选项采用默认形式。n n预测预测n n3.3.3 前进逐步回归（Stepwise-Foreward）n n前进逐步回归是单向前进逐步回归和单向后退逐步回前进逐步回归是单向前进逐步回归和单向后退逐步回归的结合。归的结合

57、。n n注意：引入自变量的显著性水平注意：引入自变量的显著性水平a a进进应不小于剔除变量应不小于剔除变量的显著性水平的显著性水平a a出出，否则，产生死循环。，否则，产生死循环。n n例例3.103.10（承接例（承接例8 8）n n在方法下拉菜单中选择在方法下拉菜单中选择StepwiseStepwise，选择，选择ForewardForeward，n n a a进进=0.15=0.15， a a出出=0.10=0.10，回归方程所包含的回归量最大数，回归方程所包含的回归量最大数目为目为8 8n n所得结果与例所得结果与例3.83.8相同。相同。n n3.3.4 后退逐步回归（Stepwis

58、e-Backward）n n后退逐步回归也是单向前进逐步回归和单向后退逐后退逐步回归也是单向前进逐步回归和单向后退逐步回归的结合，只是与前进逐步回归方向相反。步回归的结合，只是与前进逐步回归方向相反。n n注意：引入自变量的显著性水平注意：引入自变量的显著性水平a a进进应不小于剔除变应不小于剔除变量的显著性水平量的显著性水平a a出出，否则，产生死循环。，否则，产生死循环。n n例例3.113.11（承接例（承接例8 8）n n在方法下拉菜单中选择在方法下拉菜单中选择StepwiseStepwise，选择，选择Backward，n n a a进进=0.05=0.05， a a出出=0.10=

59、0.10，回归方程所包含的回归量最小，回归方程所包含的回归量最小数目为数目为1 1。n n所得结果与例所得结果与例3.93.9相同。相同。n n3.3.5 最大R2增量逐次交换回归（Swapwise-max R-squared increnment）n n例例3.123.12（承接例（承接例8 8）n n在方法下拉菜单中选择在方法下拉菜单中选择SwapwiseSwapwise，选择最大，选择最大R R2 2增增量（量（max R-squared increnmentmax R-squared increnment）选项，回归方程所）选项，回归方程所包含的回归量最大数目为包含的回归量最大数目为3

60、 3，其他默认形式。，其他默认形式。n n所得结果与例所得结果与例3.83.8相同。相同。n n3.3.6 最小R2增量逐次交换回归（Swapwise-min R-squared increnment）n n例例3.133.13（承接例（承接例8 8）n n在方法下拉菜单中选择在方法下拉菜单中选择SwapwiseSwapwise，选择最小，选择最小R R2 2增增量（量（min R-squared increnmentmin R-squared increnment）选项，回归方程所）选项，回归方程所包含的回归量最大数目为包含的回归量最大数目为3 3，其他默认形式。，其他默认形式。n n所得结果与例所得结果与例3.83.8相同。相同。n n3.3.7 组合逐步回归n n例例3.143.14（承接例（承接例8 8）n n在方法下拉菜单中选择在方法下拉菜单中选择SwapwiseSwapwise，回归方程所包，回归方程所包含的回归量数目为含的回归量数目为5 5，其他默认形式。，其他默认形式。

展开阅读全文

线性回归问题与非线性回归分析

最新文档