第10讲 异方差检查10.1 同方差假定模型的假定条件⑴ 给出Var(u) 是一种对角矩阵, Var(u) = s 2I = s 2 (10.1)且u的方差协方差矩阵主对角线上的元素都是常数且相等,即每一误差项的方差都是有限的相似值(同方差假定);且非主对角线上的元素为零(非自有关假定),当这个假定不成立时,Var(u) 不再是一种纯量对角矩阵 Var(u) = s 2 W = s 2¹s 2 I (10.2) 当误差向量u的方差协方差矩阵主对角线上的元素不相等时,称该随机误差系列存在异方差,即误差向量u中的元素ut 取自不同的分布总体非主对角线上的元素表达误差项之间的协方差值例如 W 中的 si j与s 2的乘积 ,(i ¹ j)表达与第i组和第j组观测值相相应的ui与 uj的协方差若 W 非主对角线上的部分或所有元素都不为零,误差项就是自有关的本章讨论异方差以两个变量为例,同方差假定如图10.1和10.2所示对于每一种xt值,相应ut的分布方差都是相似的。
图10.1 同方差情形 图10.2 同方差情形10.2 异方差体现与来源异方差一般有三种体现形式,(1)递增型,(2)递减型,(3)条件自回归型递增型异方差见图10.3和10.4图10.5为递减型异方差图10.6为条件自回归型异方差 图10.3 递增型异方差情形 图10.4 递增型异方差 图10.5 递减型异方差 图10.6 复杂型异方差(1) 时间序列数据和截面数据中均有也许存在异方差2) 经济时间序列中的异方差常为递增型异方差金融时间序列中的异方差常体现为自回归条件异方差无论是时间序列数据还是截面数据递增型异方差的来源重要是由于随着解释变量值的增大,被解释变量取值的差别性增大 10.3 异方差的后果回归参数估计量仍具有无偏性和一致性但是回归参数估计量不再具有有效性10.4 异方差检查10.4.1 定性分析异方差 (1) 经济变量规模差别很大时容易浮现异方差如个人收入与支出关系,投入与产出关系。
(2) 运用散点图做初步判断 (3) 运用残差图做初步判断 10.4.2 异方差检查(1) White检查White检查由H. White 1980年提出Goldfeld-Quandt 检查必须先把数据按解释变量的值从小到大排序Glejser检查一般要试拟合多种回归式White检查不需要对观测值排序,也不依赖于随机误差项服从正态分布,它是通过一种辅助回归式构造 c2 记录量进行异方差检查White检查的具体环节如下以二元回归模型为例,yt = b0 +b1 xt1 +b2 xt2 + ut (10.3)①一方面对上式进行OLS回归,求残差②做如下辅助回归式,= a0 +a1 xt1 +a2 xt2 + a3 xt12 +a4 xt22 + a5 xt1 xt2 + vt (10.4)即用对原回归式中的各解释变量、解释变量的平方项、交叉积项进行OLS回归注意,上式中要保存常数项求辅助回归式(5.10)的可决系数R2③White检查的零假设和备择假设是 H0: (5.9)式中的ut不存在异方差, H1: (5.9)式中的ut存在异方差④在不存在异方差假设条件下记录量 T R 2 ~ c 2(5) (10.5)其中T表达样本容量,R2是辅助回归式(10.4)的OLS估计式的可决系数。
自由度5表达辅助回归式(10.4)中解释变量项数(注意,不计算常数项)T R 2属于LM记录量⑤鉴别规则是若 T R 2 £ c2a (5), 接受H0 (ut 具有同方差)若 T R 2 > c2a (5), 回绝H0 (ut 具有异方差)(2)Glejser检查 检查 || 与否与解释变量xt存在函数关系若有,则阐明存在异方差;若无,则阐明不存在异方差一般应检查的几种形式是 || = a0 + a1 xt || = a0 + a1 xt2 || = a0 + a1, ….Glejser检查的特点是:① 既可检查递增型异方差,也可检查递减型异方差② 一旦发现异方差,同步也就发现了异方差的具体体现形式③ 计算量相对较大④ 当原模型具有多种解释变量值时,可以把 || 拟合成多变量回归形式3) 自回归条件异方差(ARCH)检查 异方差的另一种检查措施称作自回归条件异方差 (ARCH) 检查这种检查措施不是把原回归模型的随机误差项st 2 看作是xt 的函数,而是把st 2 看作误差滞后项ut-12 , ut-22 , … 的函数。
ARCH是误差项二阶矩的自回归过程恩格尔(Engle 1982)针对ARCH过程提出LM检查法辅助回归式定义为= a0 + a1 + … + a n (10.6)LM记录量定义为 ARCH = T R 2 ~ c 2(n) 其中R 2是辅助回归式(10.6)的可决系数在H0:a1 = … = an = 0 成立条件下,ARCH渐近服从 c 2(n) 分布ARCH检查的最常用形式是一阶自回归模型(n = 1), = a0 + a1 在这种情形下,ARCH渐近服从 c 2(1) 分布 10.5 克服异方差的措施 (1)对模型 yt = b0 + b1 xt1 + b2 xt2 + ut (10.7)假定异方差形式是Var(ut) = (s xt1)2由于Var(ut) = E(ut)2,相称于觉得 || = s xt)用xt1同除上式两侧得 yt / xt1 = / xt1 ++ b2 xt2 / xt1 + ut / xt1 , (10.8)由于Var(ut / xt1) = (1/ xt12 ) Var(ut) = (1/ xt12 ) s 2 xt12 = s 2, (10.8) 式中的随机项 (ut / xt) 是同方差的。
对 (10.8) 式做OLS估计后,把回归参数的估计值代入原模型 (10.7)对 (10.8) 式应用OLS法估计参数,求 S (ut / xt1) 2 最小其实际意义是在求 S (ut / xt1)2 最小的过程中给相应误差项分布方差小的观测值以更大的权数因此此法亦称为加权最小二乘法,是GLS估计法的一种特例2)通过对数据取对数消除异方差图10.7 菲律宾GDP和对数的GDP 图10.8中国进出口贸易额差(1953-1998, file: pap1)和对数的中国进出口贸易额之差问题:(1)1.2E+12表达什么含义?(2)LNEXT-LNIMP为什么不能改为LN(EXT-IMP)?10.6 案例分析【案例1】(file:hete01,hete02)取1986年中国29个省市自治区农作物种植业产值yt(亿元)和农作物播种面积xt(万亩)数据研究两者之间的关系得估计的线性模型如下, yt = -5.6610 + 0.0123 xt (10.10) (12.4) R2 = 0.85, F = 155.0, T = 29无论是从yt和xt观测值的散点图(见图10.9)还是模型的残差图(见图10.10)都可以发现数据中存在异方差。
图10.9 农作物产值yt和播种面积xt (file:hete01) 图10.10 残差图(file:hete02)(1)用White措施检查与否存在异方差在上式回归的基本上,做White检查得,注意:输出成果中的概率是指c2 (2)记录量取值不小于8.02的概率为0.018示意如下图 由于TR2 = 8.02 > c2a (2) = 6,因此存在异方差2)用Glejser措施检查与否存在异方差下面克服异方差对yt和xt同取对数得两个新变量Lnyt 和Lnxt(见图10.11)用Lnyt 对Lnxt 回归,得 Lnyt = - 4.1801 + 0.9625 Lnxt . (10.13) (16.9) R2 = 0.91, F = 285.6, (t = 1, …, 29) 图10.11 Ln yt和 Ln xt 图10.12 残差图经White检查不存在异方差。
由于TR2 = 2.58 < c20.05 (2) = 6.0,因此不存在异方差 (文献:Statis)⑶ 用Glejser法检查异方差用 (10.10) 式, yt = -5.6610 + 0.0123 xt, 的残差的绝对值对xt回归 || = 0.0024 xt (8.0) R2 = 0.22可见误差项的异方差形式是Var(ut) = E(ut)2 = 5.76´10-6 xt2克服异方差的措施是用xt分别除(10.10) 式两侧,得变换变量yt* = yt / xt,xt* = 1 / xt用yt* 对xt* 回归(见图10.13),得 yt* = 0.0113 + 0.8239 xt* (10.14) (13.8) (0.8) R2 = 0.63, F = 46.1 图10.13 yt* 和 xt* 图10.14 残差图注意,回归系数0.8239没有明显性,截距项0.0113却有很强的明显性,而0.0113正是还原后模型的回归系数,因此模型通过检查。
把yt* = yt / xt,xt* = 1 / xt代入上式并整顿得广义最小二乘估计成果如下: yt = 0.8239 + 0.0113 xt (10.15) (0.8) (13.8) R2 =。