浅谈加权最小二乘法及其残差图

资源描述

《浅谈加权最小二乘法及其残差图》由会员分享，可在线阅读，更多相关《浅谈加权最小二乘法及其残差图（10页珍藏版）》请在金锄头文库上搜索。

1、1浅谈加权最小二乘法及其残差图关键词：异方差；加权最小二乘法；残差图；SPSS一、引言好几年没有翻统计研究了。最近，有一同行朋友打电话告诉我统计研究2005年第 11 期上刊登了一篇有关我与刘文卿合作编著的应用回归分析（2001.6.中国人民大学出版社）教材的文章。赶紧找到这期的统计研究，看到其中孙小素副教授的文章加权最小二乘法残差图问题探讨与何晓群教授商榷一文，以下简称孙文。认真拜读后感触良多。首先衷心感谢孙小素副教授阅读了我们应用回归分析拙作的部分章节，同时感谢统计研究给我们提供这样一个好的机会，使我们能够借助贵刊对加权最小二乘法的有关问题谈谈更多的认识。孙文谈到应用回归分析教材中有

2、关加权最小二乘法残差图的问题。摆出了与加权最小二乘法相关的三类残差图，指出第三类残差图的局限性。直接的问题是三类残差图的作用，而更深层的原因应该是对加权最小二乘法统计思想的理解和认识上的差异。二、对加权最小二乘法的认识1. 加权最小二乘估计方法拙作应用回归分析中对加权最小二乘法有详尽的讲述，这里仅做简要介绍。多元线性回归方程普通最小二乘法的离差平方和为：（1）ni ipiip xxyQ1 21010 )(),( 普通最小二乘估计就是寻找参数的估计值使式（1）的离p,10 p,10差平方和达极小。式（1）中每个平方项的权数相同，是普通最小二乘回归参数估计方法。在误差项等方差不相关的条件下

3、，普通最小二乘估计是回归参数的最小方差线性无i偏估计。然而在异方差的条件下，平方和中的每一项的地位是不相同的，误差项的方差i大的项，在式（1）平方和中的取值就偏大，在平方和中的作用就大，因而普通最小二2i乘估计的回归线就被拉向方差大的项，方差大的项的拟合程度就好，而方差小的项的拟合程度就差。由式（1）求出的仍然是的无偏估计，但不再是最p,10 p,10小方差线性无偏估计。加权最小二乘估计的方法是在平方和中加入一个适当的权数，以调整各项在平方iw和中的作用，加权最小二乘的离差平方和为：（2）ni ipiipw xxywQ1 21010 )( ),( 2加权最小二乘估计就是寻找参数的估计

4、值使式（2）的离差p,10 pww,10平方和达极小。所得加权最小二乘经验回归方程记做wQ（3）pwwwxxy10理论上最优的权数为误差项方差的倒数,即i 2i（4）21ii误差项方差大的项接受小的权数，以降低其在式（2）平方和中的作用; 误差项方差小的项接受大的权数，以提高其在平方和中的作用。由（2）式求出的加权最小二乘估计就是参数的最小方差线性无偏估计。pww,10 p,10一个需要解决的问题是误差项的方差是未知的,因此无法真正按照式（4）选取权数。2i在实际问题中误差项方差通常与自变量的水平有关,可以利用这种关系确定权数。例如2i与第 j 个自变量取值的平方成比例时 ,即

5、=k 时,这时取权数为2i2iijx （5）21ijiw更一般的情况是误差项方差与某个自变量取值的幂函数成比例，即 =k2ijxmijx2i,其中 m 是待定的未知参数。此时权数为ijx（6）mijixw1这时确定权数的问题转化为确定幂参数 m 的问题，可以借助 SPSS 软件解决。应iw用回归书中和孙文中都讲了这个方法，本文不再重述。需要注意的是，在实际问题中比例关系 =k 只是近似的，式（6）确定的权数只是式（4）最优权数的近似值，2imijx iw因此所得的参数最小二乘估计也只是近似的最小方差线性无偏估计。 2. 变量变换的加权最小二乘法孙文中谈到：加权最小二乘法的实质是要

6、对原始数据实施变换，获得新的解释变量和被解释变量，变换的方法是：（表示变换后的被解释变量）（7）2mjxy3，h=0,1,2,p （是对应于原始变量的新解释变量）（8）2mjhx hx hx对变换后的变量（）重新进行普通最小二成估计（注意，此处的回归py,10模型不包含常数项，增加了数据变换后派生出的一个新解释变量），即可得到加20mjx权最小二乘法的经验回归方程：（9）pwwwxxy 10以上是孙文中对加权最小二乘法的解释，其中公式（7）、（8）、（9）分别对应孙文中的公式（3）、（4）、（5）。3. 两种方法的异同相同之处。显然，式（3）与式（9）两个回归

7、方程是等价的，把式（3）同时乘以后就转化为式（9）。2mjxw不同之处。首先，式（3）的回归方程使用起来比pwwwxxy10较方便，因为利用该回归方程进行预测和控制时，无须按式（8）变换自变量的新值，直接将自变量的新值代入式（3）即可。对这一点孙小素副教授也是认同的。其实，所有方法的优劣评价根本就在于他是否方便于建模最终的应用。其次，虽然两种加权回归方法所得的回归方程是等价的，但是对回归效果的拟合优度和检验是不同的，式（3）的加权最小二乘的总离差平方和、回归离差平方和、残差平方和的计算公式和关系为：（10） ni niiwwiniwi eyy112212)()(其中是用加权的算术平均

8、数。wyii由于式（9）的变换加权最小二乘回归方程不含常数项，所以不满足离差平方和分解式，而是对直接的平方和满足分解式，总平方和、回归平方和、残差平方和的计算公式和关系为：（11）niniwni ey112212等价于（12）niniiwiwni ey112212对不含常数项的普通最小二乘回归，SPSS 软件就是用上述公式计算平方和并进而计算判定系数和做 F 检验的。然而，这种做法的合理性是有欠缺的，因为总平方和2R不能如实反映因变量的变差，仅是为了满足平方和分解式而这样做，有削足适履的niy14嫌疑。另外一种做法是以作为总离差平方和，把作为回niy12)( ni niwiey1122

9、)(归离差平方和，而不使用作为回归离差平方和，Excel 软件不含常数项（即niiw12)(指定常数项为零）的普通最小二乘回归就是采用的这个方法。对孙文所引用的应用回归分析例题，有关的计算结果见表 1（a）（d）。从表中可以清楚看出用变换加权最小二乘法计算离差平方和存在明显的问题，判定系数和2R检验统计量 F 严重失真。对同样的数据做变换加权最小二乘估计，市面上流行的不同软件的拟合优度检验却差别很大，SPSS 软件计算出的 F=442.2， =0.968；Excel 软件计算出2R的 F=74.26， =0.837。对其他数值就不逐一对比了。2R表1（a）普通最小二乘方差分析表（ S

10、PSS）来源平方和自由度均方 F 显著性 R2回归 18440108 1 18440108 300.7 7.53E-17 0.912残差 1778202 29 61317 总计 20218311 30 表1（b）加权最小二乘方差分析表（SPSS）来源平方和自由度均方 F 显著性 R2回归 6.655 1 6.655 423.7 7.51E-19 0.936残差 0.455 29 0.0157 总计 7.110 30 表1（c）变换加权最小二乘方差分析表（SPSS）来源平方和自由度均方 F 显著性 R2回归 13.891 2 6.945 442.2 1.88E-22 0.9

11、68残差 0.455 29 0.0157 总计 14.346 31 表1（d ）变换加权最小二乘方差分析表（Excel）来源平方和自由度均方 F 显著性 R2回归 2.332 2 1.166 74.26 6.39E-12 0.837残差 0.4554 29 0.0157总计 2.788 31 针对上述问题，变换加权最小二乘法实际上常用于式（5）成立的情况，即 m=2，此5时变换后的自变量 1，回归参数就相当于回归常数项了，对变换后的数据就可以用jxj含有常数项的普通最小二乘估计方法，各种统计软件对变换加权最小二乘法回归的拟合优度检验的输出结果就都一致了。遗憾的是，即使是在这种特殊情况

12、下也仍然与直接用加权最小二乘估计方法不一致，这只需仔细比较两种情况的总离差平方和公式和niiy12)(的差异即可。niwiy12)(这种通过变换变量求解加权最小二乘估计方法的作用是什么呢？引用文献1第 180 页的一段文字给予解释：“许多回归软件包允许用户有选择地使用具体的权数进行加权最小二乘分析。如果不能选择，通过对观察值的具体变换，使用不加权的最小二乘法，仍能得到加权最小二乘估计量。 ”可见通过变换变量求解加权最小二乘估计的方法仅是作为参数估计的一种计算手段而存在的，如果你使用的软件仅具有普通最小二乘功能，就只能用变换变量的方法求解加权最小二乘的参数估计。应用回归分析教材是结合 SPS

13、S 软件编写的，而 SPSS 软件允许用户直接使用权数进行加权最小二乘分析，不必通过变换变量的方法求解加权最小二乘估计，因此我们在教材中没有给出这种通过变换变量求解加权最小二乘估计的方法。纵上所述，在拥有像 SPSS 这种能够直接计算加权最小二乘估计的软件时，就不必使用变换变量求解加权最小二乘估计的方法了。即使使用的是变换变量求解加权最小二乘估计的方法，也应该把式（9）变换回式（3）的形式，用来直接表示出原始变量之间的关系。因此孙文把式（9）称为加权最小二乘法的经验回归方程就显然不合适了。我们也没有见到其他的文献用这个称法。三、三类残差图的作用以残差为纵坐标轴以自变量（或回归值）为横坐标轴画

14、的散点图就是残差图。孙文y中的三类残差图如下：1. 普通残差图。指用原始数据对线性回归模型做普通最小二乘估计所得的普通残差所做的残差图，也就是孙文中所称的第一类残差图。ie2. 加权普通残差图。其残差是用原始数据做加权最小二乘估计所得的普通残差（在孙文中记做），也就是孙文中所称的加权派生残差图，或第三类残差图。wwe3. 加权变换残差图。其残差是用变换数据做加权最小二乘估计所得的普通残差（在孙文中记做），也就是孙文中所称的加权残差图，或第二类残差图。we we的计算方法有两种，第一种方法是用式（ 9）的变换加权最小二乘法得到，第二种方法是把加权普通残差乘以得到，即。we2mjx

15、2mjwwxee拙作应用回归分析一书中重点讲述的是普通残差图的作用，可以从直观上判断回归模型是否存在异方差性，还可以进一步用普通残差的绝对值与自变量计算等级相关系数，6做相关性检验来判断是否存在异方差性。在教材正文中对加权残差图只是给出了软件绘制的方法和图形，并没有对图形结果做任何文字说明和评价。由于考虑有些初学者可能会产生误解，我们在教材第 121 页“本章小结与评注”中对加权残差图做了简要解释，引述如下：“从残差图来看，普通最小二乘估计只能照顾到残差大的项，而小残差项往往有整体的正偏或负偏。加权最小二乘估计的残差图，对大残差和小残差拟合的都好，大残差和小残差都没有整体的正偏或负偏。 ” 以上这段文字指出了加权残差图的作用，如果在普通残差图中小残差有整体的正偏或负偏，而在加权普通残差图中得到明显的改善，这就说明加权最小二乘估计是显著有效的。两种残差图在应用回归分析和孙文中都已给出，本文就不重复绘制图形了，而是把三种残差的具体数值列在表 2 中，说明加权普通残差的作

展开阅读全文