第第4章章 违背基本假设的几种情况违背基本假设的几种情况2022/10/1114.1 异方差性产生的背景和原因 4.2 一元加权最小二乘估计4.3 多元加权最小二乘估计4.4 自相关性问题及其处理 4.5 BOX-COX变换4.6 异常值与强影响点 4.7 本章小结与评注 中国人民大学六西格玛质量管理研究中心第第4章章 违背基本假设的几种情况违背基本假设的几种情况2022/10/112Gauss-Markov条件条件 中国人民大学六西格玛质量管理研究中心误差项具有相误差项具有相同的方差,且同的方差,且不相关不相关4.1 异方差性产生的背景和原因异方差性产生的背景和原因 2022/10/1134.1.1 异方差异方差产产生的原因生的原因例例4-1 居民收入与消费水平有着密切的关系用xi表示第i户的收入量,yi表示第i户的消费额,一个简单的消费模型为:yi=0+1xi+i i=1,2,n低收入的家庭购买差异性比较小,高收入的家庭购买行为差异就很大,导致消费模型的随机项i具有不同的方差中国人民大学六西格玛质量管理研究中心4.1 异方差性产生的背景和原因异方差性产生的背景和原因 2022/10/1144.1.2 异方差性异方差性带带来的来的问题问题 当存在异方差时,普通最小二乘估计存在以下问题:(1)参数估计值虽是无偏的,但不是最小方差线性无偏估计;(2)参数的显著性检验失效;(3)回归方程的应用效果极不理想。
中国人民大学六西格玛质量管理研究中心4.2 一元加权最小二乘估计一元加权最小二乘估计 2022/10/1154.2.1 异方差性的异方差性的检验检验(一)残差(一)残差图图分析法分析法 图2-5(b)存在异方差中国人民大学六西格玛质量管理研究中心4.2 一元加权最小二乘估计一元加权最小二乘估计 2022/10/1164.2.1 异方差性的异方差性的检验检验(二)等(二)等级级相关系数法相关系数法等级相关系数检验法又称斯皮尔曼(Spearman)检验,是一种应用较广泛的方法这种检验方法既可用于大样本,也可用于小样本,检验有三个步骤第一步,做y关于x的普通最小二乘回归,求出i的估计值,即ei的值中国人民大学六西格玛质量管理研究中心4.2 一元加权最小二乘估计一元加权最小二乘估计 2022/10/1174.2.1 异方差性的异方差性的检验检验(二)等(二)等级级相关系数法相关系数法第二步,取ei的绝对值,分别把xi和|ei|按递增(或递减)的次序分成等级,按下式计算出等级相关系数:其中,n为样本容量,di为对应于xi和|ei|的等级的差数中国人民大学六西格玛质量管理研究中心4.2 一元加权最小二乘估计一元加权最小二乘估计 2022/10/1184.2.1 异方差性的异方差性的检验检验(二)等(二)等级级相关系数法相关系数法第三步,做等级相关系数的显著性检验。
在n8的情况下,用下式对样本等级相关系数rs进行t检验检验统计量为:如果|t|t/2(n-2)可认为异方差性问题不存在;如果|t|t/2(n-2),说明xi与|ei|之间存在系统关系,异方差性问题存在中国人民大学六西格玛质量管理研究中心4.2 一元加权最小二乘估计一元加权最小二乘估计 2022/10/119例例4-3 设某地区的居民收入与储蓄额的历史统计数据见下页表4-11)用普通最小二乘法建立储蓄y与居民收入x的回归方程,并画出残差散点图;(2)诊断该问题是否存在异方差性中国人民大学六西格玛质量管理研究中心4.2 一元加权最小二乘估计一元加权最小二乘估计 2022/10/1110中国人民大学六西格玛质量管理研究中心2022/10/11中国人民大学六西格玛质量管理研究中心11data4.3-read.csv(D:/data4.3.csv,head=TRUE)lm4.3-lm(yx,data=data4.3)#建立回归方程summary(lm4.3)e2.045,认为残差绝对值与自变量显著相关,误差项存在异方差中国人民大学六西格玛质量管理研究中心(2)计算等级相关系数方法一:手工计算首先由表4-1中计算的di可得 ,然后,代入等级相关系数的计算公式得2022/10/11中国人民大学六西格玛质量管理研究中心144.2 一元加一元加权权最小二乘估最小二乘估计计(2)计算等级相关系数。
方法二:使用R软件计算首先需要计算出残差绝对值,然后以cor.test 语句进行 Spearman 等级相关性检验,计算代码及输出结果如下:abse-abs(e)#计算残差 e 的绝对值cor.test(data4.3$x,abse,alternative=two.sided“,method=spearman”)#记号$用来选取数据框中的某个特定变量等级相关系数等级相关系数P值值0.05拒拒绝绝原假原假设设4.2 一元加权最小二乘估计一元加权最小二乘估计 2022/10/1115 Spearman等级相关系数可以反映非线性相关的情况,Pearson简单相关系数不能反映非线性相关的情况例如,x与y的取值见下表,具有完全的曲线相关关系容易计算出y与x的简单相关系数r=0.9746,而y与x的等级相关系数rs=1,说明等级相关系数可以如实反映单调递增或单调递减趋势变量间的相关性中国人民大学六西格玛质量管理研究中心序号序号12345678910 x12345678910y1491625364964811004.2 一元加权最小二乘估计一元加权最小二乘估计 2022/10/1116 4.2.2 一元加一元加权权最小二乘估最小二乘估计计消除异方差性的方法通常有:加权最小二乘法,Box-Cox变换法(参考文献1)方差稳定性变换法加权最小二乘法(Weighted Least Square,简记为WLS)是一种最常用的消除异方差性的方法。
中国人民大学六西格玛质量管理研究中心4.2 一元加权最小二乘估计一元加权最小二乘估计 2022/10/11174.2.2 一元加一元加权权最小二乘估最小二乘估计计一元线性回归普通最小二乘法的残差平方和为:一元线性回归的加权最小二乘的离差平方和为:中国人民大学六西格玛质量管理研究中心4.2 一元加权最小二乘估计一元加权最小二乘估计 2022/10/1118 加权最小二乘估计为:中国人民大学六西格玛质量管理研究中心其中,是自变量的加权平均;是因变量的加权平均4.2 一元加权最小二乘估计一元加权最小二乘估计 2022/10/1119在实际问题中,误差项的方差是未知的,常与自变量x的幂函数xm成比例,其中m是待定的未知参数此时权函数为所以误差项的方差较大的观测值接受较小的权数;误差项的方差较小的观测值接受较大的权数中国人民大学六西格玛质量管理研究中心为了消除异方差的影响,观测值的权数应该是观测值误差项方差的倒数,即4.2 一元加权最小二乘估计一元加权最小二乘估计 2022/10/11204.2.3 寻寻找最找最优权优权函数函数寻找最优的权函数,即为确定 m 的取值,使回归方程最优一般情况下,幂指数m的取值为-2.0,-1.5,-1.0,-0.5,0,0.5,1.0,1.5,2.0,也可以根据实际情况对其进行调整。
此处我们以对数似然统计量作为衡量回归方程优劣的标准,计算不同的m值对应的对数似然值,取使其最大者中国人民大学六西格玛质量管理研究中心利用利用R软软件确定件确定幂幂指数指数m的最的最优优取取值值2022/10/11中国人民大学六西格玛质量管理研究中心21利用利用R软软件确定件确定幂幂指数指数m的最的最优优取取值值的的计计算代算代码码如下:如下:4.2 一元加一元加权权最小二乘估最小二乘估计计 s-seq(-2,2,0.5)#生成序列-2.0,-1.5,-1.0,1.5,2.0result1-vector(length=9,mode=list)#生成一个列表向量,以存储下面循环过程中的回归方程估计的对数似然统计量结果result2-vector(length=9,mode=list)#生成一个列表向量,以存储下面循环过程中所建立回归方程的估计系数及显著性检验等结果for(j in 1:9)w-data4.3$x(-sj)#计算权向量 lm4-lm(yx,weights=w,data4.3)#使用加权最小二乘法建立回归方程 result1j-logLik(lm4)#将第 j 次计算的对数似然统计量保存在 result1 的第 j 个元素中 result2j-summary(lm4)#将 j 次建立的回归方程的结果保存在 result2 的第 j 个元素中result1#输出所有的对数似然统计量4.2 一元加权最小二乘估计一元加权最小二乘估计 2022/10/1122 中国人民大学六西格玛质量管理研究中心运行上述代码,得到输出结果如下,从结果中可看出第8个对数似然估计的值是最大的,对应的m=1.5。
2022/10/11中国人民大学六西格玛质量管理研究中心234.2 一元加一元加权权最小二乘估最小二乘估计计 输出result2中保存的第8个回归模型的结果,可看到R2=0.935 9,F值=423.7;而普通最小二乘估计的 R2=0.912,F值=300.7这说明加权最小二乘估计的效果好于普通最小二乘估计的效果4.2 一元加权最小二乘估计一元加权最小二乘估计 2022/10/1124 图图4-2 加加权权最小二乘残差最小二乘残差图图残差残差图图中国人民大学六西格玛质量管理研究中心比较图 4-1 普通残差图和图 4-2 加权最小二乘残差图,我们可能看不出两张图之间的差异这是否表明加权最小二乘回归没有达到效果?4.2 一元加权最小二乘估计一元加权最小二乘估计 2022/10/1125中国人民大学六西格玛质量管理研究中心进一步计算出31组数据的普通残差 ei 和加权最小二乘残差 eiw,比较两者数值的差异,由此来说明加权最小二乘法的作用这个例子共有 31 对数据,把数据分为 3 组,第 110 对数据为第 1 组,是小方差组;第 1121 对数据为第 2 组,是中等方差组;第 2231 对数据为第 3 组,是大方差组。
残差数值列于下面三页)序号yixiwieieiw小方差组126487771.2161E-06169211210592101.1314E-06-271439099541.0069E-06-105-664131105089.2837E-07-111-745122109798.6927E-07-159-1246107119127.6917E-07-253-2217406127476.9485E-07-2548503134996.3760E-078359431142695.8669E-07-129-10510588155225.1710E-07-78-584.2 一元加权最小二乘估计一元加权最小二乘估计 2022/10/1126中国人民大学六西格玛质量管理研究中心 序号yixiwieieiw中等方差组11898167304.6212E-0713014612950176634.2599E-0710311613779185753.9501E-07-146-13514819196353.6346E-07-195-188151222211633.2481E-077880161702228802.8895E-07413409171578241272.6684E-07183176181654256042.4408E-07134122191400265002.3181E-07-195-211201829276702.1726E-07134115212200283002.1005E-074524314.2 一元加权最小二乘估计一元加权最小二乘估计 2022/10/1127中国人民大学六西格玛质量管理研究中心 序号yixiwieieiw大方差组222017274302.2012E-07343324232105295601.9676E-07250225。