残差分析在回归模型诊断中的应用_梁跃武

上传人:小** 文档编号:93325019 上传时间:2019-07-19 格式:PDF 页数:3 大小:200.58KB
返回 下载 相关 举报
残差分析在回归模型诊断中的应用_梁跃武_第1页
第1页 / 共3页
残差分析在回归模型诊断中的应用_梁跃武_第2页
第2页 / 共3页
残差分析在回归模型诊断中的应用_梁跃武_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《残差分析在回归模型诊断中的应用_梁跃武》由会员分享,可在线阅读,更多相关《残差分析在回归模型诊断中的应用_梁跃武(3页珍藏版)》请在金锄头文库上搜索。

1、中国卫生统计 9191 年第 8 卷第 2 斯 实例分析 残差分析在回归模型诊断中的应用 同济医科大学环境医学统计教研室 梁跃武 林琼芳 宋瑞砚 * 人们在用最小二乘法研究线性回归模 型 = X月 +习时, 为了使常数项 a 和 回归系数月为 无偏估计 , 且具有方差最小性 , 而要求随机误 差 。 满足 E ( 。 ) 二 。 和 Gu a s s 一 M arkov 假定 C OV ( 。 ) 二 。 “ I , 并在探讨其假设检验和 区间 估计时 , 假设了 。 服从正态分布 , 即。 N(O , a ZI ) 的重要条件 。 换句话说 , 只有在随机 误差满足方差齐性和正态分布和情况下

2、 , 才能 得到精度较高自如和月的估计 。 因此 , 当取得一 组实测数据时 , 这组数据是否符合上述假设 , 就成为一个重要的间题 。 人们曾试图用确定系 数(或相关系数) 、 F 检验或 t 检验等方法来检 验这一间题 , 但理论和实践表明上述检验结果 并不理想 。 为此 , 从6 0年代起F . J . As n c omb e 和J 。 W . T uk e y等学者作了许 多工作 , 建立了 以残差分析为基础的一些方法 “ 。 7 0年代以 来 , 随着计算机的普及 , 残差分析得到了迅速 发展 , 而被认为是回归间题的一个组成部分 。 本文拟结合实例讨论残差分析在回归模型诊断 中的

3、一些应用问题 , 即 当用一组数据建立 回归 模型时 , 如何考察它是否满足模型所要求的假 设条件及如何加以校正和补救 。 因变量y的关系 , 人们引进了偏残差 e;i二e;+ 尽iX i 。 此外 , 还有学生化残差等 。 以某种残差为纵坐标 , 其它变量为横坐标 作散点图 , 即残差图 忿 。 它是残差分析的重要 方法之 一 。 通 常横坐标的选择有三种 : ( 1 )因 变量的拟合值Y , (2)自变量 X , ( j = 1 , 2 , P);(3)当因变量的观侧值为一时间序列 时 , 横坐标可取观测时间或观测序号 。 根据残 差图的分布趋势可以帮助判明所拟合的线性模 型是否满足有关假

4、设 。 如残差 e是否近似正态 分布 , 是否方差齐 , 变量间是否有其它非线性 关系及是否还有重要自变量未进入模型等 。 当判 明有某种假设条件欠缺时 , 进一步的 问题就是加以校正或补救 。 需分析具体情况 , 探素合适的校正方案 , 如非线性处理 , 引入新 自变量 , 或考察误差是否有自相关性等 。 实例分析 例 1 : 起初仅将表 1中某病可疑病因学因 素X : 、 X :、 X 3 与发病水平 Y 引入线性回归 裹 1 某病病因学因素X i及发病水平Y X : X : X 3 X 一 Y 0 0on 0 0 0 . 了,孟,二,人门了2O U 1孟 古.二,人 0 0 0 00 0

5、 0 on 0 U 00 . 八U2 0 ,.。 曰 2 6 J吮 2 丹0 4 勺12 6 524 6JO4 22 丹口 ,占,人 残差分析 所谓 “ 残差 ”, 即因变量的实际观测值与其 回归估计值的差 ,。* 二 Y 一 Y “= 1 , 2 , , ) n 。 如果回归模型正确的 话 , 我们可以将残差 e看 作误差 e的观测值 。 它应符合模型的假设 条件 , 且具有误差 e的一些性状 。 利用残差所 提供的信息来考察模型假设的合理性及数据的 可靠性称为残差分析 。 残差有多种形式 , 上述 e= Y ;一 Y 为 普 通残差 。 为了更深入地 研究某自变量 X , 与 。 O 。

6、O 。 O 。 O 6 。 O 1 5。0 8 。 O 8 。 0 6 。 0 9 。 O 1 7。O 2 2 。 O 18。0 4 。 0 23。0 9一O 8 。 0 73 。 5 74 。 3 1 04。3 87。6 日6。9 1 09。2 1 0 2。7 72。5 9 3。1 11 5。9 8 3。8 113 。 3 109。4 丹O口2 6 1工J口 22 勺血口勺 5 n nn甘0 on : ,孟 2 .孟,人,孟 0 2 j .人,几 工 4 t了 n6 8 勺曰匕 4 4 碗b s 同济医科大学环境毒理教研室 50 入 犷 模 型 , 得到回归方程 Y 二 169 . 24一0

7、 。 50 5X 一 1 . 2 99X : 一1 . 153X s 对该模型进行残差分析 。 以y为横坐标 , 普通残差 e 为纵坐标作残差 图(图1 一 a ) 。 从中 看出 , 散点分布呈弧状趋势 , 据一般规律 , 可 能有重要自变量遗漏 吕 。 当增加自变量 X 后 , 霞新建立回归模型 . = 8 0 。 71+0 。 342X I一 0 . 1 3 0X : 一0 . 33 1X :+ 1 . 335X , 口宕 25 一25. (y . . . . . . . . . . . . . . . . . . . . 二二二 二二二 ( a )(b) 日1 普通残差图 这时 , 残

8、差图如图卜b所示 , 散点分布较 为均匀 , 说明 “ 诊断 ” 较恰当 , 校正效果较好 。 例2 : 表 2 系某地汽车流量 、 气温 、 风速 与大气 中N O : 含量 的测定结果 , 据此建立线性 模型 : 表 2 汽车流址 X以俪/小时) 某地诸因素与大气中N O : 含量 气温 X : () 风速 X 3(米 /秒) NO , Y (毫克/米) Y =一0 . 1 2+ 0 . 0 00i X x+ 0 . 005X :一 0 。 038X s 以期对该地的大气污染情况进行预侧 。 试 以自变量X 。 为横坐标 , 残差 e, 为纵坐标作残差 图(图 2 一。 ) , 对此模型进

9、行诊断 。 图中散点呈 漏斗状分布 , 可能系自变量 X 。 的非线性影响 所致 习 , 试 对 X 3作对 数变换得 : Y = =一0 . 17+0 . 0 001X I+ 0 . 005X 2 一0 . 0 4 2InX : 此时 , 残差 图如图 2 一 b 。 散点的漏斗状分 布有所改观 , 趋于均匀 。 笔者由上面两例体会到 , 在对原始数据进 行较正 时 , 往往不能一举而尽得人意 。 这与诊 1 3 0 0 1 44 4 78 6 165 2 1 7 5 6 1 7 54 1 2 00 15 0 0 1 200 1476 1 8 2 0 143 6 9 48 140 0 1 0

10、 84 18 44 1116 165 6 15 3 6 9 6 0 1496 1060 2 0 。 0 2 3。0 26。5 2 3 。 O 2 9 。 5 30 。 0 2 2 。 5 2 1。8 2 7 。 D 2 70 2 2 。 O 2 8。O 2 2 。 5 21。5 28 。 5 2 6。O 35。O 20。0 2 3。O 24 。 0 2 7。O 26。O 0 。4 6 0 。 50 1。5 0 O。40 O。90 O 。 8 0 1。8 0 O 。 6 0 1。7 0 O。6 5 O 。 40 忍。00 2 一0 0 2 。 4 0 3。00 1。0 0 2 。 8 0 l 。

11、 45 1。50 1 。 50 0 。65 1 . 83 0。0 6 6 0。07 6 O。00 1 O。170 O 。 156 0 。 120 0。04 0 0。120 0。100 O。129 O一1 35 0 。 0 9 9 0。0 0 5 O 。 011 O 。 00 3 0 . 14 0 0 。 039 0。05白 0 。 087 0 。 0 39 0。145 O。02 9 己 2:, 已 2知 ,. .,. .口. 曰 .习脑甲叫 . . 白. . 幽 口目. . . 、 , . 一一万 . 一 - 二 二 心台 、 二匕 一”J . . . . . . 曰 . . 门.碑. 曰 匕

12、. . . 司目 . . 困 . . 自. . . . . . . . . . . . 峨如 X3 l二兄 3 ( a ) (b) 圈 2 普通残差图 断是否准确有关 , 且选择校正方法是否恰当也 有影响 。 故需用不同方法如对数变换 、 平方根 变换或引入新变量等逐一试探 , 以求得到较满 意的效果 。 例 3 , 表 3资料系某地为研究黑线姬鼠的 活动与流行性出血热发病的关系而得 。 该资料 为时间序列 , 据以建立的回归模型为 : Y = =一 0 . 27 74+1 . 142 9X e为纵 坐标作残差 图(图 3 ) 。 图中残差符号基 本呈随机分布 , 所以误差不具自相关性 。 说

13、明 该模型符合线性回归的假设要求 。 对残差图所 显示的自相关性还可作进一步检验 , 如游程检 验及Du r b ln 一Wa n ts on 的D检验 t们 等 。 表 3 某地黑线姬鼠活动与流行性出血热发病情况 . 口. . . . 州 . . . 口 . . . . . 限密 度(%)发病构成(%) 月份 XY 11 116一5 288 。 2 397 。 1 4弓6。5 567 。 0 61 210。0 732 。 4 843 。 5 064一1 108! 公一0 之291 7。1 121 17 。 0 . . . . . 目目目 心心匆匆 . . . . . 圈3 普通残差图 若因变

14、量 的观测值为一时间序列 , 有时误 差可能是自相关的川 。 故为考察该模型的 误 差是否具有自相关性 , 以时间序列万横坐标 , 讨论 1 . 对原始数据来说 , 方差不齐往往和非 正态相伴随 。 一般的变换不仅能使方差 稳定 化 , 还常便之更接近于正态 , 故这类变换可一 举两得 。 不过当原变量为正态时 , 变换反而使 之失去正态性 。 2 . 残差分析的有效性与样本含量有一定 联系 。 笔者曾对4 0余例含量从 51 5。的样本 作残差分析 , 发现当 ” 6 0时 , 对于方差不齐或偏态的样 本 , 其残差图中散点分布时而也趋于均匀 。 3 . 在判断残差图的散点分布类型时 , 主

15、 观 因素有一定影响 。 对同一帧图 , 不同的分析 者可能有不同的判断 。 .考文欲 1 . 陈希擂 , 王松桂 . 近代回归分析原理方法及 应用 。 第一版 . 合肥 . 安徽教育出版社 , 198 7 ,。 1一场。 2 . As n e o坦be, F . J . 哄d T u ker , J . W二 T heE盆a - m inati o nan dA na ly siso fRe sid ua ls . Te e五皿 o me - ti rc s 1963;5(1).14 1。 3 . 刘沛 。 回归分析的新进展回归诊断 。 中国卫生统 计 19 8 9,6(6):5 1。 4 . 加 rbin , J . 助dw加ts o n , G . S二Te sti og f o r e S ria1 C七rr elatio in 块舫t Sq 。 re s Rs g e r - ssion (I) . Bio功etrik a 1 071,65(z).1。 5 . V ellen t a皿, PF 。 皿dWel s山 , R . E .。 Effieie nt o C 垃妙ting of Regres sio nDi agnostie日. Am . St atist. 土。5 2,35(2) :2 34。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号