回归分析中异常值的诊断与处理

上传人:人*** 文档编号:468549671 上传时间:2023-03-28 格式:DOCX 页数:24 大小:174.08KB
返回 下载 相关 举报
回归分析中异常值的诊断与处理_第1页
第1页 / 共24页
回归分析中异常值的诊断与处理_第2页
第2页 / 共24页
回归分析中异常值的诊断与处理_第3页
第3页 / 共24页
回归分析中异常值的诊断与处理_第4页
第4页 / 共24页
回归分析中异常值的诊断与处理_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《回归分析中异常值的诊断与处理》由会员分享,可在线阅读,更多相关《回归分析中异常值的诊断与处理(24页珍藏版)》请在金锄头文库上搜索。

1、回归分析中异常值的诊断与处理1 引言对调查得到的大量原始数据进行加工处理,提取其中有用的信息,即统计整理,是进一 步进行统计分析的前提但是通常的统计整理方法往往都对样本数据有一个前提假设 ,即 样本数据是来自同一个总体,而这个假设有时却不能成立原因一是由客观因素造成的, 如总体条件的突然变化或人们未知的某个因素的突然出现等等;二是由主观方面的因素造 成的,即人为的差错如调查人员读错或抄错数据,不小心把另一些不同条件下的样本数据 混杂进来当样本中的个别数据明显的偏离样本中其余数据时,这些数据可能是来自不同 的总体,我们称这样的数据为异常数据若对混有异常数据的样本按常规进行统计整理、 分析、推断,

2、往往会得出不符合实际的结论本文就样本中的异常数据提出了诊断方法和 处理方法,并结合实例说明了简单回归中上述方法的具体应用2 异常值的概念所谓异常值就是在所获统计数据中相对误差较大的观察数据,也称奇异值 (Outliers).狭义地定义异常值就是一批数据中有部分数据与其余数据相比明显不一致 的数据,也称离群值社会经济统计中一切失实数据统称为异常值由于人为或随机因素的影响 ,失实的数 据随时都有可能出现,因而统计数据中的任何一个都有可能成为异常值 ,而狭义界定的异 常值是指离群值,如果把统计数据按由小到大排列,若有异常值,它必位于其数据的两端, 左端称为异常小值,右端的称为异常大值残差:考虑线性回

3、归模型y = X B+ e, E (e) = 0, Cov(e) = b 21 .(1)nyjx- xr p e1111, p-101其中y1xx,P =Pey=丿.2, X =212, p-1.1,e=2y1x xPen-n1n , p -1p-1n分量形式为(2 )y = 0+ x 0+ + x 0+ e , i = 1,,n i0 i1 1i, p-1 p-1i定义e = y - y = y -X0为残差向量,其中y = X0称为拟合值向量,0为0在模型(1)下的最小二乘估计如果用x/,x表示X的n个行向量,则称1ne = y 一 x 0 , i = 1,,n ,i i ix1x2,y

4、=y 2,0xynnL011为第i次试验或观测的残差对简单回归,X = 11则e = y x0 , i = 1,,n,其中 x = (1, x )i i iii于是,异常值就是在回归分析中,一组数据6, y)如果它的残差e较其它组数据的残i i i 差大的多,则称此数据为异常值异常值的出现有主客观的原因主观上抽样调查技术有问题,疏忽大意记错,或人为 的虚报,谎报数据等都可能导致异常数据 ,这直接影响了统计数据的质量;客观上某些样 品由于特定原因在某些变量上的确表现突出,明显超出平均水平,这也可能产生异常值异常值的存在必将导致相应统计分析误差增大,会对分析结果(平均值与标准差)产生 重要影响,会

5、降低测量的精度如果不预先处理它们,用通常的统计整理方法所得出的结 论可靠性差而异常值的诊断与处理是保证原始数据可靠性,平均值与标准差计算准确性 的前提3 异常值的诊断方法在讨论异常值诊断问题时,通常要假设所得样本观测值在某中意义下遵从一定的分布 规律拿到一批数据,若能从其实际背景中明确看出它服从某中分布形式时,一般的做法 是在这种分布假设下,导出能较好反映异常值与正常值差异的统计量,在没有异常值的原 假设下作假设检验以下给出两种检验方法3.1 F 分布检验法学生化残差:考虑线性回归模型(1),记y = x n,称y为拟合值向量,称其第i个分量y = x s为第i个拟合值,则iiy 二 x (

6、x X )-1 x y 二 Hy,这里H二X(XX)-1 X 文献中通常称H为帽子矩阵前面已经定义了e = y 一 x 卩,i -1,,n, i i i为第i次试验或观测的残差.将其标准化为 十,再用”代替,得到所谓学生化残差iir i ,i 1,,n,i 、1 一 hii这里h.为H的第i个对角元,2 - 4一iin 一 p把正态线性回归模型(1)改写成分量形式N C, 2), i -1,,n ,这里e , (i - 1,,n)相互独立如果第j组数据C , y )是一个异常点,那么它的残差就很ij j大.它的残差之所以很大是因为它的均值E (y )发生了非随机性漂移n从而jE(y )- xp

7、+耳这产生了一个新的模型jjy - xrp + eii iy - xrp +n + ej jj Z丰Je N (0, 2 ),i(3)记d =0,,0, 1, 0,,0 将模型G)改写成矩阵的形式 jy - X n + d n + e , ejN (0 , 2 I )(4)模型(3)和(4)称为均值漂移线性回归模型要判定C , y )不是异常点,等价于检验假设jj引理1用y(), X()和e()分别表示从Y、X和e剔除第i行所得到的向量或矩从线性回归(i )(i )(i )模型(1)剔除第i组数据后,剩余的n -1组数据的线性回归模型为y(i) = Xi)*(i),E(,)= 0,Cov(,)

8、=将从这个模型求到的0的最小二乘估计记为0(),则b 21n-1(5)厂0-住(x x )-1 Vii证明:因为卩:)眾x()X丿x(i)y(i)设A为n x n可逆阵,u和v均为n x 1向量.用恒等式(6)这里x为X的第i行.()A-1uv A-1LA uv 丿-1 = A -1 +1 一 u fA -1v =(x X - x = ( x X )-1 +( x X 丄1 ( x X Ai ii_i1 - hii(7 )将上式两边右乘x y,并利用X y = X (i) y(i) + yixi以及(6)式,有xi(X X L x (羊)ii,1 - hii(8)将(7)式右乘x,可以得到如下

9、关系式i(X X )1 x_ 1-1 - hii(X X )-1 x .i将其代入(8)式,得到乞(X X )-1 x .1 - hiii引理2对均值漂移线性回归模型(4), 0和耳的最小二乘估计分别为10* = 0/、和耳 * 二e ,j)1 - h j0 的最小二乘估jj其中P()为从非均值漂移线性回归模型(1)剔除第j组数据后得到的 j)e为从模型(2)导出的第j个残差.j证明:显然, d y = y , jddjj=1 记 X =(xx2,x ) 则 xd = x .nj jp*_r x(xd )_1一 x厂y=-x xxj-1I x y n*dJ j丿jdjJxj11 yj丿于是,根

10、据定义根据分块矩阵的逆矩阵公式(见附录1),以及h = x (xx)-1xjj jj(x x A + 1 (x x A xx (x x)-11(x x A xp*1 hj jjj1 hjjjx yn*1 x( x x )-11yj1 h j1 h(xx)1 j B-1Tjj1I h jjIIxP+ y(x x )-1 x、 yjjI 1 h j1 h jjjjj0-(xx )-1 xe1 hj = IjjII e1 h j jj再由引理1知命题得证现在应用引理来求检验H:= 0 的检验统计量注意到,对现在的情形,在约束条件n = 0下,模型(4)就化为模型(1)于是RSS =模型(1)无约束情

11、形下的残差平方和H=yy 卩 Xy .而模型(4 )的无约束残差平方和RSS = yy 一卩*X y 一耳*d y . j(9)利用引理2得计.H = 6 )= x(xxLx, h为H的第j个对角元.jjjjRSS RSS = 6* 0)Xy +n*dyHj1 0 e y e 2 e x0 + j j = j-1 h j j :jj1 - hjj1-hjj这里e = y x0为第j组数据的残差.j j j利用0 *和耳*的具体表达式将(9)式作进一步化简:eyRSS = y y 0 Xy + Uj1hjjeyj_丄1 hjje2二(n p b 2 j,1 hjj.根据引理2,所求的检验统计量为

12、 n pF = RSSh - RSSRSSn - p -1n p 1(n p 1)(l h )jj(n - p -1)r 2n - p -r2j(n p 1)r 2F =匚 F Q丿,j n p r21,np1j,也就是事先我们若定义于是,我们证明了如下事实: 定理2对于均值漂移线性回归模型(4),如果假设H: n = 0成立,则(n p 1)r 2F =匚Fj n p r21,np1j据此,我们得到如下检验:对给定的a(0a tjn - p-1I 2丿时,我们拒绝假设H: n = 0 .即判定第j组数据(x, y)为异常点.jj3.2 残差及残差图检验异常值前面定义了 e = y Xp ,称为残差向量,其分量形式2 = y -x0 ,(i = 1,.,n),称为i

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号