回归分析中异常值的诊断与处理

上传人:汽*** 文档编号:507579066 上传时间:2022-12-15 格式:DOCX 页数:25 大小:157.62KB
返回 下载 相关 举报
回归分析中异常值的诊断与处理_第1页
第1页 / 共25页
回归分析中异常值的诊断与处理_第2页
第2页 / 共25页
回归分析中异常值的诊断与处理_第3页
第3页 / 共25页
回归分析中异常值的诊断与处理_第4页
第4页 / 共25页
回归分析中异常值的诊断与处理_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《回归分析中异常值的诊断与处理》由会员分享,可在线阅读,更多相关《回归分析中异常值的诊断与处理(25页珍藏版)》请在金锄头文库上搜索。

1、回归分析中异常值的诊断与处理1 引言对调查得到的大量原始数据进行加工处理,提取其中有用的信息,即统计整理,是进 一步进行统计分析的前提但是通常的统计整理方法往往都对样本数据有一个前提假设, 即样本数据是来自同一个总体,而这个假设有时却不能成立原因一是由客观因素造成的, 如总体条件的突然变化或人们未知的某个因素的突然出现等等;二是由主观方面的因素造 成的,即人为的差错如调查人员读错或抄错数据,不小心把另一些不同条件下的样本数据 混杂进来当样本中的个别数据明显的偏离样本中其余数据时,这些数据可能是来自不同 的总体,我们称这样的数据为异常数据若对混有异常数据的样本按常规进行统计整理、 分析、推断,往

2、往会得出不符合实际的结论本文就样本中的异常数据提出了诊断方法和 处理方法,并结合实例说明了简单回归中上述方法的具体应用2 异常值的概念所谓异常值就是在所获统计数据中相对误差较大的观察数据,也称奇异值(Outliers).狭义地定义异常值就是一批数据中有部分数据与其余数据相比明显不一致的 数据,也称离群值社会经济统计中一切失实数据统称为异常值由于人为或随机因素的影响,失实的数 据随时都有可能出现,因而统计数据中的任何一个都有可能成为异常值,而狭义界定的异 常值是指离群值,如果把统计数据按由小到大排列,若有异常值,它必位于其数据的两端, 左端称为异常小值,右端的称为异常大值残差:考虑线性回归模型y

3、 = X B+ e,E (e ) = 0, Cov (e ) = b 21 .(1)nyjx xr p e1111, p-101其中y1xx,卩=pey=2, X =-212,p-11,e =2y1x xpen-n1n , p -1p-1n分量形式为y = P + x B+ x |3+ e , i = 1,n i0i1 1i, p-1 p-1i(2 )定义e = y - y = y - Xp为残差向量,其中y = Xp称为拟合值向量,卩为p在模型(1)下的最小二乘估计如果用xr,xr表示X的n个行向量,则称 1ne = y 一 xp, i = 1 ,n,为第i次试验或观测的残差对简单回归,X

4、=1x 111x2,y =厂 y 21 x_ y _nn则 e = y 一 xp, i = 1 ,n,其中 x = (1,x ).i i iiiP 1oP1i i i于是,异常值就是在回归分析中,一组数据(xf, y )如果它的残差e较其它组数据的残i i i 差大的多,则称此数据为异常值异常值的出现有主客观的原因主观上抽样调查技术有问题,疏忽大意记错,或人为 的虚报,谎报数据等都可能导致异常数据,这直接影响了统计数据的质量;客观上某些样 品由于特定原因在某些变量上的确表现突出,明显超出平均水平,这也可能产生异常值异常值的存在必将导致相应统计分析误差增大,会对分析结果(平均值与标准差)产生 重

5、要影响,会降低测量的精度如果不预先处理它们,用通常的统计整理方法所得出的结 论可靠性差而异常值的诊断与处理是保证原始数据可靠性,平均值与标准差计算准确性 的前提3 异常值的诊断方法在讨论异常值诊断问题时,通常要假设所得样本观测值在某中意义下遵从一定的分布 规律拿到一批数据,若能从其实际背景中明确看出它服从某中分布形式时,一般的做法 是在这种分布假设下,导出能较好反映异常值与正常值差异的统计量,在没有异常值的原 假设下作假设检验以下给出两种检验方法3.1 F 分布检验法学生化残差:考虑线性回归模型(1),记y = x称y为拟合值向量,称其第i个分量y = x F为第i个拟合值,则iiy = x

6、( x x )-1 x y = Hy,这里H = X (XX)-1 X 文献中通常称H为帽子矩阵前面已经定义了e = y 一 X 卩,i = 1,,n ,i i i为第i次试验或观测的残差将其标准化为,再用代替a,得到所谓学生化残叫1-hII差er = i ,i = 1,,n,i a 1 hii这里h为H的第i个对角元,iin工e 2ia 2 = -4=1n - p把正态线性回归模型(1)改写成分量形式i这里ei(i = 1,n)相互独立如果第j组数据C. , y )是一 个异常点,那么它的残差就很jj大.它的残差之所以很大是因为它的均值E (y )发生了非随机性漂移n从而jE(y )= x.

7、p+H 这产生了一个新的模型jjy = xrp + eii iy = xrp +H + ej jj (3)心j e N (0, a 2i记 d = 0,j,0, 1, 0, 01 将模型G)改写成矩阵的形式-y = X P + d H + e , e N C,a 21 ),(4)j模型(3)和(4)称为均值漂移线性回归模型要判定C, y)不是异常点,等价于检验假设jjH:H = 0 引理1用y(), X()和e()分别表示从Y、X和e剔除第i行所得到的向量或矩从线性回(i)(i)(i)归模型(1)剔除第i组数据后,剩余的n -1组数据的线性回归模型为y = X 0 + e , E( )= 0,

8、Cov( )=c 21 (i )(i)(i)(i)(i )将从这个模型求到的0的最小二乘估计记为0),则(5 )n 一1)邛-咅(xx )-1 Vii证明:因为卩:) = (x;)x 0 / x ) y0) 设A为nx n可逆阵,u和v均为n x 1向量.用恒等式(6)()4A-1uv A-1(A uv 丿1 = A-1 +1 u rA 1v(x(i)x(丿二(xX - xi(xX )-1+也旦T,i_i1 - hii(7 )这里x为X的第i行将上式两边右乘xy,并利用iX y = X (:)yc)+ yixi以及(6)式,有0 叽)+y$ (产(丿1 xi(8)(XX)-1 x (xB) i

9、i,1 - hii将(7)式右乘x,可以得到如下关系式i(X;、X,)-1 x = (XX)-1 x .(i) (i)i1 - hiii将其代入(8)式,得到|3= 0-(XX)-1 x .C)1 - hiii引理2对均值漂移线性回归模型(4),0和耳的最小二乘估计分别为10* =0/、和m* =e ,(j)1 - h jjj(j)其中P()为从非均值漂移线性回归模型(1)剔除第j组数据后得到的卩的最小二乘估 (j)jx ) 则 Xd = x nj j计.H = 6 )= X(XX L X, h为H的第j个对角元.e为从模型(2)导出的第j个残差.证明:显然,dy = y , dd = 1 记

10、X = (xjjjjjx (X d一 X厂y=-X Xxj-1r x y n*dJ j丿jdjxj1 yj丿j1于是,根据定义x2,jj根据分块矩阵的逆矩阵公式(见附录1),以及h = xf(X X L x jj jj(X X )-1 +1(X X )-1 xx (X X )-11(X X )-1 xp*1 hj jjj1 - hjjjx yn*1 x (X X )-11yj1 - h j1 - h、11 - hjj11肝+1 - h j jj(八1卩-11 - h= jj(x X A j B -占jj11 - h yjj(xx )-1 xejjx yjj1e1 - h j jj再由引理1知命

11、题得证.现在应用引理来求检验H:=0的检验统计量.注意到,对现在的情形,在约束条件n= 0下,模型(4)就化为模型(1),于是RSS =模型(1)无约束情形下的残差平方和 H=y y-卩 X y (9)而模型(4)的无约束残差平方和RSS = y y-卩*X y -小 d y.j利用引理2得、一 tTZl 八这里ej利用0RSS -RSS = (P*-P)xy +n*dyHj1e y e2e X 0 + jj=1 - h j j 1 - hjjjj-x0为第j组数据的残差. j*和耳*的具体表达式将(9 )式作进一步化简:其中 2 =e2i4-1n - pj1 - hjjeyRSS 二 y y

12、 - 0 Xy + Uj1-h jj=(n - p) 2 - e 2j ,1 - hjj根据引理2 ,所求的检验统计量为RSS - RSSF =HRSSn-p-11-hjje2ey-4_丄jj于是,我们证明了如下事实:n p 1(n - p -1)(! - h )jj(n - p -1)r2 n- p -r2 j定理2对于均值漂移线性回归模型(4),如果假设H:耳二0成立,则F-j(n - p -1)r 2jFn- p -r21,n-p-1j据此,我们得到如下检验:对给定的a(0 a 1),若F-j(n - p -1)r 2匚 F Q丿,n - p - r 21,n- p-1j则判定第j组数据C,y)为异常点.当然,这种检验会犯“判无为有”的错误,jj.yjj治能不是异常点,而被误判为异常点.但我们犯这种错误的概率只有Q,可以把它控制的很小显然,根据t分布与F分布的关系,我们也可以用t检验法完成上面的检验.也就是事先我们若定义(n - p 1)n p r 2j对给定的a,当n - p-112 丿时,我们拒绝假设H: n = 0 .即判定第j组数据C,y)为异常点.jj3.2 残差及残差图检验异常值前面定义了 2二y - XB,称为残差向量,其分量形式e = y -x0,(i = 1,n),称为i i i第i次试

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号