第四讲回归分析回归诊断.ppt

上传人:F****n 文档编号:110777796 上传时间:2019-10-31 格式:PPT 页数:120 大小:2.80MB
返回 下载 相关 举报
第四讲回归分析回归诊断.ppt_第1页
第1页 / 共120页
第四讲回归分析回归诊断.ppt_第2页
第2页 / 共120页
第四讲回归分析回归诊断.ppt_第3页
第3页 / 共120页
第四讲回归分析回归诊断.ppt_第4页
第4页 / 共120页
第四讲回归分析回归诊断.ppt_第5页
第5页 / 共120页
点击查看更多>>
资源描述

《第四讲回归分析回归诊断.ppt》由会员分享,可在线阅读,更多相关《第四讲回归分析回归诊断.ppt(120页珍藏版)》请在金锄头文库上搜索。

1、回归模型的诊断,通过简单回归和多元回归模型可以有了计算结果。 这些结果能做推断,需要建立在一些概述性统计量的基础之上,这些统计量由数据来计算。而只有当标准的回归假定满足时,所做的推断才有可能是合理的,有意义的。而对假定的核定,可以用图形的方法,也可以用严格的数值去检查。 数据也需要考虑 还有模型的设定,标准的回归假定:,1,关于模型设定的假定 2,关于误差的假定 3,关于预测变量的假定 非随机的 其取值是误差取得的,但几乎不可能。测量误差将影响到误差方差,相关系数,复相关系数及回归系数的估计,其影响程度的大小取决于多个因素。 是线性无关的 4,关于观测的假定 所有观测是同样可靠性,数据的诊断

2、异常值 强影响点 假定是否满足 模型的诊断,6,线性回归模型中的异常点分析,异常点的识别与处理,是统计诊断中很重要的一项内容。 异常点的出现会影响分析结果的可信度。 异常点的存在往往蕴涵着重要的信息。 在有些情况下,异常点的出现是因为有新事物出现或者新情况发生,比如经济模型中某种经济政策的出台等,都能表现出异常,这通常是我们的研究兴趣所在。,在另外一些情况下,异常点的出现是由于人为差错或者仪器的故障所引起的。 在我们需要根据样本对模型进行参数估计或者根据模型对将来进行预测与控制的时候,异常点的出现会对我们的工作产生很强的影响,这样的结果是令人怀疑的。 因此,异常点的研究受到了广大研究者的重视,

3、自Bernoulli首次提出了异常点的概念,接下来对异常点的概念、类型以及处理问题的讨论一直没有停止过。,异常点的成因与处理,为什么会出现异常点?对这个问题的回答大致可以归结为以下三种情况:整体模型变化、局部模型变化和自然变异。 在前两种情况下,异常点出现的多而且连续,往往蕴涵着机制的变化、新事物的出现或者新局面的形成,大量而且连续的异常点可以用新的模型来拟合。对于整个数据集,实质上已经成为一个混合模型。 而第三种成因更为常见,偶尔的人为差错或者仪器的故障都可以引起异常。 对于由不同的原因引起的异常点,它们的处理方法是不同的。在进行统计诊断时,判断异常点的成因是很重要的,是对异常点进行正确处理

4、的先决条件。,通常对异常值的处理方法有两种。一种是把异常点作为工作重点,目标就是发现异常点并确定是否要作进一步的研究,这样的异常点往往含有很重要的信息。这时不仅要判断出异常点的存在与否,还要确定异常点出现的位置以及影响大小。这是统计诊断中一个重要内容,围绕此类问题出现了大量的统计量检验方法及影响分析研究。,对于由第三种成因引起的异常点,发现之后可以进行删除,以免影响参数估计等以后的工作效果。 另外一种方法就是对于异常点采取容忍的态度,把整个数据集作为研究的基础,对于一定比例的坏数据或者远离数据中心的数据采取一定的容忍或适应政策,回归系数一般采用“最小二乘估计”(least squares es

5、timator,LS estimator)求解,但是在应用中容易忽视的问题是LS估计只有在数据满足相应条件的情况下才会具有统计描述和推断的优良性质,如要求误差服从正态分布、总体方差相同且相互独立等。 当实际数据没有近似满足这些假定时,就会出现一些异常点(outliers)、杠杆点(leverage point)及影响点(influential observations),使分析结果变得不可靠,不能发现数据中的真实结构,从专业上难以解释结果,甚至得到完全错误的结论。尤其是随着统计软件的日渐普及,我们倾向于简单地将数据交给软件来分析,而不注意具体方法的应用条件,尽管采用了SAS、SPSS这些国际标

6、准软件,但是输出结果有时却与专业解释相悖。,异常点在统计诊断中的地位,异常点(outlier)是统计诊断中很重要的一个概念。统计诊断(Statistical Diagnostics)就是对从实际问题中收集起来的数据、提炼出来的模型以及由此出发所作的推断方法的合理性进行深入而细致的分析,并通过一些诊断统计量来检查数据、模型及推断方法中可能存在的毛病,进而提出治疗方案,进行模型或者推断方法的改进。 统计诊断主要包括异常点识别、残差分析、影响分析和数据变换等内容,异常点的识别是处理统计诊断的重要内容之一,它进行的好坏通常影响到整个过程的诊断。,异常值有时一个,有时多个,在回归模型中,异常点是指对既定

7、模型偏离很大的数据点。但究竟偏离达到何促程度才算是异常,这就必须对模型误差项的分布有一定的假设(通常假定为正态分布)。目前对异常点有以下两种较为流行的看法:,异常点,把异常点看成是那些与数据集的主体明显不协调,使得研究者大感惊讶的数据点。这时,异常点可解释为所假定的分布中的极端点,即落在分布的单侧或双侧 分位点以外的点,而 通常取很小的值(如:0.005 ),致使观察者对数据中出现如此极端的点感到意外。 把异常点视为杂质点。它与数据集的主体不是来自同一分布,是在绝大多数来自某一共同分布的数据点中掺入的来自另一分布的少量“杂质”,残差,在回归分析中,异常数据的发现或模型的检测、标准假设的检测的一

8、个简单而有效的方法是研究残差图。 残差图能够指明哪个或哪些标准假定不成立。更重要的是,残差分析可能引导我们发现数据中的结构,也可能指出那些蕴涵在数据中的、在只用一些概述性统计量分析时容易被疏漏的信息。这些启发或线索可能帮助我们更好地理解所研究的问题,或者找到更好的模型。 对残差进行图形分析往往是回归分析中最重要的一部分工作。,残差,普通最小二乘法的残差: 学生化残差:,强影响点,强影响点和异常点是两个不同的概念,它们之间既有联系也有区别。强影响点可能同时又是异常点也可能不是;反之,异常点可能同时又是强影响点也可能不是。,已知20条河流流域的有关测量数据. 研究者感兴趣的是,河流周边地区土地的利

9、用程度对水污染(平均氮浓度)有何影响,利用三个数据集合获得的回归系数和其T检验统计量相差很大 1.用全部数据 2.剔除NEVERSINK数据(4) 3.提出HACKENSACK数据(5),尽管三个数据集只差一观测数据,但回归结果有巨大差异 比如,看X3回归系数的T检验值,使用全部数据时该检验是不显著的,剔除掉数据4后,显著为正;可见,仅一个观测就能导致根本不同的结论 数据(4)(5)称为强影响观测,因为他们对回归的影响远强于其他观测。,看数据,一眼就能发现数据(5)其X3的值突出的高。 然后再分析其背景,数据集中的强影响点是指那些对统计量的取值有非常大的影响力的点。在考虑强影响点时,有几个基本

10、问题需要考虑: 首先必须明确“是对哪个统计量的影响?”例如,对线性回归模型所考虑的是对回归系数的估计量的影响;不是对误差方差的估计影响;或是对拟合优度统计量的影响等等。分析目标不同,所考虑的影响亦有所不同。,强影响点,其次,必须确定“度量影响的尺度是什么?”为了定量地刻划影响的大小,迄今为止已提出多种尺度,基于置信域的尺度,基于似然函数的尺度等等。 在每一种类型中又可能有不同的统计量。每一种度量都是着眼于某一方面的影响,并在某种具体场合下较为有效。这一方面反映了度量影响问题的复杂性,另一方面也说明了影响分析的研究在统计诊断中是一个甚为活跃的议程。,强影响点通常是数据集中更为重要的数据点,它往往

11、能提供比一般数据点更多的信息,因此需引起特别注意。,有影响的观测值 (图示),有影响的观测值 (图示),有影响的观测值 (图示),有影响的观测值 (图示),有影响的观测值,存在影响值的趋势,有影响的观测值 (图示),不存在影响值的趋势,有影响的观测值,存在影响值的趋势,强影响观测或者其影响变量取值异常,或者其预测变量取值异常。 响应变量取值异常 标准化残差大的观测其响应变量的取值异常,因为在Y方向上他们远离拟合的回归方程。由于各标准化残差近似服从标准正态分布,那么标准化的残差之绝对值大于2或3的点称为异常点。,预测变量取值异常 异常点也可能出现在预测变量中,他们同样也会影响回归结果,杠杆值可用

12、于度量观测在预测变量中的异常程度。,伪装与淹没的问题,光看残差是不够的,需要其他的度量指标,看这个图形,(5)(4)是强影响点,但看标准化残差看不出来,残差图也看不出来,杠杆值的序列图可以看出来了,我们还需要相关的度量指标,影响的各种度量,影响的各种度量,如果有些数据的C比其余点突出,那么该对此点打上标记,影响点,通过图显示强影响点,图形方法,图形方法在数据分析中起着重要的作用,在对数据拟合线性模型时,图形方法尤其重要. 没有哪种统计工具能象一张精选出来的图形一样有威力. 图形方法可以被视为探索性的工具,同时也是验证分析或统计推断不可缺少的一部分.,图形方法的作用,1.发现数据中的错误(如印刷

13、错误) 2.辨别数据中的模式(如密集群,异常点,明显的差距等) 3.探索变量间的关系 4.发现新现象 5.确认或否认各项假定 6.评价拟合的模型是否充分 7.建议修正措施(例如数据变换,收集更多的数据等),图形,1.一维图(看变量的分布) 2.二维图 3.旋转图 4.动态图,一维图,直方图 茎叶图 点图 箱线图,二维图,我们希望图中的各散点图看上去是怎么样的呢?对于简单回归,我们预期Y与X之间呈现某种直线模式,但对于多元回归,Y与各自变量之间的散点图可能呈直线状.在线性模式较为肯定的场合,这些散点图的非线性状态并不说明线性模型不正确.,应同时依赖于各个预测变量而不是单个 从上面的二维图看到,Y

14、与X1之间,Y与X2之间都不存在线性关系,然而作Y关于X1和X2两个变量的回归时,拟合程度几近完美.,我们假定预测变量之间是线性无关的,所以预测变量对散点图不应该呈直线状,更理想地,我们希望从中看不出任何可辩识的模式.无论是线性的还是非线性的.但是上面例中,该假定是不成立. 因为X1和X2有明显的线性关系. 当然这些散点图不呈直线状还不能说明全部变量间的线性无关的,因为线性关系可能存在与多个预测变量之间.,旋转图,如何处理异常点?,异常点和强影响观测值不应该机械被删除或自动降低权重,因为他们不一定是坏的观测。相反,如果它们是准确的,它们就可能是数据中含信息最多的点。比如,他们可能指出数据并非来

15、自正态总体,或者模型不是线性的,我们看下例中的数据看异常点及强影响点可能是数据中含信息量最多的点。,图中是XY两个变量的散点图,数据主体显示了X与Y之间的某种线性关系。但右上角的22和23两个点是异常值。如果这两个点是正确的,那么它们则是数据集中仅有的、显示着这批数据可能服从某种非线性模型的观测。 我们把这想象为一个细菌的群体,它在异端时间内最后的非常缓慢,但过了某个时间的临界点之后,迅速增长。,一旦鉴别出了异常点和强影响观测后,如何处理呢? 因为异常点和强影响观测可能是数据集中信息最丰富的观测,因而不应该不加说明、自动地抛弃它们。相反,应当通过考察,判断它们为何是异常的或强影响点。 根据这些

16、考察才可能采取合适、正确的措施 正确的措施包括:改正数据中的错误、删除异常点或降低他们的权重、变换数据、考虑不同的模型、重新收集或补充更多的数据。,模型的误设及其后果,1. 包含不相干的解释变量: 则估计量是一致、无偏的,但不是最佳线性无偏估计量。假设检验是有效的。 此外,如果包含的不相干的变量与其它解释变量相关,则引起的主要后果是解释变量之间的多重共线性.,设 Y=0+ 1X1+v (*) 为正确模型,但却估计了 Y=0+1X1+2X2+ (*),如果2=0,则(*)与(*)相同,因此,可将(*)式视为以2=0为约束的(*)式的特殊形式。,包含无关变量偏误,则 扰动项的性质完全起了变化。 模型的估计会由于自相关而引起误差,估计量将不会是最佳线性无偏估计。假设检验将是无效的.,2. 遗漏解释变量,例如,如果“正确”的模型为,而我们将模型设定为,即设定模

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 幼儿/小学教育 > 小学教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号