统计诊断分析20110718

上传人:suns****4568 文档编号:89446758 上传时间:2019-05-25 格式:PDF 页数:55 大小:455.38KB
返回 下载 相关 举报
统计诊断分析20110718_第1页
第1页 / 共55页
统计诊断分析20110718_第2页
第2页 / 共55页
统计诊断分析20110718_第3页
第3页 / 共55页
统计诊断分析20110718_第4页
第4页 / 共55页
统计诊断分析20110718_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《统计诊断分析20110718》由会员分享,可在线阅读,更多相关《统计诊断分析20110718(55页珍藏版)》请在金锄头文库上搜索。

1、 统 计 诊 断 分 析 朱连华 2011-07-18 南京信息工程大学数理学院统计系 E-mail: 课件:Email: Key: ahualian2008 主要安排内容: ? 统计分析 ? 统计诊断 1、统 计 分 析 ? 统计数据分类 ? 数据探索分析-相关分析 ? 多元统计分析-回归分析 统计数据分类 统计数据分类 按计量层次 分 类 数 据 分 类 数 据 顺 序 数 据 顺 序 数 据 数 值 数 据 数 值 数 据 按时间状况 截 面 数 据 截 面 数 据 时 序 数 据 时 序 数 据 按收集方法 观 察 数 据 观 察 数 据 实 验 数 据 实 验 数 据 经典统计分析及

2、其应用 研究现象之间相互关系: -主要方法:相关分析、偏相关分析、典型相关分析等 构建模型和利用模型进行外推: -主要方法:描述模型、预测模型回归分析等 简化系统结构:对多个变量进行降维处理 -主要方法:主成分分析、因子分析、对应分析等 对现象进行分类研究、分类处理、构造分类模式: -主要方法:聚类分析、判别分析等 常 用 统 计 软 件 ? SAS ? SPSS ? Excel ? S-plus ? R ? MATLAB ? Eviews ? GAUSS ? FORTRAN、C/C+ 回 归 分 析 回 归 分 析 经典回归一般形式: ipipiii xxxy+= 1122110 ? (1)

3、 ), 0( 2 N i ,ni, 2 , 1?=. 特别,一元线性回归: +=bxay 矩阵形式: += XY,), 0( 2I N. (2) 参数估计:由最小二乘估计可得 YXXX TT1 )( = RSSpn 12 )( = PYYXXXXXY TT = 1 )( 称 TT XXXXP 1 )( =为投影阵-帽子矩阵! 回归常用指标 回归常用指标 1、 1、 平方和分解公式:平方和分解公式: 总平方和=残差平方和+回归平方和总平方和=残差平方和+回归平方和SSRSSESST+= = += n i n i n i iiii YYYYYY 111 222 ) () ()( 偏回归平方和:偏回

4、归平方和:删除变量删除变量 j X前后平方和的变化,旨在刻画变量前后平方和的变化,旨在刻画变量 j X对 回归的重要性。 对 回归的重要性。 )( )( j SSRSSRjSR= 2、 2、判定系数(拟合优度)判定系数(拟合优度): SST SSR R = 2 3、 3、校正的判决系数校正的判决系数(Adjusted R Square):旨在消除判决系数(Adjusted R Square):旨在消除判决系数R R 2 2会随自 变量个数增加而变大,不能正确反映拟合效果这种影响: 会随自 变量个数增加而变大,不能正确反映拟合效果这种影响: )1 ( 1 1 11 22 R pn n MST M

5、SE R adj = 4、4、回归方程的显著性检验 回归方程的显著性检验 原假设 原假设 ) 1, 1 , 0(0: 0 =piH i ?(回归方程不显著) 检验统计量: (回归方程不显著) 检验统计量: ) 1/( / = pnSSE pSSR F 5、 5、回归系数的显著性检验:回归系数的显著性检验: 原假设 原假设 0: 0 = i H(自变量(自变量 j X不显著) 检验统计量: 不显著) 检验统计量: ) 1/( )( = pnSE jSR Fj 它等价于统计量: 它等价于统计量: jj j j c b t = 其中: 其中: 1 ) ( 1 2 2 = pn YY n i ii 。

6、 。 Model Summaryb .913a.833.8291.63205 Model 1 RR Square Adjusted R Square Std. Error of the Estimate Predictors: (Constant), sqxx a. Dependent Variable: sqyy b. ANOVAb 572.7071572.707215.013.000a 114.534432.664 687.24244 Regression Residual Total Model 1 Sum of SquaresdfMean SquareFSig. Predictors:

7、 (Constant), sqxx a. Dependent Variable: sqyy b. Coefficientsa 1.611.5353.009.004 .932.064.91314.663.000 (Constant) sqxx Model 1 BStd. Error Unstandardized Coefficients Beta Standardized Coefficients tSig. Dependent Variable: sqyy a. 线 性 相 关 系 数线 性 相 关 系 数 ? 相关系数的计算有三种: ? Pearson 相关系数:对定距变量的数据进行计算 P

8、earson: = = = n i n i ii n i ii xy yyxx yyxx r 11 22 1 )()( )( (3) ? 秩相关:Spearman 和 Kendall 相关系数 Spearman: = 22 )()( )( SSRR SSRR ii ii (4) 式中 i R是第i个x值的秩, i S是第i个y值的秩。 Kendall: )( )sgn()sgn( 2010 TTTT yyxx ji jiji = 思考: 1) 选择的模型 M 究竟能不能大体上反映所要研究的实际问题? 2) 它是否与数据集 D 中绝对大数的数据相一致? 3) 所得到的数据集D中会不会有个别数据由

9、于收集或整理过程中的 疏忽和失误或其它种种原因而出现较大的误差? 4) 这些错误数据会不会严重干扰我们对问题所作的结论? 5) 数据集 D 中各个数据点对我们进行统计推断的影响是否大致相 仿,会不会有某些点的影响特别大? 统计诊断:为了克服既定模型与客观实际之间可能存在的不一致性, 通常有两种途径可循: 1)寻找一种统计方法使之当模型有微小变动或扰动时统计推断不受 太大的影响,亦即这种统计方法对模型的扰动具有某种稳健性,这就 是所谓稳健统计; 2)寻找一种诊断方法,判断实际数据是否与既定模型有较大偏离并 采取相应对策,这就是统计诊断的主要内容。 回归诊断:-影响分析 例 4:表 1 是Ansc

10、ombe于 1973 年给出的有名的数据,这四组人造数 据集强有力地说明了回归诊断的必要性。 表 1 :Anscombe 数据 NO. x1 y1 y2 y3 x2 y4 1 10.00 8.04 9.14 7.46 8.00 6.58 2 8.00 6.95 8.14 6.77 8.00 5.76 3 13.00 7.58 8.74 12.70 8.00 7.71 4 9.00 8.81 8.77 7.11 8.00 8.84 5 11.00 8.33 9.26 7.81 8.00 8.47 6 14.00 9.96 8.10 8.84 8.00 7.04 7 6.00 7.24 6.13

11、6.08 8.00 5.25 8 4.00 4.26 3.10 5.39 19.00 12.05 9 12.00 10.28 9.13 8.15 8.00 5.56 10 7.00 4.82 7.26 6.42 8.00 7.91 11 5.00 5.68 4.74 5.73 8.00 6.89 这四组数据分别记为:),( 111 yxD、),( 212 yxD、),( 313 yxD和),( 424 yxD, 对四组数据分别进行一元线性回归,即取模型: iii xy+= 10 ,11, 2 , 1?=i 经过计算,数据 D1 -D4 的基本统计量都相同,即: 0 . 3 0 =,5 . 0

12、1 =,531. 1 2 =,667. 0 2 =R 即用回归方程:xy5 . 03+=拟合四组数据集效果完全相同。但是,我 们看一下散点图 1,可以发现,这四组数据集的情况相差极大! 图 1:图 1:Anscombe 数据数据 (a)合适模型 (c)异常点数据 (b) 模型不合适 (d)高杠杆点数据 对于图 a:模型基本合适; 图 b:模型应采用抛物线模型; 图 c:不考虑第三个点:参数变为: 0 . 4 0 =,346. 0 1 =, 62 10497. 9 =,1 2 =R 图 d:所求回归线与数据集的散点图完全不合适,其原因是数据集提 供的信息太少,不足以进行模型拟合。这是由于自变量

13、11 个有 10 个 集中8=x,其它除了19=x没有进行任何观察。 统计诊断主要包括: ? 异常点识别 ? 残差分析 ? 影响分析 ? 数据变换 (1)异常点:严重偏离既定模型的数据点 思考:究竟偏离达到何种程度才算是异常?这就必须对模型误差项的 分布有一定的假设(通常假定为正态分布) 。 异常点可解释为:假定分布中的极端点,即落在分布的单侧或双侧 分位点以外的点,而通常取很小的值(如 0.005) ,或者认为是在 绝大多数来自某一共同分布的数据点掺入来自另一分布的少量“杂 质” 。-所以如何度量偏离成为关键。 例 5:考察下面一组数据: 1.74 1.46 -1.28 -0.02 -0.4

14、0 -0.02 3.89 1.35 -0.10 1.71 欲由这组数据来估计母体分布的中心点? 1) 若假定它们来自正态分布) 1 ,(N,自然用它们的平均值来估计 得83. 0=; 2) 观察:数据 3.89 显然对分布) 1 ,83. 0(N来说显得过大,出现如此 大的数据的概率小于 0.002,因此可将它看成是一个异常值。 3) 删除数据 3.89, 可得44. 0=, 可见 3.89 这个数据点对于的估 计值的大小影响很大。 4) 但事实上这组数据是在计算机上产生的来自 Cauchy 分布的一组 随机样本,其密度为 121 )1 ()( +=xxf,而 Cauchy 分布无均值而 言,

15、更谈不上参数估计等问题了。 总结: 异常点与数据集或模型所作的分布假定是密切相关的,不正确 的分布假定将导致错误的结论。 对异常点的处置必须持慎重态度,不能只是简单地删除就算完 事。 异常点分析某种程度是提示我们进一步寻找对数据更适合的模 型的有用信号。 (2)强影响点:对于统计推断影响特别大的点 从例 4 可见:每个数据对于模型统计推断的影响大小是不相等的, 如何度量影响大小,必须: 1)明确:对哪个统计量的影响 对于线性回归:对回归系数估计量 的影响;对误差方差 2 的 估计量 2 的影响; 对拟合优度统计量的影响;对预测统计量的影响;等等 2)确定:度量影响的尺度 基于残差的尺度;基于拟合的尺度;基于影响函数的尺度;基于 置信域的尺度;基于似然函数的尺度等等。 基于影响函数:定义不同的距离:如 Cook 距离、Welsch-Kuh 距 离等 强影响点分析意义在于:对数据提供的信息大小的一个衡量! 总结:区分强影响点与异常点 (a) (b) (c) A:强影响点,但它与回归直接比较接近,因此不是异常点; B:既是强影响点,又是异常点; C:

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号