统计诊断分析20110718－金锄头文库

资源描述

《统计诊断分析20110718》由会员分享，可在线阅读，更多相关《统计诊断分析20110718（55页珍藏版）》请在金锄头文库上搜索。

1、统计诊断分析朱连华 2011-07-18 南京信息工程大学数理学院统计系 E-mail: 课件：Email: Key: ahualian2008 主要安排内容： ? 统计分析 ? 统计诊断 1、统计分析 ? 统计数据分类 ? 数据探索分析-相关分析 ? 多元统计分析-回归分析统计数据分类统计数据分类按计量层次分类数据分类数据顺序数据顺序数据数值数据数值数据按时间状况截面数据截面数据时序数据时序数据按收集方法观察数据观察数据实验数据实验数据经典统计分析及

2、其应用研究现象之间相互关系： -主要方法：相关分析、偏相关分析、典型相关分析等构建模型和利用模型进行外推： -主要方法：描述模型、预测模型回归分析等简化系统结构：对多个变量进行降维处理 -主要方法：主成分分析、因子分析、对应分析等对现象进行分类研究、分类处理、构造分类模式： -主要方法：聚类分析、判别分析等常用统计软件 ? SAS ? SPSS ? Excel ? S-plus ? R ? MATLAB ? Eviews ? GAUSS ? FORTRAN、C/C+ 回归分析回归分析经典回归一般形式： ipipiii xxxy+= 1122110 ? (1)

3、 ), 0( 2 N i ，ni, 2 , 1?=. 特别，一元线性回归： +=bxay 矩阵形式： += XY，), 0( 2I N. (2) 参数估计：由最小二乘估计可得 YXXX TT1 )( = RSSpn 12 )( = PYYXXXXXY TT = 1 )( 称 TT XXXXP 1 )( =为投影阵-帽子矩阵！回归常用指标回归常用指标 1、 1、平方和分解公式：平方和分解公式：总平方和=残差平方和+回归平方和总平方和=残差平方和+回归平方和SSRSSESST+= = += n i n i n i iiii YYYYYY 111 222 ) () ()( 偏回归平方和：偏回

4、归平方和：删除变量删除变量 j X前后平方和的变化，旨在刻画变量前后平方和的变化，旨在刻画变量 j X对回归的重要性。对回归的重要性。 )( )( j SSRSSRjSR= 2、 2、判定系数（拟合优度）判定系数（拟合优度）： SST SSR R = 2 3、 3、校正的判决系数校正的判决系数(Adjusted R Square)：旨在消除判决系数(Adjusted R Square)：旨在消除判决系数R R 2 2会随自变量个数增加而变大，不能正确反映拟合效果这种影响：会随自变量个数增加而变大，不能正确反映拟合效果这种影响： )1 ( 1 1 11 22 R pn n MST M

5、SE R adj = 4、4、回归方程的显著性检验回归方程的显著性检验原假设原假设 ) 1, 1 , 0(0: 0 =piH i ?（回归方程不显著）检验统计量：（回归方程不显著）检验统计量： ) 1/( / = pnSSE pSSR F 5、 5、回归系数的显著性检验：回归系数的显著性检验：原假设原假设 0: 0 = i H（自变量（自变量 j X不显著）检验统计量：不显著）检验统计量： ) 1/( )( = pnSE jSR Fj 它等价于统计量：它等价于统计量： jj j j c b t = 其中：其中： 1 ) ( 1 2 2 = pn YY n i ii 。

6、。 Model Summaryb .913a.833.8291.63205 Model 1 RR Square Adjusted R Square Std. Error of the Estimate Predictors: (Constant), sqxx a. Dependent Variable: sqyy b. ANOVAb 572.7071572.707215.013.000a 114.534432.664 687.24244 Regression Residual Total Model 1 Sum of SquaresdfMean SquareFSig. Predictors:

7、 (Constant), sqxx a. Dependent Variable: sqyy b. Coefficientsa 1.611.5353.009.004 .932.064.91314.663.000 (Constant) sqxx Model 1 BStd. Error Unstandardized Coefficients Beta Standardized Coefficients tSig. Dependent Variable: sqyy a. 线性相关系数线性相关系数 ? 相关系数的计算有三种: ? Pearson 相关系数：对定距变量的数据进行计算 P

8、earson: = = = n i n i ii n i ii xy yyxx yyxx r 11 22 1 )()( )( (3) ? 秩相关：Spearman 和 Kendall 相关系数 Spearman: = 22 )()( )( SSRR SSRR ii ii (4) 式中 i R是第i个x值的秩， i S是第i个y值的秩。 Kendall: )( )sgn()sgn( 2010 TTTT yyxx ji jiji = 思考： 1）选择的模型 M 究竟能不能大体上反映所要研究的实际问题？ 2）它是否与数据集 D 中绝对大数的数据相一致？ 3）所得到的数据集D中会不会有个别数据由

9、于收集或整理过程中的疏忽和失误或其它种种原因而出现较大的误差？ 4）这些错误数据会不会严重干扰我们对问题所作的结论？ 5）数据集 D 中各个数据点对我们进行统计推断的影响是否大致相仿，会不会有某些点的影响特别大？统计诊断：为了克服既定模型与客观实际之间可能存在的不一致性，通常有两种途径可循： 1）寻找一种统计方法使之当模型有微小变动或扰动时统计推断不受太大的影响，亦即这种统计方法对模型的扰动具有某种稳健性，这就是所谓稳健统计； 2）寻找一种诊断方法，判断实际数据是否与既定模型有较大偏离并采取相应对策，这就是统计诊断的主要内容。回归诊断：-影响分析例 4：表 1 是Ansc

10、ombe于 1973 年给出的有名的数据，这四组人造数据集强有力地说明了回归诊断的必要性。表 1 ：Anscombe 数据 NO. x1 y1 y2 y3 x2 y4 1 10.00 8.04 9.14 7.46 8.00 6.58 2 8.00 6.95 8.14 6.77 8.00 5.76 3 13.00 7.58 8.74 12.70 8.00 7.71 4 9.00 8.81 8.77 7.11 8.00 8.84 5 11.00 8.33 9.26 7.81 8.00 8.47 6 14.00 9.96 8.10 8.84 8.00 7.04 7 6.00 7.24 6.13

11、6.08 8.00 5.25 8 4.00 4.26 3.10 5.39 19.00 12.05 9 12.00 10.28 9.13 8.15 8.00 5.56 10 7.00 4.82 7.26 6.42 8.00 7.91 11 5.00 5.68 4.74 5.73 8.00 6.89 这四组数据分别记为：),( 111 yxD、),( 212 yxD、),( 313 yxD和),( 424 yxD，对四组数据分别进行一元线性回归，即取模型： iii xy+= 10 ，11, 2 , 1?=i 经过计算，数据 D1 -D4 的基本统计量都相同，即： 0 . 3 0 =，5 . 0

12、1 =，531. 1 2 =，667. 0 2 =R 即用回归方程：xy5 . 03+=拟合四组数据集效果完全相同。但是，我们看一下散点图 1，可以发现，这四组数据集的情况相差极大！图 1：图 1：Anscombe 数据数据（a）合适模型 (c)异常点数据 (b) 模型不合适 (d)高杠杆点数据对于图 a：模型基本合适；图 b：模型应采用抛物线模型；图 c：不考虑第三个点：参数变为： 0 . 4 0 =，346. 0 1 =， 62 10497. 9 =，1 2 =R 图 d：所求回归线与数据集的散点图完全不合适，其原因是数据集提供的信息太少，不足以进行模型拟合。这是由于自变量

13、11 个有 10 个集中8=x，其它除了19=x没有进行任何观察。统计诊断主要包括： ? 异常点识别 ? 残差分析 ? 影响分析 ? 数据变换（1）异常点：严重偏离既定模型的数据点思考：究竟偏离达到何种程度才算是异常？这就必须对模型误差项的分布有一定的假设（通常假定为正态分布）。异常点可解释为：假定分布中的极端点，即落在分布的单侧或双侧分位点以外的点，而通常取很小的值（如 0.005），或者认为是在绝大多数来自某一共同分布的数据点掺入来自另一分布的少量“杂质” 。-所以如何度量偏离成为关键。例 5：考察下面一组数据： 1.74 1.46 -1.28 -0.02 -0.4

14、0 -0.02 3.89 1.35 -0.10 1.71 欲由这组数据来估计母体分布的中心点？ 1）若假定它们来自正态分布) 1 ,(N，自然用它们的平均值来估计得83. 0=； 2）观察：数据 3.89 显然对分布) 1 ,83. 0(N来说显得过大，出现如此大的数据的概率小于 0.002，因此可将它看成是一个异常值。 3）删除数据 3.89，可得44. 0=，可见 3.89 这个数据点对于的估计值的大小影响很大。 4）但事实上这组数据是在计算机上产生的来自 Cauchy 分布的一组随机样本，其密度为 121 )1 ()( +=xxf，而 Cauchy 分布无均值而言，

15、更谈不上参数估计等问题了。总结：异常点与数据集或模型所作的分布假定是密切相关的，不正确的分布假定将导致错误的结论。对异常点的处置必须持慎重态度，不能只是简单地删除就算完事。异常点分析某种程度是提示我们进一步寻找对数据更适合的模型的有用信号。（2）强影响点：对于统计推断影响特别大的点从例 4 可见：每个数据对于模型统计推断的影响大小是不相等的，如何度量影响大小,必须： 1）明确：对哪个统计量的影响对于线性回归：对回归系数估计量的影响；对误差方差 2 的估计量 2 的影响；对拟合优度统计量的影响；对预测统计量的影响；等等 2）确定：度量影响的尺度基于残差的尺度；基于拟合的尺度；基于影响函数的尺度；基于置信域的尺度；基于似然函数的尺度等等。基于影响函数：定义不同的距离：如 Cook 距离、Welsch-Kuh 距离等强影响点分析意义在于：对数据提供的信息大小的一个衡量！总结：区分强影响点与异常点（a）（b）（c） A：强影响点，但它与回归直接比较接近，因此不是异常点； B：既是强影响点，又是异常点； C：

展开阅读全文