数据回归分析

上传人:bin****86 文档编号:44166526 上传时间:2018-06-08 格式:DOC 页数:33 大小:1.20MB
返回 下载 相关 举报
数据回归分析_第1页
第1页 / 共33页
数据回归分析_第2页
第2页 / 共33页
数据回归分析_第3页
第3页 / 共33页
数据回归分析_第4页
第4页 / 共33页
数据回归分析_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《数据回归分析》由会员分享,可在线阅读,更多相关《数据回归分析(33页珍藏版)》请在金锄头文库上搜索。

1、楚雄师范学院数学建模培训楚雄师范学院数学建模培训题题 目目: : 数据回归分析队员队员姓名姓名系别系别专业专业班级班级1 1阮秀婷阮秀婷数学系数学系数学与应用数学数学与应用数学1 1 班班2 2陈志明陈志明数学系数学系数学与应用数学数学与应用数学2 2 班班3 3施明杰施明杰数学系数学系信息与计算科学信息与计算科学3 3 班班20132013 年年 8 8 月月 2323 日日数据回归分析数据回归分析摘要:本模型是为解决给定一组数据进行相关线性分析,而对应变量与自变量之间的函数关系问题而建立的针对本文给出的多组数据多个变量样本,我们对 它建立回归模型,并且利用 spss,eviews,以及 m

2、atlab 等数学软件对已知数 据进行处理。首先用箱图进行分析,进而检测出了强影响点,得出杠杆值。其 次,从回归残差的直方图与附于图上的正态分布曲线相比较,来验证正态分布。 最后,从相关系数观察变量之间是否线性相关,来检验自变量是否多重共线性。 最后建立出一个合理化的模型。关键词:强影响点 杠杆值回归分析 相关性 自相关 残差 异常点 正态性一、问题重述yx1x2x3x4x5x6 443497976815205 29027703166129 6761159213009339 53692629258247 481674294163202 2963154341411119 453105604751

3、0212 61711485841720285 51498727112-1242 4001559991511174 47362628191207 157251179945 4404565841913195 480927563920232 136272682417134 53011152931113256 610781028457266 6171068782187276 600979871128266 4806765621312196 279382644108110 446563299168188 45054100501115205 33553556080170 45961537965193 63

4、060108104178273 483837871118233 6177412566164265 605891217188283 3886430811010176 35134446579143 36671345689162 493883087130207 64811210512351234 44957697254200 340613555130152 2922945471313123 6888210581209268 408805561111197 461828854147225上表给定了一些关于自变量与因变量的一些数据,请按654321,xxxxxxy所给的要求对给定的数据进行分析: 要求:

5、1.检测强影响点,并求出杠杆值. 2.正态性检验. 3.相关性检验. 4.自变量的多重共线性检测,若有多重共线性,试消除,再建模. 5.残差的自相关性分析,模型的合理性分析. 6.预测时的预测值.TX)225, 7 ,13,50,82,81,470(0Y二、问题分析本文是要对给定的一组数据做合理化的线性分析。先后要求对数据做异常 值(强影响点)的检验和剔除,各变量的正态性检验,再从相关性的角度对各 变量做相关性检验,得出数据是否适合做多元线性规划模型。 为了使建立的模型具有很好的拟合效果和实际意义,又要求对各变量做相 关性检验的同时进而做多重共线性的诊断,从中发现自变量之间是否存在着多 重共线

6、性。在有多重共线性的情况下,为了消除多重共线性的影响,我们又要 做剔除不合理的变量再做回归模型。当然在做好的模型中,我们又要剔除不能 通过 t 检验的变量,最后建立没有强多重共线性,没有异常点且通过了 F 检验, t 检验的合理化模型,再对给定的数据做出评价和预测。三.模型假设各变量的数据与所给的表格中的信息一致。并且所有数据均不是时间系列数据。四、符号说明Cook:库克距离:杠杆值iih:马氏距离Mahar五.模型的建立与求解5.1 强影响点的检测,杠杆值的求解。 5.1.1 强影响点的检测 利用 spss 数学软件对数据进行强影响点的检验。图表 1spss 箱图 从所给数据绘制的箱图来看数

7、据存在着强影响点,初步可以看出强影响点分别在的 3 号位和 12 号位,的 34 号位。为了进一步的检测出强影响点的3x6x位置和数据,减小强影响点对整体数据的影响,我们进一步对强影响点进行分 析。 序号杠杆值iich库克距离icookMaHar 距离iMahar10.089270.001243.48134 20.173340.001186.76013 30.363720.0008114.18495 40.081230.00933.1681 50.123840.000974.82977 60.1075304.19383 70.180450.00287.0377 80.272410.000361

8、0.62387 90.119720.034784.66919 100.245330.000029.56781 110.07050.001552.74957 120.2530.091579.86694 130.136160.00885.31018 140.1847107.20365 150.244170.808569.52252 160.15160.003995.91237 170.11520.045094.49265 180.115760.006354.51472 190.054750.000312.13536从上表中我们可以看到,34 行库克距离(cook)等于远远大于 1,23619.82

9、2 判断为强影响点。取 34 行强影响点附近的平均值在对数据进行库克距离的分析, 最后发现 15 行库克距离(cook)等于 1.40907 大于 1,所以也是强影响点。 为了使模型的数据不存在异常点,我们取它附近数据的平均值代替异常值, 重新组合数据。 (原始数据中没有小数,为了保持一致性和合理性,我们对所求 平均值按四舍五入法取数) 。 序号yx1x2x3x4x5x6 1443497976815205 229027703166129 36761159213009339 453692629258247 5481674294163202 62963154341411119 7453105604

10、7510212 861711485841720285 951498727112-1242 104001559991511174 1147362628191207 12157251179945 134404565841913195 14480927563920232200.025350.010490.98876 210.073320.009192.85948 220.149250.007975.82088 230.131620.001255.13328 240.089120.042373.47549 250.050990.019231.98853 260.178860.000326.97558

11、270.012260.004850.47806 280.188120.003987.33676 290.134990.002785.26468 300.065220.001282.54373 310.061650.018582.40454 320.062810.003722.44946 330.170650.019036.65523 340.97471822.2361938.01355 350.07830.005683.05365 360.112160.015394.37417 370.086780.000373.38432 380.134790.07915.2569 390.072520.0

12、25692.82814 400.063850.041442.49016 图表 2 杠杆值、库克距离、马氏距离1550510264781017244 1653011152931113256 17610781028457266 186171068782187276 19600979871128266 204806765621312196 21279382644108110 22446563299168188 2345054100501115205 2433553556080170 2545961537965193 2663060108104178273 27483837871118233 2861

13、77412566164265 29605891217188283 303886430811010176 3135134446579143 3236671345689162 33493883087130207 3447173508092204 3544957697254200 36340613555130152 372922945471313123 386888210581209268 39408805561111197 40461828854147225 图表 3 修正数据表 5.1.2 杠杆值的求解 由中心化的帽子矩阵主对角线元素可得:nhchiiii/ 1-因此,中心化杠杆值的平均值是 n

14、iiipch1iichnpchnhcniii 11故:1) 、第 15 号位的中心化杠杆值为,平均杠杆值为24417. 0iich;13333. 0152nphc2) 、第 34 号位的中心化杠杆值为,平均杠杆值为23619.82234D;0.0588342nphc5.2 正态性检验 把修改好的数据重新导入数学软件,对其正态性进行检验。图表 4 标准化残差 通过直方图我们可以看到,图形是以钟型分布,符合正态性曲线的基本分 布规律,可以初步判定数据呈现正态分布。图表 5Y 数据 PP 图图表 6Y 数据 QQ 图从数据的 P-P 图和 Q-Q 图来看,观测的积累概率与期望654321,xxxxx

15、xy的积累概率都在线性直线的附近,而且满足正态分布的要求,因此可以判定数 据呈现正态分布。 5.3 相关性检验 对数据进行画散点图,对其相关性进行图形检验。020406080100120100200300400500600700YX1020406080100120140100200300400500600700YX2020406080100120140100200300400500600700YX304812162024100200300400500600700YX4-404812162024100200300400500600700YX5408012016020024028032036010

16、0200300400500600700YX6图表 7 数据散点图从各变量和因变量 y 的散点图来看,和因变量 y 都有明显的正6321,xxxx相关性,与因变量 y 的相关不太显著。因而进一步做数据的相关阵分析。54,xxCovariance Analysis: Ordinary Date: 08/21/13 Time: 17:23 Sample: 1 40 Included observations: 40Covariance Correlat ionY X6 X5 X4 X3 X2 X1 Y 13856.5 71.X6 6519.65 93269.47 8 0.1.X5 41.6106 328.6262 5 26.69438 0.0.1.X4 85.9806 312.4962 52.19.4743 8 0.0.0.1.X3 1853.74 1903.622 5-1.7.489.477 5 0.0.-0.0.1.X2 2382.55 61148.52 1 21

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号