数学建模缺失数据补充及异常数据修正

上传人:小** 文档编号:55655658 上传时间:2018-10-03 格式:DOC 页数:16 大小:201.78KB
返回 下载 相关 举报
数学建模缺失数据补充及异常数据修正_第1页
第1页 / 共16页
数学建模缺失数据补充及异常数据修正_第2页
第2页 / 共16页
数学建模缺失数据补充及异常数据修正_第3页
第3页 / 共16页
数学建模缺失数据补充及异常数据修正_第4页
第4页 / 共16页
数学建模缺失数据补充及异常数据修正_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《数学建模缺失数据补充及异常数据修正》由会员分享,可在线阅读,更多相关《数学建模缺失数据补充及异常数据修正(16页珍藏版)》请在金锄头文库上搜索。

1、题目:数据的预处理问题摘要数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及 其应用的广度和深度,极大地影响着人类社会发展的进程。数据补充,异常数 据的鉴别及修正,在各个领域也起到了重要作用。对于第一问,我们采用了多元线性回归的方法对缺失数据进行补充,我们 将1960-2015.xls(见附表一)中的数据导入 matlab。首先作出散点图,设定 y(X59287)与 x1(X54511)、x2(X57494)的关系为二元线性回归模型,即 y=b0+b1x1+b2x2。之后作多元回归,求出系数 b0=18.014,b1=0.051,b2=0.354,所以多元线性回归多项式为: Y=

2、18.014+0.051*x1+0.354*x2。再作出残差分析图验证拟合效果,残差较小, 说明回归多项式与源数据吻合得较好。若 x1=30.4,x2=28.6时,y 的数据缺失, 则将 x1,x2带入回归多项式,算出缺失值 y=29.6888。类似地,若 x1=40.6,x2=30.4时,y 的数据缺失,则将 x1,x2带入回归多项式,算出缺失值 y=30.8462,即可补充缺失数据。对于第二问,我们使用了异常值检验中标准差未知的 t 检验法。将除可疑 测定值以外的其余测定值当做一个总体,并假设该总体服从正态分布。由这dx 些测定值计算平均值与标准差 s,而将可疑值当做一个样本容量为1的特殊

3、xdx 总体。如果与其余测定值同属于一个总体,则它与其余测定值之间不应有显dx著性差异。检测统计量为:,假设可由标准差 s 替代来进行检xxkd验,则检测统计量可视为:。若统计量值大于相应置信度下的 tsxxkd 检验法的临界值(该临界值通过查表法得出) ,则将判为异常值。由此算Tdx 法即可鉴别出相应的异常数据。对于第三问,对于问题三,我们采用了分段线性插值,最近方法插值,三 次样条函数插值以及三次多项式方法插值法来修正数据异常。同时也需利用外 插法修正最后一个数据的异常。通过各种插值方法的比较,发现三次样条方法 较为准确,并较好的对异常数据进行修正。关键词:多元线性回归,关键词:多元线性回

4、归,t t 检验法,分段线性插值,最近方法插值,三次样条检验法,分段线性插值,最近方法插值,三次样条 插值,三次多项式插值插值,三次多项式插值C38C38姓名学号专业队长康伟振20141387032应数长望队员一卜维新20141346033网络工程队员二李兰馨20141302059应用气象一、问题重述1.1 背景在数学建模过程中总会遇到大数据问题。一般而言,在提供的数据中,不 可避免会出现较多的检测异常值,怎样判断和处理这些异常值,对于提高检测 结果的准确性意义重大。1.2 需要解决的问题(1)给出缺失数据的补充算法;(2)给出异常数据的鉴别算法;(3)给出异常数据的修正算法。二、模型分析2.

5、1 问题(1)的分析属性值数据缺失经常发生甚至不可避免。(一) 较为简单的数据缺失(1) 平均值填充如果空值为数值型的,就根据该属性在其他所有对象取值的平 均值来填充缺失的属性值;如果空值为非数值型的,则根据众数原理,用该属性在其他所有对象的取值次数最多的值(出现 频率最高的值)来补齐缺失的属性值。(2) 热卡填充(就近补齐)对于包含空值的数据集,热卡填充法在完整数据中找到一个与 其最相似的数据,用此相似对象的值进行填充。(3) 删除元组将存在遗漏信息属性值的元组删除。(二)较为复杂的数据缺失(1)多元线性回归当有缺失的一组数据存在多个自变量时,可以考虑使用多元线性 回归模型。将所有变量包括因

6、变量都先转化为标准分,再进行线性回归,此时 得到的回归系数就能反映对应自变量的重要程度。2.2 问题(2)的分析属性值异常数据鉴别很重要。我们可以采用异常值 t 检验的方法比较前后两组数据的平均值,与临界值 相比较即可辨别数据异常并剔除异常数据。将除可疑测定值以外的其余测定值当做一个总体,并假设该总体服从正dx 态分布。由这些测定值计算平均值与标准差 s,而将可疑值当做一个样本xdx 容量为1的特殊总体。如果与其余测定值同属于一个总体,则它与其余测定dx 值之间不应有显著性差异。检测统计量为:,假设可由标准差 sxxkd 替代来进行检验,则检测统计量可视为:。若统计量值大于相应sxxkd 置信

7、度下的 t 检验法的临界值(该临界值通过查表法得出) ,则将判为Tdx 异常值。2.3 问题(3)的分析对于数据修正,我们采用各种插值算法进行修正,这是一种行之有效的方法。(1 1)分段线性插值)分段线性插值将每两个相邻的节点用直线连起来,如此形成的一条折线就是分段线性插值函数,记作,它满足,且在每个小区间上是线 xIn iinyxI xIn1,iixx性函数。 xInni, 1 , 0 可以表示为 xIn有良好的收敛性,即对于有, xInbax,用 计算 x 点的插值时,只用到 x 左右的两个节点,计算量与节点个 xIn数 n 无关。但 n 越大,分段越多,插值误差越小。实际上用函数表作插值

8、计算 时,分段线性插值就足够了,如数学、物理中用的特殊函数表,数理统计中用 的概率分布表等。(2)(2) 三次多项式算法插值三次多项式算法插值当用已知的 n+1个数据点求出插值多项式后,又获得了新的数据点,要用 它连同原有的 n+1个数据点一起求出插值多项式,从原已计算出的 n 次插值多 项式计算出新的 n+1次插值多项式很困难,而此算法可以克服这一缺点。(3 3)三次样条函数插值三次样条函数插值44数学上将具有一定光滑性的分段多项式称为样条函数。三次样条函数为:对于上的分划:=b,则,ba,nxxxa 10利用样条函数进行插值,即取插值函数为样条函数,称为样条插值。三、模型假设1.假设只有因

9、变量存在数据缺失,而自变量不存在缺失。2.利用 t 检验法时,将除可疑测定值以外的其余测定值当做一个总体,并假dx设该总体服从正态分布。四、问题(1)的分析与求解4.1 问题分析本题需要对缺失数据进行补充,情况可分为数据集中单一元素缺失及某一 元组缺失两种情况。因此,对数据处理采用同上模型分析 2.1 的处理方法。4.2 问题处理我们将1960-2015.xls(见附表一)中的数据导入 matlab(程序见附录一) 。 首先作出散点图。设定 y(X59287)与 x1(X54511)、x2(X57494)的关系为二元线性回归模型, 即 y=b0+b1x1+b2x2。之后作多元回归,求出系数 b

10、0=18.014,b1=0.051,b2=0.354,所以多元线性回归多项式为: Y=18.014+0.051*x1+0.354*x2。由 matlab 编程所得结果图如下4-2所示。图4-2再作出残差分析图验证拟合效果,残差较小,说明回归多项式与源数据吻合得 较好。若 x1=30.4,x2=28.6 时,y 的数据缺失,则将 x1,x2 带入回归多项式, 算出缺失值 y=29.6888。类似地,若 x1=40.6,x2=30.4 时,y 的数据缺失,则将 x1,x2 带入回归多项式,算出缺失值 y=30.8462,即可补充缺失数据。五、问题(2)的分析与求解5.1 问题分析本题需要对给定缺失

11、数据进行鉴别,可以采用的方法为 t 检验检测法。T 检 验用 t 分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。5.2 问题处理(一)随机产生数据由 R 系统随机产生数据对其进行缺失数据鉴别,代码如附录四所示,结果 图如下 5-1,5-2,5-3 所示。图 5-1图 5-2图 5-3(二)给定相应数据对于问题二,在数据完整但出现异常的情况下,可以考虑使用异常值检验 中标准差未知的 t 检验法。将除可疑测定值以外的其余测定值当做一个总体,dx 并假设该总体服从正态分布。由这些测定值计算平均值与标准差 s,而将可疑x 值当做一个样本容量为1的特殊总体。如果与其余测定值同属于一个总

12、体,dxdx 则它与其余测定值之间不应有显著性差异。检测统计量为:,假xxkd 设可由标准差 s 替代来进行检验,则检测统计量可视为:。若统sxxkd 计量值大于相应置信度下的 t 检验法的临界值(该临界值通过查表法得出)T ,则将判为异常值。具体数据见附表二,具体程序详见附录二,结果图如下dx 5-4所示。图5-4六、问题(3)的分析与求解6.1 问题分析对于问题三,我们采用了分段线性插值,最近方法插值,三次样条函数插 值以及三次多项式方法插值法来修正数据异常。同时也需利用外插法修正最后 一个数据的异常。详见2.3对问题三的处理原理。具体代码见附录三。附录一 多元线性回归 matlab 程序

13、clear;data1=xlsread(C:UsersLenovoDesktop1960-2005.xls);%做出散点图figure(1)scatter3(data1(:,4),data1(:,5),data1(:,6),r);x=ones(262,1),data1(:,4),data1(:,5);y=data1(:,6);b,bint,r,rint,stats=regress(y,x);xlabel(X54511(x1);ylabel(X57494(x2);zlabel(X59287(y);text(0.1,0.06,0.2,回归方程式为:y=18.014+0.051x1+0.352x2,

14、color,b);title(x1,x2,y 的关系:,color,m);%做残差分析图figure(2)reoplot(r,rint);xlabel(数据);ylabel(残差);title(残差绘制图);%补缺失数据x1=32.6,31.3;y1=x1*b;x2=33.2,26.5;y2=x2*b;附录二 t 检验 spss 代码GET DATA /TYPE=XLS /FILE=C:UsersbwxDesktop2.xls /SHEET=name Sheet1 /CELLRANGE=full /READNAMES=on /ASSUMEDSTRWIDTH=32767. EXECUTE. DA

15、TASET NAME 数据集2 WINDOW=FRONT. T-TEST /TESTVAL=0 /MISSING=ANALYSIS /VARIABLES=y /CRITERIA=CI(.95).附录三 插值修正数据 matlab 代码clear T=0:5:65T =0 5 10 15 20 25 30 35 40 45 50 55 60 65 X=2:5:57X =2 7 12 17 22 27 32 37 42 47 52 57 F=3.2015,2.2560,879.5,1835.9,2968.8,4136.2,5237.9,6152.7,6725.3,6848.3 ,6403.5,6824.7,7328.5,7857.6; F1=interp1(T,F,X)F1 =1.0e+003 *Columns 1 through 100.0028 0.3532 1.2621 2.2891 3.4358 4.5769 5.6038 6.3817 6.7745 6.6704Columns 11 through 126.5720 7.0262 F1=interp1(T,F,X,nearest)F1 =1.0e+003 *Columns 1 through 100.0032 0.0023

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号