缺失数据地补充及异常数据地修正讲解

上传人:枫** 文档编号:486742681 上传时间:2022-12-19 格式:DOCX 页数:25 大小:307.95KB
返回 下载 相关 举报
缺失数据地补充及异常数据地修正讲解_第1页
第1页 / 共25页
缺失数据地补充及异常数据地修正讲解_第2页
第2页 / 共25页
缺失数据地补充及异常数据地修正讲解_第3页
第3页 / 共25页
缺失数据地补充及异常数据地修正讲解_第4页
第4页 / 共25页
缺失数据地补充及异常数据地修正讲解_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《缺失数据地补充及异常数据地修正讲解》由会员分享,可在线阅读,更多相关《缺失数据地补充及异常数据地修正讲解(25页珍藏版)》请在金锄头文库上搜索。

1、数模培训作业论文题目缺失数据地补充及异常数据地修正缺失数据地补充及异常数据地修正摘要数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其 应用的广度和深度,极大地影响着人类社会发展的进程。数据补充,异常数据的 鉴别及修正,在各个领域也起到了重要作用。针对第一问,我们采用了两种模型。第一种是一元多项式回归模型,适用于 只有一种自变量的情况。利用我们找到的数据,首先作出散点图,观察其形状, 决定拟合多项式的次数,得出拟合曲线与拟合多项式。之后算出均方根误差验证 拟合效果,均方根误差较小,说明拟合曲线与源数据吻合得较好。若 xl=37.25,x2=41.75,x3=44.5时,y的数据

2、缺失,将xl、x2、x3的值带入拟合多项式, 算出缺失值yl=3.3257,y2=2.0437,y3=4.6002,即可补充缺失数据。第二种是多元线性回归模型,适用于有多个自变量的情况。利用我们找到的 数据,首先作出散点图,之后作多元回归,求出多元线性回归多项式,以及置信 区间。作出残差分析图验证拟合效果,残差较小,说明回归多项式与源数据吻合 得较好。若xl=0.055, x2=0.025时,y的数据缺失,则将x1,x2带入回归多项 式,算出缺失值y=0.052792。类似地,若xl=0.110,x2=0.045时,y的数据缺失, 则将xl,x2带入回归多项式,算出缺失值y=0.070212,

3、即可补充缺失数据。针对第二问,我们使用了异常值检验中标准差未知的t检验法。首先绘制火 柴棒图观察可疑测定值,可得到可疑值为第6,9,13,23,26,29,35,36,45,53行的 数据。将除可疑测定值以外的其余测定值当做一个总体,并假设该总体服从正态 分布。由这些测定值计算平均值X与标准差s,而将可疑值分别当做一个样本容 量为1的特殊总体。如果可疑值与其余测定值同属于一个总体,则它与其余测定 值之间不应有显著性差异。检测统计量为:k = |x -X|.9,假设可由标准差s替 代c来进行检验,则检测统计量可视为:k = x -X /s。若统计量值大于相应置信 d z度a下的t检验法的临界值T

4、 (该临界值通过查表法得出),则将可疑值判为异 a常值。通过计算我们发现,上述可疑值都是异常值。针对第三问,我们采用了分段线性插值、三次样条函数插值以及分段三次 Hermite插值法来修正数据异常。同时也需利用外插法修正最后一个数据的异 常。之后利用第二问中的t检验判断修正后的值是否仍为异常值。检验结果显示: 分段线性插值、三次样条函数插值所修正的第7个和第9个数据仍为异常值,而分 段三次Hermite插值所得到的修正值全都不是异常值。所以运用分段三次 Hermite插值得到的结果较准确。关键词:一元多项式回归、多元线性回归、t检验法、分段线性插值法、三次样 条函数插值、分段三次Hermite

5、插值一、问题重述1、关于数据缺失时应该怎样地把缺失数据补充上来?2、数据完整,但是数据出现异常,如何给出模型找出异常数据?3、异常数据如何修正?二、模型假设1、假设只有因变量存在数据缺失,而自变量不存在缺失。2、利用t检验法时,将除可疑测定值x以外的其余测定值当做一个总体,并假d设该总体服从正态分布。3、假设可由样本值计算标准差s替代Q来进行检验。三、符号说明符号含义RMSE均方根误差x样本平均值s样本标准差xd可疑测定值Q总体标准差k检测统计量a置信度Ta置信度a下的t检验法临界值n样本容量四、对问题一的分析和处理4.1 一元多项式回归模型1当有缺失的一组数据只有一个自变量时,可以考虑使用一

6、元多项式回归模型。我们采用的数据如下表:表1序号Xy137. 03. 40237. 53. 00338. 03. 00438. 52. 27539. 02.10639. 51. 83740. 01. 53840. 51. 70941. 01. 801041. 51. 901142. 02. 351242. 52. 541343. 02. 90首先使用matlab作出散点图,观察其形状,决定拟合多项式的次数,运用 mat lab编程(matlab程序见附录一)得出拟合曲线与拟合多项式为: z=0.16599*x2-13.387*x+271.62。拟合曲线如下图所示:图1拟合曲线*实际散点IS 按

7、合曲线3.5 -TP均方根误差:RMSE=0.13931拟合曲线 : z=0.16599*x2-13,387+271.622.51537*3339404243之后算出均方根误差RMSE验证拟合效果,均方根误差RMSE=0.13931较小,说明拟 合曲线与源数据吻合得较好。若x1=37.25,x2=41.75,x3=44.5时,y的数据缺失, 将x1、x2、x3的值带入拟合多项式,算出缺失值y1=3.3257,y2=2.0437,y3=4.6002 ,即可补充缺失数据。4.2多元线性回归模型1当有缺失的一组数据存在多个自变量时,可以考虑使用多元线性回归模型。 我们将data.xls (见附表一)

8、中的数据5导入matlab(该模型matlab程序见附 录二)。首先作出散点图,设定y(PM10)与xl(S02)、x2(N02)的关系为二元线性 回归模型,即y=b0+b1x1+b2x2。之后作多元回归,求出系数b0=0.03069,bl=-0.023695,b2=0.93619, 所以多元线性回归多项式为:Y=0.03069-0.023695* x1+0.93619*x2。且b0、b1、b2在置信度为%95的情况下的置信区间分别为0.024906,0.036474, -0.08381, 0.036419, 0.76259, 1.1098。再作出残差分析图验证拟合效果,残差较小,说明回归多项

9、式与源数据吻合 得较好。若x1=0.055, x2=0.025时,y的数据缺失,则将x1,x2带入回归多项 式,算出缺失值y=0.052792。类似地,若x1=0.110,x2=0.045时,y的数据缺失, 则将x1,x2带入回归多项式,算出缺失值y=0.070212,即可补充缺失数据。散点图如下:图2散点图PM10 CY)和SO2 収门、NO2(X2.)的关系回归关系式为:Y=0.0369-0 0236951 +0.93619驾2- - 1 _ - _ _sCILIAId0.040.020.05N O2X2 J5021)0.060.20.150.100.080.25残差分析图如下:图3残差分

10、析图残差绘制图五、对问题二的分析和处理5.1异常值t检验法原理对于问题二,在数据完整但出现异常的情况下,可以考虑使用异常值检验中标准 差未知的t检验法。将除可疑测定值x以外的其余测定值当做一个总体,并假设 d_该总体服从正态分布。由这些测定值计算平均值x与标准差S,而将可疑值x当d做一个样本容量为1的特殊总体。如果X与其余测定值同属于一个总体,则它与 d_ I其余测定值之间不应有显著性差异。检测统计量为:k = X -X a,假设可由标 _d $准差s替代a来进行检验,则检测统计量可视为:k = X -X s。若统计量值大于 d 相应置信度a下的t检验法的临界值T (该临界值通过查表法得出),

11、则将x判 ad为异常值2。5.2举例建模找出异常值我们将data. txt (见附表二)中的数据5导入mat lab,首先利用mat lab绘制火柴棒图(该模型程序见附录三)观察可疑数据,火柴棒图如下:图4火柴棒图通过观察上图,得到可疑值为第6,9,13,23,26,29,35,36,45,53行的数据。 剔除这些数据后,用剩余数据计算平均值X与标准差s。检测统计量为:k = lx -Xl/s。置信度 =%95,样本容量n=44时,利用查表法易得t检验法的临 d界值 T =1.6802。a部分t分布表3如下:表2 t分布表na =0.250.100.05410.68051.30251.6829

12、420.68041.30201.6820430.68021.30161.6811440.68011.30111.6802450.68001.30061.6794若统计量值大于临界值 T,则将x判为异常值,根据程序结果,第 ad6,9,13,23,26,29,35,36,45,53 行的数据都是异常值。六、对问题三的分析和处理对于问题三,我们采用了分段线性插值、三次样条函数插值以及分段三次 Hermite插值法来修正数据异常。同时也需利用外插法修正最后一个数据的异 常。本问题使用的是问题二中剔除异常点的数据(数据见附表三)。6.1原理简介(1) 分段线性插值将每两个相邻的节点用直线连起来,如此形

13、成的一条折线就是分段线性插值 函数,记作I (x),它满足I (x )= y ,且I (x)在每个小区间L ,x 上是线性 nn iini i+1函数 I (x)(i = 0,1,n)。nI (x)可以表示为n1=0X 一 x,+10,x w x._j ,x. (i = 0时舍去)x g xi9x/+1 (i = n时舍去)其它I 6)有良好的收敛性,即对于x ela,b有,nlim/x) = /(x)用I 6)计算x点的插值时,只用到x左右的两个节点,计算量与节点个n数n无关。但n越大,分段越多,插值误差越小。实际上用函数表作插值计算 时,分段线性插值就足够了,如数学、物理中用的特殊函数表,

14、数理统计中用的 概率分布表等。(2) 三次样条函数插值4数学上将具有一定光滑性的分段多项式称为样条函数。三次样条函数为:对于 L, b上的分划 A : a = x x x =b,贝 V,01n利用样条函数进行插值,即取插值函数为样条函数,称为样条插值。(3)分段三次Hermite插值4如果对插值函数,不仅要求它在节点处与函数同值,而且要求它与函数有相 同的一阶、二阶甚至更高阶的导数值,这就是Hermite插值问题。Herm ite插值多项式为:he =工人(壬-下)(2兀-代)+” i=0mi /-nJ=0.田6.2模型求解利用mat lab编程(程序见附录四),可作出利用三种插值法修正异常值的图。 图如下:图5分段线性插值图图6三次样条函数插值图图7分段三次Hermite插值图根据程序运行结果,可得到分段线性插值的修正结果如表3: 表3分段线性插值修正结果行号6913232629364553修正 结果0.448210.532290.409490.426830.495380.464510.281250.412640.55435三次样条函数插值的修

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号