缺失数据地补充及异常数据地修正修订稿

上传人:cl****1 文档编号:563626800 上传时间:2023-03-17 格式:DOCX 页数:24 大小:321.47KB
返回 下载 相关 举报
缺失数据地补充及异常数据地修正修订稿_第1页
第1页 / 共24页
缺失数据地补充及异常数据地修正修订稿_第2页
第2页 / 共24页
缺失数据地补充及异常数据地修正修订稿_第3页
第3页 / 共24页
缺失数据地补充及异常数据地修正修订稿_第4页
第4页 / 共24页
缺失数据地补充及异常数据地修正修订稿_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《缺失数据地补充及异常数据地修正修订稿》由会员分享,可在线阅读,更多相关《缺失数据地补充及异常数据地修正修订稿(24页珍藏版)》请在金锄头文库上搜索。

1、缺失数据地补充及异常数据地修正WEIHUA system office room【WEIHUA 16H-WEIHUA WEIHUA8Q8-数模培训作业论文题目 缺失数据地补充及异常数据地修正缺失数据地补充及异常数据地修正摘要数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及 其应用的广度和深度,极大地影响着人类社会发展的进程。数据补充,异常数 据的鉴别及修正,在各个领域也起到了重要作用。针对第一问,我们采用了两种模型。第一种是一元多项式回归模型,适用 于只有一种自变量的情况。利用我们找到的数据,首先作出散点图,观察其形 状,决定拟合多项式的次数,得出拟合曲线与拟合多项式。之后算出

2、均方根误 差验证拟合效果,均方根误差较小,说明拟合曲线与源数据吻合得较好。若 xl=,x2=,x3二时,y的数据缺失,将xl、x2、x3的值带入拟合多项式,算出缺失值 y1=,y2=,y3=,即可补充缺失数据。第二种是多元线性回归模型,适用于有多个自变量的情况。利用我们找到 的数据,首先作出散点图,之后作多元回归,求出多元线性回归多项式,以及 置信区间。作出残差分析图验证拟合效果,残差较小,说明回归多项式与源数 据吻合得较好。若x1=,x2=时,y的数据缺失,则将x1,x2带入回归多项式, 算出缺失值y=。类似地,若x1=,x2二时,y的数据缺失,则将x1,x2带入回归 多项式,算出缺失值y=

3、,即可补充缺失数据。针对第二问,我们使用了异常值检验中标准差未知的t检验法。首先绘制 火柴棒图观察可疑测定值,可得到可疑值为第6,9,13,23,26,29,35,36,45,53行 的数据。将除可疑测定值以外的其余测定值当做一个总体,并假设该总体服从 正态分布。由这些测定值计算平均值X与标准差s,而将可疑值分别当做一个样 本容量为1的特殊总体。如果可疑值与其余测定值同属于一个总体,则它与其余 测定值之间不应有显着性差异。检测统计量为:k = |x打X p,假设可由标准差 s替代C来进行检验,则检测统计量可视为:k = X - x| /s。若统计量值大于相 d心应置信度a下的t检验法的临界值T

4、 (该临界值通过查表法得出),则将可疑 a值判为异常值。通过计算我们发现,上述可疑值都是异常值。针对第三问,我们采用了分段线性插值、三次样条函数插值以及分段三次 Hermite插值法来修正数据异常。同时也需利用外插法修正最后一个数据的异 常。之后利用第二问中的t检验判断修正后的值是否仍为异常值。检验结果显 示:分段线性插值、三次样条函数插值所修正的第7个和第9个数据仍为异常 值,而分段三次Hermite插值所得到的修正值全都不是异常值。所以运用分段 三次Hermite插值得到的结果较准确。关键词:一元多项式回归、多元线性回归、t检验法、分段线性插值法、三次样条函数插值、分段三次 Hermite

5、插值一、问题重述1、关于数据缺失时应该怎样地把缺失数据补充上来?2、数据完整,但是数据出现异常,如何给出模型找出异常数据?3、异常数据如何修正?二、模型假设1、假设只有因变量存在数据缺失,而自变量不存在缺失。2、利用t检验法时,将除可疑测定值x以外的其余测定值当做一个总体,并d假设该总体服从正态分布。3、假设可由样本值计算标准差s替代Q来进行检验。三、符号说明符号含义RMSE均方根误差x样本平均值s样本标准差xd可疑测定值C总体标准差k检测统计量a置信度Ta置信度a下的t检验法临界值n样本容量四、对问题一的分析和处理一元多项式回归模型1当有缺失的一组数据只有一个自变量时,可以考虑使用一元多项式

6、回归模 型。我们采用的数据如下表:表1序号y137.03. 40237.53. 0033S. 03. 0043S. 52. 27539.02. 10639.51. 83740.01. 53840.51. 70941.01. 801041.51. 901142.02. 351242.52. 541343.02. 90首先使用matlab作出散点图,观察其形状,决定拟合多项式的次数,运用 matlab编程(matlab程序见附录一)得出拟合曲线与拟合多项式为:z二*x+。拟合曲线如下图所示:图1拟合曲线之后算出均方根误差RMSE验证拟合效果,均方根误差RMSE=较小,说明拟合曲线 与源数据吻合得较

7、好。若xl=,x2=,x3二时,y的数据缺失,将xl、x2、x3的值带入 拟合多项式,算出缺失值y1=,y2=,y3=,即可补充缺失数据。多元线性回归模型1当有缺失的一组数据存在多个自变量时,可以考虑使用多元线性回归模 型。我们将(见附表一)中的数据5导入matlab(该模型matlab程序见附录 二)。首先作出散点图,设定y (PM10)与x1(SO2)、x2(N02)的关系为二元线性回 归模型,即y二b0+b1x1+b2x2。之后作多元回归,求出系数bO二,b1二,b2=,所 以多元线性回归多项式为:丫=。且b0、b1、b2在置信度为%95的情况下的置信区间分别为 :,再作出残差分析图验证

8、拟合效果,残差较小,说明回归多项式与源数据吻 合得较好。若x1=,x2=时,y的数据缺失,则将x1,x2带入回归多项式,算出 缺失值y=。类似地,若x1=,x2=时,y的数据缺失,则将x1,x2带入回归多项 式,算出缺失值y=,即可补充缺失数据。散点图如下:图2散点图PM10 m 和阳2 (X1) 0.250.20.150.10 08 、O.OE残差分析图如下图 3 残差分析图残差绘制图差残50 100 150 200 250 数据五、对问题二的分析和处理异常值t检验法原理对于问题二,在数据完整但出现异常的情况下,可以考虑使用异常值检验中标准差未知的t检验法。将除可疑测定值X以外的其余测定值当

9、做一个总体,并d假设该总体服从正态分布。由这些测定值计算平均值X与标准差S,而将可疑值X当做一个样本容量为1的特殊总体。如果X与其余测定值同属于一个总体, 则它与其余测定值之间不应有显着性差异。检测统计量为:k=匕-X.&,假 设可由标准差s替代Q来进行检验,则检测统计量可视为:k = |x - X s。若统 d计量值大于相应置信度a下的t检验法的临界值T (该临界值通过查表法得 a出),则将X判为异常值2。d举例建模找出异常值我们将(见附表二)中的数据5导入matlab,首先利用matlab绘制火柴 棒图(该模型程序见附录三)观察可疑数据,火柴棒图如下:通过观察上图,得到可疑值为第6,9,1

10、3,23,26,29,35,36,45,53行的数据。 剔除这些数据后,用剩余数据计算 平均值X与标准差s。检测统计量为: k = lx -Xs。置信度 =%95,样本容量n=44时,利用查表法易得t检验法的 d临界值T =。a部分t分布表3如下:表2 t分布表na 二4142434445若统计量值大于临界值 T,则将x判为异常值,根据程序结果,第ad6,9,13,23,26,29,35,36,45,53 行的数据都是异常值。六、对问题三的分析和处理对于问题三,我们采用了分段线性插值、三次样条函数插值以及分段三次 Hermite插值法来修正数据异常。同时也需利用外插法修正最后一个数据的异 常。

11、本问题使用的是问题二中剔除异常点的数据(数据见附表三)。原理简介分段线性插值将每两个相邻的节点用直线连起来,如此形成的一条折线就是分段线性插 值函数,记作I (x),它满足I (x )= y ,且I (x)在每个小区间tx ,x 上是线nn iini i+1性函数I OG = 0,1,n)。nI (x)可以表示为n/=0人心)A E X._j ,JT. (f = 0时舍去)=n时舍去)其它I 6)有良好的收敛性,即对于x ela,b有,n怛人二/(x)用I 6)计算X点的插值时,只用到X左右的两个节点,计算量与节点个n数n无关。但n越大,分段越多,插值误差越小。实际上用函数表作插值计算 时,分

12、段线性插值就足够了,如数学、物理中用的特殊函数表,数理统计中用 的概率分布表等。(2) 三次样条函数插值4数学上将具有一定光滑性的分段多项式称为样条函数。三次样条函数为:对于a, b上的分划A : a = x x x =b,贝山01nnj4 ti其中d)T;-J丁沙,J = l,2,”4利用样条函数进行插值,即取插值函数为样条函数,称为样条插值。(3) 分段三次Hermite插值4如果对插值函数,不仅要求它在节点处与函数同值,而且要求它与函数有 相同的一阶、二阶甚至更高阶的导数值,这就是Hermite插值问题。Herm ite插值多项式为:0.6 6t0.5.5.4.4020406002060

13、0.60.6.40204060模型求解利用matlab编程(程序见附录四),可作出利用三种插值法修正异常值的 图。图如下:图5分段线性插值图图6三次样条函数插值图SplinePIec:eise linearpchip图7分段三次Hermite插值图根据程序运行结果,可得到分段线性插值的修正结果如表3:表3分段线性插值修正结果行号6913232629364553修正 结果三次样条函数插值的修正结果如表4:表4三次样条函数插值修正结果行号6913232629364553修正 结果之后利用第二问中的t检验判断修正后的值是否仍为异常值(matlab程序 见附录五)。检验结果显示:分段线性插值和三次样条

14、函数插值所修正的数据 中,第36行的数据和仍为异常值,第53行的数据和也仍为异常值。分段三次Hermite插值的修正结果如表5:表5分段三次Hermite插值修正结果行号6913232629364553修正结 果经过t检验,分段三次Hermite插值所得到的修正值全都不是异常值。所 以运用分段三次Hermite插值得到的结果较准确。七、模型评价和推广问题一采用的一元多项式回归和多元线性回归能够较好地解决补充缺失数 据的问题,并且该两种模型兼顾了只有一个自变量和有多个自变量的情况。一元多项式回归均方根误差较小,说明拟合曲线与源数据吻合得较好,故补充的 缺失数据准确度也较高。多元线性回归残差较小,说明回归多项式与

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号