数据分析与筛选－金锄头文库

资源描述

《数据分析与筛选》由会员分享，可在线阅读，更多相关《数据分析与筛选（9页珍藏版）》请在金锄头文库上搜索。

1、数据分析与筛选数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值,是实验、测量、观察、调查等的结果，常以数量的形式给出。一：分析方法列表法：将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚、简单明了、有利于发现相关量之间的物理关系；此外还要求在标题栏中注明物理量名称、符号、数量级和单位等；根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。最后还要求写明表格名称、主要测量仪器的型号、量程和准确度等级、有关环境条件参数如温度、湿度等。作图法：作图法可以最醒目地表

2、达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果(如直线的斜率和截距值等)，读出没有进行观测的对应点(内插法)，或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法)。此外，还可以把某些复杂的函数关系，通过一定的变换用直线图表示出来。例如半导体热敏电阻的电阻与温度关系为，取对数后得到，若用半对数坐标纸，以lgR为纵轴，以1/T为横轴画图，则为一条直线。二：数学建模中的数据分析2.1基本概率分布在数学建模中对数据进行分析时通常要考虑数据的概率分布情况，这样可以更好的了解数据总体的分布情况，以及分布是否稳定等一些数据的相关特征，其中常用的概率分布有：1(x-)2P()话卞厂

3、分布函数为：F(x)1正态分布N(卩,2):密度函数：(t-卩)2e一dt弋厶八一822X2分布2(n)：若随机变量XX2X3,Xn相互独立，都服从标准正态分布N(0,1),则随机变量Y罗+Y22+丫2n是服从自由度n的分布，记Yt(n)。”X利服从自由度为n的t分布，记为Tt(n)。F分布F(n1,n2)若X2(n),Y2(n)，且相互独立,则随机变量12X/nn12服从自由度为(n1,n2)的F分布，记为FF(nl,n2)。在对随机现象的观察和研究中，人们发现有许多随机变量，它们是由大量的相互独立的随机因素的综合影响而形成的，而其中每个因素在总的影响中所起的作用又很小，且各因素的作用还是相

4、对均匀的，则这种随机变量往往服从或近似服从正态分布。数据分析在生活中的运用非常广泛，最住要的体现是在销售利益、性能测试等的方面。下面是数学建模中常用的数据分析类型。2.2异常数据的挖掘和处理叮在预测与决策时，经常需要对所要研究的对象进行分析和收集数据，从大量的统计数据中找规律，而这些数据真实与否直接影响分析结论的科学性。在多数情况下会发现，统计来的数据是按照某一规律且起伏并不是很大，但其中都可能混有“异常数据”，这些异常数据是由异常因素(例异常时间、干扰或误差等)造成的与大多数观察值不一致。有些异常值可能是在统计时度量或执行错误所得到的，在分析过程中应剔除的，但有些数据非任何统计错误所致不能简

5、单地剔除，否则可能导致重要的隐藏信息丢失2，特别有些异常数据非常有价值，若剔除则可能影响到结论的科学性。因此，对于异常数据的挖掘及处理(利用)是值得研究的问题。异常数据的挖掘方法所谓数据挖掘就是按照既定的目标,对大量的统计数据进行探索,揭示隐藏其中的规律并进一步将之模型化的一种先进有效的方法。对异常数据的挖掘我们认为实际上就是识别统计数据是否为异常值，挖掘过程实际上是识别过程，可以用以下几种方法进行挖掘:3o检测法2一般统计数据若没有明显的上升或下降趋势(若是时间序列一般为平稳的时间序列)，都分布在其均值周围，标准差o能反映其离散程度。统计数据可以是来自某一总体的样本。如果是一般总体，可以由概

6、率统计中的切贝谢夫不等式知道，对于任意的0，有：,2PlX-E(X)18-82,21特别地有，PlX-E(X)13,5的方差为S2=(X-X)2(1)n1i=1设允许的测量误差为a(0vav1,般取0.05或0.1)，那样本均值近似代替真值，则样本值的最大允许范围为：(1-a)xx(1+a)x,i=1,2,.刀(2)样本x的最大可能方差为：s2=丄(X-(1a)X)2=坯(3)n-1n-1测量数据之间的两两误差Ax=x-x,i,j=1,2.n，ijAx=0AxAx.Ax1,21,31,nAx0Ax.Ax2,12,32,nAxAx0.Ax3,13,23,nij则误差矩阵可以表达为(4)5)5)A

7、xAxn,2n,1矩阵Ax的无穷范数为：max=11Ax11=maxi=1nn|Ax|i,j5)j=12分析方法5)某点的测量数据不存在粗差，则在给定的测量误差范围内有：s2s2max则认为存在粗差。如果某此测量数据xi粗差中偏移最大的值，则在公式（4）所表示的误差矩阵中，当i=k时，工IAxI取最大值，也可以表示为公式（5）,即取误差矩阵Axi,j的无穷范数时的测量误差x.k为偏差最大的数据，亦称最大粗差。如果某次测量数据较多，在保证计算可靠性的基础上，为了减少计算量或统一规范，也可以采用该方法进行有效筛选。经过逐次筛选，将测量数据按偏移量从小到大按顺序依次排序，直到S2S2为止，这样就可以

8、得到测量数据的正常取值范围。同时，为了保证测量max的可靠性，一般要求具有代表性的数据至少有3个。以上就是利用粗差来晒选数据的基本步骤，在筛选数据时的重要依据就是样本数据与无穷范数的差值，而无穷范数是通过误差矩阵经过公式（5）得到的。通过这样的方法就可以将数据筛选。3.3利用自组织方法进行数据筛选自组织理论是基于神经网络和计算机科学的迅速发展而产生和发展起来的。它将黑箱思想、生物神经元方法、归纳法、概率论、数理逻辑等方法有机地组合起来。其主要思想是通过简单的初始输入（局部变量）的交叉组合产生第一代中间候选模型，再从第一代中间候选模型中选出最优的若干项组合而产生第二代中间候选模型，重复这样一个产生、选择和遗传进化过程，使模型复杂度不断增加，直到选出最优复杂度模型为止。本文利用自组织方法进行数据筛选和建立税收预测模型，并在数据筛选基础上建立线性回归预测模型和BP神经网络预测模型，然后结合时间序列的预测模型，利用自组织方法建立组合预测模型。通过预测结果比较得出了组合预测模型比其它单个模型具有更高的预测精度。其重要的应用体现在对税收收入的的预测问题

展开阅读全文