数据分析与筛选－金锄头文库

资源描述

《数据分析与筛选》由会员分享，可在线阅读，更多相关《数据分析与筛选（8页珍藏版）》请在金锄头文库上搜索。

1、数据分析与筛选数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值，是实验、测量、观察、调查等的结果，常以数量的形式给出。一：分析方法列表法：将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚、简单明了、有利于发现相关量之间的物理关系；此外还要求在标题栏中注明物理量名称、符号、数量级和单位等；根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。最后还要求写明表格名称、主要测量仪器的型号、量程和准确度等级、有关环境条件参数如温度、湿度等。作图法：作图法可以最醒目地表

2、达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果（如直线的斜率和截距值等），读出没有进行观测的对应点（内插法），或在一定条件下从图线的延伸部分读到测量范围以外的对应点（外推法）。此外，还可以把某些复杂的函数关系，通过一定的变换用直线图表示出来。例如半导体热敏电阻的电阻与温度关系为，取对数后得到，若用半对数坐标纸，以 lgR 为纵轴，以 1/T 为横轴画图，则为一条直线。二：数学建模中的数据分析2.1.基本概率分布在数学建模中对数据进行分析时通常要考虑数据的概率分布情况，这样可以更好的了解数据总体的分布情况，以及分布是否稳定等一些数据的相关特征，其中常用的概率分布有：正态分布

3、：密度函数：),(2N2)(1)(xexp分布函数为： dttFx2)(2)(：若随机变量 X1,X2,X3,.Xn 相互独立，都服从标准正态分布）（分布 n2N(0,1),则随机变量 nYY221.是服从自由度 n 的分布，记 Yt(n)。T/服从自由度为 n 的 t 分布，记为 Tt(n)。F 分布 F(n1,n2)若 X ,且相互独立，则随机变量)(),(212nY21/nYX服从自由度为（n1,n2）的 F 分布，记为 FF(n1,n2)。在对随机现象的观察和研究中，人们发现有许多随机变量，它们是由大量的相互独立的随机因素的综合影响而形成的，而其中每个因素在总的影响中所起的作用又很

4、小，且各因素的作用还是相对均匀的，则这种随机变量往往服从或近似服从正态分布。数据分析在生活中的运用非常广泛，最住要的体现是在销售利益、性能测试等的方面。下面是数学建模中常用的数据分析类型。2.2.异常数据的挖掘和处理1 在预测与决策时，经常需要对所要研究的对象进行分析和收集数据，从大量的统计数据中找规律，而这些数据真实与否直接影响分析结论的科学性。在多数情况下会发现，统计来的数据是按照某一规律且起伏并不是很大，但其中都可能混有“异常数据” ，这些异常数据是由异常因素(例异常时间、干扰或误差等)造成的与大多数观察值不一致。有些异常值可能是在统计时度量或执行错误所得到的，在分析过程中应剔除的，但有

5、些数据非任何统计错误所致不能简单地剔除，否则可能导致重要的隐藏信息丢失2，特别有些异常数据非常有价值，若剔除则可能影响到结论的科学性。因此，对于异常数据的挖掘及处理(利用)是值得研究的问题。异常数据的挖掘方法所谓数据挖掘就是按照既定的目标, 对大量的统计数据进行探索, 揭示隐藏其中的规律并进一步将之模型化的一种先进有效的方法。对异常数据的挖掘我们认为实际上就是识别统计数据是否为异常值，挖掘过程实际上是识别过程，可以用以下几种方法进行挖掘: 3 检测法2 一般统计数据若没有明显的上升或下降趋势(若是时间序列一般为平稳的时间序列) ，都分布在其均值周围，标准差能反映其离散程度。统计数据可以是

6、来自某一总体的样本。如果是一般总体，可以由概率统计中的切贝谢夫不等式知道，对于任意的 0 ，有： 2|)(| XEP特别地有，即统计数据与其均值的偏差超过913|)(| 2X3 比例不超过 1/9 则由不等式，即在正027.)3(|)(| x态分布下统计数据与平均值的离差大于 3 的概率仅为 0.27%，所以可将那 3 些有均值之差的绝对值超过 3 的统计数据视为异常数据。根据概率论中的中心极限定理，因此 3 检测法在实际中比较常用。当然它的局限性是只适用于单维异常数据的挖掘。 2.3 利用聚类分析法对数据处理聚类分析又称群分析，是研究分类问题的一种多元统计方法。在聚类分析的过程中，

7、将样品或变量按相互之间距离的大小或由相似系数反映出的相近性聚成若干类，常用的距离有欧氏距离、马氏距离、兰氏距离等，马氏距离可以排除指标之间相关性的干扰且不受量纲的影响，最为实用。根据聚类的结果，距离较小或相似系数大的可以聚为一类，但最终聚成几类，并没有严格的限制。如果存在几个样品，聚合成哪一类都不合适，或与其它样品的距离都比较远，那么就可断定这些样品数据为异常数据。 1、数据在聚类分析之前要进行数据的变换，常用的方法有a 中心化变换： ),.321(*mixij变换后的数据均值为 0，而协方差不变。B.标准变换： ),.;,.(jnisxji其中 sj 是标准差；变换后的数据每个变量的样本均值

8、为 0，而且标准变换后的数据与变量的量纲无关；2、由聚类分析法的基本思想，即可得出1数据变换：常用的数据变换方法在上面已经详细举出。数据变换的目的时为了便于计算和比较，或改变数据的结构； 2计算n各样品两两间的距离，得到样品间的距离（常用欧式距离）矩阵；)0(D3初始（第一步：i=1）n个样品各自构成一类，类的个数k=n，第i类,此时类的间距就是样品距离，然后对样品执).2,1()xGj ),.21()niX行并类过程和； 4对步骤3得到的距离矩阵，合并类间距离最小的两类为一新类，此时类1iD的总个数k减少一类，即k=n-i+1;5计算新类与其他类的距离，得到新的距离矩阵，若合并后的总个

9、数k仍然大于1，重复以上的过程，6画谱系聚类图；7觉定分类个数及各类的成员。2.4.典型例子市场占有率问题一个企业的销售量（或销售额）在市场同类产品中所占的比重。直接反映企业所提供的商品和劳务对消费者和用户的满足程度，表明企业的商品在市场上所处的地位。市场份额越高，表明企业经营、竞争能力越强。市场份额根据不同市场范围有 4 种测算方法：（1).总体市场份额。指一个企业的销售量（额）在整个行业中所占的比重。 (2).目标市场份额。指一个企业的销售量（额）在其目标市场，即它所服务的市场中所占的比重。一个企业的目标市场的范围小于或等于整个行业的服务市场，因而它的目标市场份额总是大于它在总体市场中

10、的份额。 (3).相对于 3 个最大竞争者的市场份额。指一个企业的销售量和市场上最大的 3 个竞争者的销售总量之比。如：一个企业的市场份额是 30，而它的 3 个最大竞争者的市场份额分别为 20，10，10，则该企业的相对市场份额就是 304075，如 4 个企业各占 25，则该企业的相对市场份额为33。一般地，一个企业拥有 33以上的相对市场份额，就表明它在这一市场中有一定实力。 4.相对于最大竞争者的市场份额。指一个企业的销售量与市场上最大竞争者的销售量之比。若高于 100，表明该企业是这一市场的领袖。三、数据筛选数据的筛选在数学建模中占有很重要的地位，它是数学建模的第一步，我们只有得

11、到好的数据才能保证得出的结果的真实性与准确性。而在实际的问题中我们遇到的数据量往往是巨大的。为了保证我们所用的方法能够在原始数据的支持下得以实现，我们必须要对数据进行筛选，使得解决方法简单化。但是我们又要保证筛选出来的数据具有代表性，使得到的结果更加准确与真实。数据筛选有很多种不同的方法3.1：随机抽样从一个总体的样本 X 中随机抽取出 n 个个体，这样称对总体 X 进行随机抽样，其中 n 叫做样本容量，这 n 个个体构成了样本。在随机抽样过程中满足随机性和独立性两个特征，即对于每一次的抽样在总体中的每一个个体被抽到的概率都相同，每次抽取的结果不会影响到下一次的抽取。这样的随机抽样适用于对总体

12、的概率分析等统计方面的应用，比如可以分析数据中的最大值、均值、众数等数据特征不能够对数据的3.2 利用粗差法筛选数据1 基本假设利用粗差法筛选数据的方法是一种基于数理统计理论得出的一种筛选数据的方法，其主要的运用体现在矿井通风阻力测定数据前处理的运用中，以及其他相类似的数据处理。以下我们就以矿井的通风阻力为例介绍粗差筛选数据的方法。在进行通风阻力测量时，要求选择合理的测量路线，在每条测量路线上选择合理的测量点，每个测量点至少要求 5 个数据。在测量期间，如果巷道通风状况等条件保持稳定，则某点的数据样本符合正态分布，且其平均值近似为真值。某测点测量数据的样本 x=(x1,x2,x3.xn),n5

13、,的方差为（1）212)(niixs设允许的测量误差为 a(0a1,一般取 0.05 或 0.1)，那样本均值近似代替真值，则样本值的最大允许范围为：（2）nixaxa,.2,)()1(1样本 x 的最大可能方差为：（3）1)()(2 ns测量数据之间的两两误差，则误差矩阵可以表达为njixiij .2,（4）0.2,. .01, ,3,3, 23,212 ,11,xnxn矩阵的无穷范数为：（5）|ma|1,maxnjjiixf2 分析方法某点的测量数据不存在粗差，则在给定的测量误差范围内有： max2s则认为存在粗差。如果某此测量数据 xi 粗差中偏移最大的值，则在公式（4）所表示的误差

14、矩阵中，当 i=k 时，取最大值，也可以表示为公式（5），即取误差矩阵njji1,|的无穷范数时的测量误差 xj-k 为偏差最大的数据，亦称最大粗差。x如果某次测量数据较多，在保证计算可靠性的基础上，为了减少计算量或统一规范，也可以采用该方法进行有效筛选。经过逐次筛选，将测量数据按偏移量从小到大按顺序依次排序，直到为止，这样就可以得到测量数据的正常取值范围。同时，为了保证测max2s量的可靠性，一般要求具有代表性的数据至少有 3 个。以上就是利用粗差来晒选数据的基本步骤，在筛选数据时的重要依据就是样本数据与无穷范数的差值，而无穷范数是通过误差矩阵经过公式（5）得到的。通过这样的方法就可以将

15、数据筛选。3.3 利用自组织方法进行数据筛选自组织理论是基于神经网络和计算机科学的迅速发展而产生和发展起来的。它将黑箱思想、生物神经元方法、归纳法、概率论、数理逻辑等方法有机地组合起来。其主要思想是通过简单的初始输入（局部变量）的交叉组合产生第一代中间候选模型，再从第一代中间候选模型中选出最优的若干项组合而产生第二代中间候选模型，重复这样一个产生、选择和遗传进化过程，使模型复杂度不断增加，直到选出最优复杂度模型为止。本文利用自组织方法进行数据筛选和建立税收预测模型，并在数据筛选基础上建立线性回归预测模型和 BP 神经网络预测模型，然后结合时间序列的预测模型，利用自组织方法建立组合预测模型。通过

16、预测结果比较得出了组合预测模型比其它单个模型具有更高的预测精度。其重要的应用体现在对税收收入的的预测问题上。税收收入预测可以使用统计技术，其使用的模型一般分为时间序列模型和回归模型。时间序列模型的缺点在于不能充分利用与税收收入密切相关的经济因素，导致预测的数据不准确和不稳定。回归模型虽然考虑了经济因素，但需要事先知道其它经济因素与税收收入间的函数关系，而且为了获得比较精确的预测结果，需要大量的计算。许多实验表明 BP 神经网络用于税收等经济指标的预测也是一种适合的方法。神经网络的优点在于它具有模拟多变量而不需要对输入变量做复杂的相关假定的能力，只要利用以往的历史数据，就可以从训练过程中通过学习来抽取和逼近隐含的输入/输出非线性关系。但 BP 神经网络也有缺点，特别是在

展开阅读全文