数据中异常值的处理方法

资源描述

《数据中异常值的处理方法》由会员分享，可在线阅读，更多相关《数据中异常值的处理方法（11页珍藏版）》请在金锄头文库上搜索。

1、据中异常值的检测与处理方法一、数据中的异常值各种类型的异常值：数据输入错误：数据收集，记录或输入过程中出现的人为错误可能导致数据异常。例如：一个客户的年收入是$ 100,000。数据输入运算符偶然会在图中增加一个零。现在收入是100万美元，是现在的10倍。显然，与其他人口相比，这将是异常值。测量误差：这是最常见的异常值来源。这是在使用的测量仪器出现故障时引起的。例如：有10台称重机。其中9个是正确的，1个是错误的。有问题的机器上的人测量的重量将比组中其他人的更高/更低。在错误的机器上测量的重量可能导致异常值。实验错误：异常值的另一个原因是实验错误。举例来说：在七名跑步者的 100米

2、短跑中，一名跑步者错过了专注于“出发”的信号，导致他迟到。因此，这导致跑步者的跑步时间比其他跑步者多。他的总运行时间可能是一个离群值。故意的异常值：这在涉及敏感数据的自我报告的度量中通常被发现。例如:青少年通常会假报他们消耗的酒精量。只有一小部分会报告实际价值。这里的实际值可能看起来像异常值，因为其余的青少年正在假报消费量。数据处理错误：当我们进行数据挖掘时，我们从多个来源提取数据。某些操作或提取错误可能会导致数据集中的异常值。抽样错误：例如，我们必须测量运动员的身高。错误地，我们在样本中包括一些篮球运动员。这个包含可能会导致数据集中的异常值。自然异常值：当异常值不是人为的（由于错误

3、），这是一个自然的异常值。例如：保险公司的前50名理财顾问的表现远远高于其他人。令人惊讶的是，这不是由于任何错误。因此，进行任何数据挖掘时，我们会分别处理这个细分的数据。在以上的异常值类型中，对于房地产数据，可能出现的异常值类型主要有：（1）数据输入错误，例如房产经纪人在发布房源信息时由于输入错误，而导致房价、面积等相关信息的异常；在数据的提取过程中也可能会出现异常值，比如在提取出售二手房单价时，遇到“1室7800元/m2”，提取其中的数字结果为“17800”，这样就造成了该条案例的单价远远异常于同一小区的其他房源价格，如果没有去掉这个异常值，将会导致整个小区的房屋单价均值偏高，与实

4、际不符。（2）故意的异常值，可能会存在一些人，为了吸引别人来电询问房源，故意把价格压低，比如房屋单价为 1元等等；（3）自然异常值。房价中也会有一些实际就是比普通住宅价格高很多的真实价格，这个就需要根据实际请况进行判断，或在有需求时单独分析。二、数据中异常值的检测各种类型的异常值检测：1、四分位数展布法方法1：大于下四分位数加 1.5 倍四分位距或小于上四分位数减 1.5倍。把数据按照从小到大排序，其中25%为下四分位用FL表示，75%处为上四分位用 FU 表示。计算展布为：|d二F -F，展布（间距）为上四分位数减去下四分位数。 F U L-最小估计值（下截断点）：|F - 1.5d最

5、大估计值（上截断点）：+ 1.5dU E数据集中任意数用叵|表示，|F - 1.5d X 2 时，记W=0否则W=1.然后根据W再重新计算。这时就是 P ,0.975 |iii最后所求的稳定协方差矩阵。在此稳健协方差矩阵和稳健样本均值基础上，便能得出稳健的马氏距离。3、Cooks DCooks D:在你的数据资料中，如果某一条数据记录被排除在外，那么由此造成的回归系数变化有多大显然，如果这个值过大,那么就表明这条数据对回归系数的计算产生了明显的影响，这条数据就是异常数据.4、覆盖法方法：将所有不在5%到95%范围的值当作异常值。5、标准偏差方法：偏离平均值三个或以上标准差的数据点。6、

6、因子方法：单变量或多变量异常值通常是用影响因子、水平因子、距离因子其中的一个指标来判断是否是异常值。回归系数的影响力。陈强，高级计量经济学及Stata应用，高等教育出版社。7、简单规则库|-从正常的行为中学习规则，测试数据若是没有被任何规则包括则认为是异常利用规则学习算法学习规则，例如重复增量修枝（RIPPER ）、决策树（Decision Trees ）8、聚类一种利用聚类检测离群点的方法是丢弃原理其他簇的小簇。这种方法可以与任何聚类技术一起使用，但是需要最小簇大小和小簇与其他簇之间距离的阈值，通常，该过程可以简化为丢弃小于某个最小尺寸的所有簇。一种更系统的方法是，首先聚类所有对象

7、，然后评估对象属于簇的程度。对于基于原型的簇类，可以用对象到它的簇中心的距离来度量对象属于簇的程度。更一般地，对于基于目标函数的聚类技术，可以使用该目标函数来评估对象属于任意簇的程度。特殊情况下，如果删除一个对象导致该目标的显著改进，则我们可以将该对象分类为离群点。优点与缺点：有些聚类技术（如K均值）的时间和空间复杂度是线性或接近线性的，因而基于这种算法的离群点检测技术可能是高度有效的。此外，簇的定义通常是离群点的补，因此可能同时发现簇和离群点。缺点方面，产生的离群点集和它们的得分可能非常依赖所用的簇的个数和数据总离群点的存在性。例如，基于原型的算法产生的簇可能因数据中存在离群

8、点而扭曲。聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大。每种聚类算法只适合特定的数据类型；因此，应当小心地选择聚类算法。9、贝叶斯依据已有的数据，然后建立模型，得到正常的模型的特征库，然后对新来的数据点进行判断。从而认定其是否与整体偏离，如果偏离，那么这个就是异常值。10、降维：主成分分析法基于矩阵分解的异常点检测方法的关键思想是利用主成分分析去寻找那些违背了数据之间相关性的异常点。为了发现这些异常点，基于主成分分析（PCA）的算法会把原始数据从原始的空间投影到主成分空间，然后再把投影拉回到原始的空间。如果只使用第一主成分来进行投影和重构，对于大多数的数据而言，重构之后的误差是小的；但是对于异常点而言，重构之后的误差依然相对大。这是因为第一主成分反映了正常值的方差，最后一个主成分反映了异常点的方差。网址：http:/ 象。三、数据中异常值的处理1、删除输入错误，数据处理错误或异常值数目少，修剪两端删除异常值。2、数据转换或聚类转换数据取对数，减少极端值的变化。用

展开阅读全文