异常数据挖掘研究毕业论文

资源描述

《异常数据挖掘研究毕业论文》由会员分享，可在线阅读，更多相关《异常数据挖掘研究毕业论文（45页珍藏版）》请在金锄头文库上搜索。

1、毕业设计（论文）中文题目异常数据挖掘研究英文题目Research on outlier data mining 系别：计算机科学与技术系专业年级：计算机科学与技术09级姓名：杜海丰学号：指导教师：陈玉明职称：讲师2011 年 5 月 20 日工厂搬迁对于一个企业来说，安全问题始终是第一位的，也是最基本的，过程中所涉及到的安全问题主要是人员的安全和设备拆装以及财产的安全。各部门经理和所有员工一定要以安全为核心，开展各项工作，职责到人、分工明确。诚信声明书毕业设计（论文）诚信声明书本人郑重声明：在毕业设计（论文）工作中严格遵守学校有关规定，恪守学术规范；我所提交的毕业设计（论文）是

2、本人在指导教师的指导下独立研究、撰写的成果，设计（论文）中所引用他人的文字、研究成果，均已在设计（论文）中加以说明；在本人的毕业设计（论文）中未剽窃、抄袭他人的学术观点、思想和成果，未篡改实验数据。本设计（论文）和资料若有不实之处，本人愿承担一切相关责任。学生签名：年月日摘要摘要粗糙集理论，它是一种分析处理数据的理论，在20世纪80年代由波兰科学家Pawlak建立。一开始由于语言交流上的问题，建立该理论的时候只有一些东欧学者会研究和应用它，后来随着该理论的发展才慢慢受到全球上知名数学学者和计算机学者的重视。知识粒度的基本思想在许多领域都有体现，如粗糙集、数据库、聚类分析、模糊集、证据

3、理论、数据挖掘和机器学习等。自从1979年L.A.Zadeh在世界上首次提出并讨论了知识粒度问题之后，知识粒度获得了人们越来越多的关注。经过多年的发展，知识粒度已在知识发现、数据挖掘、软计算中扮演越来越重要的角色。在本论文中，本人引入知识粒度这一个方法作为一个统一的框架去理解和实施异常点挖掘。此外，还给出了基于知识粒度的异常点挖掘算法。该算法结合粗糙集与数据挖掘技术研究异常数据。理论研究和实验结果表明，知识粒度方法对评定异常是有效且适用的。关键词：粗糙集；异常检测；数据挖掘；知识粒度37AbstractABSTRACTRough set theory, it is a theory of da

4、ta analysis and processing, 80 in the 20th century by Polish scientists Pawlak established. The beginning of the problems due to language exchanges, the establishment of the theory, when only a few Eastern European scholars would study and apply it, and later with the development of the theory slowl

5、y by the global computer on the well-known scholars and scholars in mathematics seriously.The basic idea of knowledge granulation in many areas, such as rough sets, database, clustering analysis, fuzzy sets, evidence theory, data mining and machine learning.1979 L.A.Zadeh the first time in the world

6、 and discussed after the knowledge granulation of fuzzy, the knowledge granulation obtained people more and more attention.After years of development, knowledge granularity in knowledge discovery, data mining, soft computing plays an increasingly important role.In this paper, we introduce this metho

7、d of knowledge granularity as a unified framework to understand and implement outlier mining. In addition, we also give the size of knowledge-based algorithm for mining outliers. The algorithm combines rough sets and data mining of abnormal data. Theoretical and experimental results show that the me

8、thod of assessment of knowledge granularity is an effective and appropriate exception.朗读显示对应的拉丁字符的拼音字典Key Words: rough sets; outlier detection; data mining; knowledge granulation目录目录第1章引言11.1 概述11.2 研究的目的和意义21.3 国内外研究现状31.3.1 数据挖掘的研究现状31.3.2 粗糙集的研究现状31.3.3 知识粒度的研究现状4第2章数据挖掘62.1数据挖掘的定义62.2 数据挖掘的有趣故

9、事72.3 数据挖掘的几种知识表示方法与模式82.3.1 广义知识挖掘82.3.2 关联知识挖掘82.3.3 类知识挖掘82.3.4 预测型知识挖掘92.3.5 特异型知识挖掘92.3.6 粗糙集知识挖掘92.4 数据挖掘与知识发现92.4.1 把KDD看成数据挖掘的一个特例102.4.2 数据挖掘存在于KDD过程中102.4.3 数据挖掘与知识发现相近似11第3章粗糙集理论123.1 粗糙集理论的基本概念123.1.1 信息集123.1.2 集合的上近似，下近似与边界值133.2 粗糙集理论的优点143.3 属性约简143.3.1 属性依赖153.3.2 属性约简153.4 信息熵163.

10、5 知识粒度173.5.1 基于粗糙集理论的知识粒度表示173.5.2知识粒度在知识约简中的应用183.5.3 应用实例19第4章基于知识粒度的异常检测204.1 知识粒度的异常检测204.1.1 基于知识粒度异常点的定义204.1.2 基于知识粒度异常点的例子224.2 基于知识粒度的异常检测算法264.2.1 基于知识粒度异常点检测的算法流程图264.2.2 基于知识粒度异常点检测的算法描述26第5章实验与分析295.1 实验结果295.2 实验分析315.2.1 淋巴数据的检测315.2.2 漏检和误检32第6章结论与展望346.1 结论346.2 进一步工作的方向34致谢35参

11、考文献36第1章引言第1章引言1.1 概述相较于传统的数据挖掘的问题，其主要目的是通过建立一个普遍的模式映射到大多数的数据，而异常检测1的目标则是挖掘那些与大多数常规的数据相比，行为较特殊的稀有数据。基于距离的挖掘算法是现今最流行的方法之一，是由Knorr和Ng提出的。一个数据集中的某个异常数据是指该数据的距离与其它普通常规数据的距离大于dmin。这个概念总结概括了许多以分布为基础的研究方法，且它拥有较好的检测精度。假设一个对象在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则我们认为该对象也属于这个类别，称之为KNN算法2。换句话说，在不依赖于统计检验的情况

12、下，我们可以将通过距离计算出那些没有“足够多”邻居的对象看作是异常点，这里的对象是根据给定对象的距离来定义的，这是一种研究挖掘异常点K的高效算法。然而，因为KNN异常检测算法是要计算点到其他点的所有空间的距离，所以如果可用的对象数量非常多的话，那么这是很费时的。而且，使用KNN算法来进行数据挖掘则将会产生很大的空间，这样很有可能导致性能和质量成本上的问题。异常检测可以粗略的分成五大类3，除了之前讲到的基于距离的异常检测方法外，还有基于统计的方法、基于深度的方法、基于聚类的方法和基于密度的检测方法。利用统计学的方法处理数据异常点的问题已经有很长的历史，并且它已经有了一套完整的理论和方法。统计学的

13、方法就是对给定的数据集假设了一个分布或者称为概率模型（例如正态分布），然后再根据模型通过不一致性检验来确定数据异常点，所以不一致性检验要求我们事先知道数据集模型的参数（如正态分布）、分布的参数（如均值等）和预期异常点的数目。它最大缺点就在于测量的数据分布在实际中是很难被发现的。基于深度的方法是通过计算几何和计算不同层的k-d凸壳和标记外层的对象作为异常点。然而，众所周知的是该算法采用维数，不能应付大量的对象集。聚类分类对输入数据进行分类。它检测异常点作为副产品。由于主要目的是分类归并，它不适合用于异常检测。基于密度的方法4最初是由Breunig提议的。它采用局部异常因子来确定异常数据的存在与否

14、。它的主要思想是，计算出对象的局部异常因子（LOF）。高局部异常因子（LOF）就认为它更可能异常。这种解决方案的缺点是，它对邻居的参数定义非常敏感的。粗糙集理论（Rough Set Theory）5，是由波兰数学家Z.Pawlak教授在1982年提出，用于研究不完整性数据和不精确的知识表达，学习归纳的数学分析理论，并成功的应用于机器学习、模式识别和数据挖掘等领域上。其算法特点是简单，无需提供数据以外的任何先验信息，可直接根据给定问题的描述集合出发，然后通过不可分辨关系和等价类来确定问题的近似域，再找出该问题的规律。为了评估粗糙集理论在分辨不确定性知识上的能力，L.A.Zadeh首次推出粒度。它

15、提出了关于领域划分的描述，更直观和更具有结构性。许多知识上的检测在信息系统上有提出。这些测量包括粗糙集，知识粒度和信息熵。这些测量应用于属性约简，分类，特征选择与不确定性的推理。然而，这些年很少有基于知识粒度检测异常数据的文章发表出来。本文提出了一种异常检测的新方法，是基于知识粒度的。它采用了基于知识粒度的距离度量，研究不确定信息。有些在UCI数据集上进行了实验分析。结果表明，该检测系统可以把大部分异常点检测出来。1.2 研究的目的和意义随着计算机和网络等信息技术的飞速发展，对信息的处理在整个社会乃至世界规模上已经迅速产业化。随着信息的慢慢堆积，人们所积累的数据已经越来越多，以至数据和信息系统中的不确定性问题更加的明显了。海量杂乱的信息数据背后隐藏着很多我们不知道的，但对我们来说又非常重要的信息，所以人们希望能够通过对其进行深入的分析，方便我们能更好的利用并使用这些隐藏中的数据信息6。现在的数据库系统虽然可以实现对数据的增删改查及统计等功能，但它却无法发现数据间存在的关

展开阅读全文