（毕业设计论文）基于粗糙集的数据挖掘分析及改进方案

资源描述

《（毕业设计论文）基于粗糙集的数据挖掘分析及改进方案》由会员分享，可在线阅读，更多相关《（毕业设计论文）基于粗糙集的数据挖掘分析及改进方案（40页珍藏版）》请在金锄头文库上搜索。

1、精品摘要随着数据库技术的迅速发展以及数据库管理系统的广泛应用，数据呈海量增长，出现了“数据爆炸但知识贫乏”的现象。在这种情形下，数据挖掘作为处理海量数据的工具便应运而生了。目前，数据挖掘中常用的方法和技术有：统计分析方法、决策树、神经网络、遗传算法、模糊集方法、粗糙集理论、可视化技术等等。在诸多方法中，粗糙集理论与方法对于处理复杂的系统不失为一种较为有效的方法。它是继概率论、模糊集、证据理论之后的又一个处理不确定性的数学工具，能有效地分析和处理不精确、不一致、不完整等各种不完备信息，并从中发现隐含的信息。本文首先对数据挖掘和粗糙集理论的基础知识进行了必要的说明。在理论的基础上，在研究数据挖掘

2、的一般过程的基础上，深入分析了基于粗糙集的数据挖掘的过程，并对应用于这些过程的算法进行了研究和分析。经典的粗糙集算法不能有效地适应海量数据的环境，因为算法要求数据常驻内存，而内存的容量是十分有限的，所以粗糙集面临着海量数据集的挑战。本文引入了一种表示分类的结构类分布链表，它可以通过对原始数据集进行直接分类获得。类分布链表可以看成是建立在海量数据集上的一个索引块，通过它可以方便地对海量数据集进行处理。分析类分布链表的结构和特点，从中发现了计算属性的条件信息嫡的简便方法。本文利用类分布链表改进了基于粗糙集的数据挖掘中的数据离散化、属性约简以及属性值约简这一连续过程中的算法。通过正确性和可伸缩性实验

3、的数据表明，改进后的算法在不损失原始的经典粗糙集算法的正确率和识别率的前提下，变得能够处理海量数据，并且通过多步生成类分布链表解决了内存的限制问题，更成倍增大了所能处理的数据量。关键词：数据挖掘；粗糙集；类分布链表；离散化；属性约简；属性值约简精品ABSTRACTWith the rapid development of database technology and the abroad application of Database Management System, the data increases very quickly. So data is excessive but kn

4、owledge is spare. Under this condition, Data Mining as the tool of dealing with the abundant data comes into being. At present, the methods and technologies in Data Mining are as follows： Statistical Analysis Method, Decision Tree, Artificial Neural Network, Genetic Algorithm, Fuzzy Set Method, Roug

5、h set Theory, Visual Technology etc. Among so many methods, Rough set Theory is a king of more valid method to deal with the complicated systems. It is another mathematical tool to deal with uncertainty after Probability Theory, Fuzzy Set and Evidence Theory emerge. Rough Set Theory can effectively

6、analyze and deal with kings of incomplete information, and find implicit information from it.First of all, this thesis illuminates the theory about Data Mining and Rough Set. On this basis, the thesis conducts in-depth analysis of Data Mining process based on Rough Set, the studies and analyses the

7、algorithms used in these processes. Classical rough set algorithms can not effectively adjust to an environment with huge amounts of data, because the algorithms demand data resides in the memory and memory capacity is limited. So Rough Set is faced with the challenge of massive data sets. This thes

8、is introduces a structure of classification called Class Distribution List. The CDL can be got through carrying out direct classification on original data sets. And it can be considered as an index block which is set up in the massive data set. Using CDL can easily deal with massive data sets. Throu

9、gh analyzing the characteristics and structure of CDL, find the easy way to calculate the attributes conditional information entropy. The thesis improves the algorithms used in the processes of data discretization, attribute reduction and attribute value reduction.The results of correctness and scal

10、ability experiments show that, without loss of the correct rate and recognition rate on original classical rough set algorithms, the improved algorithms can deal with massive data sets. Generating CDL through multi-step solves the problem of memory limitations and exponentially increases the amount

11、of data which can be deal with.Key words： Data Mining; Rough Set; discretization; attribute reduction; attribute value reduction精品目录摘要IABSTRACT.II第 1 章绪论11.1 引言11.2 粗糙集理论研究现状21.2.1 粗糙集理论的产生及发展.21.2.2 粗糙集理论研究现状31.3 数据挖掘研究现状41.4 基于粗糙集理论的数据挖掘研究现状51.5 论文结构及内容介绍5第 2 章数据挖掘与粗糙集相关理论72.1 数据挖掘描述.72.1.1 数

12、据挖掘的定义和过程.72.1.2 数据挖掘的分类和任务.102.1.3 数据挖掘的方法112.2 信息表知识表达系统132.2.1 知识的分类概念132.2.2 信息表知识表达系统.142.2.3 决策表.152.3 粗糙集理论基础.152.3.1 粗糙集的基本概念152.3.2 属性约简相关概念172.3.3 属性值约见相关概念.192.4 本章小结19第 3 章基于粗糙集的数据挖掘分析及改进方案.20精品3.1 基于粗糙集的数据挖掘分析203.1.1 基于粗糙集的数据挖掘.203.1.2 相关过程的分析213.2 类分布链表233.2.1 类分布链表的定义233.2.2 类分布链表的生成

13、算法.243.3 应用改进方案的数据挖掘模型.263.4 本章小结28第 4 章实验结果及分析.294.1 实验环境294.2 正确性试验测试.294.3 本章小结31参考文献.33致谢34精品第 1 章绪论1.1 引言当今社会计算机与网络信息技术飞速发展，己经进入了网络信息时代。技术的发展使得各个领域的数据和信息量以惊人的速度迅猛增加，数据与信息系统中的不确定性更加显著，从而形成了不确定性十分复杂的系统。然而这些海量数据往往是一种宝贵的、很有价值的资源，但人们从中发掘所需信息的能力却非常有限。因此，如何从大量的、杂乱无序的、干扰信息颇多的海量数据中挖掘潜在的、有利用价值的数据、信息和

14、知识，是如今研究的热点与重点。当前迫切需要更好的智能化的方法和工具来处理和挖掘这些日益庞大的潜在的有价值的数据与信息，为进一步提高信息的利用率，引发了一个新的研究方向：基于数据库的知识发现(Knowledge Discovery in Database，简称 KDD)，以及相应的数据挖掘(Data Mining)理论和技术的研究。数据挖掘是一个涉及多学科的研究领域。数据库技术、人工智能、机器学习、粗糙集、模糊集、神经网络等均与数据挖掘有关。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程，它是整个 KDD 过程

15、中的一个重要步骤。在 KDD 诸多方法中，对于处理不确定性十分复杂的系统，粗糙集(Rough Set)理论与方法是一种较为有效的方法，它既不是采用概率方法描述数据的不确定性，也与传统的模糊集合论处理不精确数据的方法不同，其主要思想就是在保持分类能力不变的前提下，通过知识约简，导出问题的决策规则。目前，粗糙集理论己成功地用于机器学习、决策分析、过程控制、模式识别与数据挖掘等领域。粗糙集方法有几个优点：不需要预先给出额外信息，如概率统计中要求的先验概率和模糊集中要求的隶属度;可以去掉冗余输入信息，简化输入信息的表达空间;算法简单、易于操作。粗糙集理论存在的主要问题是：实际问题处理中，对噪声较敏感，

16、抗干扰能力比较差;如果对象的条件属性值受噪声干扰，将直接影响分类精度。总的来说，随着 KDD 的兴起，粗糙集理论越来越受到 KDD 研究者的重视有以下几点原因。(1)KDD 研究的对象多为关系型数据库，关系表可被看作为粗糙集理论中的决策表，这给粗糙集方法的应用带来了极大的方便。精品(2)现实世界中的规则有确定性的，也有不确定性的。从数据库中发现不确定性知识，为粗糙集方法提供了用武之地。(3)从数据中发现异常，排除知识发现过程中的噪声干扰也是粗糙集方法的特长。(4)运用粗糙集方法得到的知识发现算法有利于并行执行，可以极大的提高发现效率，对于大型数据库中的知识发现来说，这是非常关键的。(5)KDD 采用的其它技术，如神经网络的方法，不能自动的选择合适的属性集，而利用粗糙集方法进行预处理，去掉多余属性，可以提高发现效率。(6)用粗糙集方法得到的决策规则及推理过程，比模糊集方法或神经网络方法，更容易验证和检测。所以，粗糙集方法在数据挖掘中的应用越来越广。综上所述，通过应用粗糙集理论于数据挖掘的领域，能对大型数据库中不完整数据进行分析和学习，并取得了一定的成果，因此，基于粗糙

展开阅读全文