(赵艳丽初稿)－金锄头文库

资源描述

《(赵艳丽初稿)》由会员分享，可在线阅读，更多相关《(赵艳丽初稿)（66页珍藏版）》请在金锄头文库上搜索。

1、I / 67 基于遗传算法的 k-means 聚类挖掘算法的研究摘要数据挖掘是随着信息技术不断发展而形成的一门新学科，是信息处理和数据库技术领域的一个新兴的研究热点。数据挖掘的任务是从海量数据中发现隐含的有用知识，为科学决策提供支持。聚类分析是数据挖掘的一个非常重要的研究分支。聚类是一种无监督的分类方法，目标是在没有任何先验知识的情况下，将数据集划分成不同的类，使得相同类中的对象尽可能相似，不同类中的对象尽可能相异。k-means 算法作为聚类分析中的经典算法现已被广泛应用在商务、市场分析、生物学、文本分类等领域。然而，k-means 算法具有对初始值敏感、易陷入局部极小值

2、等缺点。因此，改进 k-means 算法以进一步提高聚类效果具有十分重要的意义。本文首先详细地介绍了聚类分析技术，对现有的聚类算法进行了分类，分析了这些算法的优缺点，并在此基础上，重点研究了 k-means 算法。其次，全面分析了数据挖掘中的一个重要算法遗传算法。在此基础上，结合 k-means 算法的思想和特点，提出了一种改进的遗传 k-means 聚类算法，从编码方法、适应度函数的构造、交叉算子和变异算子的设计、k-means 优化操作等方面进行了详细的讨论和分析。最后，为了测试本文提出的聚类算法的性能，本文用 k-means 算法和改进的算法进行了三组实验，并对两种算法

3、的聚类结果进行比较，实验结果表明本文算法能够有效地解决聚类问题。关键词：数据挖掘聚类分析遗传算法 k-means 算法改进的遗传 k-means 算法 RESEARCHOF K-MEANS CLUSTERING IN DATA MINING BASED ON GENETIC ALGORITHM ABSTRACT Data mining is a new subject formed with the development of the information technology and is a new research point in the information and dat

4、abase technology. The purpose of data mining is to discovery hidden and useful knowledge from huge amounts of data, which can support the science decision. Cluster analysis is one of the important themes in data mining. Clustering is a unsupervised classifying method, the goal of clustering is to pa

5、rtition data set into such clusters that objects within a cluster have high similarity in comparison to one another, but are very dissimilar to objects in other clusters without any prior knowledge. As a classicalmethod of clustering analysis, k-means has been widely used in commerce, market analysi

6、s, biology, text classification and so on. However k-means has two severe defectssensitive to initial data and easy to get into a local optimum. On this condition, improving k-means is an effective method to get better clustering result. Firstly, the dissertation detailedly introduce clustering anal

7、ysis technology, and most existing clustering algorithms are classified, analysis their advantages and disadvantages. On the basis, the dissertation chooses k-means as research target. Secondly, analyzing an important methodgenetic algorithms in data mining. On this basis, a new clustering method of

8、 k-means based on improved genetic algorithm is proposed. The dissertation discussers and analyses the new algorithms in detail from coding method, fitness function, selection operators, crossover operators, mutation operators, k-means operators and other aspects. Finally, for testing the performanc

9、e of the proposed algorithms, the dissertation gives three simulation experiments. Simulation results show that comparing with k- means method, the proposed can get a better clustering result. KEY WORDS：Data mining Cluster analysis Genetic algorithm k-means IGKA III / 67 目录第一章绪论 1 1.1 课题研究背景与意义 1

10、1.1.1 数据挖掘概述 1 1.1.2 数据挖掘中聚类分析 5 1.1.3 遗传算法与数据挖掘 5 1.2 国内外研究现状 6 1.2.1 数据挖掘的研究现状 6 1.2.2 聚类分析研究现状 6 1.2.3 遗传算法研究现状 6 1.2.4 遗传聚类研究现状 7 1.3 本课题主要研究内容 8 1.4 本文章节安排 9 第二章聚类分析 10 2.1 聚类分析的基本概念3010 2.2 数据挖掘对聚类算法的要求 10 2.3 聚类分析中的数据结构和类型 11 2.3.1 聚类分析中的数据结构 11 2.3.2 聚类分析中的数据类型 12 2.4 聚类分析中的相似度度量方法 15 2.4.1

11、距离 16 2.4.2 相似系数 17 2.5 聚类分析中的聚类准则函数3417 2.6 聚类算法的分类及其典型算法 19 2.6.1 基于划分的方法 19 2.6.2 基于层次的方法 20 2.6.3 基于密度的方法 20 2.6.4 基于网格的方法 20 2.6.5 基于模型的方法 21 2.6.6 模糊聚类 21 2.7 聚类分析在数据挖掘中的应用 21 2.8 本章小结 22 第三章遗传算法的基本原理 23 3.1 遗传算法的历史与发展 23 3.2 遗传算法的基本术语4524 3.3 遗传算法的特点4624 3.4 遗传算法的基本要素 25 3.5 遗传算法的描述及流程 27 3.

12、5.1 遗传算法的描述4727 3.5.2 遗传算法的执行过程 28 3.6 遗传算法的应用 29 3.7 本章小结 30 第四章一种改进的遗传 K-MEANS 聚类算法31 4.1 K-MEANS算法的思想与流程 31 4.1.1 k-means 算法思想4931 4.1.2 k-means 算法流程 32 4.2 K-MEANS算法的特点 33 4.3 基于K-MEANS的改进聚类算法 34 4.4 聚类分析中的遗传算法 34 4.5 改进的遗传K-MEANS算法(IGKA)35 4.5.1 IGKA 算法流程 35 4.5.2 目标函数 37 4.5.3 编码方法 38 4.5.4 种群

13、初始化 38 4.5.5 适应度函数的设计 39 4.5.6 选择操作 39 4.5.7 交叉操作 40 4.5.8 变异操作 41 4.5.9 k-means 优化操作(KMO)42 4.5.10 算法终止条件 42 4.6 本章小结 42 第五章实验结果与比较分析 43 V / 67 5.1 实验平台 43 5.2 实验结果和分析 43 5.2.1 实验一 43 5.2.2 实验二 45 5.2.3 实验三 47 5.2.4 结果分析 51 5.3 本章小结 52 总结与展望 53 参考文献 55 致谢 58 攻读学位期间发表的学术论文 59 1 / 67 第一章绪论 1.1 课题研究背

14、景与意义 1.1.1 数据挖掘概述近年来，随着数据库技术的迅速发展以及数据库管理系统的广泛应用，加上使用先进的数据采集工具，人们积累的数据知识越来越多1。人们希望将这些数据转换成有用的信息和知识，以便更好地利用这些数据，用于决策。目前的数据库系统已经可以高效地实现海量数据的录入、查询、统计等功能，可以忠实地完成作为记录者的任务，但是却无法发现隐藏在这些数据背后的有用信息和知识2，如关系和规则，更不能根据现有数据预测未来的发展趋势。由于缺乏挖掘数据背后隐藏的知识的有力手段，从而导致“数据爆炸但知识缺乏”的现象。面对“被数据淹没，却饥饿于知识”的挑战，数据挖掘应运而生，并得以蓬勃

15、发展，越来越显示出其强大的生命力345。数据挖掘是一种能够智能地、自动地把数据转换成有用信息和知识的技术6，它不但可以帮助人们从数据库，特别是数据仓库的相关数据中提取出感兴趣的知识、规律或更高层次的信息，而且也可以帮助人们从不同角度上去分析它们，从而更有效地利用数据。它不仅可以用于描述过去数据的发展过程，而且还能进一步预测未来的发展趋势。因此，数据挖掘正在成为一个崭新的、日益受到重视的热点研究领域。 1数据挖掘的概念数据挖掘(Data Mining, DM)指从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用信息和知识的过程

16、7。这个定义包括以下四个层次的含义： (1) 数据源必须是真实的、大量的、含噪声的； (2) 发现的是用户感兴趣的知识； (3) 发现的知识要可接受、可理解、可运用，最好能够用自然语言来表达发现结果； (4) 并不是要求发现放之四海皆准的知识，是有特定前提和约束条件、面向特定领域的。 2数据挖掘的过程数据挖掘是指一个指根据对数据分析建立对数据的特性以及数据之间关系描述的模式的过程。从工程角度来讲，数据挖掘过程并不是线性的，为了得到好的结果需要经过多次反复地重复挖掘步骤。目前人们对整个数据挖掘过程并没有给出非常清楚的划分，一般来说主要有以下几个步骤8，见图 1-1。数据准备数据挖掘解释和评估选取转化确定业务对象原数据目标数据预处理后数据转换后的数据知识模式确定业务对象预处理数据挖掘模式识别图 1-1 数据挖掘的过程 Fig.1-1TheProcessofdatamining (1) 确定业务对象。明确应用领域，清晰地定义出业务问题，认清数据挖掘的目的是数据挖掘的

展开阅读全文