基于遗传算法的学生信息关联规则挖掘研究

资源描述

《基于遗传算法的学生信息关联规则挖掘研究》由会员分享，可在线阅读，更多相关《基于遗传算法的学生信息关联规则挖掘研究（73页珍藏版）》请在金锄头文库上搜索。

1、浙浙江江大大学学工工程程硕硕士士学学位位论论文文第第1页页共共 68 页页基于遗传算法的学生信息关联规则挖掘研究基于遗传算法的学生信息关联规则挖掘研究目录目录摘要摘要 I Abstract I Abstract II 第一章引言 II 第一章引言 1 1 1.1 数据挖掘的产生与发展 1 1.2 遗传算法与数据挖掘 2 1.3 本文主要研究内容 3 第二章遗传算法简介第二章遗传算法简介 4 4 2.1 生物进化 4 2.2 遗传算法与进化算法 5 2.3 遗传算法简介 6 2.3.1 遗传算法的简要由来 6 2.3.2 遗传算法的基本术语

2、6 2.3.3 遗传算法的基本思想 7 2.3.4 遗传算法的基本特点 8 2.4 基本遗传算法(Simple GA，SGA)的表示 9 2.5 遗传算法的主要运算过程 9 2.6 基本遗传算法的算法描述 10 2.7 模式定理 11 2.7.1 模式、模式阶和定义距 11 2.7.2 模式定理 11 2.7.3 模式定理的阐述 11 2.7.4 模式定理的缺点 13 第三章遗传算法的数学描述第三章遗传算法的数学描述 14 14 3.1 遗传编码 14 3.1.1 二进制编码 14 3.1.2 格雷码编码 15 3.1.3 浮点数编码 17 浙浙江江大大学学工工程程硕硕士士

3、学学位位论论文文第第2页页共共 68 页页 3.1.4 符号编码 18 3.1.5 扩展模式编码 18 3.1.6 基因优劣编码 18 3.2 适应度函数及调整方法 19 3.2.1 适应度函数 20 3.2.2 线性尺度变换 21 3.2.3 方差缩放调整 24 3.2.4 乘幂尺度变换 25 3.2.5 指数尺度变换 25 3.3 遗传操作算子 26 3.3.1 选择算子 26 3.3.2 交叉算子 29 3.3.3 变异算子 32 3.3.4 其他算子 34 第四章遗传算法的收敛性分析第四章遗传算法的收敛性分析 35 35 4.1 一般收敛性定义 35 4.2 遗传算法

4、的马尔可夫链模型 35 4.3 SGA 与 EGA 的收敛性分析 37 4.4 全局收敛与过早收敛 38 第五章学生成绩数据库挖掘应用实例第五章学生成绩数据库挖掘应用实例 41 41 5.1 关联规则 41 5.2 遗传算法中的个体表示 43 5.2.1 匹兹堡方法及密西根方法 43 5.2.2 编码方法 44 5.3 适应度函数的构造 46 5.4 遗传算子的改进 46 5.4.1 选择算子的设计 46 5.4.2 交叉算子的设计 47 5.4.3 变异算子的设计 48 5.4.4 规则提取 48 5.5 应用实例 49 浙浙江江大大学学工工程程硕硕士士学学位位论论

5、文文第第3页页共共 68 页页 5.5.1 数据库的数据处理 49 5.5.2 遗传算法中的参数设置 54 5.5.3 算法设计 55 5.5.3 结论 57 第六章小结与展望第六章小结与展望 61 61 6.1 数据挖掘的研究现状及发展趋势 61 6.2 论文工作的小结 62 6.3 以后工作的展望 62 参考文献参考文献 63 致谢 63 致谢 69 69 浙浙江江大大学学工工程程硕硕士士学学位位论论文文第第4页页共共 68 页页第一章引言第一章引言 1.1 数据挖掘的产生与发展 1.1 数据挖掘的产生与发展随着数据库技术的不断演化

6、和各种数据库管理系统的广泛应用，以及大型数据库系统在各行各业的普及，使得数据库中存储的数据量急剧增加，成了所谓的数据“矿山” 。在大量的数据背后隐藏着可供决策支持的信息“金块”。但现实情况往往是“数据十分丰富，而信息却相当贫乏。”海量数据的不断涌现，必然提出对强有力的数据分析工具的迫切需求。在数据库技术飞速发展的同时，人工智能（AI）的一个分支机器学习的研究取得了很大进展。自 50 年代开始机器学习的研究以来，先后经历神经模型和决策理论、概念符号获取及知识加强和论域专用学习阶段，根据人类学习的不同模式提出了很多机器学习的方法，如：实例学习、观察和发现学习、神经网络、

7、遗传算法等，1995-2002 年，基于概率统计的机器学习方法，如统计学习理论及支持向量机、模糊聚类方法、隐马尔可夫模型方法等越来越受到重视，已经成为当前模式识别及 AI 领域的研究热点。数据挖掘的许多方法来自于机器学习，其中某些常用且较成熟的算法已被人们运用于实际的应用系统及智能计算机的设计和实现中。由于数据存储技术的逐渐成熟，数据库和联机事务处理（OLTP）、联机分析处理(OLAP)广泛应用于金融、证券、保险、电子商务、生物制药、基因研究、电信、保险、零售等各行各业，积累了大量数据。简单的统计分析无法发现更深层次的规律和更有效的决策支持。由于专家系统工具过分依赖用户

8、或专家人工地将知识输入知识库中，而且分析结果往往带有偏差和错误，再加上耗时、费用高，这种靠人工获取知识的现象成为数据“矿山”的“瓶颈” 。数据挖掘的整个过程离不开应用领域的专业知识，数据挖掘的对象是专业领域的原始数据，数据挖掘过程是一个人机交互和多次反复的过程，挖掘的结果要应用于该专业领域。目前数据挖掘技术在银行数据分析（如：美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是 14.9。）、电子商务、生物制药、基因研究（DNA 序列查询和匹配；浙浙江江大大学学工工程程硕硕士士学学位位论论文文第第5页页共共 68 页页

9、识别基因序列的共发生性）、电信（欺诈甄别；客户流失）、保险、零售等许多领域得到了成功的应用。因此，数据挖掘是应用需求推动下发展的产物，而且发展迅猛。智能技术与数据库技术的结合，为决策者提供知识和策略，为投资者带来可观的经济效益。这就是数据挖掘（Data Mining）技术产生的背景。数据挖掘（Data Mining）与数据库的知识发现（Knowledge Discovery in Databases）研究是计算机科学与技术，也是网络发展与普遍使用所提出的、迫切需要解决的重要课题。尽管 Data Mining 与 KDD 根据当前的可能应用提出了新的需求，多种理论与方法的

10、合理整合是大多数研究者采用的有效技术，但机器学习与知识发现一直是人工智能研究者所关心的重要问题，从数据库中发现知识（KDD）一词首次出现在 1989 年举行的第十一届国际联合人工智能学术会议上。到目前为止，由美国人工智能协会主办的 KDD 国际研讨会已经召开了 10 次，规模由原来的专题讨论会发展到国际学术大会，研究重点也逐渐从发现方法转向系统应用，注重多种发现策略和技术的集成，以及多种学科之间的相互渗透。自 1997 年开始至今，亚太地区数据挖掘（PAKDD）学术会议已连续召开了第 9 次，会议规模逐年扩大，在该领域产生了较大影响。此外，还有 SIGMOD, VL

11、DB, ICDE, DASFAA，ICDM, PKDD 等著名国际学术会议，每年都发表大量与数据挖掘、知识发现领域中的最新研究进展。IEEE 的 Knowledge and Data Engineering 会刊率先在 1993 年出版了 KDD 技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论，甚至到了脍炙人口的程度。 1.2 遗传算法与数据挖掘 1.2 遗传算法与数据挖掘数据挖掘的研究大致可分为 3 大领域：数据收集和预处理、数据挖掘、评价和知识呈现。数据收集和预处理领域主要研究数据库和数据仓库。数据仓库是为某一主题的数据挖掘汇集而成的数据集，其延伸出来的挖掘工具有联机分析处理 OLAP、联机数据挖掘 OLDM 等。数据挖掘是目前 KDD 研究的焦点，主要集中于各种算法的研究，而遗传算法则是

展开阅读全文