(毕业设计论文)计算机数据挖掘关联规则算法及其应用

上传人:zhuma****mei1 文档编号:54413605 上传时间:2018-09-12 格式:DOC 页数:39 大小:1,018.50KB
返回 下载 相关 举报
(毕业设计论文)计算机数据挖掘关联规则算法及其应用_第1页
第1页 / 共39页
(毕业设计论文)计算机数据挖掘关联规则算法及其应用_第2页
第2页 / 共39页
(毕业设计论文)计算机数据挖掘关联规则算法及其应用_第3页
第3页 / 共39页
(毕业设计论文)计算机数据挖掘关联规则算法及其应用_第4页
第4页 / 共39页
(毕业设计论文)计算机数据挖掘关联规则算法及其应用_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《(毕业设计论文)计算机数据挖掘关联规则算法及其应用》由会员分享,可在线阅读,更多相关《(毕业设计论文)计算机数据挖掘关联规则算法及其应用(39页珍藏版)》请在金锄头文库上搜索。

1、摘摘 要要 这些年来,人们利用信息技术生产和搜集数据的能力大幅度提高。面对海量数据,人们更加关注的是隐藏在数据背后的重要信息,而非数据本身。数据挖掘满足了我们的需求,它是帮助我们发现数据中重要知识的有利工具。关联规则是数据挖掘的一个重要分支,挖掘出大型事务数据库中的关联规则对不同领域实际问题的解决起着非常重要的作用。本论文主要研究关联规则算法及其应用。首先,论文系统地阐述了数据挖掘和关联规则中的相关理论知识,为研究内容的全面展开打下坚实的理论基础。其次,论文通过指出经典的挖掘频繁项目集算法 Apriori 算法的性能瓶颈问题,即多次扫描数据库以及可能会产生庞大的候选集,为新算法的研究找到入口。

2、因此,本论文对 Apriori 算法做了如下改进:首先从数据库布尔矩阵的角度来生成和,打破了 Apriori 算法生成的固有模式;然后在证明结论“生成1L2LkL1kL 的连接步可用来代替”成立的基础上,再来改进 k-候选集的kC11kLL11kkLL集合(k3)的生成算法。KC所以,综合上述工作本论文提出了 Apriori 算法的改进算法 BMSL_Apriori算法(Boolean Matrix Simplified Linked_Apriori 算法)。首先通过对BMSL_Apriori 算法的理论性分析,我们可以得知该算法不仅能够减少数据库的扫描次数以及一定程度上避免庞大候选集的产生,

3、而且还能够降低算法的时间与空间开销。然后,我们又通过具体的实验进一步证明了 BMSL_Apriori 算法的效率确实优于 Apriori 算法和其他算法。最后,在较好的软硬件环境下并借助真实超市交易数据库中的部分数据,论文采用 Microsoft SQL Server 2005 和VB.NET 作为开发平台来构建一个简单的关联规则挖掘系统,将 BMSL_Apriori算法应用到关联规则的生成中,通过挖掘结果再次证明了该算法较 Apriori 算法和其他算法确实取得了不错的挖掘效果。第一章 绪论.4 1.1 论文的研究背景4 1.2 数据挖掘技术的发展历史及国内外研究现状4 1.3 论文的研究意

4、义6 1.4 本文的组织结构7 第二章 数据挖掘.7 2.1 数据挖掘的概念7 2.2 数据挖掘的方法8 2.2.1 统计方法8 2.2.2 关联规则8 2.2.3 聚类分析9 2.2.4 决策树方法9 2.2.5 神经网络9 2.2.6 遗传算法.10 2.2.7 粗糙集.10 2.2.8 可视化技术.10 2.3 数据挖掘过程11 2.3.1 数据预处理.12 2.3.2 数据挖掘.12 2.3.3 结果的解释和评估.12 2.4 数据挖掘技术的应用12 2.4.1 科学研究.13 2.4.2 商业.13 2.4.3 金融.13 2.4.4 医疗卫生.13 2.4.5 高校教育管理.14

5、第三章 关联规则算法分析14 3.1 关联规则概述14 3.1.1 关联规则的基本概念.14 3.1.2 关联规则的分类.15 3.1.3 关联规则的应用.15 3.2 经典的 Apriori 算法16 3.2.1 Apriori 算法基本思想 .16 3.2.2 Apriori 算法描述 .16 3.3 一些改进的算法分析18 第四章 学生信息分析系统的设计20 4.1 系统设计思想20 4.2 数据准备21 4.2.1 数据选择.22 4.2.2 数据预处理.24 4.3 数据挖掘模型确定254.3.1 Fayyad 数据挖掘过程模型 25 4.3.2 本系统数据挖掘模型.28 4.4 数

6、据挖掘实现中的算法应用30 4.4.1 关联规则技术中的数据结构 .30 4.5 生成规则 4531 4.6 高校招生预测模型的建立.31 4.7 模型的评估.31 第五章 实验结果分析31 5.1 数据查看.32 5.2 数据预处理.33 5.3 关联规则挖掘结果分析.34 5.3.1 智力因素对大学各科成绩的影响 .34 5.3.2 非智力因素对学生学习的影响 .36 5.4 决策树挖掘结果分析与高校招生预测模型的建立.37 5.5 中专学校招生预测模型验证37 第六章 总结和展望38 6.1 总结.38 6.2 本文的创新点.38 6.3 展望.39Comment 惠惠惠惠1: 陈文臣W

7、eb 日志挖掘技术的研究与应用D北京:中国科 学院研究生院 2005第一章第一章 绪论绪论1.11.1 论文的研究背景论文的研究背景这些年来,人们利用信息技术生产和搜集数据的能力大幅度提高,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,各种数据库被用于政府办公、商业管理、科学研究和工程开发等。随着形势的发展,新的挑战摆在了人们的面前:如何才能不被信息的汪洋大海所淹没,从激增的数据背后找到有用的信息,提高信息利用率呢?面对这一挑战,数据挖掘技术(Data Mining)应运而生,并且引起了人们的广泛关注,是当今数据库研究和应用领域的一个热点问题。1.21.2 数据挖掘技术的发展历史及国内

8、外研究现状数据挖掘技术的发展历史及国内外研究现状数据挖掘的发展历史是建立在相关学科发展的基础上的。随着数据库技术的发展及数应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,这些信息的存在给人们带来方便的同时,也带来了许多新的问题,简单的查询和统计已经无法满足人们的需求,人们希望能够对其进行更深入的分析,以便更好地利用这些数据。这样就需要出现一种挖掘数据背后隐藏的知识的手段。数据挖掘也可称为数据库中的知识发现(Knowledge Discovery in Database,KDD)。 1989 年 8 月在美国底特律召开的第 11 届国际人工智能会议上首先出现了 KDD 这个术语

9、,随后引起了国际人工智能和数据库等领域专家的广泛关注。随着来自各个领域的研究和应用开发人员不断增多,1995 年在加拿大蒙特利尔召开了首届 KDD 国际学术年会,会上把数据挖掘技术分为工程领域的数据挖掘与科研领域的知识发现。到目前为止,由美国人工智能协会主办的 KDD 国际研讨会己经召开了多次,规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。 IEEE(Institute for Electrical and Electronic Engineers)、ACM (Association for Compu

10、ting Machinery)等其它学会、Comment 惠惠惠惠2: 王立伟.数据挖掘 研究现状综述图书与情报2008.5:41- 46学刊也纷纷把数据挖掘与知识发现 (Data Mining and Knowledge Discovery,DMKD)列为会议议题或出版专刊,成为当前国际上的一个研究热点。目前国外已有很多技术成熟、有较强产业化能力的数据挖掘软件。其中主要的有:(1)SAS Enterprise Miner:SAS系统全称为Statistics Analysis System。是美国使用最为广泛的三大著名统计分析软件(SAS,SPSS和SYSTAT)之一,被誉为统计分析的标准软

11、件。1997年SAS发布了SAS Enterprise Miner,这个工具为用户提供了用于建模的一个图形化流程处理环境,并且它有一组常用的数据挖掘算法,包括决策树、神经网络、回归、关联等,还支持文本挖掘。(2)SPSS Clementine:SPSS是世界上最早的统计分析软件之一。1998年末SPSS收购了英国ISL公司,通过继承获得了这家公司的Clementine数据挖掘包。Clementine是首次引入数据挖掘流概念的产品之一。它允许用户在同个工作流环境中清理数据、转换数据和构建模型。(3)IBM Intelligent Miner:包括分析软件工具Intelligent Miner f

12、or Data和Intelligent Miner for Text,不仅可以寻找包含于传统文件、数据库、数据仓库和数据中心中的隐含信息,更允许企业从文本信息中获取有价值的客户信息。Intelligent Miner使用预测模型标记语言(Predictive Modeling Markup Language,PMML)来导出挖掘模型,这种语言由数据挖掘协会(Data Mining Group,DMG)定义。(4)Insightful Miner(IMiner):由美国Insightful公司开发的具有高度可扩展性的数据分析和数据挖掘软件。目前在金融、生物科技、政府机构等企事业单位应用非常广泛。

13、此外,还有Oracle公司从Thinking Machines公司取得的Darwin;Unica公司开发的Aflinium Model;Angoss Software所开发的Knowledge SEEKER;加拿大Simon Fraser大学开发的DBMiner;SGI公司和美国Standford大学联合开发的Minset;HNC公司开发的用于信用卡诈骗分析的Database Mining Workstation;IBM公司Almaden研究中心开发的Quest;Neo Vista开发的Decision Series;以及KEFIR系统、SKICAT系统等。在国内也有不少新兴的数据挖掘软件:(

14、1)DMiner:由上海复旦德门软件公司开发的具有自主知识产权的数据挖掘平台。(2)iDMiner:由海尔青大公司开发的具有自主知识产权的数据挖掘系统。其对国际通用业界标准的大胆采用为该件今后的发展预留了很大的空间,同时也为国内同类软件融入世界及开发提供了一条新的思路。(3)MSMiner:由中科院计算技术研究所智能信息处理实验室开发的多策略数据挖掘平台。除此之外,也有一些相关数据挖掘产品的报道,如东北大学开发的面向先进制造企业的综合数据挖掘系统Scope Miner、复旦德门公司开发的AR Miner和CIAS、东北大学软件中心基于SAS开发的Open Miner以及长春工业大学开发的数据挖

15、掘工具软件等。1.31.3 论文的研究意义论文的研究意义从数据挖掘技术产生以来,已经被运用于多种领域,并得到了充分的验证,显示了其重要的价值,同时在运用过程中得到了不断的进步和完善。数据挖掘在电信行业、医疗卫生行业、零售业和财务系统等领域都得到了广泛的运用,并且都有相应成熟的数据挖掘系统形成,对这些领域做出了很大的贡献。虽然数据挖掘可以运用于多种行业,但是其在不同行业中的应用并不具备通用性。所以,数据挖掘的应用应该与各行业本身的特征相结合,建立各行业特有的挖掘系统。随着社会经济的不断发展,近几年国家出现了大规模的用工荒,而中职类学校培养的就是社会上正缺少的操作型和技术型工人,所以中职类学校培养

16、的学生就业渠道非常广泛。但如何使学生毕业一进入企业就能适应岗位的需求,学校必须要提高自己的教育质量。首先学校可以对学生进行充分的了解,同时结合中职类学校自身专业的特点,对学生实施因材施教,形成具有自身特色的教育体制。学校历年来存有大量的学生信息数据,对这些数据不加以科学合理的利用,它们就没有任何的意义。而人工分析学生数据太繁杂也是不现实的,借助数据挖掘工具对大量学生数据进行深层次分析,可以挖掘出学生各项数据中隐藏的重要信息。综上所述,一套运用数据挖掘技术开发的中职学校的学生信息分析系统,有利于将现代管理理论和方法引入到学校的实际管理当中,更有效的实现学校培养人才和为社会服务的近期和长期发展目标。本课题就是把数据挖掘应用于中职教育中,实现一个用于中职学生信息分析的数据挖掘系统。1.41.4 本文的组织结构本文的组织结构第一章 绪论,主要阐述论文的研究背景、课题的意义,介绍了国内外的研究现状,以及本论文的内容及设计方法;第二章 数据挖掘,主要介绍数据挖掘的概念、数据挖掘过程以及数据挖掘技术的应用;第三章 算法分析,主要介绍

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号