毕业设计论文-数据挖掘系统的设计与实现.doc

资源描述

《毕业设计论文-数据挖掘系统的设计与实现.doc》由会员分享，可在线阅读，更多相关《毕业设计论文-数据挖掘系统的设计与实现.doc（47页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘系统的设计与实现Data Mining System 学生姓名指导教师摘要在电信系统中，经常需要根据用户的登入登出进行计时收费，这样我们就需要根据登录日志来将用户的登入记录和登出记录按照对应关系匹配起来，形成一条完整的登录记录，登录记录中包含以下信息：用户登录名，登入时刻，登出时刻，登录时长，登录终端机器IP等。在匹配过程中，理论上一条登入记录跟一条登出记录匹配，但有可能在我们采集数据时用户还没有登出，所以日志文件中可能出现没有登出记录与之匹配的登入记录，这些登入记录我们将其保存在一个指定的文件中，在下次采集时再读取。在整个电信系统中，这些记录无疑是非常巨大的，不是依靠人力手工能

2、够完成的，这时，我们就需要有一个具体的系统来帮我们自动完成这些功能，这也就是本次课题的选择数据挖掘系统（Data Mining System）。在该系统中，将匹配好的用户登录记录通过网络发送到采集系统服务器，服务器端接收匹配好的用户登录记录数据，然后将接受到的用户登录记录数据保存到数据库的用户登录记录明细表中，而最终可以实现将用户登录记录明细表中的数据整合成日报表，月报表和年报表。关键词：数据挖掘；客户端；服务器端AbstractIn telecommunications system, often carried out time charges based on users login

3、or logout, so we need to match the users login and logout records by correspondence relationship according to the log and form a complete log records, log record contains the following information: user login name, login time, logout time, log length, log terminal machine IP and so on. In the proces

4、s of matching, in theory, a login record matches with a logout record, but when we collect the data the user may not logout ,so there maybe no logout record match with the login record in the log file. We save the login records in a designated file, and read them at the next collection. In the whole

5、 telecommunications system, these records will undoubtedly be very tremendous, to rely on human hand can not be done, then we need a specific system to help us finish these functions automatic, it is the choice of this subject - - Data Mining System. In this system, send the matched user log record

6、to the collection system server through internet, the server receives the matched user log record data, and then save the received user log record data to the database user log records list and ultimately enables the data in the user log records list integrated into daily report, monthly report and

7、annual report.Keywords: data mining; client; server目录摘要IAbstractII第一章文献综述11.1数据挖掘发展简述11.1.1数据丰富与知识匮乏11.1.2从数据到知识21.1.3数据挖掘产生41.2数据挖掘基本知识51.2.1数据挖掘深入81.3数据挖掘功能91.3.1概念描述：定性与对比101.3.2关联分析101.3.3分类与预测101.3.4聚类分析111.3.5异类分析111.3.6演化分析111.4数据挖掘结果的评估111.5数据挖掘系统131.5.1数据挖掘系统分类131.5.2数据挖掘系统的应用141.6数据挖掘研究

8、重点171.7数据挖掘课题的选择20第二章设计部分212.1环境的选择与搭建212.2系统需要实现的功能222.3系统用例232.3.1用例图232.3.2用例描述242.4数据库表设计332.5总体类图342.6异常考虑352.7 用例实现37第三章结果与讨论39第四章结论与建议424.1结论424.2建议42参考文献43致谢44I武汉工程大学本科毕业设计第一章文献综述数据挖掘作为一个新兴的多学科交叉应用领域，正在各行各业的决策支持活动扮演着越来越重要的角色。1.1数据挖掘发展简述1.1.1数据丰富与知识匮乏计算机与信息技术经历了半个世纪的发展，给人类社会带来了巨大的变化与影响。在

9、支配人类社会三大要素（能源、材料和信息）中，信息愈来愈显示出其重要性和支配力，它将人类社会由工业化时代推向信息化时代。随着人类活动范围的扩展，生活节奏的加快，以及技术的进步，人们能以更快速更容易更廉价的方式获取和存储数据，这就使得数据及其信息量以指数方式增长。早在20世纪八十年代，据粗略估算，全球信息量每隔20个月就增加一倍。而进入九十年代，全世界所拥有的数据库及其所存储的数据规模增长更快。一个中等规模企业每天要产生100 MB 以上来自各生产经营等多方面的商业数据。美国政府部门的一个典型大数据库每天要接收约5TB数据量，在15 秒到1分钟时间里，要维持的数据量达到300 TB，存档数据达15

10、-100 PB。在科研方面，以美国宇航局的数据库为例，每天从卫星下载的数据量就达3-4 TB之多；而为了研究的需要，这些数据要保存七年之久。九十年代互联网（Internet）的出现与发展，以及随之而来的企业内部网（Internet）和企业外部网（Extranet）以及虚拟私有网（VPN：Virtual Private network）的产生和应用，使整个世界互联形成一个小小的地球村，人们可以跨越时空地在网上交换信息和协同工作。这样，展现在人们面前的已不是局限于本部门，本单位和本行业的庞大数据库，而是浩瀚无垠的信息海洋。据统计，1993年全球数据存贮容量约为二千TB，到2000年增加到三百万TB

11、，面对这极度膨胀的数据信息量，人们受到“信息爆炸”、“混沌信息空间”（Information Chaotic Space）和“数据过剩”（Data glut）的巨大压力。然而，人类的各项活动都是基于人类的智慧和知识，即对外部世界的观察和了解，做出正确的判断和决策以及采取正确的行动，而数据仅仅是人们用各种工具和手段观察外部世界所得到的原始材料，它本身没有任何意义。从数据到知识到智慧，需要经过分析加工处理精炼的过程。如图1. 1所示，数据是原材料，它只是描述发生了什么事情，并不能构成决策或行动的可靠基础。通过对数据进行分析找出其中关系，赋予数据以某种意义和关联，这就形成所谓信息。信息虽给出了数据中

12、一些有一定意义的东西，但它往往和人们需要完成的任务没有直接的联系，也还不能作为判断、决策和行动的依据。对信息进行再加工，即进行更深入的归纳分析，方能获得更有用的信息，即知识。而所谓知识，可定义为“信息块中的一组逻辑联系，其关系是通过上下文或过程的贴近度发现的”。从信息中理解其模式，即形成知识。在大量知识积累基础上，总结出原理和法则，就形成所谓智慧（Wisdom）。事实上，一部人类文明发展史，就是在各种活动中，知识的创造、交流，再创造不断积累的螺旋式上升的历史。图1. 1 人类活动所涉及数据与知识之间的关系描述计算机与信息技术的发展，加速了人类知识创造与交流的这种进程，据德国世界报的资料分析，如

13、果说19世纪时科学定律（包括新的化学分子式，新的物理关系和新的医学认识）的认识数量一百年增长一倍，到20世纪60年代中期以后，每五年就增加一倍。这其中知识起着关键的作用。当数据量极度增长时，如果没有有效的方法，由计算机及信息技术来帮助从中提取有用的信息和知识，人类显然就会感到像大海捞针一样束手无策。据估计，目前一个大型企业数据库中数据，约只有百分之七得到很好应用。因此目前人类陷入了一个尴尬的境地，即“丰富的数据”（data rich）而“贫乏的知识”（knowledge poor）。1.1.2从数据到知识早在上个世纪八十年代，人们在“物竞天择，适者生存”的大原则下，就认识到“谁最先从外部世界获

14、得有用信息并加以利用，谁就可能成为赢家”。而今置身市场经济且面向全球性剧烈竞争的环境下，任何商家的优势不单纯地取决于如产品、服务、地区等方面因素，而在于创新。用知识作为创新的原动力，就能使商家长期持续地保持竞争优势。因此要能及时迅速地从日积月累庞大的数据库中，以及互联网上获取与经营决策相关的知识，自然而然就成为满足易变的客户需求以及因市场快速变化而引起激烈竞争局面的唯一武器。因此，如何对数据与信息快速有效地进行分析加工提炼以获取所需知识，就成为计算机及信息技术领域的重要研究课题。事实上计算机及信息技术发展的历史，也是数据和信息加工手段不断更新和改善的历史。早年受技术条件限制，一般用人工方法进行

15、统计分析和用批处理程序进行汇总和提出报告。在当时市场情况下，月度和季度报告已能满足决策所需信息要求。随着数据量的增长，多数据源所带来的各种数据格式不相容性，为了便于获得决策所需信息，就有必要将整个机构内的数据以统一形式集成存储在一起，这就是形成了数据仓库（data warehousing）。数据仓库不同于管理日常工作数据的数据库，它是为了便于分析针对特定主题（subject-oriented）的集成化的、时变的（time-variant）即提供存贮5-10年或更长时间的数据，这些数据一旦存入就不再发生变化。数据仓库的出现，为更深入对数据进行分析提供了条件，针对市场变化的加速3人们提出了能进行实时分析和产生相应报表的在线分析工具OLAP（On Line Analytical Processing）。OLAP能允许用户以交互方式浏览数据仓库内容，并对其中数据进行多维分析，且能及时地从变化和不太完整的数据中提取出与企业经营活动密切相关的信息。例如：OLAP 能对不同时期、不同地域的商业数据中变化趋势进行对比分析。OLAP是数据分析手段的一大进步，以往的分析工具所得到的报告结果只

展开阅读全文