数据挖掘工具的选择、分析、比较与展望

资源描述

《数据挖掘工具的选择、分析、比较与展望》由会员分享，可在线阅读，更多相关《数据挖掘工具的选择、分析、比较与展望（32页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘工具的选择、分析、比较与展望高春华（南京大学计算机科学与技术系，南京，21009）3ChoicAen,alysis, Comparison and Future Studies of Data Mining ToolsGAO Chun-Hua（Department of Computer Science and TechnoNloagnyj,inNga,n2j1in0g09U3n）iversity,Abstract: As a new technology of deriving knowledge from massive data, data mining has become

2、increasingly popular in research and industry fields. Its success in commercial area makes software engineers develop new data mining tools and improve current tools. Now we can see data mining tools have become a feast of eye, so it is hard for us to choose proper data mining tools. In order to off

3、er some help, the paper discusses some ways of choosing data mining tools. At the same time, it makes introduction of several famous data mining tools and discusses the strength and weakness of each tool. It then chooses SPSS Clementine as a tool to do some data mining work and compare it with WEKA

4、and SAS EM. Finally, it talks about the features and new functions of future data mining tools.Key Words: Data Mining; SPSS Clementine, Use of tools, Comparative studies, Future work摘要：数据挖掘作为一项从海量数据中提取知识的信息技术引起了国内外学术界和产业界的广泛关注，它在商业方面的成功应用使得软件开发商不断开发新的数据挖掘工具，改进现有的数据挖掘工具，一时之间数据挖掘工具可谓琳琅满目，于是出现了如何合理选择

5、挖掘工具的问题。鉴此，本文提出并讨论了几点关于理选择数据挖掘工具的技巧。同时，就现有的几个著名挖掘工具，介绍各自的特点，以及相互的优缺点然后，选用SPSS Clementine这种挖掘工具进行实际操作，并且具体介绍它与Weka、SAS EM之间的优缺点。最后，展望一下，未来数据挖掘工具的特点与新功能。关键词：数据挖掘、SPSS Clementine、工具使用、工具比较、展望前言：随着信息时代的到来，信息利用的重要性日渐突出，因此数据库和计算机网络随之应运而生。如今数据库和计算机网络被广泛应用，加上先进的数据自动生成和采集工具的使用，人们拥有的数据量急剧增大。然而数据的极速增长与数据分

6、析方法的改进并不成正比，一方面人们希望在已有的大量数据的基础上进行科学研究、商业决策、企业管理，另一方面传统的数据分析工具很难令人满意的对数据进行深层次的处理，这样二者之间的矛盾日益突出，正是在这种状况下，数据挖掘应运而生。数据挖掘作为一项从海量数据中提取知识的信息技术是一个以发现为驱动的过程，已经引起了学术界和产业界的极大重视。特别是从1989年8 月在美国底特律召开的第 11 届国际人工智能联合会议上首次出现数据库中的知识发现概念以来，数据挖掘在国际国内都受到了前所未有的重视，目前数据挖掘广泛应用于各个领域，如地理学、地质学、生物医学等等，总之数据挖掘的出现使数据库技术进入

7、了一个更高级的阶段，不仅能对过去的数据进行查询和遍历还能够找出以往数据间潜在的联系，促进信息的传播。1. 数据挖掘定义数据挖掘是一个从数据中提取模式的过程，是一个受多个学科影响的交叉领域,包括数据库系统、统计学、机器学习、可视化和信息科学等；数据挖掘反复使用多种数据挖掘算法从观测数据中确定模式或合理模型，是一种决策支持过程。通过预测客户的行为，帮助企业的决策者调整市场策略，减少风险，做出正确的决策。由于传统的事物型工具（如查询工具、报表工具）无法回答事先未定义的综合性问题或跨部门/机构的问题，因此其用户必须清楚地了解问题的目的。数据挖掘就可以回答事先未加定义的综合性问题或跨部门 /

8、机构的问题，挖掘潜在的模式并预测未来的趋势，用户不必提出确切的问题，而且模糊问题更有利于发现未知的事实。2. 工具简介2.1 数据挖掘工具的重要性：数据挖掘工具利用各种已知数据分析方法，使分析员和决策者脱离浩如烟海的繁杂的数据，使其更快更有效的得到其所需要的结果。2.2 数据挖掘工具的分类：数据挖掘工具根据其适用的范围分为两类：专用挖掘工具和通用挖掘工具。专用数据挖掘工具是针对某个特定领域的问题提供解决方案，在涉及算法的时候充分考虑了数据、需求的特殊性，并作了优化。对任何领域，都可以开发特定的数据挖掘工具。特定领域的数据挖掘工具针对性比较强，只能用于一种应用；也正因为针对性强，往

9、往采用特殊的算法，可以处理特殊的数据，实现特殊的目的，发现的知识可靠度也比较高。通用数据挖掘工具不区分具体数据的含义，采用通用的挖掘算法，处理常见的数据类型。通用的数据挖掘工具不区分具体数据的含义，采用通用的挖掘算法，处理常见的数据类型。通用的数据挖掘工具可以做多种模式的挖掘，挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。一般我们见到的数据挖掘工具都是通用型的。2.3 工具简介：随着数据信息量的不断增大，数据利用的重要性日益突出，数据挖掘工具也随之不断推陈出行，各式各样的工具可谓是琳琅满目。但最常见也最常用的还属那几种，如：IBM公司Almaden研究中心开发的QUEST系

10、统，SGI公司开发的 MineSet 系统，加拿大 SimonFraser 大学开发的 DBMiner 系统，美国 IBM 公司开发的数据挖掘软件Intelligent Miner，美国NORTH CAROLINA州立大学开发的统计分析软件SAS,开放源码的数据挖掘软件Weka，美国斯坦福大学研制的 SPSS 以及各类数据库厂商集成的挖掘工具。这里主要介绍 Weka， SAS， SPSS Clementine。Weka (Waikato Environment for Knowledge Analysis) 是一款免费的，非商业化的，基于JAVA环境下开源的机器学习(machine

11、learning)以及数据挖掘(data minining)软件。WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。而开发者则可使用Java语言，利用Weka的架构上开发出更多的数据挖掘算法。SAS (Statistical Analysis System)是一个模块化、集成化的大型应用软件系统。它由数十个专用模块构成，功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。 SAS系统基本上可以分为四大部分：SAS数

12、据库部分；SAS分析核心；SAS开发呈现工具；SAS对分布处理模式的支持极其数据仓库设计。SAS系统主要完成以数据为中心的四大任务：数据访问；数式的支持极其数据仓库设计。是一种在我国的企业中得到采用的数据挖掘工具，比较典型的包括上海宝钢配矿系统应用和铁路部门在春运客运研究中的应用。 SAS Enterprise Miner 是一种通用的数据挖掘工具，按照抽样-探索-转换-建模-评估的方法进行数据挖掘。可以与 SAS 数据仓库和 OLAP 集成，实现从提出数据、抓住数据到得到解答的端到端知识发现。SPSS Clemen tine是一个开放式数据挖掘工具，曾两次获得英国SMART创新

13、奖，它不但支持整个数据挖掘流程，从数据获取、转化、建模、评估到最终部署的全部过程，还支持数据挖掘的行业标准-CRISP-DM。 Clementine 的可视化数据挖掘使得思路分析成为可能，即将集中精力在要解决的问题本身，而不是局限于完成一些技术性工作(比如编写代码)。提供了多种图形化技术，有助理解数据间的关键性联系，指导用户以最便捷的途径找到问题的最终解决办法。而且 SPSS 的视图革新是最高的，获得最高的 completeness of vision。注意，这里说的是 Clementine 并不等同于 SPSS， SPSS 突出在于统计或数字计算分析功能，而 Clementine

14、专注于数据挖掘，可以做神经网络、决策树之类的分析，制图功能更完整。所以， Clementine 更适用于数据挖掘。前者，只是简单统计分析。3. 工具使用这里选用版本为 11.1 的 SPSSClementine 作为数据挖掘工具进行使用介绍。3.1 Clementine 11.1 主界面：流 1 ：3.1.2 区域 2 管理区：包括流、输出、模型三栏。流：上面已经说过了，是管理数据流的。输出：不要跟工具栏中的输出搞混（将在下面介绍），这里的输出是图形、输出这类工具产生的分析结果。模型：经过训练的模型会出现在这一栏中，这就像是真表（Truth Table）的概念那样，训练过的模型可以

15、加入的数据流中用于预测和打分。3.1.3 区域 3项目区：顾名思义，是对项目的管理，提供了两种视图。其中CRISP-DM（CrossIndustry Standard Process for Data Mining ，数据挖掘跨行业标准流程）是由SPSS、DaimlerChrysler （戴姆勒克莱斯勒，汽车公司）、NCR （就是那个拥有 Terada ta的公司）共同提出的。Clemen tine里通过组织CRISP-DM的六个步骤完成项目。在项目中可以加入流、节点、输出、模型等。3.1.4 区域 4工具栏：工具栏总包括了 ETL、数据分析、挖掘模型工具，工具可以加入到数据流设计区中，

16、Clemen tine中有7类工具：数据源、记录选项、字段选项、图形、建模、输出、导出。3.2 工具栏使用介绍每一个项目（tab）包含了一系列相关的节点用于一个数据流（st ream ）操作的不同阶段，例如：数据源（Sources）:用来将资料读进系统的节点。记录选项（Record Ops）:用来在资料记录上进行操作的节点，例如选择、合并和增加。字段选项（Field ops）:用来在数据域位上进行操作的节点，例如过滤、导出新字段和确定给出字段的数据类型。图:在建模之前和之后用来可视化资料的节点。图包括点图、直方图、 Web 节点和评估图表。建模:在 Clementine 系统中可用的代表有效建模算法的节点，例如类神经网络、决策树、聚类算法和资料排序。收藏夹：在工具栏上的收藏夹项目能够被定义成包含使用者对 Clementine 系统的习

展开阅读全文