数据挖掘白皮书

上传人:工**** 文档编号:509583091 上传时间:2023-03-22 格式:DOCX 页数:18 大小:525.53KB
返回 下载 相关 举报
数据挖掘白皮书_第1页
第1页 / 共18页
数据挖掘白皮书_第2页
第2页 / 共18页
数据挖掘白皮书_第3页
第3页 / 共18页
数据挖掘白皮书_第4页
第4页 / 共18页
数据挖掘白皮书_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《数据挖掘白皮书》由会员分享,可在线阅读,更多相关《数据挖掘白皮书(18页珍藏版)》请在金锄头文库上搜索。

1、SAS 数据挖掘白皮书美国 SAS 软件研究所公司 2000 年 8 月 目录 第一章总括 1第二章SAS数据挖掘方法论一 SEMMA4第三章深层统计分析与预测套件9功能9客户机/服务器方式 12浏览器/服务器方式13第四章数据挖掘套件14功能14客户机/服务器方式17浏览器/服务器方式18第一章 总括早期的计算机主要就是用来进行数据处理或称数值计算的。后来随着计算机 技术及其周边设备和通讯能力的发展,计算机更多地用于了大量繁杂事务的在线 处理,生产设备的实时控制等。在此过程中,计算机系统积累了越来越多的数据, 数据处理的任务就更加繁重。到今天,即使是发展中的我们中国,在一个企业中 有数以几十

2、或上百GB、甚至TB计的生产经营数据已不是什么希奇的事情了。企 业的数据和由此而产生的信息是企业的重要财富。它最真实、具体的反映了企业 运作的本质状况。但是,面对堆积如“山”的数据,你可能并未看清企业运作的 本质规律是什么,或者说你至少是未能全部看清楚。面对激烈竞争的市场经济, 企业的经营和管理者任何不符合客观事物规律性的决策都会给企业带来损失,甚 至失败。运用有力的工具,不断地探索企业成败、得失的原委,并以此不断完善 企业运作,这是每一个成功的企业家必不可少的工作任务。美国 SAS 软件从 60 年代在北卡洲立大学开创伊始就致力于计算机数据处理 的研究。几十年来无数的成功事例使人们推崇SAS

3、为国际上标准的数理统计分析 软件;进而,SAS的丰富数据采集、数据管理、数据分析和信息展现的能力,又 使之成为决策支持的最好的工具;近几年, SAS 又推出了套装的 SAS/Enterprise Miner这一企业级的数据处理分析和决策支持软件包。SAS系统的软件和这些软 件运用的无数成功经验,一定能帮你从企业堆积如“山”的数据中“挖掘”出隐 藏着的规律性,以支持你正确的经营决策。SAS 的数据挖掘软件集成了一系列有效的技术手段全面地支持你的工作。首 先是支持你的数据重组工作。在你的企业或组织中或许已经有了成功的各种业务 系统,其中的数据体系对应着一项项事务处理和一个又一个控制环节,它们定能

4、完美的支持其原有的工作。但当你从企业级的角度去审视,并想进一步分析处理 时,你会感到这些数据过于分散,数量越来越大,并难以整合。美国数据挖掘技 术开拓者 Gregory Piatetsky-Shapiro 曾戏言说:“原来曾希望计算机系统成为 我们智慧的源泉,但从中涌出的却是洪水般的数据!”其实不必埋怨数据太多, 也不必埋怨原来的数据结构不好,它们是适应原有工作任务的,只是不适合你现 在的要求而已。要支持你的企业级的决策,就是需要“洪水般的数据量”,但是 要面向企业级的工作任务对其进行重组。数据仓库系统支持你进行数据重组,并 以全新的数据、信息的结构形式支持你的全新的工作方式。这在前面五篇连载

5、文 章中已作了详尽的介绍。建立数据仓库,这是进一步能有成效的进行数据挖掘的 基础工作。要看清企业或组织运作的状况,第一步就是能查询到反映你所关心事情的相 应数据、信息。以SAS的多维数据库产品MDDB构造的数据仓库从物理结构上保 证了你查询的迅速、方便。E.F.Codd在提出在线分析处理OLAP概念时,多维数 据结构是实现其任务的第一项要求。一些简单的决策支持所需要的就是有针对性 的数据。在数据重组后的数据仓库中还建立了所谓数据市场(Data Marts),它 就可以更针对决策支持的需要而设计,其中还可综合不同层次的汇总数据和跨数 据仓库主题的数据。SAS软件研究所对数据挖掘所下的定义是:数据

6、挖掘是按照既定的业务目标, 对大量的企业数据进行探索、揭示隐藏其中的规律性并进一步将之模型化的先 进、有效的方法。对数据的探索、挖掘首先要有一个明确的业务目标。一组生产数据可作生产 能力的分析;可作生产成本核算的分析;亦可作影响产品质量诸因素的分析。目 标决定了此后数据挖掘过程的各种运作,并导引了运作的方向。虽然说数据挖掘 的业务目标在过程中不是不可修正的,也应当在工作进程中不断的进一步明确 化,但其基本原则内容要保持稳定不变,否则数据挖掘工作是难以有效的进行的。这里所指的大量企业数据最好是按照数据仓库的概念重组过的,在数据仓库 中的数据、信息才能最有效的支持数据挖掘。假如所取用的数据并不足以

7、反映企 业的真实情况,当然也不可能挖掘出有用的规律。数据仓库的数据重组,首先是 从企业正在运行的计算机系统中完整地将数据取出来。所谓完整,就是决策支持 目标所涉及的各个环节不能有遗漏;其次各个环节的数据要按一定的规则有机、 准确地衔接起来。从决策支持的主题来看,这重新组织过的数据,以极易取用的 数据结构方式,全面的描述了该主题。有了反映业务主题全貌的数据后,在进行数据的分析、探索时,对于不同的 人,可能会采用不同的方式方法。Gar tn er Group在评价数据挖掘工具时,也特 别提到了面对各种不同类型人员的可伸缩性和完整性。 SAS 支持各层次用户:业务水平和数学水平可能比较一般,对这样的

8、用户提供方便的数据查询是非常重要的。实际上早期的决策支持主要就是数据查询的支持。可能 也要做一些简单的数理统计分析。若统计分析的要求是较明确的,可以 事先做好,向他们提供统计分析的结果。这可做成 SAS 数据仓库中的信 息市场(Information Mart)。对应他们随机的需求,应当提供菜单式选 择的方便工具。 业务水平较高,但数学水平一般,且没有时间和兴趣再钻研数学方法的人,除了以上资源外,还应提供能简便的实现各种常用的数理统计的工 具。让他们不必受累于繁杂的过程,通过简单的需求设定,即可执行他 们需要的操作。 有计算机和数学知识,但对业务的熟悉程度一般的人员。对他们要提供较全面的数据处

9、理工具,如:数理统计;聚类分析;决策树;人工神经 元网络;等。 对有很深计算机和数学造诣的数据分析专家不仅要提供上述环境,而且还要提供实现各种算法的工具和开发平台。SAS 系统提供了适合各类人员使用的既完整,又有伸缩性的模块化的工具。通过探索和模型化所得的结果可分成两种类型:一种是描述型的;另一种是 预测型的。描述型的结果是指通过数据挖掘量化的搞清了业务目标的现状。通过 数据挖掘还可以建立起企业或某个过程的各种不同类型模型。这些模型不仅能描 述当前的现状和规律性,而且利用它还可以预测当条件变化后可能发生的状况。 这就为企业开发新产品、定位客户群体、甚至于为企业业务重组提供决策支持依 据。在世界

10、走向信息化的今天,充分利用企业的信息资源,挖掘企业和所对应市 场的运作规律性,以不断提高企业的经济效益是先进企业的必由之路。SAS 数据挖掘软件广泛应用于客户关系管理、金融风险防范、供应关系管理、 数据库营销、企业均衡记分卡、e-智能化及竞争优势分析等方面。SAS新近推出 了专用于网络流量分析的最新软件产品e-Discovery和webHound,可对优化网 站的结构和客户关系管理起到非常有效的作用。正象是你拿个镐在山上挖几下不能算是开采矿山一样,用数理统计方法或人 工神经元网络作个数据分析,也不能说就是在进行数据挖掘了。要开采矿山,首 先要按照人类总结千百年来经验所形成的理论规律去找矿;发现

11、矿藏后还要根据 其实际地质情况,有针对性的采用相应的方法最有效的挖掘才能获得有价值的宝 藏。同样,要想有效地进行数据挖掘也必须要有好的工具和一整套妥善的方法论。 可以说在数据挖掘中你采用的工具、使用工具的能力、以及数据挖掘过程中的方 法论在很大程度上决定了你能开拓的成果。SAS研究所不仅有丰富的工具供你选 用,而且在多年的数据处理研究工作中积累了一套行之有效的数据挖掘方法论一 SEMMA,通过使用SAS技术进行数据挖掘,我们愿意和你分享这些经验。根据客户的不同层次的业务需求, SAS 公司把数据挖掘等深层次分析分为两 个层次,同时提供两种产品及方案套件供用户选择。这两种方案分别为:一、深 层统

12、计分析与预测套件;二、数据挖掘套件。在下面几节中会一一加以介绍。第二章 SAS 数据挖掘方法论 SEMMASAS 研究所不仅有丰富的工具供你选用,而且在多年的数据处理研究工作中积累了一套行之有效的数据挖掘方法论一SEMMA,通过使用SAS技术进行数据挖掘,我们愿意和你分享这些经验:Sample数据取样Explore数据特征探索、分析和予处理Modify问题明确化、数据调整和技术选择Model模型的研发、知识的发现Assess模型和知识的综合解释和评价Sample数据取样当进行数据挖掘时,首先要从企业大量数据中取出一个与你要探索问题相关 的样板数据子集,而不是动用全部企业数据。这就象在对开采出来

13、矿石首先要进 行选矿一样。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而 且能通过数据的筛选,使你想要它反映的规律性更加凸现出来。通过数据取样,要把好数据的质量关。在任何时候都不要忽视数据的质量, 即使你是从一个数据仓库中进行数据取样,也不要忘记检查其质量如何。因为通 过数据挖掘是要探索企业运作的规律性的,原始数据有误,还谈什么从中探索规 律性。若你真的从中还探索出来了什么“规律性”,再依此去指导工作,则很可 能是在进行误导。若你是从正在运行着的系统中进行数据取样,则更要注意数据 的完整性和有效性。再次提醒你在任何时候都不要忽视数据的质量,慎之又慎!从巨大的企业数据母体中取出哪些数

14、据作为样本数据呢?这要依你所要达 到的目标来区分采用不同的办法:如果你是要进行过程的观察、控制,这时你可 进行随机取样,然后根据样本数据对企业或其中某个过程的状况作出估计。SAS 不仅支持这一取样过程,而且可对所取出的样本数据进行各种例行的检验。若你 想通过数据挖掘得出企业或其某个过程的全面规律性时,必须获得在足够广泛范 围变化的数据,以使其有代表性。你还应当从实验设计的要求来考察所取样数据 的代表性。唯此,才能通过此后的分析研究得出反映本质规律性的结果。利用它 支持你进行决策才是真正有效的,并能使企业进一步获得技术、经济效益。Explore数据特征探索、分析和予处理前面所叙述的数据取样,多少

15、是带着人们对如何达到数据挖掘目的的先验的 认识进行操作的。当我们拿到了一个样本数据集后,它是否达到我们原来设想的 要求;其中有没有什么明显的规律和趋势;有没有出现你所从未设想过的数据状 态;因素之间有什么相关性;它们可区分成怎样一些类别这都是要首先探索 的内容。进行数据特征的探索、分析,最好是能进行可视化的操作。 SAS 有: SAS/INSIGHT和SAS/SPECTRAVIEW两个产品给你提供了可视化数据操作的最强有 力的工具、方法和图形。它们不仅能做各种不同类型统计分析显示,而且可做多 维、动态、甚至旋转的显示。这里的数据探索,就是我们通常所进行的深入调查的过程。你最终要达到的 目的可能

16、是要搞清多因素相互影响的,十分复杂的关系。但是,这种复杂的关系 不可能一下子建立起来。一开始,可以先观察众多因素之间的相关性;再按其相 关的程度,以了解它们之间相互作用的情况。这些探索、分析,并没有一成不变 操作规律性;相反,是要有耐心的反复的试探,仔细的观察。在此过程中,你原 来的专业技术知识是非常有用的,它会帮助你进行有效的观察。但是,你也要注 意,不要让你的专业知识束缚了你对数据特征观察的敏锐性。可能实际存在着你 的先验知识认为不存在的关系。假如你的数据是真实可靠的话,那末你绝对不要 轻易地否定数据呈现给你的新关系。很可能这里就是发现的新知识!有了它,也 许会导引你在此后的分析中,得出比你原有的认识更加符合实际的规律性知识。 假如在你的操作中出现了这种情况,应当说,你的数据挖掘已挖到

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号