数据挖掘87093.doc

上传人:M****1 文档编号:558302286 上传时间:2022-12-11 格式:DOC 页数:15 大小:39KB
返回 下载 相关 举报
数据挖掘87093.doc_第1页
第1页 / 共15页
数据挖掘87093.doc_第2页
第2页 / 共15页
数据挖掘87093.doc_第3页
第3页 / 共15页
数据挖掘87093.doc_第4页
第4页 / 共15页
数据挖掘87093.doc_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《数据挖掘87093.doc》由会员分享,可在线阅读,更多相关《数据挖掘87093.doc(15页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘本贴来自百岛论坛J.H.Friedman斯坦佛大学统计系及线性加速中心摘要:DM(数据挖掘)是揭示存在于数据里的模式及数据间的关系的学科,它强调对大量观测到的数据库的处理。它是涉及数据库管理,人工智能,机器学习,模式识别,及数据可视化等学科的边缘学科。用统计的观点看,它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。目前对该学科的作用尽管有点夸大其词,但该领域对商业,工业,及科学研究都有极大的影响,且提供了大量的为促使新方法的发展而进行的研究工作。尽管数据挖掘和统计分析之间有明显的联系,但迄今为止大部分的数据挖掘方法都不是产生于统计学科。这篇文章对这一现象作了一些解释,并说明了

2、为什么统计学家应该关注数据挖掘。统计学可能会对数据挖掘产生很大影响,但这可能要求统计学家们改变他们的一些基本思路及操作原则。1 序言 声明:该文中的观点仅代表作者本人的观点,并不一定反映编辑,主办者,斯坦佛大学及同行的观点。 第二十九次论坛(on the Interface)(May 1997,Houston,TX)的主题是数据挖掘和大数据集的分析。这次会议的主题和二十年前的一次由Leo Breiman组织,ASA 和IMS赞助的关于大量复杂数据分析的会议是一致的。二十年后,探讨一下二十年来的所作所为是极其恰当的。这篇文章将讨论如下问题: 什么是数据挖掘? 什么是统计? 它们之间的联系是什么(

3、如果有的话)? 统计学家能作什么?(可能的话) Should we want to?2 什么是数据挖掘?数据挖掘的定义非常模糊,对它的定义取决于定义者的观点和背景。如下是一些DM文献中的定义:数据挖掘是一个确定数据中有效的,新的,可能有用的并且最终能被理解的模式的重要过程。-Fayyad. 数据挖掘是一个从大型数据库中提取以前未知的,可理解的,可执行的信息并用它来进行关键的商业决策的过程。-Zekulin. 数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法。-Ferruzza 数据挖掘是发现数据中有益模式的过程。-Jonn 数据挖掘是我们为那些未知的信息模式而研究大型数

4、据集的一个决策支持过程。-Parsaye 数据挖掘是.决策树.神经网络.规则推断.最近邻方法.遗传算法-Mehta虽然数据挖掘的这些定义有点不可触摸,但在目前它已经成为一种商业事业。如同在过去的历次淘金热中一样,目标是开发矿工。利润最大的是卖工具给矿工,而不是干实际的开发。数据挖掘这个概念被用作一种装备来出售计算机硬件和软件。 硬件制造商强调数据挖掘需要高的计算能力。必须存储,快速读写非常大的数据库,并将密集的计算方法用于这些数据。这需要大容量的磁盘空间,快速的内置大量R AM的计算机。数据挖掘为这些硬件打开了新的市场。 软件提供者强调竞争优势。你的对手使用它,你最好得跟上。同时强调它将增加传

5、统的数据库的价值。许多组织在处理存货,帐单,会计的数据库方面有大量的业务。这些数据库的创建和维护都耗资巨大。现在只需要将相对少的投资用于数据挖掘工具,就可以发现隐藏在这些数据中的具有极高利润的信息 金块。 目前硬件和软件供应者的目的是在市场还未饱和前通过迅速推出数据挖掘产品为数据挖掘作广告。如果一个公司为数据挖掘包投资了五万至十万美元,这也可能只是实验,人们在新产品未被证实比旧产品具有很大优势之前是不会贸然购买的。以下是一些当前的数据挖掘产品:IBM: Intelligent Miner 智能矿工Tandem: relational Data Miner 关系数据矿工AngossSoftwar

6、e: KnowledgeSEEDER 知识搜索者Thinking Machines Corporation: DarwinTM NeoVista Software: ASICISL Decision Systems,Inc.: Clementine 克莱门小柑橘 DataMind Corporation: DataMind Data Cruncher Silicon Graphics: MineSet California Scientific Software: BrainMaker WizSoft Corporation: WizWhy Lockheed Corporation: Reco

7、n SAS Corporation: SAS Enterprise Miner 除了这些综合软件包外,还有许多专门用途的产品。另外,许多专业于数据挖掘的咨询公司也成立了。在这个领域,统计学家和计算机科学家的不同在于当统计学家有一个想法时,他(她)将它写成文章,而计算机科学家者开一家公司。当前数据挖掘产品的特点有:-迷人的图形用户界面.数据库(查寻语言).一套数据分析过程-窗口形式的界面.灵活方便的输入-点击式按键和说?br -输入对话框-利用图表分析-复杂的图形输出-大量数据图-灵活的图形解释树,网络,飞行模拟- 结果方便的处理。这些软件包对决策者来说就象数据挖掘专家。在当前的数据挖掘软件包中

8、被用到的统计分析过程包括:.决策树推断(C4.5,CART,CHAID).规则推断(AQ,CN2,RECON,etc).最近邻方法(合乎情理的方案).聚类方法(数据分离).联合规则(市场篮子分析).特征提取.可视化另外,有些还包括:.神经网络.bayesian belief 网络(图形模型).遗传算法.自组织图.神经模糊系统几乎所有包都不包括:.假设检验.实验设计.响应表面模型.ANOVA,MANOVA,etc.线性回归.判别分析.对数回归.广义线性模型.正则相关性.主成分分析.因子分析 后面的这些过程是标准统计包里的主要部分。因此,当前被市场化的数据挖掘包中的大部分方法在统计学科之外产生和发

9、展。统计学核心的方法已被忽略。 3 Why Now? Whats the rush? 从数据学习的想法已经提出很长时间了。但在忽然之间人们对数据挖掘的兴趣却变得如此强烈,这是为什么呢?主要原因是近来它与数据库管理领域有了联系。数据,特别大量的数据保存在数据库管理系统中。传统的D BMS集中于在线转换过程(OLTP n-line transaction processing);也就是数据组织的目的是存储并快速恢复单个记录。它们过去常用来记录库存,薪水表记录,帐单记录,发货记录,等等。 最近,数据库管理界对将数据库管理系统用于决策支持越来越感兴趣。这样一个决策支持系统将允许对原本为在线转换过程应用

10、收据的数据进行统计查询。比如 上月我们的所有连锁店一共卖了多少尿布?,决策支持系统需要数据仓库的结构。数据仓库用相同的格式将某组织分散在各个部门的数据统一成一个单一的中心数据库(通常有1 00GB大)。有时较小一点的子数据库也可以建成来进行特殊的分析;这些又叫数据市场(Data Marts) 决策支持系统为在线分析过程(OLAP)和关系在线分析过程设计。关系在线分析过程为多维分析设计。关系在线分析过程数据库通过维组织,维即属性(变量)的逻辑类。数据体可以看成是高维偶然事件表。关系在线分析过程支持如下类型的查询:.显示春季运动服部门总的销售量,及California大城市商业街中商店数.和小城市

11、中商店进行比较. 显示所有利润边界值为负的项 如果关系在线分析过程的查寻由使用者手工进行,使用者提出潜在的相关问题;得到结果需要附加的查寻,其答案可能暗示进一步的问题。这样的分析过程一直到不再有感兴趣的问题提出,或者到分析员精疲力尽或耗完时间。如果用关系在线分析过程进行数据挖掘,那它需要一个经验丰富的使用者,他能不睡且不老,使用者必须不断地重复提出见闻广博的问题。 数据挖掘也可以用数据挖掘系统(软件)进行,它只需要使用者提供模糊的指令,就能自动搜索相应的模式,并显示重要的项,预测,或反常记录。 .利润边界值为负的项有什么特征?.如果决定开发某项产品的市场-预测它的利润边界值.寻找那些其利润边界

12、值可以准确预测的项的特征不是所有的大的数据库都是商业化的,比方说科学和工程中大量存在的数据库。这些数据库通常和计算机自动收据数据联系在一起,比方说:.天文的(天空图).气象的(气候,环境污染监测站).卫星遥感.高能物理.工业过程控制这些数据也能得益于数据挖掘技术(原则上)近来因子联合成为数据挖掘的焦点。它们包括象商业数据仓库和科学和工程中由计算机远站莸降氖菁锹寄茄募蟮氖菘狻捎诟咚俑笮偷募扑慊拖喙靥逑档慕剑颐强梢岳盟谴砑渑哟蟮氖菘猓矣心芰蟾叨让芗扑愕耐臣品椒糜谡庑荨? 4 是数据挖掘还是智能训练?当前对数据挖掘的兴趣在学术界引发了一些议题。数据挖掘作为一种商业事业看上去很可行,但它是否能被定为一

13、种智能训练。当然它和计算机科学有极重要的联系。这些包括:.集聚体(ROLAP)的高效计算.快速的立体(X * X)查寻.为提高在线查寻的速度的线下预查寻.在线查寻的并行计算.将DBMS方法转化为数据挖掘算法。.基于磁盘而不是RAM的实现.基本数据挖掘算法的并行实现从统计数据分析的眼光我们可以问数据挖掘方法是否是智能训练。到目前为止,仍可以说它是,也可以说不是。数据挖掘包中广为人知的程序来自机器学习,模式识别,神经网络和数据可视化领域。它们强调 看和感觉和感官性的存在。这样看上去并不是在意具体的表现,而是要迅速占领市场。在这个领域中目前大部分的研究集中在改进当前的机器学习方法和加速已存在的算法。

14、然而,在将来数据挖掘几乎可以肯定地说是一种智能训练。当一种技术的效率提高了十倍,人们总要认真地重新考虑怎样应用它。想一想人类从走到飞的历史进程,每一次提高都大约是以前的十倍,并且每一次量的提高都重新改变了我们队如何使用交通工具的想法。C huck Dickens(前SLAC的计算指导)曾说到:每次计算机的能力提高十倍,我们都应该从总体上重新思考一下我们应该怎样算,算什么的问题。 一个相应的说法可能是每次数据量增加十倍,我们就应该从总体上重新考虑一下怎样分析它。从当前几乎大多数使用的数据挖掘工具发明的那一段时间到现在,计算机的处理能力和数据量都增加了好几个数量级。新的数据挖掘方法在将来一定会更智

15、能更有学术性( 商业性)。 5 数据挖掘应该是统计的一部分吗?我们过去曾给予数据挖掘方法智能的生命力,但统计学作为一个学科是否应该关心它的发展。我们是否应该将它看成统计的一部分?那意味作什么?最起码它表明我们应该:.在我们的杂志上发表这类文章。.在我们的本科课程中讲授一些这方面的内容 ?br .在我们的研究生中讲授一些相关的研究课题。.给那些这方面较优秀的人提供一些奖励(工作,任期,奖品)。答案并不明显,在统计学的历史上就忽略了许多在其它数据处理相关领域发展的新方法。如下是一些相关领域的例子。其中带*的是那些在统计科学中萌芽,但随后绝大部分又被统计学忽略的方法领域。1 模式识别*-CS/工程2 数据库管理-CS/图书馆科学3 神经网络*-心理学/CS/工程4 机器学习*-CS/AI5 图形模型*(Beyes 网)-CS/AI6 遗传工程-CS/工程7 化学统计学*-化学

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号