数据挖掘与商业智能的现况及未来发展_管理信息化_BI_2268

上传人:飞*** 文档编号:43001252 上传时间:2018-06-04 格式:DOC 页数:5 大小:33.50KB
返回 下载 相关 举报
数据挖掘与商业智能的现况及未来发展_管理信息化_BI_2268_第1页
第1页 / 共5页
数据挖掘与商业智能的现况及未来发展_管理信息化_BI_2268_第2页
第2页 / 共5页
数据挖掘与商业智能的现况及未来发展_管理信息化_BI_2268_第3页
第3页 / 共5页
数据挖掘与商业智能的现况及未来发展_管理信息化_BI_2268_第4页
第4页 / 共5页
数据挖掘与商业智能的现况及未来发展_管理信息化_BI_2268_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《数据挖掘与商业智能的现况及未来发展_管理信息化_BI_2268》由会员分享,可在线阅读,更多相关《数据挖掘与商业智能的现况及未来发展_管理信息化_BI_2268(5页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘与商业智能的现况及未来发展_管理信息化_BI一、前言一、前言在日常商业过程中会产生大量的数据,这些数据中包含了大量的信息:市 场情况、客户资料、供应商、竞争对手以及未来趋势等数据。如果企业能将这 些数据有效地运用在决策过程中,则可以有很大的经济效益。数据挖掘(Data Mining)能探勘数据中信息所隐含的真实意义,能自动挖掘出数据间微妙的关 联性或发觉某种决策模型,以协助决策者建立预测及决策模型。数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件, 并且加以分析,其主要的贡献在于从数据库中获取有意义的信息以及对数据归 纳出有用的结构,作为企业进行决策的依据。此外,数据挖

2、掘的主要目的是发 现数据库拥有者先前关心却未曾知悉的有价值信息。事实上,数据挖掘并不只 是一种技术或是一套软件,而是一种结合数种专业技术的应用。古人云:“温故而知新”,在此对数据挖掘的过去、现在与未来做进一步 的阐述,希望能有更多的“有志之士”共同开创数据挖掘的美好未来。二、数据挖掘的过去二、数据挖掘的过去Usama Fayyad 是数据挖掘的开山祖师,出生于突尼西亚,1987 年就读密西 根大学时参加 GM 的暑期工作,目的是从数以千万计的维修记录中找出规则,协 助维修人员迅速发现问题。Fayyad 发现的 Pattern 辨识算法,不但成为他 1991 年论文的主题,也衍生出后来 Data

3、 Mining 技术的发展。离开密西根后,Fayyad 加入 NASA 的喷射推进实验室,他的算法在太空探 测、地质研究等工作中均展现出了非常惊人的潜力。数据挖掘最早被应用于天 文学,即由机器学习、类型辨识及统计等技术,在短短 4 小时内所发现的行星 胜过了 20 多位天文学家 4 年的研究成果,现在连美国军方也开始应用这样的技 术来增强雷达解读与辨识数据的能力。Berry 认为:“数据挖掘”就是针对大量的数据,利用自动化或半自动的 方式作分析,以找出有意义的关系或法则;Grupe 则认为:“数据挖掘”是从 现存数据中剖析出新事实及发现专家们尚未知晓的新关系;Fayyad 等学者对数 据挖掘的

4、定义为:数据挖掘为依据使用者需求自数据库中选择合适数据,加以 处理、转换,探勘至评估的一连串过程,期望能找出真实世界运行时隐含于其 内的运作现象,以辅助解决问题之用。综合前述学者对数据挖掘的定义可知: 数据挖掘主要是从数据或数据库中,运用相关的分析技术,发掘出新的、未知 的样式或规则。在数据挖掘的应用模式功能方面。目前较广泛使用的有以下数 种:ClassificationClassification 将数据依据事先定义的特征属性进行分类处理,也就是根 据一些变量的属性数值做计算,再依照结果作分类。这些使用者用来寻找建立 特征的已分类数据可能是来自于现有的历史性数据,或是将一个完整数据库做 部份

5、样本(sampling),再经由实际的运作来测试。RegressionRegression 将数据变量对应至一个真实的预测变量。ClusteringClustering 以数据本身特性将数据分为几组,并经过不断的训练与学习, 分组的特性会在群组本身的特征上显现出来,其目的是要将组与组之间的差异 找出来。同时,也要将一个组之中的成员的相似性找出来。SummarizationSummarization 针对数据子集提供精简的描述,例如利用统计学中的平均 数、标准差等。目前已有越来越多的推理机制包含 rules,来面对日益增加的变量,且此功能通常使用在交互式的数据探究分析及自动报表产生的模式上。Li

6、nkLink malrsismalrsis 用来描述数据库中 fields 之间的关系。例如关系型法则应 用在超级市场,可找出各种销售物项(items)彼此间在销售情形问的关联性。在 多属性或多物项组合的关联探讨中,主要着重点在于 Confidence 架构。SequenceSequence analysisanalysis 针对数据的顺序关系进行挖掘,例如在时间上的顺序、 行为上的顺序等,而主要是希望能挖掘出趋势或顺序上的分析信息。在选择数 据挖掘的相关技术以及算法上,主要依据所要处理的任务及其所能产生的绩效。 目前已有几个较成熟且较容易被接受的方法如下:资料的统计分析(statistica

7、l analysis of data)类神经网络(nel1ml networks)专家系统(expert systems)模糊逻辑(fuzzy logic)智慧代理人(intelligent agents)多维度分析(multidimensional analysis)决策树(decision trees)对数据挖掘而言,研究者必须考虑与所要进行“挖掘分析”领域的一些相 关问题:如研究领域的特性、数据的质量、数据库的组成是否能表现这个议题、 决策环境、人员因素以及这些因素间的潜在互动等等,都是需要考虑的因素。 在此可以用图 1 的架构来表明这个概念:三、数据挖掘的现在三、数据挖掘的现在时至今日

8、,在网络环境的促使下,企业每日增加的数据量正以惊人的速度 成长,而随着理论与算法的成熟以及计算机运算能力大幅进步,数据挖掘已成 为企业挖掘信息金矿的核心技术。随着计算机和网络技术的发展,要获取某一 问题的有关数据已经不是非常困难的事情了。但是对于数量大、涉及面宽的数 据,靠以往人工汇总报表是无法完成的,而那种由简单汇总、按指定模式去分 析的统计方法也无法适应这类数据的分析。因此,一种智能化的、能综合应用 各种统计方法来分析庞大数据的软件就应运而生,这就是目前国际上统计最热 门的话题,即数据挖掘技术的市场需求和其技术支持背景。数据挖掘是一个新兴的领域,在范围和定义上、推理和期望上有一些不同。 挖

9、掘的信息和知识是从巨大的数据库而来,它已被许多研究者在数据库系统和 机器学习中当作关键研究议题,同时也被企业体视为主要利器之所在。有许多 不同领域的专家对数据挖掘表现出了极大兴趣,例如在信息服务业中出现了一 些应用,在 Intemet 之数据仓储和线上服务中也给企业增加了许多生机。同时在产学合作下,又发展出了许多实用的系统,例如 MDT、Coverstory and Spodight、NichWork visualization system、FAIS、NYNEX、TASA、等等,目 前已被许多研究人员视为结合数据库系统与机器学习技术的重要领域。更多产 业界人士也认为此领域是一项增加各企业潜能

10、的重要指针。随着信息科技的进步以及电子化时代的来临,现今企业所面对的是一个与 以往截然不同的竞争环境,不仅企业竞争的强度与速度倍增,市场交易也使得 各企业所需储存与处理的数据量越来越庞大。在这种情况下,企业的焦点已从 以往的数据整理与搜集转向有效地利用数据库来进行信息的获取。企业如何适 应外界的竞争?如何才能快速有效地从数据库中取得有用的信息?如何反映市场 或消费者的需求?这些都已成为各企业重视的焦点。数据挖掘的技术可将原始数据转换为可执行的企业指针,诸如了解客户的 全貌;更进而预测未来的行为以创造客户更高的价值;建立客户流失预测模型 以防止客户的流动;建立风险及信用评估模型以降低企业经营风险

11、;区隔市场 挖掘新商机等企业经营决策指针。也唯有将信息转化为企业利润的提升,才能 真正显数据仓储及客户关系管理等系统的投资效益。因此,数据挖掘运用的范 围广泛,不但可用来将数字资产转换为有形的企业营收,更可用来稽核其它系 统的效益。目前企业界已将数据挖掘应用于多种领域,例如科学、营销、工业、商业、 体育、财务、银行、制造厂、通讯、电信业、网络相关行业、零售商、制造业、 医疗保健及制药业,等等。四、数据挖掘的未来四、数据挖掘的未来网际网络盛起前,握有最多信息的便是赢家。迈入信息爆炸的网络时代后, 原先善于掌握信息的赢家却纷纷淹没在信息洪流中,于是 Bill Gates 在数字 神经系统一书中大力

12、急呼:“企业获取及利用信息的方式将决定企业的竞争 优势”。未来几年,数据仓储是极为重要的成长领域。而数据挖掘工具则可以从数 据仓储获取很高的回报。数据仓储是庞大资料量的集合体,其数据有时候高达 数兆位,是由消费市场营销人员、零售商或服务公司在监控数百万顾客交易状 况时所汇集而得的。数据仓储是超高速计算机以特殊软件执行的,是企业想要 达成“实时作业”的基础设备。“实时作业”指立即调整产品组合、库存状况、 现金准备、营销方案,或其改变商业状况的因素。对于现代企业而言,数据可以被视为重要的资产,但是又必须要能利用这 些数据,也就是把这些庞大的数据转换为有用的信息,才能产生真正的价值。 研究结果显示:

13、企业所处理的数据每五年就会呈倍数成长。大部分的企业并没 有数据不足的问题,过度的数据重复与不一致才是大问题,这使得企业无论在 使用、有效管理、以及将这些数据用于决策过程方面都遭遇到了困难。因此市 场需要的是能够将数据转变成可靠与可用信息的系统。企业的 Data Warehottse 会将数据输入 Data Mart 中,而 Data Mart 又会将数据输入个人的 “方块”(cube),也就是个人终端的 Data Warehouse 中,包括使用 Congos 公 司的 Powerplay 或 Business Objects 的工具。这就需要一套完整的数据库管 理工具才能天衣无缝地支持这种数

14、据库阶层组织。西蒙度斯先生认为在这个工 具箱中,将会有大型的 Data Mining 架构,例如针对大型企业 Data Warelxxtse 操作的 Int 出gent Minef,而较小型的架构则在较小型的 Data Mart 上运作。更多的商业人士(而非分析人员)将会投入商业智能(Business Intdligence)的发掘过程(与现在刚好相反)。“您将不只会看到更多的人在从 事 Data Mining,还会看到更多不同类型的人在从事 Data Miningo“茱迪拜尔女 士(VisionAssociates 公司担任选进技术副总裁)并预测使用工具来筛检与分析 数据挖掘结果的情形(如英

15、国 Safeway 的情形)会越来越普遍。但是在这种预测成真以前,数据的传播方面还需要有长足的进步才行。西 蒙度斯先生说:“Meta Group 估计目前只有 40 万人在使用 Data Wareboum。如 果我们真的想看到 Business Intelligence 完全发挥效能的话,这个数字必须 成长到数百万的范围才行。虽然在这几百万人中,并不是每一个人都会进行 Data Mining,但是他们至少要能使用 Data Mining 所萃取出来的信息”。现代的企业体经常搜集了大量数据,包括市场、客户、供货商、竞争对手 以及未来趋势等重要信息,但是信息超载与无结构化,使得企业决策单位无法 有

16、效利用现存的信息,甚至使决策行为产生混乱与误用。所以妥善地运用数据 挖掘技术,并以此从巨量的数据库中将发掘出不同的信息与知识作为决策支持 之用,必将能产生并加强企业的竞争优势。五、结束语五、结束语有很多的事情是“做得好不如做得早”。举个反例来说:英文字母的 A、E、I、O、U 是使用频率最高的英文字母,理当放在键盘的右手边,然而因 为当初最早的设计者没有考虑到这一原理,才导致日后的所有键盘上的最常用 的这些字母都散落在各个角落。虽然数据挖掘这个领域还不算新,也只是近几 年才开始的,但有兴趣的人应该把握机会尽早地研究,因为有些事情和有些时 候,做得早不早要比做得好不好显得更加重要。:数据挖掘与统计学有某种程 度的重叠,其发展趋势如图 2 所示:所谓的研究计划,指的就是理论程度度很高、而且可以同时解决高难度问 题的领域,然而这并不是统计与数据挖掘未来的发展趋势。相反,未来的发展 方向是着重于以程度较低的理论去解决难度很高的问题。另一方面,统计与 “数据挖掘”正如中国古代寓言中的“盲人摸象”。谢邦昌教授曾说过一句充满智慧的话:“瞎子摸象的结果是每个摸到大象不同部

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号