数据挖掘与商业智能的现况及未来发展_管理信息化_BI_2268

资源描述

《数据挖掘与商业智能的现况及未来发展_管理信息化_BI_2268》由会员分享，可在线阅读，更多相关《数据挖掘与商业智能的现况及未来发展_管理信息化_BI_2268（5页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘与商业智能的现况及未来发展_管理信息化_BI一、前言一、前言在日常商业过程中会产生大量的数据，这些数据中包含了大量的信息：市场情况、客户资料、供应商、竞争对手以及未来趋势等数据。如果企业能将这些数据有效地运用在决策过程中，则可以有很大的经济效益。数据挖掘(Data Mining)能探勘数据中信息所隐含的真实意义，能自动挖掘出数据间微妙的关联性或发觉某种决策模型，以协助决策者建立预测及决策模型。数据挖掘所要处理的问题，就是在庞大的数据库中找出有价值的隐藏事件，并且加以分析，其主要的贡献在于从数据库中获取有意义的信息以及对数据归纳出有用的结构，作为企业进行决策的依据。此外，数据挖

2、掘的主要目的是发现数据库拥有者先前关心却未曾知悉的有价值信息。事实上，数据挖掘并不只是一种技术或是一套软件，而是一种结合数种专业技术的应用。古人云：“温故而知新”，在此对数据挖掘的过去、现在与未来做进一步的阐述，希望能有更多的“有志之士”共同开创数据挖掘的美好未来。二、数据挖掘的过去二、数据挖掘的过去Usama Fayyad 是数据挖掘的开山祖师，出生于突尼西亚，1987 年就读密西根大学时参加 GM 的暑期工作，目的是从数以千万计的维修记录中找出规则，协助维修人员迅速发现问题。Fayyad 发现的 Pattern 辨识算法，不但成为他 1991 年论文的主题，也衍生出后来 Data

3、 Mining 技术的发展。离开密西根后，Fayyad 加入 NASA 的喷射推进实验室，他的算法在太空探测、地质研究等工作中均展现出了非常惊人的潜力。数据挖掘最早被应用于天文学，即由机器学习、类型辨识及统计等技术，在短短 4 小时内所发现的行星胜过了 20 多位天文学家 4 年的研究成果，现在连美国军方也开始应用这样的技术来增强雷达解读与辨识数据的能力。Berry 认为：“数据挖掘”就是针对大量的数据，利用自动化或半自动的方式作分析，以找出有意义的关系或法则；Grupe 则认为：“数据挖掘”是从现存数据中剖析出新事实及发现专家们尚未知晓的新关系；Fayyad 等学者对数据挖掘的

4、定义为：数据挖掘为依据使用者需求自数据库中选择合适数据，加以处理、转换，探勘至评估的一连串过程，期望能找出真实世界运行时隐含于其内的运作现象，以辅助解决问题之用。综合前述学者对数据挖掘的定义可知：数据挖掘主要是从数据或数据库中，运用相关的分析技术，发掘出新的、未知的样式或规则。在数据挖掘的应用模式功能方面。目前较广泛使用的有以下数种：ClassificationClassification 将数据依据事先定义的特征属性进行分类处理，也就是根据一些变量的属性数值做计算，再依照结果作分类。这些使用者用来寻找建立特征的已分类数据可能是来自于现有的历史性数据，或是将一个完整数据库做部份

5、样本(sampling)，再经由实际的运作来测试。RegressionRegression 将数据变量对应至一个真实的预测变量。ClusteringClustering 以数据本身特性将数据分为几组，并经过不断的训练与学习，分组的特性会在群组本身的特征上显现出来，其目的是要将组与组之间的差异找出来。同时，也要将一个组之中的成员的相似性找出来。SummarizationSummarization 针对数据子集提供精简的描述，例如利用统计学中的平均数、标准差等。目前已有越来越多的推理机制包含 rules，来面对日益增加的变量，且此功能通常使用在交互式的数据探究分析及自动报表产生的模式上。Li

6、nkLink malrsismalrsis 用来描述数据库中 fields 之间的关系。例如关系型法则应用在超级市场，可找出各种销售物项(items)彼此间在销售情形问的关联性。在多属性或多物项组合的关联探讨中，主要着重点在于 Confidence 架构。SequenceSequence analysisanalysis 针对数据的顺序关系进行挖掘，例如在时间上的顺序、行为上的顺序等，而主要是希望能挖掘出趋势或顺序上的分析信息。在选择数据挖掘的相关技术以及算法上，主要依据所要处理的任务及其所能产生的绩效。目前已有几个较成熟且较容易被接受的方法如下：资料的统计分析(statistica

7、l analysis of data)类神经网络(nel1ml networks)专家系统(expert systems)模糊逻辑(fuzzy logic)智慧代理人(intelligent agents)多维度分析(multidimensional analysis)决策树(decision trees)对数据挖掘而言，研究者必须考虑与所要进行“挖掘分析”领域的一些相关问题：如研究领域的特性、数据的质量、数据库的组成是否能表现这个议题、决策环境、人员因素以及这些因素间的潜在互动等等，都是需要考虑的因素。在此可以用图 1 的架构来表明这个概念:三、数据挖掘的现在三、数据挖掘的现在时至今日

8、，在网络环境的促使下，企业每日增加的数据量正以惊人的速度成长，而随着理论与算法的成熟以及计算机运算能力大幅进步，数据挖掘已成为企业挖掘信息金矿的核心技术。随着计算机和网络技术的发展，要获取某一问题的有关数据已经不是非常困难的事情了。但是对于数量大、涉及面宽的数据，靠以往人工汇总报表是无法完成的，而那种由简单汇总、按指定模式去分析的统计方法也无法适应这类数据的分析。因此，一种智能化的、能综合应用各种统计方法来分析庞大数据的软件就应运而生，这就是目前国际上统计最热门的话题，即数据挖掘技术的市场需求和其技术支持背景。数据挖掘是一个新兴的领域，在范围和定义上、推理和期望上有一些不同。挖

9、掘的信息和知识是从巨大的数据库而来，它已被许多研究者在数据库系统和机器学习中当作关键研究议题，同时也被企业体视为主要利器之所在。有许多不同领域的专家对数据挖掘表现出了极大兴趣，例如在信息服务业中出现了一些应用，在 Intemet 之数据仓储和线上服务中也给企业增加了许多生机。同时在产学合作下，又发展出了许多实用的系统，例如 MDT、Coverstory and Spodight、NichWork visualization system、FAIS、NYNEX、TASA、等等，目前已被许多研究人员视为结合数据库系统与机器学习技术的重要领域。更多产业界人士也认为此领域是一项增加各企业潜能

10、的重要指针。随着信息科技的进步以及电子化时代的来临，现今企业所面对的是一个与以往截然不同的竞争环境，不仅企业竞争的强度与速度倍增，市场交易也使得各企业所需储存与处理的数据量越来越庞大。在这种情况下，企业的焦点已从以往的数据整理与搜集转向有效地利用数据库来进行信息的获取。企业如何适应外界的竞争?如何才能快速有效地从数据库中取得有用的信息?如何反映市场或消费者的需求?这些都已成为各企业重视的焦点。数据挖掘的技术可将原始数据转换为可执行的企业指针，诸如了解客户的全貌；更进而预测未来的行为以创造客户更高的价值；建立客户流失预测模型以防止客户的流动；建立风险及信用评估模型以降低企业经营风险

11、；区隔市场挖掘新商机等企业经营决策指针。也唯有将信息转化为企业利润的提升，才能真正显数据仓储及客户关系管理等系统的投资效益。因此，数据挖掘运用的范围广泛，不但可用来将数字资产转换为有形的企业营收，更可用来稽核其它系统的效益。目前企业界已将数据挖掘应用于多种领域，例如科学、营销、工业、商业、体育、财务、银行、制造厂、通讯、电信业、网络相关行业、零售商、制造业、医疗保健及制药业，等等。四、数据挖掘的未来四、数据挖掘的未来网际网络盛起前，握有最多信息的便是赢家。迈入信息爆炸的网络时代后，原先善于掌握信息的赢家却纷纷淹没在信息洪流中，于是 Bill Gates 在数字神经系统一书中大力

12、急呼：“企业获取及利用信息的方式将决定企业的竞争优势”。未来几年，数据仓储是极为重要的成长领域。而数据挖掘工具则可以从数据仓储获取很高的回报。数据仓储是庞大资料量的集合体，其数据有时候高达数兆位，是由消费市场营销人员、零售商或服务公司在监控数百万顾客交易状况时所汇集而得的。数据仓储是超高速计算机以特殊软件执行的，是企业想要达成“实时作业”的基础设备。“实时作业”指立即调整产品组合、库存状况、现金准备、营销方案，或其改变商业状况的因素。对于现代企业而言，数据可以被视为重要的资产，但是又必须要能利用这些数据，也就是把这些庞大的数据转换为有用的信息，才能产生真正的价值。研究结果显示：

13、企业所处理的数据每五年就会呈倍数成长。大部分的企业并没有数据不足的问题，过度的数据重复与不一致才是大问题，这使得企业无论在使用、有效管理、以及将这些数据用于决策过程方面都遭遇到了困难。因此市场需要的是能够将数据转变成可靠与可用信息的系统。企业的 Data Warehottse 会将数据输入 Data Mart 中，而 Data Mart 又会将数据输入个人的 “方块”(cube)，也就是个人终端的 Data Warehouse 中，包括使用 Congos 公司的 Powerplay 或 Business Objects 的工具。这就需要一套完整的数据库管理工具才能天衣无缝地支持这种数

14、据库阶层组织。西蒙度斯先生认为在这个工具箱中，将会有大型的 Data Mining 架构，例如针对大型企业 Data Warelxxtse 操作的 Int 出gent Minef，而较小型的架构则在较小型的 Data Mart 上运作。更多的商业人士(而非分析人员)将会投入商业智能(Business Intdligence)的发掘过程(与现在刚好相反)。“您将不只会看到更多的人在从事 Data Mining，还会看到更多不同类型的人在从事 Data Miningo“茱迪拜尔女士(VisionAssociates 公司担任选进技术副总裁)并预测使用工具来筛检与分析数据挖掘结果的情形(如英

15、国 Safeway 的情形)会越来越普遍。但是在这种预测成真以前，数据的传播方面还需要有长足的进步才行。西蒙度斯先生说：“Meta Group 估计目前只有 40 万人在使用 Data Wareboum。如果我们真的想看到 Business Intelligence 完全发挥效能的话，这个数字必须成长到数百万的范围才行。虽然在这几百万人中，并不是每一个人都会进行 Data Mining，但是他们至少要能使用 Data Mining 所萃取出来的信息”。现代的企业体经常搜集了大量数据，包括市场、客户、供货商、竞争对手以及未来趋势等重要信息，但是信息超载与无结构化，使得企业决策单位无法有

16、效利用现存的信息，甚至使决策行为产生混乱与误用。所以妥善地运用数据挖掘技术，并以此从巨量的数据库中将发掘出不同的信息与知识作为决策支持之用，必将能产生并加强企业的竞争优势。五、结束语五、结束语有很多的事情是“做得好不如做得早”。举个反例来说：英文字母的 A、E、I、O、U 是使用频率最高的英文字母，理当放在键盘的右手边，然而因为当初最早的设计者没有考虑到这一原理，才导致日后的所有键盘上的最常用的这些字母都散落在各个角落。虽然数据挖掘这个领域还不算新，也只是近几年才开始的，但有兴趣的人应该把握机会尽早地研究，因为有些事情和有些时候，做得早不早要比做得好不好显得更加重要。：数据挖掘与统计学有某种程度的重叠，其发展趋势如图 2 所示：所谓的研究计划，指的就是理论程度度很高、而且可以同时解决高难度问题的领域，然而这并不是统计与数据挖掘未来的发展趋势。相反，未来的发展方向是着重于以程度较低的理论去解决难度很高的问题。另一方面，统计与 “数据挖掘”正如中国古代寓言中的“盲人摸象”。谢邦昌教授曾说过一句充满智慧的话：“瞎子摸象的结果是每个摸到大象不同部

展开阅读全文