数据挖掘(data

上传人:子 文档编号:41833572 上传时间:2018-05-31 格式:DOC 页数:10 大小:1.37MB
返回 下载 相关 举报
数据挖掘(data_第1页
第1页 / 共10页
数据挖掘(data_第2页
第2页 / 共10页
数据挖掘(data_第3页
第3页 / 共10页
数据挖掘(data_第4页
第4页 / 共10页
数据挖掘(data_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《数据挖掘(data》由会员分享,可在线阅读,更多相关《数据挖掘(data(10页珍藏版)》请在金锄头文库上搜索。

1、第 1 章 绪 论数据挖掘(Data Mining)是一个多学科交叉研究领域,它融合了数据库(Database) 技术、人工智能(Artificial Intelligence) 、机器学习(Machine Learning) 、统计学 (Statistics) 、知识工程(Knowledge Engineering) 、面向对象方法(Object-Oriented Method) 、信息检索(Information Retrieval) 、高性能计算(High-Performance Computing) 以及数据可视化(Data Visualization)等最新技术的研究成果。经过十几年

2、的研究,产生 了许多新概念和新方法。特别是最近几年,一些基本概念和方法趋于清晰,它的研究正向 着更深入的方向发展。 数据挖掘之所以被称为未来信息处理的骨干技术之一,主要在于它以一种全新的概念 改变着人类利用数据的方式。20 世纪,数据库技术取得了决定性的成果并且已经得到广泛 的应用。但是,数据库技术作为一种基本的信息存储和管理方式,仍然以联机事务处理 (On-Line Transaction Processing,OLTP)为核心应用,缺少对决策、分析、预测等高级 功能的支持机制。众所周知,随着数据库容量的膨胀,特别是数据仓库(Data Warehouse)以及 Web 等新型数据源的日益普及

3、,联机分析处理(On-Line Analytic Processing,OLAP) 、决策支持(Decision Support)以及分类(Classification) 、聚类 (Clustering)等复杂应用成为必然。面对这一挑战,数据挖掘和知识发现(Knowledge Discovery)技术应运而生,并显示出强大的生命力。数据挖掘和知识发现使数据处理技术 进入了一个更高级的阶段。它不仅能对过去的数据进行查询,而且能够找出过去数据之间 的潜在联系,进行更高层次的分析,以便更好地做出理想的决策、预测未来的发展趋势等。 通过数据挖掘,有价值的知识、规则或高层次的信息就能从数据库的相关数据集

4、合中抽取 出来,从而使大型数据库作为一个丰富、可靠的资源为知识的提取服务。 特别需要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据 库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合 和推理。这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式。所有发现的知识都是相对的,是面向特定领域的,同时 还要能够易于被用户理解。1.1 数据挖掘技术的产生与发展1.1.1 数据挖掘技术的商业需求分析数据挖掘之所以吸引专家学者的研究兴趣和引起商业厂家的广泛关注,主要在于大型 数据系统的广泛使用和把数据转换成有用知识

5、的迫切需要。20 世纪 60 年代,为了适应信数据挖掘原理与算法2息的电子化要求,信息技术一直从简单的文件处理系统向有效的数据库系统变革。70 年代, 数据库系统的三个主要模式:层次、网络和关系型数据库的研究和开发取得了重要进展。 80 年代,关系型数据库及其相关的数据模型工具、数据索引及数据组织技术被广泛采用, 并且成为了整个数据库市场的主导。80 年代中期开始,关系型数据库技术和新型技术的结 合成为数据库研究和开发的重要标志。从数据模型上看,诸如扩展关系、面向对象、对象- 关系(Object-Relation)以及演绎模型等被应用到数据库系统中。从应用的数据类型上看, 包括空间、时态、多媒

6、体以及 Web 等新型数据成为数据库应用的重要数据源。同时,事务 数据库(Transaction Database) 、主动数据库(Active Database) 、知识库(Knowledge Base) 、办公信息库(Information Base)等技术也得到蓬勃发展。从数据的分布角度看,分 布式数据库(Distributed Database)及其透明性、并发控制、并行处理等成为必须面对的课 题。进入 90 年代,分布式数据库理论上趋于成熟,分布式数据库技术得到了广泛应用。 目前,由于各种新型技术与数据库技术的有机结合,使数据库领域中的新内容、新应用、 新技术层出不穷,形成了庞大的数

7、据库家族。但是,这些数据库的应用都是以实时查询处 理技术为基础的。从本质上说,查询是对数据库的被动使用。由于简单查询只是数据库内 容的选择性输出,因此它和人们期望的分析预测、决策支持等高级应用仍有很大距离。 新的需求推动新的技术的诞生。随着信息技术的高速发展,数据库应用的规模、范围 和深度不断扩大,已经从单台机器发展到网络环境。近年来由于数据采集技术的更新,如 商业条码的推广、企业和政府利用计算机管理事务的能力增强,产生了大规模的数据。数 以百万计的数据库系统在运行,而且每天都在增加。决策所面对的数据量在不断增长,即 使像使用 IC 卡和打电话这样简单的事务也能产生大量的数据。随着数据的急剧增

8、长,现 有信息管理系统中的数据分析工具已无法适应新的需求。因为无论是查询、统计还是报表, 其处理方式都是对指定的数据进行简单的数字处理,而不能对这些数据所包含的内在信息 进行提取。人们希望能够提供更高层次的数据分析功能,自动和智能地将待处理的数据转化为有用的信息和知识。 数据挖掘的基础是数据分析方法。数据分析是科学研究的基础,许多科学研究都是建 立在数据收集和分析基础上的。同时在目前的商业活动中,数据分析总是和一些特殊的人 群的高智商行为联系起来,因为并不是每个人都能从过去的销售情况预测将来发展趋势或 作出正确决策的。但是,随着一个企业或行业业务数据的不断积累,特别是由于数据库的普及,人工去整

9、理和理解如此大的数据源已经存在效率、准确性等问题。因此,探讨自动 化的数据分析技术,为企业提供能带来商业利润的决策信息就成为了必然。 事实上,数据(Data) 、信息(Information)和知识(Knowledge)可以看作是广义数 据表现的不同形式。毫不夸张地说,人们对于数据的拥有欲是贪婪的,特别是计算机存储 技术和网络技术的发展加速了人们收集数据的范围和容量。这种贪婪的结果导致了“数据 丰富而信息贫乏(Data Rich & Information Poor) ”现象的产生。数据库是目前组织和存储 数据的最有效方法之一,但是面对日益膨胀的数据,数据库查询技术已表现出它的局限性。 直观上

10、说,信息或称有效信息是指对人们有帮助的数据。例如,在现实社会中,如果人均 日阅读时间为 30 分钟的话,一个人一天最快只能浏览一份 20 版左右的报纸。如果你订阅 了 100 份报纸,其实你每天也不过只阅读了一份而已。面对计算机中的海量的数据,人们 也处于同样的尴尬境地,缺乏获取有效信息的手段。知识是一种概念、规则、模式和规律第 1 章 绪 论3等,它不会像数据或信息那么具体,但是它却是人们一直不懈追求的目标。事实上。在我 们的生活中,人们只是把数据看作是形成知识的源泉。我们是通过正面的或反面的数据或 信息来形成和验证知识的,同时又不断地利用知识来获得新的信息。因此,随着数据的膨 胀和技术环境

11、的进步,人们对联机决策和分析等高级信息处理的要求越来越迫切。在强大 的商业需求的驱动下,商家们开始注意到有效地解决大容量数据的利用问题具有巨大的商 机。学者们开始思考如何从大容量数据集中获取有用信息和知识的方法。因此,在 20 世 纪 80 年代后期,产生了数据仓库和数据挖掘等信息处理思想。1.1.2 数据挖掘产生的技术背景分析任何技术的产生总是有它的技术背景的。数据挖掘技术的提出和普遍接受是由于计算 机及其相关技术的发展为其提供了研究和应用的技术基础。 归纳数据挖掘产生的技术背景,下面一些相关技术的发展起到了决定性的作用: 数据库、数据仓库和Internet 等信息技术的发展; 计算机性能的

12、提高和先进的体系结构的发展; 统计学和人工智能等方法在数据分析中的研究和应用。 数据库技术从 20 世纪 80 年代开始,已经得到广泛的普及和应用。在关系型数据库的 研究和产品提升过程中,人们一直在探索组织大型数据和快速访问的相关技术。高性能关 系型数据库引擎以及相关的分布式查询、并发控制等技术的使用,已经提升了数据库的应 用能力。在数据的快速访问、集成与抽取等问题的解决上积累了经验。数据仓库作为一种 新型的数据存储和处理手段,被数据库厂商普遍接受并且相关辅助建模和管理工具快速推 向市场,成为多数据源集成的一种有效的技术支撑环境。另外,Internet 的普及也为人们提 供了丰富的数据源。据说

13、,在美国电视达到 5000 万户大约用了 15 年,而 Internet 上网达 到 5000 万户仅用了 4 年。而且 Internet 技术本身的发展,已经不光是简单的信息浏览,以Web 计算为核心的信息处理技术可以处理 Internet 环境下的多种信息源。因此,人们已经 具备利用多种方式存储海量数据的能力。只有这样,数据挖掘技术才能有它的用武之地。 这些丰富多彩的数据存储、管理以及访问技术的发展,为数据挖掘技术的研究和应用提供 了丰富的土壤。 计算机芯片技术的发展,使计算机的处理和存储能力日益提高。大家熟知的摩尔定律 告诉我们,计算机硬件的关键指标大约以每 18 个月翻一番的速度在增长

14、,而且现在看来 仍有日益加速的趋势。随之而来的是硬盘、CPU 等关键部件的价格大幅度下降,使得人们 收集、存储和处理数据的能力和欲望不断提高。经过几十年的发展,计算机的体系结构, 特别是并行处理技术已经逐渐成熟和普遍应用,并成为支持大型数据处理应用的基础。计 算机性能的提高和先进的体系结构的发展使数据挖掘技术的研究和应用成为可能。 历经了十几年的发展,包括基于统计学、人工智能等在内的理论与技术性成果已经被 成功地应用到商业处理和分析中。这些应用从某种程度上为数据挖掘技术的提出和发展起 到了极大地推动作用。数据挖掘系统的核心模块技术和算法都离不开这些理论和技术的支 持。从某种意义上讲,这些理论本

15、身发展和应用为数据挖掘提供了有价值的理论和应用积 累。数理统计是一个有几百年发展历史的应用数学学科,至今仍然是应用数学中最重要、数据挖掘原理与算法4最活跃的学科之一。如今相当强大有效的数理统计方法和工具,已成为信息咨询业的基础。 然而它和数据库技术的结合性研究应该说最近十几年才被重视。以前的基于数理统计方法 的应用大多都是通过专用程序来实现的。我们知道,大多数的统计分析技术是基于严格的 数学理论和高超的应用技巧的,这使得一般的用户很难从容地驾驭它。一旦人们有了从数 据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命 力。从这个意义上说,数据挖掘技术是数理统计分析应用

16、的延伸和发展。假如人们利用数 据库的方式从被动地查询变成了主动发现知识的话,那么概率论和数理统计这一古老的学 科可以为我们从数据归纳到知识提供理论基础。 人工智能是计算机科学研究中争议最多而又仍始终保持强大生命力的研究领域。专家 系统曾经是人工智能研究工作者的骄傲。专家系统实质上是一个问题求解系统。领域专家 长期以来面向一个特定领域的经验世界,通过人脑的思维活动积累了大量有用信息。在研 制一个专家系统时,首先,知识工程师要从领域专家那里获取知识,这一过程是非常复杂 的个人到个人之间的交流过程,有很强的个性和随机性。因此,知识获取成为专家系统研 究中公认的瓶颈问题。其次,知识工程师在整理表达从领域专家那里获得的知识时,一般 用 if-then 等规则表达,这种表达局限性太大,勉强抽象出来的规则有很强的工艺色彩,知 识表示又成为一大难题。此外,即使某个领域的知识通过一定手段获取并表达了,但这样 做成的专家系统对常识和百科知识出奇地贫乏,而人类专家的知识是以大量常识知识为基 础的。人工智能学家 Feigenbaum 估计,一般人拥有的常识存入计算机大约有

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号