数据仓库与数据挖掘原理与应用-8-数据挖掘介绍

上传人:飞*** 文档编号:52254485 上传时间:2018-08-19 格式:PPT 页数:97 大小:493.50KB
返回 下载 相关 举报
数据仓库与数据挖掘原理与应用-8-数据挖掘介绍_第1页
第1页 / 共97页
数据仓库与数据挖掘原理与应用-8-数据挖掘介绍_第2页
第2页 / 共97页
数据仓库与数据挖掘原理与应用-8-数据挖掘介绍_第3页
第3页 / 共97页
数据仓库与数据挖掘原理与应用-8-数据挖掘介绍_第4页
第4页 / 共97页
数据仓库与数据挖掘原理与应用-8-数据挖掘介绍_第5页
第5页 / 共97页
点击查看更多>>
资源描述

《数据仓库与数据挖掘原理与应用-8-数据挖掘介绍》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘原理与应用-8-数据挖掘介绍(97页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘介绍数据挖掘基本概念近年来数据挖掘引起了人们的极大 关注,其主要原因是:存在大量的数据, 可以广泛使用,并且迫切需要将这些数据 转换成有用的信息和知识。获取的信息和 知识可以广泛用于各种应用,包括商务管 理、生产控制、市场分析、工程设计和科 学探索等。数据挖掘基本概念(续)数据挖掘是信息技术自然演化的 结果。数据收集和DB创建机制的早期 开发已成为稍后数据管理有效机制开 发的必备基础,随着提供查询和事务 处理的大量DBS广泛付诸实践,数据分 析和理解自然成为下一个目标。数据挖掘基本概念(续)这必将带来对强有力的数据分析工 具的需求。实际上,面对快速增长的海量 数据,没有强有力的工具,理

2、解它们已远 远超出了人们的能力。 回顾数据管理技术:nDB技术:能有效地存储数据和查询数据, 但不能有效地分析数据。数据挖掘基本概念(续)nDW与OLAP技术:具有汇总、合并和聚集功 能,以及从不同的角度观察数据的能力。 但只是客观、忠实地表现出用户想查询的 众多因素分析汇总得出的报表,而报表的 翻译将由用户判断。即缺乏对数据的深层 次分析。数据挖掘基本概念(续)nDM技术:特别强调挖掘隐藏在大型数据集 中有趣的数据模式(知识、规律),用于 决策过程控制、信息管理、查询处理等。 不但分析数据,而且帮助用户得知原因, 并预测未来。n模式:它给出了数据特性或数据之间的 关系,是对数据所包含的信息更

3、抽象的 描述。n模式按功能可以分为预测型模式和描述 型模式。n在实际应用中,可以细分为关联模式、 分类模式、聚类模式和序列模式等。n数据库应用的规模和深度点 线 面 互联网 在线分析处理(OLAP) 在线事务处理 决策支持(DS)(OLTP) 数据挖掘(Data Mining)数据挖掘基本概念(续)因此,数据挖掘被普遍认为是非常有 效的数据分析工具,是信息产业最重要的 前沿之一,是最有前途的交叉学科。数据挖掘基本概念(续)数据挖掘涉及多学科技术的集成: DB技术,统计学,机器学习,高性能计算 ,模式识别,神经网络,数据可视化,信 息检索,图象与信号处理和空间数据分析 。数据挖掘基本概念(续)n

4、广义观点:数据挖掘是从存放在DB,DW或 其他信息库中的大量数据中挖掘有趣知识 的过程。n“从数据中发现有用模式”历来有很多称法,如:数据挖掘(data mining) 知识提取(knowledge extraction)信息发现(information discovery)信息收获(information harvesting)数据考古(data archaeology)数据模式处理(data pattern processing)n“数据挖掘”的称法大部分是由统计学家,数据 分析学家和MIS团体使用的,在数据库领域也 得到了广泛接受。数据挖掘的发展n7080年代:知识发现与数据挖掘结合n1

5、989年6月:在美国底特律举行了第一届“从 数据库中知识发现”的国际学术会议,在这次 会议中第一次使用了KDD 这个词来强调“知识 ”是数据驱动(data-driven)发现的最终结果。 n1995:加拿大召开第一届知识发现与数据挖 掘国际学术会议历届有关KDD的学术会议 时间时间 会议议名称 会议议地点接受论论文 数提交 论论文数Jun.1989Workshop on KDDDetroit,Michigan,USA2969Jul.1991Workshop on KDDAnaheim,California, USA2546Jul.1993Workshop on KDDWashington,US

6、A2840 1995KDD95Montreal,Canada40135 Aug.1996KDD96Portland,Oregon,USA45220 Feb.1997PAKDD97Singapore3597Aug.1997KDD97California,USAApr.1998PAKDD98Melbourne,AustraliaAug.1998KDD98New York,USA数据挖掘的发展n数据挖掘技术的应用开发在国外已经迅速发展, 许多大公司(如Informix, Oracle, IBM等)都投 入了巨资对其进行研究,并开发出了一些产品和 原型,如DBMiner、Quest、EXPLORA等。

7、n第一本关于数据挖掘的国际学术杂志Data Mining and Knowledge Discovery于1997年 3月创刊。n国内在这方面的研究起步比较晚,早期研究的方 向多集中于关联规则的挖掘,近来关于时序模式 、分类、聚类、WEB数据挖掘等的研究也日益受 到重视,并取得了不少可喜的成果,一些原型系 统或数据挖掘工具已经研制成功并在不断完善中 。DM系统的体系结构(1)DW 的步骤: l数据准备: n数据集成 n数据选择 n预分析 l挖掘 l表述 l评价(2)DW 系统的结构:用户界面结果输出数据挖掘核心知识库数据仓库 数据库文件系统其他 数据源ODBC或其他专用数据库接口数据挖掘系统的

8、结构n数据挖掘系统可以采用三层的C/S结构:第一层:为图形用户界面,位于系统的客户端;第二层:为数据挖掘引擎,它是数据挖掘系统的 核心,位于系统的应用服务器端;第三层:为数据库与数据仓库,位于数据服务器 端。数据挖掘系统的结构图形用户界面n该模块实现用户与数据挖掘系统之间 的通信,允许用户与系统交互。用户 可以通过图形化界面指定数据挖掘任 务、输入有关信息,根据系统以可视 化形式输出的数据挖掘的中间结果进 行探索式的数据挖掘。此外,该模块 还提供用户浏览数据库和数据仓库模 式或数据结构、评价数据挖掘的模式 等功能。数据挖掘系统的结构 数据挖掘引擎n数据挖掘引擎是数据挖掘系统最基本 、最重要的部

9、分,是数据挖掘系统的 核心。该部分由一系列功能模块组成 ,分别用于关联规则挖掘、分类规则 挖掘、聚类规则挖掘、时序与序列数 据挖掘和WEB数据挖掘等。数据挖掘系统的结构数据库与数据仓库n该部分位于数据服务器端,包括数据库、 知识库、文件系统、其他数据源以及存放 经过数据准备提取和集成后数据的数据仓 库。在知识库中存放领域知识,用于搜索 和对模式进行评价。n数据库与数据仓库服务器的功能是根据用 户的数据挖掘请求,提取相应的数据供数 据挖掘引擎使用。数据挖掘概述nKDD定义研究 选择目标 数据 数据 模式 应 用 问题域 数据集 预处理 挖掘 解释与评价KDD步骤l数据准备阶段:经过处理过的数据一

10、般存 储在数据仓库中。数据准备是否做得充分 将影响到数据挖掘的效率和准确度以及最 终模式的有效性。包括:n数据的选择:选择相关的数据n数据的净化:消除噪音、冗余数据n数据的推测:推算缺失数据n数据的转化:离散值数据与连续值数据之间的 相互转换、数据值的分组分类、数据项之间的 计算组合等n数据的缩减:减少数据量数据挖掘的过程数据挖掘的过程n挖掘阶段:该阶段是数据挖掘的核心 步骤,也是技术难点所在。根据数据 挖掘的目标,采用人工智能、集合论 、统计学等方法,应用相应的数据挖 掘算法,分析数据并通过可视化工具 表述所获得的模式或规则。数据挖掘的过程n评价阶段:在数据挖掘中得到的模式可能 是没有实际意

11、义或没有使用价值的,也有 可能不能准确反映数据的真实意义,甚至 在某些情况下是与事实相反的,因此需要 评估,确定哪些是有效的、有用的模式。 评估可以根据用户多年的经验,有些模式 也可以直接用数据来检验其准确性。数据挖掘的过程n巩固和运用阶段:用户理解的、并被认为是 符合实际和有价值的模式形成了知识。同时 还要对知识进行一致性检查,解决与以前得 到的知识互相冲突、矛盾的地方,使知识得 到巩固。运用知识有两种方法:一种是只需 看知识本身所描述的关系或结果,就可以对 决策提供支持;另一种是要求运用知识对新 的数据进行分析,由此可能产生新的问题, 而需要对知识作进一步的优化。数据挖掘的数据源1.关系数

12、据库 2.数据仓库 3.事务数据库数据挖掘的数据源(续)n 空间数据库n 时间数据库和时间序列数据库n 文本数据库和多媒体数据库n 异种数据库和遗产数据库n WWW数据挖掘的功能数据挖掘任务分两类:n描述式数据挖掘:刻划DB中数据的一般特 性。n预测式数据挖掘:在当前数据上进行推断 ,以进行预测。数据挖掘的功能(续)数据挖掘系统应具备:n能够挖掘多种类型的模式n能够发现各种粒度的模式n允许用户给出指示,指导或聚焦有趣模式 的搜索。1. 总结规则挖掘它所要做的是从指定的大量数据中挖 掘出(从不同的角度或在不同的层次上) 平均值/极小值/极大值、总和、百分比等 。挖掘结果运用交叉表、特征规则和统计

13、 的曲线图表等表示。2. 关联规则挖掘通过关联分析发现关联规则。即给定 一组项和一个记录集合,通过分析记录集 合,推导出项之间的相关性。2. 关联规则挖掘(续)典型的例子:购物篮分析,该过程 通过发现顾客放入其购物篮中不同商品之 间的联系,分析顾客的购买习惯,通过了 解哪些商品频繁地被顾客同时购买,用于 制定营销政策。3. 分类规则挖掘在已知训练数据的特征和分类结果的 基础上,为每一种类别找到一个合理的描 述或模型,然后再用这些分类的描述或模 型来对未知的新数据进行分类。4. 群集规则挖掘又称为无监督式的分类,其目的在 于实事求是地、即客观地按被处理对象的 特征分类,有相同特征的对象被归为一类

14、 。它与分类规则挖掘的区别在于:分类面 向训练数据,而群集则直接对数据进行处 理。4. 群集规则挖掘(续)在群集化作业中,我们并不需要事 先定义好该如何分类,同时也不需要训练 组的数据,数据是依靠本身的相似性而群 集在一起,而群集的意义也是要靠事后的 解释才能得知。5. 预测分析当分类工作偏向于插入漏掉的数据、 预测数据分类或发展的趋势时,就是预测 分析。所有用来进行分类及估计的技术都可 以经修正之后,通过已知变量数值的训练 组数据来得到。5. 预测分析(续)其中历史数据就是很好的数据来源。 历史数据可以用来建立模型,以检查近年 来观察值的变化。若运用最新数据作为输 入值,可以获得未来变化的预

15、测值。5. 预测分析(续)像“购物篮”分析,就可以预测在 超市中哪些商品总是会被同时购买。而经 过修正后,也可以通过最新的更新数据来 预测未来的购买行为。6. 趋势分析又称时间序列分析。描述行为随时间 变化的对象的规律或趋势,并对其建模。7. 偏差分析又称比较分析,它找出一系列判别 式的规则,以区别客户设置的两个不同类 别。8. 孤立点分析DB中有些数据,它们与大多数数据的 一般行为或模型不一致,称其为孤立点, 大部分挖掘方法将孤立点视为噪声或异常 而丢弃。而在一些应用中,罕见事件可能 比正常出现的更有意义。数据挖掘分类n数据挖掘有几种分类方法n1、根据挖掘的数据源类型分类n2、根据采用的挖掘技术分类n3、根据发现的知识类型分类描述性挖掘n1、特征与比较描述n2、关联规则挖掘n3、聚类分析预测性挖掘n1、数据分类n2、数值预测数据挖掘方法数据挖掘的主要方法及其重点如下: 1.统计分析方法 统计分析方法主要用于完成知识总结和 关系型知识挖掘。对关系表中各属性进行 统计分析,找到它们之间存在的关系。1. 统计分析方法(续)在关系表的属性间一般存在两种关 系:n 函数关系n 相关关系但确定性关系和相关关系之间并没 有一道不可逾越的鸿沟。1. 统计分析方法(续)由于有测量误差等原因,确定性关系实际 上往往通过相关关系呈现出来;当事物内 部规律被得到了解时,相关关系又可能转 化为

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号