数据仓库和数据挖掘ppt培训课件

上传人:aa****6 文档编号:54126924 上传时间:2018-09-08 格式:PPT 页数:39 大小:1.82MB
返回 下载 相关 举报
数据仓库和数据挖掘ppt培训课件_第1页
第1页 / 共39页
数据仓库和数据挖掘ppt培训课件_第2页
第2页 / 共39页
数据仓库和数据挖掘ppt培训课件_第3页
第3页 / 共39页
数据仓库和数据挖掘ppt培训课件_第4页
第4页 / 共39页
数据仓库和数据挖掘ppt培训课件_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《数据仓库和数据挖掘ppt培训课件》由会员分享,可在线阅读,更多相关《数据仓库和数据挖掘ppt培训课件(39页珍藏版)》请在金锄头文库上搜索。

1、数据仓库和数据挖掘,第六章 数据仓库和数据挖掘,第一节 数据仓库的原理 第二节 数据仓库体系结构 第三节 数据仓库的开发 第四节 联机分析处理OLAP 第五节 数据挖掘技术 第六节 数据挖掘的方法和工具,3,第一节 数据仓库的原理,一、数据仓库的基本定义 1. 基本定义 数据仓库专家W.H.Inmon的描述: 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、随时间不断变化(Time Variant)的数据集合,用于支持管理决策。,4,第一节 数据仓库的原理,一、数据仓库的基本定义 Informix公司的负责人定

2、义数据仓库为: 数据仓库将分布在企业网络中不同职能部门的业务数据集成,并存储在一个单一的集成关系型数据库中。 利用这种集成信息,可方便用户对信息的访问,更可使决策人员对一段时间的历史数据进行分析,研究事物发展走势。,5,第一节 数据仓库的原理,2. 数据仓库中的一些基本概念 粒度 粒度是数据仓库的数据单位中保存数据的细化或综合程度的级别; 分割 就是将数据分散到各自的物理单元中去,使它们能被独立地处理; 维 是人们观察数据的特定角度,是数据的视图。,6,第一节 数据仓库的原理,二、数据仓库的特点 面向主题的 集成的 相对稳定的 随时间变化的,7,第一节 数据仓库的原理, 面向主题的 数据仓库中

3、的数据是按一定的主题进行组织的,为按主题进行决策的过程提供信息。 集成的 数据仓库中数据是来源于分散的数据库数据,它们进入数据仓库中时必须通过一定的方法来使之在数据仓库中有统一的形式和含义。,(a)集成,8,第一节 数据仓库的原理, 相对稳定的 也称为非易失性。数据仓库的数据主要供企业决策分析之用,某个数据一旦进入数据仓库,只要它没有数据仓库的数据存储期限,一般就不会被更新。,插入,删除,访问,修改,数据库,抽取、载入,时间维,数据仓库,(b)非易失性,9,第一节 数据仓库的原理, 随时间变化的 数据仓库随着时间的变化,不断增加新的数据。支持决策系统 数据仓库组织的根本目的在于对决策的支持。,

4、10,第一节 数据仓库的原理,三、数据仓库中的层次结构 一个典型的企业数据仓库系统3层结构: 数据获取层、 数据存储与管理层、 数据访问层,11,第一节 数据仓库的原理, 数据获取层 对MIS、网管和其他外部数据源中的数据进行抽取、清洗、转换,并加载到数据仓库。 数据存储与管理层 实现对数据仓库中数据和源数据的集中存储与管理,进行抽取、清理和有效集成,按照主题进行组织,并可根据需求建立面向部门和主题的部门级数据仓库,或称为数据集市。 采用在线分析处理(OnLine Analysis Processing,OLAP)服务器技术对数据进行有效集成和组织,以便进行多角度、多层次的分析,并发现趋势。,

5、12,第一节 数据仓库的原理, 数据访问层 通过多样化的前端分析展示工具(主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具),实现对数据仓库中数据的分析和处理,形成市场经营和决策工作所需要的科学、准确、及时的业务信息和知识。,13,第一节 数据仓库的原理,四、数据仓库与数据库的区别,14,第二节 数据仓库体系结构,一、数据仓库的体系结构 通常包括4个部分:源数据、管理部分、数据仓库和应用部分。,15,第二节 数据仓库体系结构,二、数据仓库体系结构中的重要组件 1. 数据抽取、转换、装载工具ETL(Extract/Transformation

6、/Load) 它是把数据从不同的操作型数据库中拿出来,进行必要的转化、整理,再存放到数据仓库内。,16,第二节 数据仓库体系结构,2. 元数据 元数据在数据仓库中的用途有: 起到辅助决策分析过程中定位数据仓库的目录作用 数据从业务环境向数据仓库环境传送时数据仓库的目录内容 指导从近期基本数据到轻度综合数据和到高度综合数据的综合算法选择,17,第二节 数据仓库体系结构,3. 数据集市(Data Marts) 为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(Subject data) 4. 数据仓库管理工具 数据仓库管理工具的主要内容有:安全和特权管理

7、;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理,18,第三节 数据仓库的开发,一、数据仓库的数据模式 1. 星式模式 一个简单的星式模式(Star Schema)是由一个事实表和多个维表组成。复杂的星式模式包含若干个事实表和维表。,19,第三节 数据仓库的开发,2. 雪花模式 雪花模式(Snow Flake Schema)是对星式模式的扩展,它的每个维表都可以向外面连接多个维。,20,第三节 数据仓库的开发,二、数据仓库的设计方法 在设计数据仓库时一般采用的方法有自顶向下方法、自底向上方法、自顶向下和自底向

8、上综合的方法。 1. 自顶向下方法 自顶向下方法是从商业需求出发直接构建全局数据仓库,即从原来分散存储的已有的企业OLTP数据库中通过数据提取、净化、转换和聚集等处理建立全局数据仓库。,21,第三节 数据仓库的开发,2. 自底向上方法 自底向上方法是从实验和基于技术的原型入手,选择一个部门或特定商业问题的数据集市开始,全局数据仓库则建立在数据集市的基础上。,22,第三节 数据仓库的开发,三、数据仓库的设计过程 1. 需求分析 了解用户建立数据仓库的商业目标、使用数据仓库的操作环境、数据仓库应具有的功能、特征和开发投资; 2. 概念模型设计 确定各个主题域的内容以及它们之间的关系,建立E-R图;

9、 3. 逻辑模型设计 将概念模型转换为逻辑模型,主要工作有分析主题域、确定粒度划分层次、确定数据分割策略、确定关系模式、定义记录系统;4. 物理模型的设计 确定数据的存储结构、索引策略、数据的存储位置和存储分配;,23,第三节 数据仓库的开发,四、数据仓库生命周期 数据仓库的整个生命周期: 调查需求, 分析环境, 确定体系结构, 数据仓库具体设计, 数据仓库的运行和数据管理,24,第三节 数据仓库的开发,5个过程可分为两大阶段: 数据仓库生成阶段 这一阶段的工作主要是将数据从操作型的数据库系统装载到数据仓库中来,如何正确抽取、综合、转换数据是要考虑的主要问题。 数据仓库的运行和维护阶段,25,

10、第四节 联机分析处理OLAP,一、OLAP的基本概念 联机分析处理: 是一种使分析人员能迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的的软件技术。 是一种基于关系数据库并对数据进行分析的交互式决策方法。,26,第四节 联机分析处理OLAP,OLAP的功能特征: 具有多维数据库 OLAP给出了数据仓库中数据的多维逻辑视图,这种视图通过一种更为直观的分析模型,使得模型设计和分析就像是在层次之间与层次内部的计算一样便利。,27,第四节 联机分析处理OLAP, 交互式的快速响应查询 OLAP采用了细剖较低层的详细数据或统揽较高层的概括性和聚集数据来进行交互式查询,同时为了提高查询和响应

11、速度,它还采用了数据的矩阵存储技术和一系列的数据压缩技术。 动态数据分析 OLAP则是侧重于动态数据的分析,并可以在其内部对数据进行自动转换,使得用户可以在交互过程中获得明确的分析结果 切片功能、钻探功能,28,第四节 联机分析处理OLAP, 多维检索功能 OLAP能检索并显示二维或三维表格、图表和图表中的数据,并能容易地变换为基准轴,从而能综合不同角度分析到的数据,更好地支持决策,29,第四节 联机分析处理OLAP,二、OLAP实例,30,第四节 联机分析处理OLAP,二、OLAP实例,31,第四节 联机分析处理OLAP,三、OLAP和OLTP的区别,32,第五节 数据挖掘技术,一、数据挖掘

12、的基本概念 1. 数据挖掘的定义 数据挖掘就是从大量的、不完全的、有噪声的、模糊和随机的实际应用数据中提取隐含的、目前未知但潜在有用的模式的非平凡过程; 数据挖掘作为知识发现过程的一个特定步骤,它是对大容量数据和数据间关系进行考察和建模的方法集; 它的目标是将大容量数据转化为有用的知识信息,这些信息对预测趋势和决策行为是至关重要的。,33,第五节 数据挖掘技术,2. 数据挖掘的过程 数据挖掘的过程一般由3阶段组成:数据准备、数据挖掘、结果的解释评估。数据挖掘可以描述为这3个阶段的反复.,34,第五节 数据挖掘技术,3. 数据挖掘的分类 根据数据挖掘的任务分:预测模型挖掘、总结规则挖掘、关联规则

13、挖掘、聚类规则挖掘、趋势分析、偏差分析等; 根据数据挖掘的对象分:关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据、异质数据库、遗产(legacy)数据库,以及Web数据源; 根据数据挖掘的方法分:决策树法、人工神经网络方法、统计分析方法、遗传方法和数据库方法。,35,第五节 数据挖掘技术,二、数据挖掘的功能 自动预测趋势和行为 关联分析 聚类 概念描述 偏差检测,36,第五节 数据挖掘技术,三、数据挖掘与OLAP 数据挖掘和OLAP是两种不同基于数据仓库的应用工具,它们的用途不同,基于的技术也大相径庭; OLAP是验证式的工具, OLAP分析过程是一个演绎推理的过程

14、; 数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模型的正确性,而是在数据库中自己寻找模型; 数据挖掘过程是一个归纳的过程。,37,第六节 数据挖掘的方法和工具,一、数据挖掘的方法 数据挖掘的方法大致可分为4类: 机器学习方法: 归纳学习方法、基于范例的推理CBR、遗传算法、贝叶斯信念网络等 统计方法: 回归分析、判别分析、探索性分析、以及模糊集、粗糙集、支持向量机等方法 神经网络方法: 前向神经网络、自组织神经网络 数据库方法: 基于可视化的维数据分析或OLAP方法,38,第六节 数据挖掘的方法和工具,二、数据挖掘的系统 Enterprise Miner( SAS公司) Intelligent Miner( IBM公司) SetMiner( SGI公司) Clementine( SPSS公司) Warehouse Studio( Sybase公司) See5( RuleQuest Research公司)等。,39,第六节 数据挖掘的方法和工具,三、数据挖掘的应用 零售/市场识别顾客的购买模式发现顾客人口统计特征方面的关联预测对邮寄促销活动的反映市场购物分析 银行发现伪信用卡使用模式识别诚信顾客预测可能更换信用卡的顾客确定不同顾客群使用信用卡消费的情况 保险需求分析预测购买新险种的顾客,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号