[精选]第1章数据仓库的概念与体系结构

上传人:我**** 文档编号:185298867 上传时间:2021-07-06 格式:PPTX 页数:44 大小:1.94MB
返回 下载 相关 举报
[精选]第1章数据仓库的概念与体系结构_第1页
第1页 / 共44页
[精选]第1章数据仓库的概念与体系结构_第2页
第2页 / 共44页
[精选]第1章数据仓库的概念与体系结构_第3页
第3页 / 共44页
[精选]第1章数据仓库的概念与体系结构_第4页
第4页 / 共44页
[精选]第1章数据仓库的概念与体系结构_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《[精选]第1章数据仓库的概念与体系结构》由会员分享,可在线阅读,更多相关《[精选]第1章数据仓库的概念与体系结构(44页珍藏版)》请在金锄头文库上搜索。

1、2021/7/6,数据仓库与数据挖掘,1,第1章 数据仓库的概念与体系结构,主讲:张莉 Email:,历史数据的处理方法,删除已经失效的历史数据 介质备份后删除 建立数据仓库系统,2021/7/6,数据仓库与数据挖掘,2,2021/7/6,数据仓库与数据挖掘,3,1.1 数据仓库的概念、特点与组成,数据仓库的概念 数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持(DDS),2021/7/6,数据仓库与数据挖掘,4,1.1 数据仓库的概念、

2、特点与组成,数据仓库的特点: 面向主题 数据仓库中的数据是按照一定的主题域进行组织的 集成 数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,2021/7/6,数据仓库与数据挖掘,5,1.1 数据仓库的概念、特点与组成,数据仓库的特点: 相对稳定 数据操作主要是数据查询和定期更新 数据加载后,将作为数据档案长期保存 反映历史变化 数据仓库中的数据通常包含较久远的历史数据,2021/7/6,数据仓库与数据挖掘,6,1.1 数据仓库的概念、特点与组成,数据仓库的组成: 数据仓库数据库; 数据抽取工具; 元数据:技术元数据与业务元数据; 访问工具; 数据集

3、市(Data Marts); 数据仓库管理; 信息发布系统。,2021/7/6,数据仓库与数据挖掘,7,数据仓库的组成,数据仓库数据库 核心 是数据信息存放的地方 对数据提供存取和检索支持 数据抽取工具 提取数据,进行转换、整理,再存放 转换的内容: 删除对决策分析没有意义的数据 转换到统一的数据名称和定义 计算统计和衍生数据 填补缺失数据 统计不同的数据定义方式,2021/7/6,数据仓库与数据挖掘,8,数据仓库的组成,元数据 描述数据仓库数据的结构和建立方法的数据 技术元数据 设计和管理人员用于开发和管理数据仓库时使用的元数据 业务元数据 从单位业务的角度描述数据仓库的元数据,2021/7

4、/6,数据仓库与数据挖掘,9,数据仓库的组成,访问工具 为用户访问数据仓库提供的手段 数据集市(Data Marts) 为特定的应用目的,从数据仓库中独立出来的一部分数据,也称为部门数据或者主题数据,2021/7/6,数据仓库与数据挖掘,10,数据仓库的组成,数据仓库管理 安全与权限的管理 数据更新的跟踪 数据质量的检查 元数据的管理与更新 信息发布系统 把数据仓库中的数据或其他相关数据发给不同的地点或用户,2021/7/6,数据仓库与数据挖掘,11,1.2 数据挖掘的概念与方法,数据挖掘的概念 数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模

5、式的非平凡过程。 简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识,又被称为数据库中的知识发现(Knowledge Discovery in Database, KDD),2021/7/6,数据仓库与数据挖掘,12,1.2 数据挖掘的概念与方法,数据挖掘的方法: 直接数据挖掘 对某个变量建立一个模型 包括分类、估值和预测 间接数据挖掘 在所有的变量中建立起某种关系 如相关性分组或关联规则,聚集聚类,描述和可视化,及复杂数据挖掘,2021/7/6,数据仓库与数据挖掘,13,1.2 数据挖掘的概念与方法,数据仓库与数据挖掘的关系 若将数据仓库(Data Warehouse)比作矿井,那么数据挖

6、掘(Data Mining)就是深入矿井采矿的工作 数据挖掘是从数据仓库中找出有用信息的一种过程与技术,2021/7/6,数据仓库与数据挖掘,14,1.3 数据仓库的技术、方法与产品,联机事务处理(OLTP)与联机分析处理(OLAP)的比较,2021/7/6,数据仓库与数据挖掘,15,1.3 数据仓库的技术、方法与产品,OLAP技术的有关概念 多维数据集:一个数据集合 维度:一个实体的一些重要属性定义为维dimension 度量值:度量指标,是多维数据集中的一组数值 多维分析:对以“维”形式组织起来的数据采取切片,切块,钻取和旋转等各种分析动作,以求分析数据,2021/7/6,数据仓库与数据挖

7、掘,16,1.3 数据仓库的技术、方法与产品,OLAP根据其存储数据的方式可分为三类: ROLAP, relational OLAP 事实表、维表 MOLAP, multidimensional OLAP HOLAP, hybrid OLAP OLAP工具 针对特定问题的联机数据访问与分析,通过多维的方式对数据进行分析、查询和报表,2021/7/6,数据仓库与数据挖掘,17,1.3 数据仓库的技术、方法与产品,数据仓库实施中的三个关键环节 数据抽取; 数据存储与管理 数据表现,2021/7/6,数据仓库与数据挖掘,18,数据仓库实施中的三个关键环节,数据抽取 数据进入数据仓库的入口 抽取技术包

8、括:互连、复制、增量、转换、调度和监控 实现抽取 专业的数据抽取工具 直接开发抽取接口程序,2021/7/6,数据仓库与数据挖掘,19,数据仓库实施中的三个关键环节,数据存储与管理 数据仓库面对的是大量数据的存储和管理 并行处理 针对决策支持查询的优化 支持多维分析的查询模式,2021/7/6,数据仓库与数据挖掘,20,数据仓库实施中的三个关键环节,数据表现 数据仓库的展示界面 数据表现的工具 多维分析 统计分析 数据挖掘,2021/7/6,数据仓库与数据挖掘,21,1.3 数据仓库的技术、方法与产品,数据仓库实施方法论 数据仓库不是简单的数据或产品堆砌,它是一个综合集成解决方案和系统工程。在

9、数据仓库的实施过程中,技术决策至关重要,技术选择或决策错误很可能导致项目实施失败,2021/7/6,数据仓库与数据挖掘,22,1.3 数据仓库的技术、方法与产品,常用数据仓库产品比较 常用OLAP工具介绍 ; 各数据仓库厂商提供的解决方案 IBM、Oracle、NCR、Microsoft、SAS等,2021/7/6,数据仓库与数据挖掘,23,2021/7/6,数据仓库与数据挖掘,24,1.4 数据仓库系统的体系结构,典型的数据仓库系统 数据源 数据存储和管理 OLAP服务器 前端工具和应用,2021/7/6,数据仓库与数据挖掘,25,1.4 数据仓库系统的体系结构,数据仓库系统的体系结构的分类

10、 两层架构(Generic Two-Level Architecture) 独立型数据集市(Independent Data Mart) 依赖型数据集市和操作型数据存储(Dependent Data Mart and Operational Data Store) 逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data Warehouse),2021/7/6,数据仓库与数据挖掘,26,1.4 数据仓库系统的体系结构,两层数据仓库体系结构,两层数据仓库体系结构,构造步骤 数据是从各种内外部的源系统文件或数据库中抽取得到的 不同源系统中的数据在加载到

11、数据仓库之前需要被转换和集成 建立为决策支持服务的数据库 用户通过SQL查询语言或分析工具访问数据仓库,结果又会反馈到数据仓库和操作型数据库中,2021/7/6,数据仓库与数据挖掘,27,2021/7/6,数据仓库与数据挖掘,28,1.4 数据仓库系统的体系结构,基于独立数据集市的数据仓库体系结构,基于独立数据集市的数据仓库体系结构,独立型数据集市架构的局限性包括: 高代价的冗余数据和重复处理工作 数据集市可能是不一致的 没有能力下钻到更小的细节或其他数据集市有关的事 实或者共享的数据信息库 规模扩大的成本高,2021/7/6,数据仓库与数据挖掘,29,2021/7/6,数据仓库与数据挖掘,3

12、0,1.4 数据仓库系统的体系结构,基于依赖型数据集市和操作型数据存储(ODS)的数据仓库体系结构,2021/7/6,数据仓库与数据挖掘,31,1.4 数据仓库系统的体系结构,逻辑型数据集市和实时数据仓库的体系结构,逻辑型数据集市和实时数据仓库的体系结构,特征 逻辑数据集市并不是物理上分离的数据库 数据被放到数据仓库而不是分离的分段传输区域中 新的数据集市可以非常快速地创建 数据集市总是最新的,2021/7/6,数据仓库与数据挖掘,32,2021/7/6,数据仓库与数据挖掘,33,1.5 数据仓库的产生、发展与未来,数据仓库的产生 数据库 关系数据库 联机事务处理 联机分析处理,2021/7/

13、6,数据仓库与数据挖掘,34,数据仓库的产生,数据仓库的产生 联机事务处理系统(业务系统)刚上线时,查询不到数据是因为数据太少了,而几十年后查询不到有关数据是因为数据太多了 专门为业务数据的统计分析建立一个数据中心,它的数据从联机事务处理系统中来、从异构的外部数据源来、或从脱机的历史业务数据中来,这个数据中心也是一个联机系统,它专门为分析统计和决策支持应用服务,通过它可获取决策支持和联机分析应用所需要的一切数据。这个数据中心就叫做数据仓库 数据仓库就是一个作为决策支持和联机分析应用系统数据源的结构化数据环境,数据仓库要研究和解决的问题就是从数据库中获取信息的问题,数据仓库的产生,数据仓库与数据

14、库的关系 关系数据库系统是数据仓库的核心数据环境 关系数据库是针对联机事务处理 数据仓库是针对联机分析处理,2021/7/6,数据仓库与数据挖掘,35,2021/7/6,数据仓库与数据挖掘,36,1.5 数据仓库的产生、发展与未来,数据仓库的发展 以报表为主 以分析为主 以预测模型为主 以营运导向为主 以实时数据仓库、自动决策应用为主,2021/7/6,数据仓库与数据挖掘,37,1.5 数据仓库的产生、发展与未来,数据仓库的未来 数据抽取方面 未来的技术发展将集中在系统集成化方面 将互连、转换、复制、调度、监控纳入标准化的统一管理 以适应数据仓库本身或数据源可能的变化 使系统更便于管理和维护,

15、2021/7/6,数据仓库与数据挖掘,38,1.5 数据仓库的产生、发展与未来,数据仓库的未来 数据管理方面 未来的发展将使数据库厂商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱 数据表现方面 数理统计的算法和功能将普遍集成到联机分析产品中,并与Internet/Web技术紧密结合,1.6 小结,数据仓库的概念、特点、构成、分类 数据挖掘 数据处理,2021/7/6,数据仓库与数据挖掘,39,作业,习题1至习题12,2021/7/6,数据仓库与数据挖掘,40,ROLAP,2021/7/6,数据仓库与数据挖掘,41,MOLAP,2021/7/6,数据仓库与数据挖掘,42,演讲完毕,谢谢观看!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号