数据仓库的概念与体系结构

上传人:宝路 文档编号:47975388 上传时间:2018-07-07 格式:PPT 页数:42 大小:2.16MB
返回 下载 相关 举报
数据仓库的概念与体系结构_第1页
第1页 / 共42页
数据仓库的概念与体系结构_第2页
第2页 / 共42页
数据仓库的概念与体系结构_第3页
第3页 / 共42页
数据仓库的概念与体系结构_第4页
第4页 / 共42页
数据仓库的概念与体系结构_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《数据仓库的概念与体系结构》由会员分享,可在线阅读,更多相关《数据仓库的概念与体系结构(42页珍藏版)》请在金锄头文库上搜索。

1、*数据仓库与数据挖掘1第1章 数据仓库的 概念与体系结构 主讲:张莉 Email:历史数据的处理方法l删除已经失效的历史数据l介质备份后删除l建立数据仓库系统*数据仓库与数据挖掘2*数据仓库与数据挖掘31.1 数据仓库的概念、特点与组成l数据仓库的概念l数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相 对稳定的(Non-Volatile)、反映历史变 化(Time Variant)的数据集合,通常用 于辅助决策支持(DDS) *数据仓库与数据挖掘41.1 数据仓库的概念、特点与组成l数据仓库的特点:l面向主题l数据仓库中的数据是按照一定的主题域进

2、 行组织的l集成l数据仓库中的数据是在对原有分散的数据 库数据作抽取、清理的基础上经过系统加 工、汇总和整理得到的*数据仓库与数据挖掘51.1 数据仓库的概念、特点与组成l数据仓库的特点:l相对稳定l数据操作主要是数据查询和定期更新l数据加载后,将作为数据档案长期保存l反映历史变化l数据仓库中的数据通常包含较久远的历史 数据*数据仓库与数据挖掘61.1 数据仓库的概念、特点与组成l数据仓库的组成:l数据仓库数据库;l数据抽取工具;l元数据:技术元数据与业务元数据;l访问工具;l数据集市(Data Marts);l数据仓库管理;l信息发布系统。*数据仓库与数据挖掘7数据仓库的组成l数据仓库数据库

3、l核心l是数据信息存放的地方l对数据提供存取和检索支持l数据抽取工具l提取数据,进行转换、整理,再存放l转换的内容:l删除对决策分析没有意义的数据l转换到统一的数据名称和定义l计算统计和衍生数据l填补缺失数据l统计不同的数据定义方式*数据仓库与数据挖掘8数据仓库的组成l元数据l描述数据仓库数据的结构和建立方法的数 据l技术元数据l设计和管理人员用于开发和管理数据仓库时使 用的元数据l业务元数据l从单位业务的角度描述数据仓库的元数据*数据仓库与数据挖掘9数据仓库的组成l访问工具l为用户访问数据仓库提供的手段l数据集市(Data Marts)l为特定的应用目的,从数据仓库中独立出 来的一部分数据,

4、也称为部门数据或者主 题数据*数据仓库与数据挖掘10数据仓库的组成l数据仓库管理l安全与权限的管理l数据更新的跟踪l数据质量的检查l元数据的管理与更新ll信息发布系统l把数据仓库中的数据或其他相关数据发给 不同的地点或用户*数据仓库与数据挖掘111.2 数据挖掘的概念与方法l数据挖掘的概念l数据挖掘(Data Mining),就是从大量数 据中获取有效的、新颖的、潜在有用的、 最终可理解的模式的非平凡过程。l简单的说,数据挖掘就是从大量数据中提 取或“挖掘”知识,又被称为数据库中的知 识发现(Knowledge Discovery in Database, KDD) *数据仓库与数据挖掘121

5、.2 数据挖掘的概念与方法l数据挖掘的方法:l直接数据挖掘l对某个变量建立一个模型l包括分类、估值和预测l间接数据挖掘l在所有的变量中建立起某种关系l如相关性分组或关联规则,聚集聚类, 描述和可视化,及复杂数据挖掘*数据仓库与数据挖掘131.2 数据挖掘的概念与方法l数据仓库与数据挖掘的关系l若将数据仓库(Data Warehouse)比 作矿井,那么数据挖掘(Data Mining) 就是深入矿井采矿的工作 l数据挖掘是从数据仓库中找出有用信息 的一种过程与技术 *数据仓库与数据挖掘141.3 数据仓库的技术、方法与产品l联机事务处理(OLTP)与联机分析 处理(OLAP)的比较*数据仓库与

6、数据挖掘151.3 数据仓库的技术、方法与产品l OLAP技术的有关概念 l多维数据集:一个数据集合l维度:一个实体的一些重要属性定义为维 dimensionl度量值:度量指标,是多维数据集中的一组数 值l多维分析:对以“维”形式组织起来的数据采取 切片,切块,钻取和旋转等各种分析动作,以 求分析数据*数据仓库与数据挖掘161.3 数据仓库的技术、方法与产品lOLAP根据其存储数据的方式可分为三类 :lROLAP, relational OLAPl事实表、维表lMOLAP, multidimensional OLAPlHOLAP, hybrid OLAPlOLAP工具 l针对特定问题的联机数据

7、访问与分析,通过多 维的方式对数据进行分析、查询和报表*数据仓库与数据挖掘171.3 数据仓库的技术、方法与产品l数据仓库实施中的三个关键环节l数据抽取;l数据存储与管理l数据表现 *数据仓库与数据挖掘18数据仓库实施中的三个关键环节l数据抽取l数据进入数据仓库的入口l抽取技术包括:互连、复制、增量、 转换、调度和监控l实现抽取l专业的数据抽取工具l直接开发抽取接口程序*数据仓库与数据挖掘19数据仓库实施中的三个关键环节l数据存储与管理l数据仓库面对的是大量数据的存储和 管理l并行处理l针对决策支持查询的优化l支持多维分析的查询模式*数据仓库与数据挖掘20数据仓库实施中的三个关键环节l数据表现

8、l数据仓库的展示界面l数据表现的工具l多维分析l统计分析l数据挖掘*数据仓库与数据挖掘211.3 数据仓库的技术、方法与产品l数据仓库实施方法论l数据仓库不是简单的数据或产品堆砌, 它是一个综合集成解决方案和系统工程 。在数据仓库的实施过程中,技术决策 至关重要,技术选择或决策错误很可能 导致项目实施失败 *数据仓库与数据挖掘221.3 数据仓库的技术、方法与产品l常用数据仓库产品比较l常用OLAP工具介绍 ;l各数据仓库厂商提供的解决方案 IBM、Oracle、NCR、Microsoft、SAS等*数据仓库与数据挖掘23*数据仓库与数据挖掘241.4 数据仓库系统的体系结构l典型的数据仓库系

9、统l数据源l数据存储和管理lOLAP服务器l前端工具和应用*数据仓库与数据挖掘251.4 数据仓库系统的体系结构l数据仓库系统的体系结构的分类l两层架构(Generic Two-Level Architecture )l独立型数据集市(Independent Data Mart)l依赖型数据集市和操作型数据存储( Dependent Data Mart and Operational Data Store)l逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data Warehouse )*数据仓库与数据挖掘261.4 数据仓库系统的体系结构l两层数

10、据仓库体系结构 两层数据仓库体系结构 l构造步骤l数据是从各种内外部的源系统文件或数据库中抽取得到 的l不同源系统中的数据在加载到数据仓库之前需要被转换 和集成l建立为决策支持服务的数据库l用户通过SQL查询语言或分析工具访问数据仓库,结果 又会反馈到数据仓库和操作型数据库中*数据仓库与数据挖掘27*数据仓库与数据挖掘281.4 数据仓库系统的体系结构l基于独立数据集市的数据仓库体系结 构 基于独立数据集市的数据仓库体系结构 l独立型数据集市架构的局限性包括:l高代价的冗余数据和重复处理工作l 数据集市可能是不一致的l 没有能力下钻到更小的细节或其他数据集市有关的事 实或者共享的数据信息库l

11、规模扩大的成本高*数据仓库与数据挖掘29*数据仓库与数据挖掘301.4 数据仓库系统的体系结构l基于依赖型数据集市和操作型数据存储(ODS)的数 据仓库体系结构 *数据仓库与数据挖掘311.4 数据仓库系统的体系结构l逻辑型数据集市和实时数据仓库的体系结构 逻辑型数据集市和实时数据仓库的体系结构 l特征l逻辑数据集市并不是物理上分离的数据库l数据被放到数据仓库而不是分离的分段传 输区域中l新的数据集市可以非常快速地创建l数据集市总是最新的*数据仓库与数据挖掘32*数据仓库与数据挖掘331.5 数据仓库的产生、发展与未来l数据仓库的产生l数据库l关系数据库l联机事务处理l联机分析处理*数据仓库与

12、数据挖掘34数据仓库的产生l数据仓库的产生l联机事务处理系统(业务系统)刚上线时,查询不到数 据是因为数据太少了,而几十年后查询不到有关数据是 因为数据太多了l专门为业务数据的统计分析建立一个数据中心,它的数 据从联机事务处理系统中来、从异构的外部数据源来、 或从脱机的历史业务数据中来,这个数据中心也是一个 联机系统,它专门为分析统计和决策支持应用服务,通 过它可获取决策支持和联机分析应用所需要的一切数据 。这个数据中心就叫做数据仓库l数据仓库就是一个作为决策支持和联机分析应用系统数 据源的结构化数据环境,数据仓库要研究和解决的问题 就是从数据库中获取信息的问题 数据仓库的产生l数据仓库与数据

13、库的关系l关系数据库系统是数据仓库的核心数据环 境l关系数据库是针对联机事务处理l数据仓库是针对联机分析处理*数据仓库与数据挖掘35*数据仓库与数据挖掘361.5 数据仓库的产生、发展与未来l数据仓库的发展l以报表为主l以分析为主 l以预测模型为主 l以营运导向为主 l以实时数据仓库、自动决策应用为主 *数据仓库与数据挖掘371.5 数据仓库的产生、发展与未来l数据仓库的未来l数据抽取方面l未来的技术发展将集中在系统集成化方面l将互连、转换、复制、调度、监控纳入标准化的统一 管理l以适应数据仓库本身或数据源可能的变化l使系统更便于管理和维护*数据仓库与数据挖掘381.5 数据仓库的产生、发展与未来l数据仓库的未来l数据管理方面l未来的发展将使数据库厂商明确推出数据仓库 引擎,作为数据仓库服务器产品与数据库服务 器并驾齐驱l数据表现方面l数理统计的算法和功能将普遍集成到联机分析 产品中,并与Internet/Web技术紧密结合1.6 小结l数据仓库的概念、特点、构成、分类l数据挖掘l数据处理*数据仓库与数据挖掘39作业l习题1至习题12*数据仓库与数据挖掘40ROLAP*数据仓库与数据挖掘41MOLAP*数据仓库与数据挖掘42

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号