数据仓库的基本概念1

上传人:F****n 文档编号:96505126 上传时间:2019-08-27 格式:PPT 页数:58 大小:188KB
返回 下载 相关 举报
数据仓库的基本概念1_第1页
第1页 / 共58页
数据仓库的基本概念1_第2页
第2页 / 共58页
数据仓库的基本概念1_第3页
第3页 / 共58页
数据仓库的基本概念1_第4页
第4页 / 共58页
数据仓库的基本概念1_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《数据仓库的基本概念1》由会员分享,可在线阅读,更多相关《数据仓库的基本概念1(58页珍藏版)》请在金锄头文库上搜索。

1、课程安排 数据仓库: 18学时 数据挖掘: 18学时 考 试: 撰写论文,第一章 数据仓库的基本概念,案例讨论:下图展示了某电信公司的市场部和计划部对业务A是否具有市场前景的分析过程和结果。 试讨论为什么两部门分析结果不同。,企业级数据库,市场部,分析程序1,分析结果1: 前景很好,计划部,分析程序2,分析结果2: 前景不好,第一章:数据仓库的基本概念,1-1 数据仓库的产生与发展 传统的数据库技术作为数据管理手段,主要用于联机事务处理(OLTP,On-Line Transaction Process), 数据库中保存的是大量的日常业务数据。 在数据共享、数据与应用程序的独立性、维护数据的一致

2、性与完整性、数据的安全保密性等方面提供了有效的手段。,第一章 数据仓库的基本概念,与分析型应用结合时存在的问题: 决策支持系统为掌握充分的信息,需要访问大量的企业内部数据和外部数据。 传统数据库中的大量数据是事务型数据,即该数据是对每一项工作、管理对象的具体的、细节性的描述。 事务处理型应用与分析决策型应用对数据库系统的性能要求不同。 传统数据库中保存和管理的一般是当前数据,而决策支持系统不仅需要当前的数据,而且还要求有大量的历史数据。,第一章 数据仓库的基本概念,结论: 在事务处理型应用环境中直接构建分析决策型应用是不可行的。 于是: 面向分析决策型应用而组织和存储数据的数据仓库技术应运而生

3、。,第一章 数据仓库的基本概念,时间:20世纪80年代初 人物:W.H.Inmon 定义: 数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合,用以支持经营管理中的决策制定过程。 A data warehouse is a subject-oriented,integrated, time-variant,and nonvolatile collection of data in support of managements decision making process.,第一章 数据仓库的基本概念,数据仓库的四大特征: 数据是面向主题的 数据是集成的 数据是具有时间特征的 数据是

4、相对稳定的 数据仓库的其它特点: 数据量非常大(10GB-1000GB) 是数据库技术的一种新的应用 使用人员较少,第一章 数据仓库的基本概念,1-2 数据仓库与数据库 操作型数据库 分析型数据仓库 系统目的 支持日常操作 支持管理需求,获取信息 使用人员 办事员、DBA、数据库专家 经理、管理人员、分析专家 数据内容 当前数据 历史数据、派生数据 数据特点 细节的 综合的或提炼的 数据组织 面向应用 面向主题 存取类型 添加、修改、查询、删除 查询、聚集 数据稳定性 动态的 相对稳定,第一章 数据仓库的基本概念,续上表:,操作型数据库 分析型数据仓库 需求特点 需求事先可知道 需求事先不知道

5、 操作特点 一个时刻操作一单元 一个时刻操作一集合 数据库设计 基于E-R图 基于星型模式、雪花模式 一次操作数据量 一次操作数据量小 一次操作数据量大 存取频率 较高 较低 响应时间 小于3秒 几秒几十分钟,第一章 数据仓库的基本概念,1-3 数据仓库技术的术语 主题: (Subject) 主题是一个在较高层次上将数据归类的标准,每一个主题基本对应一个宏观的分析领域。 例:面向主题:产品订货分析,货物发运分析, 新产品开发分析; 面向应用:财务,销售,供应,人力资源,生产调度. 主题域的特征:独立性,完备性,第一章 数据仓库的基本概念,粒度:(Granularity) 粒度是指数据仓库中数据

6、单元的详细程度和级别。 数据越详细,粒度越小,级别越低,回答查询的种类就越多。(数据堆积,回答综合问题效率低) 数据越综合,粒度越大,级别越高,回答查询的种类就越少。,第一章 数据仓库的基本概念,维度:(Dimension) 维度是指人们观察事物的角度。 例如:当人们关注产品销售情况时,有如下维度: 时间维:随时间变化的销售数据; 地区维:不同地区的销售数据; 客户维:不同客户的销售; 根据观察事物角度的细节程度不同,维又具有维层次。数据; 渠道维:不同销售渠道的销售数据; 产品维:不同产品的销售数据 例:时间维:日期、周、月份、季度、年等; 地区维:城市、地区、国家等。,第一章 数据仓库的基

7、本概念,数据立方体: 数据立方体是指由两个或更多个属性即两个或更多个维来描述或者分类的数据。 在三维的情况下可以用图形来表示,一般称为数据立方体。 实际的数据仓库的应用中,数据是多维的。,第一章 数据仓库的基本概念,联机分析处理: (OLAP) 联机分析处理是快速、灵活的多维数据分析工具。 OLAP的目的是支持分析决策,满足多维环境的查询和报表需求。 数据仓库的多维数据存储结构为OLAP的实施提供了理想的多维数据环境。,第一章 数据仓库的基本概念,数据集市: (Data Mart) 数据集市是完整的数据仓库的一个逻辑子集,而数据仓库正是由其所有的数据集市有机组合而成的。 一般在某个业务部门建立

8、数据集市,或称为部门级数据仓库。 建立数据集市与数据仓库,一般是采用“自顶向下”和“自下而上”相结合的设计思想。,第一章 数据仓库的基本概念,第一章 数据仓库的基本概念,讨论题: 1、结合陕西科技大学大学学生学籍管理系统进行数据仓库的主题划分,列举有哪些主题。,1-4 多维数据模型 多维数据模型是进行决策支持数据建模的最好方式,数据仓库采用多维数据模型不仅能使其使用方便,而且能提高系统的性能。 1-4-1 实体关系模型与多维模型 实体关系模型应用于操作型数据库系统,多维模型应用于分析型数据仓库系统。 实体关系模型不适用于以查询为主的分析型应用,具体表现在:使用者、界面、检索手段。,第一章 数据

9、仓库的基本概念,多维数据模型以直观的方式组织数据,每一个多维数据模型由多个多维数据模式(Dimensional Data Schema)表示。 每一个多维数据模式都是由一个事实表(Fact Table)和一组维表(Dimension Table)组成。 事实表的主码是组合码,维表的主码是简单码,每一张维表中的简单码与事实表组合码中的一个组成部分相对应。,第一章 数据仓库的基本概念,企业销售数据的多维数据模式图,第一章 数据仓库的基本概念,时间码,日期 月份 季度 年度,时间码 产品码 地区码,销 售 量 销 售 额 销售成本,产品码,产品大类 产品细类 产品名称,地区码,国 家 地 区 城 市

10、,时间维表,事 实 表,产品维表,地区维表,多维数据模型的优势: 多维数据模型是已知标准化的结构,即包含多个多维数据模式,每一个多维数据模式都对应一张事实表和多张维表。 这种多维结构能支持最终用户不可预知的操作,原因在于多维数据模型的各个维是逻辑等价的。 多维数据模型对决策分析有好的扩展性。 汇总数据的巨大价值。,第一章 数据仓库的基本概念,1-4-2 星型模式 星型模式是事实表与维表通过星型方式连接而成,如下图:,第一章 数据仓库的基本概念,产品码(PK),产品大类 产品细类 产品名称,地区码(PK),国 家 地 区 城 市,产品维表,地区维表,时间码(FK) 产品码(FK)(PK) 地区码

11、(FK),销 售 量 销 售 额 销售成本,事 实 表,时间码(PK),日期 月份 季度 年度,时间维表,第一章 数据仓库的基本概念,星型模式的优点: 星型模式结构简单,表的数目少,建模方便。 星型模式支持多维数据建模,支持使用人员从不同的维度对数据进行分析。 星型模式能较好地为数据仓库提供查询支持。 星型模式可以提高查询速度。,第一章 数据仓库的基本概念,主码、外码和代理码: 主码(Primary Key):主码是表中的一个属性或属性的组合,它能唯一地标识表中的每条记录。 外码(Foreign Key):外码是出现在一个表中,同时在另一个表中被定义成主码的属性。 代理码(Surrogate

12、Key):所有的主码和外码一般都是采用没有具体含义的代理码,例如,从1开始的自然数编码。,第一章 数据仓库的基本概念,事实表: 事实表是星型模式的核心,它是按维进行分析形查询的对象,其中存储的是业务事实,例如:销售量、销售额、销售成本等。 事实表中的数据一般是数值型,具有可加性。 事实表的主码为外码的组合,唯一的标识各条事实记录,事实表的外码对应各维表的主码。,第一章 数据仓库的基本概念,维表: 维表用于指导从不同的角度在事实表中选择数据行。 维表中有一个主码,其余非主码的列为属性,维表中的属性数据通常是字符型数据。 维表具有层次性,维表的层次性可用来分割其他的明细维表,维表层次的级别数量取决

13、于查询的粒度。,第一章 数据仓库的基本概念,1-4-3 数据仓库的总线型结构 著名的数据仓库专家Ralph Kinball认为,数据仓库的建设应该是一步步完成的,以部门级数据集市的建设为出发点,但必须统观全局,使数据集市成为完整的企业级数据仓库的一个逻辑子集。 这种建设思想的实现是以一种特定的结构为指导的,称为数据仓库的总线型结构(Data Warehouse Bus Architecture)。,第一章 数据仓库的基本概念,统一的维: 统一的维是指:一个维,无论其维表与哪一个事实表相连接,维的含义是完全相同的。 建立、公布、维护和完善统一的维是全局数据仓库项目小组一项非常重要的工作。 公布了

14、统一维之后,各数据集市必须严格执行。,第一章 数据仓库的基本概念,统一的事实: 统一的事实的定义工作与统一的维的定义工作同时进行,由数据仓库项目:小组负责,工作量相对较少,但要注意以下几点; 统一的计算口径 统一的计量单位 统一的含义 事实表中要包含最详细的事实数据,即粒度最小 的数据,第一章 数据仓库的基本概念,讨论题: 1、根据学籍管理系统数据仓库的建设,确定事实表与维表,列举各个维,并划分维层次。,1-5 数据仓库的体系结构 1-5-1 体系结构的内容 总体框架 Zachman框架: 回答问题 数据体系结构-数据仓库的内容是什么? 系统体系结构-存放在什么平台上? 技术体系结构-如何实现

15、?,第一章 数据仓库的基本概念,前端工具,数 据 预 处理工具,技术体系结构图如下:,第一章 数据仓库的基本概念,预 处 理 数 据,数 据 源,数据集市,数据集市,数据集市,总 线,查询 服务 数据,元数据,OLAP,数据挖掘,其他工具,报表生成器,抽取、转换、装载,可视化 分 析 结 果,后台,前台,第一章 数据仓库的基本概念,1-5-2 相关的数据存储 数据源: 数据源是数据仓库的原始来源,是数据仓库系统开发与应用的数据基础,分为两部分; 企业内部数据源 企业外部数据源,第一章 数据仓库的基本概念,主题数据: 主题数据是数据仓库的核心数据,一般以多维数据模型的形式存储在数据仓库中,直接面

16、向分析型用户的访问。 主题数据的存储称为实视图,它与数据库的视图概念不同之处在于:它不是虚拟的,而是已经过计算,含有大量数据,并存储在数据仓库中的实实在在的表。,第一章 数据仓库的基本概念,实视图的好处: 通过建立实视图可以提高系统的响应速度; 由于数据源到主题数据映射关系的复杂性,采用普通视图的方式不可行。 实视图的特点: 时间是数据仓库中几乎所有数据的属性之一; 数据在装于数据仓库后,基本不发生变化; 实视图不是数据源中数据的简单拷贝,而是经历了数据预处理过程; 主题数据分为最小粒度数据和聚集数据。,第一章 数据仓库的基本概念,预处理数据: 从数据源向主题数据的变换,就如同穿越冰山的过程,工

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号