数据仓库的概念与结构课件

上传人:汽*** 文档编号:590405336 上传时间:2024-09-14 格式:PPT 页数:42 大小:631.50KB
返回 下载 相关 举报
数据仓库的概念与结构课件_第1页
第1页 / 共42页
数据仓库的概念与结构课件_第2页
第2页 / 共42页
数据仓库的概念与结构课件_第3页
第3页 / 共42页
数据仓库的概念与结构课件_第4页
第4页 / 共42页
数据仓库的概念与结构课件_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《数据仓库的概念与结构课件》由会员分享,可在线阅读,更多相关《数据仓库的概念与结构课件(42页珍藏版)》请在金锄头文库上搜索。

1、第2章数据仓库的概念与结构 教学目标掌握数据仓库的概念掌握数据仓库系统的构成掌握数据仓库的内部结构。2学习交流PPT教学要求知识要点知识要点能力要求能力要求相关知识点相关知识点数据仓库的概念(1)理解数据仓库、数据集市的定义(2)掌握数据仓库的特点(1)数据仓库的定义数据仓库的结构(1)熟悉数据仓库系统的结构(2)理解数据仓库中的数据组织方式(1)数据仓库系统的体系结构(2)数据粒度、元数据、数据分割3学习交流PPT引例:AllElectronics的数据仓库构造和使用的典型框架。 4学习交流PPT本章内容2.1 数据仓库的概念 2.2 数据仓库系统的构成2.3 数据仓库中的数据组织5学习交流

2、PPT2.1 数据仓库的概念W. H. Inmon对数据仓库的定义:数据仓库就是面向主题的、集成的、不可更改的、随时间不断变化的数据集合,用于支持经营管理中的决策制定过程。 6学习交流PPT数据仓库的特征 1数据仓库中的数据是面向主题的 2. 数据仓库中的数据是集成的3数据仓库的数据是不可更改的4数据仓库中的数据是随时间不断变化的7学习交流PPT特征1: 数据仓库中的数据是面向主题的主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它对应企业中某一宏观分析领域所涉及的分析对象。 数据仓库中数据的按主题组织(数据库中的数据怎么组织?) 例如:

3、一个保险公司的数据仓库所组织的主题可能为:客户、政策、保险金、索赔等, 而按应用来组织则可能为:汽车保险、生命保险、伤亡保险等。 8学习交流PPT主题的划分需要遵守的原则(1) 在划分主题时,必须保证每个主题的独立性,也就是说,每一个主题要具有独立的内涵,明确的界限。(2) 在划分主题时,需要保证对主题进行分析时所需的数据都可以在此主题内找到,保证主题的完备性。(3) 确定主题以后,需要确定主题应该包含的数据,此时应该注意不能将围绕主题的数据与业务处理系统的数据相混淆。9学习交流PPT思考商场经营和决策分析中有哪些应用和那些主题? 10学习交流PPT特征2: 数据仓库中的数据是集成的 集成性是

4、指数据仓库中数据必须是一致的。数据仓库的数据是从原有的分散的多个数据库、数据文件和数据段中抽取来的,数据来源可能既有内部数据又有外部数据。 数据集成的内容统一不同来源数据的表示综合和计算 11学习交流PPT特征3: 数据仓库的数据是不可更改的 从事务处理系统中提取的数据和从外部数据源中提取的数据,在数据仓库中被转换、综合并存储。数据仓库中的数据可以简单地理解为按主题组织的企业历史数据,是对企业运行历史的记载。因此,数据仓库中的已有数据不可以修改,只供查询和分析。这种不可更新性可以支持不同用户在不同的时间查询相同的问题时获得相同的结果。因为对数据仓库中的数据只能进行查询和追加等操作,不可进行修改

5、操作,因此数据仓库的存储管理相对于DBMS来说要简单得多。12学习交流PPT特征4: 数据仓库中的数据是随时间不断变化的 数据仓库中数据随时间变化 数据仓库的数据追加 (1) 时标方法。(2) DELTA文件。(3) 前后映像文件的方法。(4) 日志文件。 13学习交流PPT数据集市 数据仓库中侧重于某特定部门或特定业务的数据子集数据集市可以分成两种,一种是独立数据集市,另一种是从属数据集市。14学习交流PPT创建数据仓库与数据集市的模式 1. 自顶向下:这种模式首先把OLTP数据通过ETL汇集到数据仓库中,然后再把数据通过复制的方式推进各个数据集市中,其优点在于:(1) 数据来源固定,可以确

6、保数据的完整性。(2) 数据格式与单位一致,可以确保跨越不同数据集市进行分析的正确性。(3) 数据集市可以保证有共享的字段。因为都是从数据仓库中分离出来的。15学习交流PPT创建数据仓库与数据集市的模式2. 自底向上:这种模式首先将OLTP数据通过ETL汇集到数据集市中,然后通过复制的方式提升到数据仓库中,其优点在于:(1) 由于首先构建数据集市的工作相对简单,所以容易成功。(2) 这种模式也是实现快速数据传送的原型。16学习交流PPT2.2 数据仓库系统数据仓库系统:对进入数据仓库的原始数据完成抽取、转换、过滤、清洗等处理,最终进入数据仓库,以及对数据仓库中存储的数据进行更新、管理、使用、表

7、现等的相关软件/工具进行集合,用以支持数据仓库应用或管理决策。17学习交流PPT数据仓库系统的构成数据仓库系统通常被分为管理层(ETL管理工具)、存储层(数据仓库和数据集市)和分析工具层(OLAP、数据挖掘等)三个部分。18学习交流PPT数据源 常见的数据源有:(1) 流行的关系数据库系统:Oracle、Sybase、SQL Server、DB2等。(2) 面向对象数据库系统:Objectstore等。(3) 传统的桌面数据库系统:foxbase、foxpro等。(4) 文件系统中的数据文件:UNIX、WINDOWS等。(5) 其他数据源:word、excel等。数据源可以是递归的。数据仓库的

8、数据源可以是另外一个数据仓库(或数据集市)或OLAP服务器。19学习交流PPT数据仓库管理层 数据仓库管理层的功能就是完成数据仓库的定义,数据抽取、转换、装载,数据归档、备份、维护、恢复及元数据管理等。数据仓库的管理部分由数据仓库定义部件、数据获取部件、数据管理部件和元数据管理部件四部分组成。20学习交流PPT数据仓库管理层数据仓库定义部件用于定义和建立数据仓库,包括:(1) 设计和定义数据仓库的数据库。(2) 定义数据源。(3) 确定数据源向数据仓库复制数据的转换、清理规则。21学习交流PPT数据仓库管理层数据获取部件主要功能包括:(1) 装载数据仓库。依据数据定义部件定义的规则从数据源中将

9、数据抽取到数据仓库中,完成清洗、变换和集成工作,将数据装填到数据仓库中。(2) 定期清理数据仓库。清除数据仓库与数据源数据库的不一致,清除失效数据。一般用通用工具或特制的工具完成数据获取工作。数据管理部件对数据仓库中数据的维护、安全、备份、恢复、日志等管理工作。这些工作要借助DBMS的功能实现。22学习交流PPT数据仓库管理层数据仓库的元数据是数据仓库中所有管理、操作的信息目录,包含了对数据模型、数据结构、转换规则、数据仓库结构和控制信息的描述。有了元数据,才可以最有效的利用数据仓库。数据仓库的元数据包括技术元数据和业务目录两部分。技术元数据由关于数据源、目标、转换规则及数据源与数据仓库之间的

10、映射组成。业务目录由数据仓库管理员生成,由数据来源、当前值、预定义的查询等方面组成,是针对具体应用数据的源数据管理。23学习交流PPT数据仓库工具集 数据仓库工具集主要由一些分析工具组成,主要包括检索查询工具,多维数据的OLAP分析工具、统计分析及数据挖掘工具等。数据仓库应用是一个典型的C/S结构,其客户端的工作主要包括客户交互、格式化查询、可视化以及数据报表生成等;服务器端完成多种辅助的查询、复杂的计算和各类综合功能等。一般有OLAP服务器和DM服务器两种。24学习交流PPT数据仓库中的数据组织 25学习交流PPT数据综合级别早期细节数据早期细节数据存储过去的详细数据,反映真实的历史情况,这

11、类数据随着时间增加,数据量很大,使用频率低,一般存储在转换介质(如磁带)中。当前细节数据当前细节数据存储最近时期的业务数据,反映当前业务的情况,数据量大,是数据仓库用户最感兴趣的部分。随着时间的推移,当前细节数据由数据仓库的时间控制机制转为早期细节数据。轻度综合数据轻度综合数据从当前基本数据中提取出来,通常以较小的时间段(粒度)统计而成的数据,其数据量较细节及数据少得多。高度综合高度综合级的数据十分精炼,是一种准决策数据。26学习交流PPT数据粒度的概念 粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度

12、。粒度可以分为两种形式:按时问段综合数据的粒度按采样率高低划分的样本数据库。 27学习交流PPT按时间段综合数据的粒度按照不同的时间段来综合数据。粒度既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。例如:电讯公司数据仓库中,保存一个顾客一个月内每个电话的细节高细节级,低粒度级,假设有200个记录,包含本月内200个电话的任何信息;保存一个顾客一个月内每天电话的汇总轻度综合,较高粒度级,只有30或31条记录,只能回答汇总查询的问题。保存一个顾客一个月内的电话的综合低细节级,高粒度级,只有一条记录。为了适应不同查询的需要,在数据仓库中经常是建立多重粒度,如按周综合的轻度综合级数据

13、和按月综合的高度综合级数据。28学习交流PPT样本数据库样本数据库的粒度级别根据采样率的高低来划分的。采样粒度不同的样本数据库可以具有相同的综合级别,一般它是以一定的采样率从细节档案数据或轻度综合数据中抽集的一个子集。样本数据库不是一般目的的数据库,它是根据一定需求从源数据中的一个抽样。样本数据库的抽取可以按照数据的重要程度不同来进行,样本数据库是建立在不同时点上的粒度。29学习交流PPT面向主题的数据组织举例例如,一家采用“会员制”经营方式的商场,按业务已建立起销售、采购、库存管理以及人事管理子系统。 概括各种分析领域的分析对象,可以综合得到主题。上例的主题应包括供应商、商品、顾客等 30学

14、习交流PPT面向主题的数据组织举例 面向应用的数据组织子系统(应用)数据库表名数据字段销售子系统顾客顾客号,姓名,性别,年龄,文化程度,地址,电话销售员工号,顾客号,商品号,数量,单价,日期采购子系统订单订单号,供应商号,总金额,日期订单细则订单号,商品号,类别,单价,数量供应商供应商号,供应商名,地址,电话库存管理子系统领料单领料单号,领料人,商品号,数量,日期进料单进料单号,订单号,进料人,收料人,日期库存商品号,库房号,库存量,日期库房库房号,仓库管理员地点,库存商品描述人事管理子系统员工员工号,姓名,性别,年龄,文化程度,部门号部门部门号,部门名称,部门主管,电话31学习交流PPT面向

15、主题的数据组织举例面向主题的数据组织主 题信 息 类数据字段商品商品固有信息商品号,商品名,类别,颜色等商品采购信息商品号,供应商号u1,供应价,供应日期,供应量等商品销售信息商品号,顾客号,售价,销售日期,销售量等商品库存信息商品号,库房号,库存量,日期等供应商供应商固有信息供应商号,供应商名,地址,电话等供应商品信息供应商号,商品号,供应价,供应日期,供应量等顾客顾客固有信息顾客号,顾客名,性别,年龄,文化程度,住址,电话等顾客购物信息顾客号,商品号,售价,购买日期,购买量等32学习交流PPT数据分割 分割是指将数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。数据分割后

16、的数据单元称为分片。分割之后,小单元内的数据相对独立,处理起来更快、更容易。一般在进行实际的分析处理时,对于存在某种相关性的数据集合的分析是最常见的,如对某时间或某时段的数据的分析,对某一地区的数据的分析;对特定业务领域的数据的分析等,将其有这种相关性的数据组织在一起,就会提高效率。33学习交流PPT数据分割的好处对当前细节数据进行分割的总体目的就是把数据划分成小的物理单元,为操作者和设计者在管理数据时提供更大的灵活性。小物理单元具有容易重构、自由索引、顺序扫描、容易重组、容易恢复和容易监控等优点。数据仓库的本质之一就是灵活的访问数据,大块数据达不到这个目的。34学习交流PPT分割的标准数据分

17、割的标准可以根据实际情况来确定,通常可选择:按日期、地域、业务领域或组织单位等来进行分割,按多个分割标准的组合来进行,一般情况分割标准总应包括日期项。35学习交流PPT分割的层次分割的层次一般分为系统层和应用层两层。系统层的分割由数据库管理系统和操作系统完成;应用层的分割有应用系统完成,在应用层上分割更有意义。36学习交流PPT元数据的管理 元数据的概念元数据作为数据的数据,可对数据仓库中的各种数据进行详细的描述与说明,说明每个数据的上下文关系,使每个数据具有符合现实的真实含义,使最终用户了解这些数据之间的关系。37学习交流PPT元数据的类型1按元数据的类型分类(1) 关于基本数据的元数据:基

18、本数据是指数据源、数据仓库、数据集市和应用程序管理的所有数据。基本数据元数据包括定义、结构的所有描述。(2) 用于数据处理的元数据:对数据装载、更新处理、分析处理、管理方面的信息,如数据抽取、转换、聚合规则等的描述。(3) 关于企业的组织结构的元数据:包括与企业相关的管理方面的数据和信息,如用户访问数据仓库、数据源、数据集市的权限信息等。38学习交流PPT元数据的类型2 按抽象级别分类(1) 概念级:包括业务的全部描述,如定义主要的业务实体、特征及其相互关系。系统的使用方法,已定义的查询,视图和现有的应用等相关的信息。(2) 逻辑级:包括数据库的关系方案,逻辑多维模型等一般用伪码或数学语言描述数据抽取/转换规则等。(3) 物理级:包括业务规则相应的SQL代码、关系的索引文件、分析应用的代码。39学习交流PPT元数据的内容 数据源的元数据 数据模型的元数据 数据准备区元数据 DBMS元数据 前台元数据 40学习交流PPT总结数据仓库的概念特特性数据仓库系统的构成数据仓库中数据的组织41学习交流PPT作业阅读“阅读资料”和“案例分析”思考练习题42学习交流PPT

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号