{管理信息化数据仓}第5章数据仓库工程

资源描述

《{管理信息化数据仓}第5章数据仓库工程》由会员分享，可在线阅读，更多相关《{管理信息化数据仓}第5章数据仓库工程（95页珍藏版）》请在金锄头文库上搜索。

1、数据仓库和决策支持系统,主讲：鲁明羽,大连海事大学计算机科学与技术学院研究方向：智能数据分析与数据挖掘电话：13889576531 Email：,第五章数据仓库工程,目录,5.1 数据仓库工程概述 5.2 数据仓库开发模型 5.3 数据仓库的规划 5.4 数据仓库的概念模型设计 5.5 数据仓库的逻辑模型设计 5.6 数据仓库的物理模型设计 5.7 数据仓库的实施 5.8 数据仓库的应用、支持和增强练习,数据仓库的开发应用像其它软件系统一样，具有其特有的、完整的生命周期。数据仓库的开发应用周期可以分成三个阶段：规划分析阶段设计实施阶段使用维护阶段这三个阶段是一个不断循环、

2、完善和提高的过程。一般情况下，数据仓库系统不可能在一个循环过程中完成，而须经过多次循环开发。每次循环都会为系统增加新的功能，使数据仓库的应用得到完善和提高。,5.1 数据仓库工程概述,数据仓库的螺旋式开发方法,规划分析阶段数据仓库开发过程设计实施使用维护阶段阶段,5.2 数据仓库的开发模型,在创建数据仓库时，需要使用各种数据模型对数据仓库进行描述。数据仓库的开发人员依据这些数据模型，才能开发出一个满足用户需求的数据仓库，使开发人员能够将注意力集中在数据仓库开发的主要部分。模型有更好的适应性，更易于修改。当用户的需求改变时，仅对模型做出相应的变化就能反映这个改变。,5.2.1 模型

3、与模型转换,模型是对现实世界进行抽象的工具。在信息管理中，需要将现实世界的事物及其有关特征转换为信息世界的数据，才能对信息进行处理与管理，这就需要依靠数据模型作为这种转换的桥梁。这种转换一般需要经历从现实世界到概念模型、从概念模型到逻辑模型、从逻辑模型到物理模型的转换过程。,数据库,客户与产品,表文件,客户,记录,张三,列（字段、数据项）,属性,特性,职业,计算机世界,逻辑世界,概念世界,现实世界,同质总体,实体,个体,整体间联系,异质总体,整体,数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。作为数据仓库的灵魂元数据模型则自始至终伴随着数据仓库的开发、实施与使用。

4、数据粒度和聚集模型也在数据仓库的创建中发挥着指导的作用，指导着数据仓库的具体实现。,5.2.2 数据仓库的概念模型,概念数据模型-可采用E-R图,财务部门销售收入账应收账应付账成本账,销售部门销售计划销售合同销售统计,人事部门员工业绩记录员工技能情况员工薪酬表,企业数据模型,销售部门,人事部门,财务部门,图5.3 企业数据模型,数据仓库的概念数据模型的特点不包含操作型的数据，只包含用户所感兴趣的分析数据、描述数据和细节数据。扩充了关键字结构，增加了时间属性作为关键字的一部分。还增加了一些由基本数据所导出的衍生数据。这些导出的衍生数据主要用于对企业的管理决策进行分析。,

5、指标实体（事实实体）,指标实体名,维度实体名,详细类别实体名,维度实体,详细类别实体（引用实体）,E-R图中实体的细分,数据模型的规范与反规范,第一范式、第二范式、第三范式数据仓库的反规范化处理 -尽量减少表连接操作,星型模型,星型模型是最常用的数据仓库设计结构的实现模式。它使数据仓库形成了一个集成系统，为用户提供分析服务对象。,核心是事实表，围绕事实表的是维（度）表。通过事实表将各种不同的维度表连接起来，各个维度表都连接到中央事实表。,利用目前成熟的关系数据库系统，同样也可以建立数据仓库。这样做成本低，实现快，但数据仓库的效率远不如多维数据库形式。在这种情况下，主要是利用星型模式（ST

6、AR SCHEME）来组织数据。时间维表事实表产品维表地区维表数据仓库的星型模型(关系数据库形式),雪花模型,雪花模型是对星型模型的扩展，每一个维度都可以向外连接到多个详细类别表。,雪花模型对星型模型的维度表进一步标准化，对星型模型中的维度表进行了规范化处理。,经济 (年收入) 100万以上 10万以上 1万以上,地点国家省市,销售销售ID 销售数量销售价格销售金额时间ID 地点ID 商品ID,年龄 60岁以上 40岁以上 30岁以上 20岁以上 20岁以下,日期年月日,商品ID 种类小类商品,信用 10万元以上 1万元以上 1千元以上 1千元以下 0元,商品

7、ID 生产厂家进货价格进货日期,客户客户ID 姓名地址电话邮政编码,雪花模型,根据需要设计模型,5.2.3 数据仓库的逻辑模型,数据仓库的逻辑模型是对数据仓库概念模型的细化描述。概念模型中的每个实体对应一个逻辑模型。逻辑模型中有四种基本结构：基本数据组：描述相对固定的信息二级数据组：描述可以变化的信息连接数据组：是一个主题域的公共码主键，连接主题域类型数据组：描述数据的类型，分为超类型和子类型逻辑模型设计的重点：保证数据仓库结构的完整性，即数据仓库所有的数据元素都包含在模型中。,5.2.3 数据仓库的逻辑模型,贷款担保,账号姓名客户类型初次交易时间,账号省市

8、县街道邮政编码,账号现金交易额信用交易额,账号商品编号时间交易量,账号最大信用额最近发生时间,账号担保人担保类型贷款时间,账号服务种类时间服务费用贵宾卡颜色,信用交易,客户编号,交易记录,信用状况,商品交易,服务交易,签字,现金交易,账号交易额信用额信用时间,信用卡,客户信息,5.2.4 数据仓库的物理模型,对数据仓库的逻辑模型进行扩展，生成一系列事实表和维表确定模型的码键属性调整表结构建立各种索引建立聚集模型确定数据仓库物理模型的存储结构,事实表模型设计,事实表中的事实特性：事实表是星型模型和雪花模型的核心。事实表中一般包含两部分：一是由主

9、键和外键所组成的键部分；二是用户希望在数据仓库中所了解的数值指标，需具有数值性和可加性的特征。派生事实主要有两种：一是可以用同一事实表中其他事实计算得到，还有一类派生事实是非加法性事实。,事实表模型设计,1.事实表（1）客户事实表客户基本情况表（账号Integer9，姓名Character12，出生地Character20，初次交易时间Date，）客户可变情况表（账号Integer9，省Character20，市Character20，街道Character20 ，邮政编码Character6 ，）,事实表模型设计,1.事实表（2）客户贷款事实表客户房屋贷款表（账号Integer9

10、，地址Character50，委托人Character12，评估Memo，）客户汽车贷款表（账号Integer9，时间Date，制造商Character40，型号Character10，颜色Character8 ，）,事实表模型设计,1.事实表（3）客户存款事实表客户存款表1（账号Integer9，时间Date，最小存款数Number7.2，最小余额Number7.2 ，）客户存款表2（账号Integer9，时间Date，最小存款数Number7.2，最小余额Number7.2 ，）（4）客户担保事实表客户担保表（账号Integer9，时间Date，担保人Character12，种

11、类Character2，担保金额Number10.2 ，）,维模型设计,维是用户观察、分析数据的角度和窗口，因此维度表应该包含商业项目的文字描述，提供维度属性的定义。维度表中的属性一般为该维中的不同粒度值或分类值。客户主题的维度表模型：时间维度表（年Date，月Date，日Date）地点维度表（省Character20，市Character20，县Character20，街道Character20）贷款维（抵押贷款Character20，非抵押贷款Character20 ）,由于有OLAP的要求，数据仓库中数据的物理存储形式应该是基于多维数据模型(所以在逻辑上数据仓库就是一个多维数据库

12、)，在实现中一般有两种途径：基于多维数据库的空间超立方体，又称数据立方体（DATA CUBE）基于关系数据库的星型模式（由关系型事实表和维表组成）三种变型：多层分维结构，事实表族，雪花模式维1维2维3度量（指标） 1990TV上海 500 1990TV北京 600 1991VCD上海 600 1991VCD北京 700 数据仓库的多维结构,数据仓库的结构,数据仓库物理模型的索引构建,位图索引,查询索引,3连接索引,连接索引A,agelevel_id,time_id year_id month_id,geo_id prov_id city_id county_id,produ_id,ag

13、elevel_id time_id geo_id produ_id amou_mone,agelevel_id time_id year_id month_id geo_id prov_id city_id county_id produ_id amou_mone,agelevel_id time_id geo_id produ_id,全连接结果,time_id geo_id,连接索引B,数据仓库物理模型的存储结构确定数据的存储结构并行存储结构RAID（Redundant Array of Inexpensive Disk，廉价冗余磁盘阵列）。 RAID RAID1级 RAID2级 RAI

14、D3级 RAID4级 RAID5级,数据仓库物理模型的优化问题,合并表：几个表的记录分散存放在几个物理块中时，多个表的存取和连接操作的代价会很大，需要混合存储。建立数据序列：按照某一固定的顺序访问并处理一组数据记录，将数据按照处理顺序存放到连续的物理块中，形成数据序列。引入冗余：一些表的某些属性可能在许多地方都要用到，将这些属性复制到多个主题中，可以减少处理时存取、连接表的个数。,数据仓库物理模型的优化问题,表的物理分割：每个主题中的各个属性存取频率是不同的。将一张表按各属性被存取的频率分成两个或多个表，将具有相似访问频率的数据组织在一起。生成派出数据：在原始数据的基础上进行总结或计算，

15、生成派出数据，可以在应用中直接使用这些派出数据，减少I/O次数，免去计算或汇总步骤，在更高级别上建立了公用数据源，避免了不同用户重复计算可能产生的偏差。,5.2.5 数据仓库的元数据模型,元数据是关于数据的数据。在数据仓库中，元数据定义了数据仓库中的许多对象表、列、查询、商业规则或是数据仓库内部的数据转移，描述了数据的结构、内容、键、索引等项内容，非常重要。元数据可分为静态元数据和动态元数据。静态元数据主要描述数据结构，动态元数据主要描述数据的状态和使用方法。,5.2.5 数据仓库的元数据模型,元数据的类型与组成,元数据在数据仓库中的作用,在数据仓库中，元数据是重要构件和指示图（roadm

16、ap）。 1. 数据仓库元数据的作用提供便利的数据仓库服务与DSS分析员及高层决策人员服务解决操作型环境和数据仓库的复杂关系数据仓库中数据的管理,元数据在数据仓库中的作用,元数据在数据仓库开发期间的使用确认数据质量、同步化和刷新、映射元数据在数据源抽取中的作用资源领域的确定，跟踪历史数据结构变化的过程，属性到属性的映射，属性转换元数据在数据求精与重构工程上的作用数据的分割，概括与聚集，预算与推导，转换与再映像,元数据的种类与收集,1. 数据源的元数据 2. 数据模型的元数据 3. 数据源与数据仓库映射的元数据 4. 数据仓库应用的元数据,5.2.6 数据仓库的粒度和聚集模

展开阅读全文