{管理信息化数据仓}第5章数据仓库工程

上传人:卓****库 文档编号:140794159 上传时间:2020-08-01 格式:PPTX 页数:95 大小:368.27KB
返回 下载 相关 举报
{管理信息化数据仓}第5章数据仓库工程_第1页
第1页 / 共95页
{管理信息化数据仓}第5章数据仓库工程_第2页
第2页 / 共95页
{管理信息化数据仓}第5章数据仓库工程_第3页
第3页 / 共95页
{管理信息化数据仓}第5章数据仓库工程_第4页
第4页 / 共95页
{管理信息化数据仓}第5章数据仓库工程_第5页
第5页 / 共95页
点击查看更多>>
资源描述

《{管理信息化数据仓}第5章数据仓库工程》由会员分享,可在线阅读,更多相关《{管理信息化数据仓}第5章数据仓库工程(95页珍藏版)》请在金锄头文库上搜索。

1、数据仓库和决策支持系统,主讲:鲁明羽,大连海事大学计算机科学与技术学院 研究方向:智能数据分析与数据挖掘 电 话:13889576531 Email:,第五章 数据仓库工程,目录,5.1 数据仓库工程概述 5.2 数据仓库开发模型 5.3 数据仓库的规划 5.4 数据仓库的概念模型设计 5.5 数据仓库的逻辑模型设计 5.6 数据仓库的物理模型设计 5.7 数据仓库的实施 5.8 数据仓库的应用、支持和增强 练 习,数据仓库的开发应用像其它软件系统一样,具有其特有的、完整的生命周期。 数据仓库的开发应用周期可以分成三个阶段: 规划分析阶段 设计实施阶段 使用维护阶段 这三个阶段是一个不断循环、

2、完善和提高的过程。一般情况下,数据仓库系统不可能在一个循环过程中完成,而须经过多次循环开发。每次循环都会为系统增加新的功能,使数据仓库的应用得到完善和提高。,5.1 数据仓库工程概述,数据仓库的螺旋式开发方法,规划分析 阶段 数据仓库 开发过程 设计实施 使用维护阶段 阶段,5.2 数据仓库的开发模型,在创建数据仓库时,需要使用各种数据模型对数据仓库进行描述。数据仓库的开发人员依据这些数据模型,才能开发出一个满足用户需求的数据仓库,使开发人员能够将注意力集中在数据仓库开发的主要部分。 模型有更好的适应性,更易于修改。当用户的需求改变时,仅对模型做出相应的变化就能反映这个改变。,5.2.1 模型

3、与模型转换,模型是对现实世界进行抽象的工具。在信息管理中,需要将现实世界的事物及其有关特征转换为信息世界的数据,才能对信息进行处理与管理,这就需要依靠数据模型作为这种转换的桥梁。 这种转换一般需要经历从现实世界到概念模型、从概念模型到逻辑模型、从逻辑模型到物理模型的转换过程。,数据库,客户与产品,表文件,客户,记录,张三,列(字段、数据项),属性,特性,职业,计算机世界,逻辑世界,概念世界,现实世界,同质总体,实体,个体,整体间联系,异质总体,整体,数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。 作为数据仓库的灵魂元数据模型则自始至终伴随着数据仓库的开发、实施与使用。

4、数据粒度和聚集模型也在数据仓库的创建中发挥着指导的作用,指导着数据仓库的具体实现。,5.2.2 数据仓库的概念模型,概念数据模型-可采用E-R图,财务部门 销售收入账 应收账 应付账 成本账,销售部门 销售计划 销售合同 销售统计,人事部门 员工业绩记录 员工技能情况 员工薪酬表,企业数据模型,销售部门,人事部门,财务部门,图5.3 企业数据模型,数据仓库的概念数据模型的特点 不包含操作型的数据,只包含用户所感兴趣的分析数据、描述数据和细节数据。 扩充了关键字结构,增加了时间属性作为关键字的一部分。 还增加了一些由基本数据所导出的衍生数据。这些导出的衍生数据主要用于对企业的管理决策进行分析。,

5、指标实体 (事实实体),指标 实体名,维度 实体名,详细类别实体名,维度实体,详细类别实体(引用实体),E-R图中实体的细分,数据模型的规范与反规范,第一范式、第二范式、第三范式数据仓库的反规范化处理 -尽量减少表连接操作,星型模型,星型模型是最常用的数据仓库设计结构的实现模式。它使数据仓库形成了一个集成系统,为用户提供分析服务对象。,核心是事实表,围绕事实表的是维(度)表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。,利用目前成熟的关系数据库系统,同样也可以建立数据仓库。这样做成本低,实现快,但数据仓库的效率远不如多维数据库形式。在这种情况下,主要是利用星型模式(ST

6、AR SCHEME)来组织数据。 时间维表 事实表 产品维表 地区维表 数据仓库的星型模型(关系数据库形式),雪花模型,雪花模型是对星型模型的扩展,每一个维度都可以向外连接到多个详细类别表。,雪花模型对星型模型的维度表进一步标准化,对星型模型中的维度表进行了规范化处理。,经济 (年收入) 100万以上 10万以上 1万以上,地点 国家 省 市,销售 销售ID 销售数量 销售价格 销售金额 时间ID 地点ID 商品ID,年龄 60岁以上 40岁以上 30岁以上 20岁以上 20岁以下,日期 年 月 日,商品ID 种类 小类 商品,信用 10万元以上 1万元以上 1千元以上 1千元以下 0元,商品

7、ID 生产厂家 进货价格 进货日期,客户 客户ID 姓名 地址 电话 邮政编码,雪花模型,根据需要设计模型,5.2.3 数据仓库的逻辑模型,数据仓库的逻辑模型是对数据仓库概念模型的细化描述。概念模型中的每个实体对应一个逻辑模型。 逻辑模型中有四种基本结构: 基本数据组:描述相对固定的信息 二级数据组:描述可以变化的信息 连接数据组:是一个主题域的公共码主键,连接主题域 类型数据组:描述数据的类型,分为超类型和子类型 逻辑模型设计的重点:保证数据仓库结构的完整性,即数据仓库所有的数据元素都包含在模型中。,5.2.3 数据仓库的逻辑模型,贷款担保,账号 姓名 客户类型 初次交易时间,账号 省 市

8、县 街道 邮政编码,账号 现金交易额 信用交易额,账号 商品编号 时间 交易量,账号 最大信用额 最近发生时间,账号 担保人 担保类型 贷款时间,账号 服务种类 时间 服务费用 贵宾卡颜色,信用交易,客户编号,交易记录,信用状况,商品交易,服务交易,签字,现金交易,账号 交易额 信用额 信用时间,信用卡,客户信息,5.2.4 数据仓库的物理模型,对数据仓库的逻辑模型进行扩展,生成一系列事实表和维表 确定模型的码键属性 调整表结构 建立各种索引 建立聚集模型 确定数据仓库物理模型的存储结构,事实表模型设计,事实表中的事实特性: 事实表是星型模型和雪花模型的核心。 事实表中一般包含两部分:一是由主

9、键和外键所组成的键部分;二是用户希望在数据仓库中所了解的数值指标,需具有数值性和可加性的特征。 派生事实主要有两种:一是可以用同一事实表中其他事实计算得到,还有一类派生事实是非加法性事实。,事实表模型设计,1.事实表 (1)客户事实表 客户基本情况表(账号Integer9,姓名Character12,出生地Character20,初次交易时间Date,) 客户可变情况表(账号Integer9,省Character20,市Character20,街道Character20 ,邮政编码Character6 ,),事实表模型设计,1.事实表 (2)客户贷款事实表 客户房屋贷款表(账号Integer9

10、,地址Character50,委托人Character12,评估Memo,) 客户汽车贷款表(账号Integer9,时间Date,制造商Character40,型号Character10,颜色Character8 ,),事实表模型设计,1.事实表 (3)客户存款事实表 客户存款表1(账号Integer9,时间Date,最小存款数Number7.2,最小余额Number7.2 ,) 客户存款表2(账号Integer9,时间Date,最小存款数Number7.2,最小余额Number7.2 ,) (4)客户担保事实表 客户担保表(账号Integer9,时间Date,担保人Character12,种

11、类Character2,担保金额Number10.2 ,),维模型设计,维是用户观察、分析数据的角度和窗口,因此维度表应该包含商业项目的文字描述,提供维度属性的定义。维度表中的属性一般为该维中的不同粒度值或分类值。 客户主题的维度表模型: 时间维度表(年Date,月Date,日Date) 地点维度表(省Character20,市Character20,县Character20,街道Character20) 贷款维(抵押贷款Character20,非抵押贷款Character20 ),由于有OLAP的要求,数据仓库中数据的物理存储形式应该是基于多维数据模型(所以在逻辑上数据仓库就是一个多维数据库

12、),在实现中一般有两种途径: 基于多维数据库的空间超立方体,又称数据立方体(DATA CUBE) 基于关系数据库的星型模式(由关系型事实表和维表组成) 三种变型:多层分维结构,事实表族,雪花模式 维1维2维3度量(指标) 1990TV上海 500 1990TV北京 600 1991VCD上海 600 1991VCD北京 700 数据仓库的多维结构,数据仓库的结构,数据仓库物理模型的索引构建,位图索引,查询索引,3连接索引,连接索引A,agelevel_id,time_id year_id month_id,geo_id prov_id city_id county_id,produ_id,ag

13、elevel_id time_id geo_id produ_id amou_mone,agelevel_id time_id year_id month_id geo_id prov_id city_id county_id produ_id amou_mone,agelevel_id time_id geo_id produ_id,全连接结果,time_id geo_id,连接索引B,数据仓库物理模型的存储结构 确定数据的存储结构 并行存储结构RAID(Redundant Array of Inexpensive Disk,廉价冗余磁盘阵列)。 RAID RAID1级 RAID2级 RAI

14、D3级 RAID4级 RAID5级,数据仓库物理模型的优化问题,合并表:几个表的记录分散存放在几个物理块中时,多个表的存取和连接操作的代价会很大,需要混合存储。 建立数据序列:按照某一固定的顺序访问并处理一组数据记录,将数据按照处理顺序存放到连续的物理块中,形成数据序列。 引入冗余:一些表的某些属性可能在许多地方都要用到,将这些属性复制到多个主题中,可以减少处理时存取、连接表的个数。,数据仓库物理模型的优化问题,表的物理分割:每个主题中的各个属性存取频率是不同的。将一张表按各属性被存取的频率分成两个或多个表,将具有相似访问频率的数据组织在一起。 生成派出数据:在原始数据的基础上进行总结或计算,

15、生成派出数据,可以在应用中直接使用这些派出数据,减少I/O次数,免去计算或汇总步骤,在更高级别上建立了公用数据源,避免了不同用户重复计算可能产生的偏差。,5.2.5 数据仓库的元数据模型,元数据是关于数据的数据。在数据仓库中,元数据定义了数据仓库中的许多对象表、列、查询、商业规则或是数据仓库内部的数据转移,描述了数据的结构、内容、键、索引等项内容,非常重要。 元数据可分为静态元数据和动态元数据。 静态元数据主要描述数据结构,动态元数据主要描述数据的状态和使用方法。,5.2.5 数据仓库的元数据模型,元数据的类型与组成,元数据在数据仓库中的作用,在数据仓库中,元数据是重要构件和指示图(roadm

16、ap)。 1. 数据仓库元数据的作用 提供便利的数据仓库服务与DSS分析员及高层 决策人员服务 解决操作型环境和数据仓库的复杂关系 数据仓库中数据的管理,元数据在数据仓库中的作用,元数据在数据仓库开发期间的使用 确认数据质量 、同步化和刷新 、映射 元数据在数据源抽取中的作用 资源领域的确定,跟踪历史数据结构变化的过程,属性到属性的映射,属性转换 元数据在数据求精与重构工程上的作用 数据的分割,概括与聚集,预算与推导,转换与再映像,元数据的种类与收集,1. 数据源的元数据 2. 数据模型的元数据 3. 数据源与数据仓库映射的元数据 4. 数据仓库应用的元数据,5.2.6 数据仓库的粒度和聚集模

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 企业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号