数据仓库模型设计课件PPT

上传人:优*** 文档编号:132275630 上传时间:2020-05-14 格式:PPT 页数:91 大小:1.85MB
返回 下载 相关 举报
数据仓库模型设计课件PPT_第1页
第1页 / 共91页
数据仓库模型设计课件PPT_第2页
第2页 / 共91页
数据仓库模型设计课件PPT_第3页
第3页 / 共91页
数据仓库模型设计课件PPT_第4页
第4页 / 共91页
数据仓库模型设计课件PPT_第5页
第5页 / 共91页
点击查看更多>>
资源描述

《数据仓库模型设计课件PPT》由会员分享,可在线阅读,更多相关《数据仓库模型设计课件PPT(91页珍藏版)》请在金锄头文库上搜索。

1、 1 4数据仓库模型设计 第一章数据仓库原理 1 4 1数据仓库模型设计方法概述1 4 2数据仓库设计的三级模型1 4 3数据仓库的概念模型1 4 4数据仓库的逻辑模型1 4 5数据仓库的物理模型1 4 6数据装载接口设计 1 4数据仓库模型设计 1 4 1数据仓库模型设计方法概述 数据仓库系统的设计与数据库系统设计的区别 第一章数据仓库原理 1 4 1数据仓库模型设计方法概述 数据仓库系统的设计可以分为数据仓库模型设计和数据装载接口的设计两大部分 其中数据仓库模型设计又包括概念模型设计 逻辑模型设计和物理模型设计三个部分 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三

2、级数据模型 数据模型是数据仓库建设的基础 一个完整 灵活 稳定的数据模型对于数据仓库项目的成功起着如下重要的作用 1 数据模型是整个系统建设过程的导航图 2 有利于数据的整合 3 通过数据模型的建立 可以排除数据描述的不一致性 4 由于数据模型对现有的信息以及信息之间的关系从逻辑层进行了全面的描述 当未来业务发生变化或系统需求发生变化时 可以很容易地实现系统扩展 1 4数据仓库模型设计 第一章数据仓库原理 5 可以消除数据仓库中的冗余数据 数据仓库建模是数据仓库构建工作正式开始的第一步 正确而完备的数据模型是用户业务需求的体现 是数据仓库项目成功与否最重要的技术因素 目前较为流行的数据仓库设计

3、模型是概念模型 逻辑模型和物理模型三级数据模型 1 4 2数据仓库设计的三级数据模型 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三级数据模型 一 概念模型 概念模型描述的是从客观世界到主观认识的映射 它是用于我们为一定的目标设计系统 收集信息而服务的一个概念性工具 在进行系统设计时 我们首先要将现实世界抽象为概念模型 然后再用计算机世界的模型和语言对客观世界中的具体问题进行描述 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三级数据模型 二 逻辑模型 目前数据仓库一般建立在关系数据库基础之上 因此 在数据仓库的设计中采用的逻辑模型就是关系模型 无

4、论是主题还是主题之间的联系 都用关系来表示 逻辑模型描述了数据仓库的主题的逻辑实现 对于关系数据库来说 即每个主题所对应的关系表的关系模式的定义 它能直接反映出业务部门的需求 同时对系统的物理实施有着重要的指导作用 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三级数据模型 三 物理模型 物理模型是逻辑模型在数据仓库中的实现 如数据存储结构 数据索引策略 数据的存储策略以及存储分配优化等 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三级数据模型 四 三种模型之间的关系 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三级数据模型

5、 五 高级模型 中级模型和低级模型 高级模型 即数据概念模型 用E R图表示 低级模型 即物理数据模型 中级模型 称为数据项 dis dataitemset 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三级数据模型 五 高级模型 中级模型和低级模型 dis是E R图的细分 E R图的每一个主题都与一个dis相对应 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三级数据模型 五 高级模型 中级模型和低级模型 每个dis中的数据分为4个组别 基本数据组 二级数据组 连接数据组和类型数据组 1 连接数据组主要用于本主题与其他主题之间的联系 体现E R图中

6、主题之间的关系 一般情况下 连接数据组往往是一个主题的公共码键 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三级数据模型 五 高级模型 中级模型和低级模型 2 基本数据组基本数据组包含了本主题中固定的 基本不变的属性 3 二级数据组是本主题中有时会发生变化的数据 其稳定性低于基本数据组 4 类型数据组是本主题中经常改变的数据 其稳定性最低 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三级数据模型 五 高级模型 中级模型和低级模型 例 商品ID 客户ID姓名性别身份证号码 住址文化程度电话E mail 交易ID商品金额购买时间 交易ID商品金额购买

7、时间 交易ID商品金额购买时间 电器 食品 床上用品 类型数据组 二级数据组 连接数据组 基本数据组 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 通过概念模型设计 可以确定数据仓库的主要主题及相互关系 进行概念模型设计所要完成的工作有 1 界定系统边界 即进行任务和环境评估 需求收集和分析 了解用户迫切需要解决的问题及解决这些问题所需要的信息 要对现有数据库中的内容有一个完整而清晰的认识 2 确定主要的主题域及其内容 即要确定系统所包含的主题域 然后对每一个主题域的公共码键 主题域之间的联系 充分代表主题的属性组进行较为明确的描述 1 4数据仓库模型设计 第一

8、章数据仓库原理 1 4 3数据仓库的概念模型设计 数据仓库的概念模型设计可以采用两种方法 E R模型和面向对象的分析方法 一 E R模型 E R图描述的是主题以及主题之间的联系 用E R模型进行概念模型设计的过程如图 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 1 任务和环境的评估 2 需求的收集和分析 3 主题的选取 确定主题间关系主题选取的原则 1 优先实施管理者目前最迫切需求 最关心的主题 2 优先选择能够在较短时间内发生效益的决策主题 3 推后实施业务逻辑准备不充分的主题 4 推后考虑实现技术难度大 可实现性较低 投资风险大的主题 1 4数据仓库模型设

9、计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 4 主题内容描述描述的内容包括 1 主题的公共码键 2 主题之间的联系 3 充分代表主题的属性组 5 E R图长方形 表示主题椭圆形 表示主题的属性组菱形 表示主题之间的联系 1 4数据仓库模型设计 第一章数据仓库原理 例1 假设有商品 客户和供应商三个主题 商品有如下属性组 商品固有信息商品库存信息商品销售信息商品采购信心客户有如下属性组 客户固有信息客户购物信息供应商有如下属性组 供应商固有信息供应商品信息则可得到如下E R图 1 4 3数据仓库的概念模型设计 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型

10、设计 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 例2 中医药方剂是中医治疗疾病的重要手段 方剂中蕴涵着中医博大 精深的理论 为了揭示蕴涵在方剂中的应用规律和内部的有机联系 推动传统医学的发展 加快新药产品的开发 要建立中医方剂数据仓库 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 方剂中的信息可以分为两个部分 一部分是药物的配比 即需要哪几味中药 每种药材各需要多少 另一部分则是其主治的病症 这两部分信息被方剂有机地联系在一起 药物的配比是由药理决定的 而病症的规则又是与病因和发展的机理密切联系 要分析方剂 就不可能不研究这两

11、方面的信息 因此可以确定主要的主题为方剂 药物 病症 所需的数据为方剂数据 药物数据 病症数据 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 主题的描述 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 二 面向对象的分析方法 采用面向对象方法进行概念模型设计时 E R模型中的实体转化为面向对象系统中的类 E R模型中实体的属性对应面向对象系统中类的属性 E R模型中实体间的关系表现为面向对象系统中类间的关系 1 4数据仓库模型设计 第一章数据仓库原理 1

12、4 3数据仓库的概念模型设计 二 面向对象的分析方法 类常用的图形表示方法是类表 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 二 面向对象的分析方法 在面向对象的方法中 类之间存在三种关系 继承 包容和关联 1 继承 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 二 面向对象的分析方法 2 包容 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 二 面向对象的分析方法 3 关联 在面向对象方法中 除了包容和继承关系之外 类之间的其他关系都归入关联关系 因为类的动作反映的是类对自身或者其他类的作用 而关

13、联关系是指类间的作用与反作用 所以关联关系可以通过类的动作来体现 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 二 面向对象的分析方法 例 中医数据仓库选择出三个类 药物类 方剂类 病症类 其中药物类可以派生出治感冒的药物 治脾胃的药物和治肠炎的药物三个子类 各类之间的关系如图 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 进行逻辑模型设计所要完成的主要工作有 1 系统数据量的估算 2 数据粒度的选择 3 确定数据分割策略 4 增加时间字段 5 去除纯操作型数据 6 进行合理的表划分 7 定义关系模式 8 增加导出字段 9 定义记

14、录系统 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 一 系统数据量估算 数据仓库数据量级的一个简单估算方法是 设在概念模型中出现的表个数为N 这些表中应当不包括不会放进数据仓库的表 对于每个表i 0 i N 计算表的大小Si和表的主关键字大小Ki 然后估计每张表i在单位时间内最大记录数Lmax和最少记录数Lmin 则数据仓库的粗略数据量在如下范围 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 一 系统数据量估算 其中 T是数据在数据仓库中存在的周期 通常轻度综合的数据在数据仓库中存放的周期是5 10年 是考虑由于数据索引和数据冗

15、余而使得数据量增大的冗余因子 通常可取1 2 2 上式的含义是数据仓库数据量 表记录的大小十主关键字大小 记录的数量 单位时间 存储时间 冗余因子 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 一 系统数据量估算 表i在单位时间内最大记录数Limax需要按照公司的客户数量或者市场的占用情况估算 比如对电信公司的计费表记录数量的估计 可以采用电信公司的客户数量 单位时间内平均通话的次数 每个存储时间来估计表的记录数量 以上方法估算的结果只能作为数据粒度选样和软硬件平台选取的参考数据 它同实际系统的数据量可能会有较大的出入 1 4数据仓库模型设计 第一章数据仓库原理

16、 1 4 4数据仓库的逻辑模型设计 二 数据颗粒度的选择 1 单一数据粒度的概念 直接存储细节数据并定期在细节数据基础上进行数据综合 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 二 数据颗粒度的选择 2 双重粒度的概念 对于细节数据只保留近期的数据在数据仓库中 当保留周期到达时 将距离当前较远的数据导出到磁盘上 从而为最新的数据腾出空间 这样 数据仓库只保留在细节数据保留周期之内的数据 对于这个周期之后的信息 数据仓库只保留其综合数据 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 二 数据颗粒度的选择 2 双重粒度的概念 续 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 二 数据颗粒度的选择 2 双重粒度的概念 续 单一粒度和双重粒度的区别在于细节数据在数据仓库的高速存储设备中存储的时间长短不同 在使用双重粒度时 一个重要的参数是细节数据的保留周期 这个周期对于不同行业 不同需求可能有不同的答案 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 二 数据颗粒度的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 专业基础教材

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号