精编制作4 维度建模方法PPT课件

上传人:ahu****ng3 文档编号:126509885 上传时间:2020-03-25 格式:PPT 页数:77 大小:3.45MB
返回 下载 相关 举报
精编制作4 维度建模方法PPT课件_第1页
第1页 / 共77页
精编制作4 维度建模方法PPT课件_第2页
第2页 / 共77页
精编制作4 维度建模方法PPT课件_第3页
第3页 / 共77页
精编制作4 维度建模方法PPT课件_第4页
第4页 / 共77页
精编制作4 维度建模方法PPT课件_第5页
第5页 / 共77页
点击查看更多>>
资源描述

《精编制作4 维度建模方法PPT课件》由会员分享,可在线阅读,更多相关《精编制作4 维度建模方法PPT课件(77页珍藏版)》请在金锄头文库上搜索。

1、数据仓库中的元数据 元数据 关于数据的数据 描述数据结构 内容 码 索引等信息 元数据的重要性 元数据的内容 元数据的重要性 管理人员做分析时 往往先从元数据入手 例如 从元数据中查广义索引 再进一步搜索 支持数据转换 DB环境的数据DW环境的数据元数据描述 转换 元数据本身具有良好的灵活性 适应变化 例如 不同时期 数据结构是变化的 支持对数据仓库中数据的理解 例如 结构 粒度层次 分片策略 索引等 元数据的分类 技术元数据 是数据仓库的设计和管理人员用于开发和日常管理数据 仓库是用的数据 包括 数据源信息 数据转换的描述 数据仓库内对象和数据结构的定义 数据清理和数据 更新时用的规则 源数

2、据到目的数据的映射 用户访问 权限 数据备份历史记录 数据导入历史记录 信息发 布历史记录等 商业元数据 从商业业务的角度描述了数据仓库中的数据 包括 业 务主题的描述 包含的数据 查询 报表 业务的关 注点 比如销售量 客户购买情况 维度建模方法 维度建模 维度建模的相关概念 维度建模的基本步骤 多维数据模型 直观的表示现实中的复杂关系 基本组成 维 度量 变量 指标 立方体 Example 计算每一个商场 每一产品销售额 产品 商场交叉表 联机分析 OLAP 维度模型 多维数据模型的组成 维 Dimension 维层次路径 维层次 维成员 维实例 维层次属 性 事实 Fact 度量 Mea

3、sure 数据立方体 Cube 维 维 对数据进行分类的一种结构 以用于从特定 的角度观察数据 例如 时间 地区 产品 维的两个用途 选择针对期望详细程度的层次的数据 分组对细节数据综合 聚集 到相应的详细程度的数 据层次 维 维的组织方式 维层次路径 HIERARCHY 维层次路径由代表不同详细程度的维层次 Level 组成 维的层次 特定角度的不同细节程度 维层级 层级是维度属性组内属性之间的两级或多级结构 高一级的属性 组 构成的维度完全包含低一 级的一个或多个属性 组 构成的维度 CountryStateCountyCity 事实 度量 度量 指标 数据的实际意义 一般是一个数值度量指

4、标 例如 销售量 销售额 而具体数据 如 10000 是变量的一个值 事实 存储一个多维数据 表达期望分析的主题 目的 感兴趣的事情 事件或者指标等 具有一定的粒度 粒度的大小与维层次相关 一个事实中通常包含一个或者多个度量 一个度量的两个组件 数字型指标 聚集函数 立方体 CUBE 按照一定维层次结构和度量 事实 的逻辑上的组织 其逻辑上相当于一个多维数组 多维数组 多维数组 一个多维数组表示为 维1 维2 维n 变量 例如 时间 地区 销售渠道 销售额 可扩展维数 如 时间 地区 销售渠道 商品类型 销售额 数据单元 Cell 数据单元 单元格 多维数组的取值 可表示为 维1维成员 维2维

5、成员 维n维成员 变量的值 例如 1997年1月 北京 批发 10000 多维分析 多维的切片 slice 从多维数组选定一个二维子集 切出一个 平面 多维的切块 dice 从多维数组选定一个三维子集 切出一个 立方体 切片 切片和切块 多维分析 2002年2003年 1季度2季度3季度4季度1季度2季度3季度4季度 北京市123564566134562355 上海市13410398871021399782 天津市6773599673696294 旋转 改变一个报告 或页面 显示的维方向 旋转 北京市上海市天津市 2002年1季度12313467 2季度5610373 3季度459859 4季

6、度668796 2003年1季度13410273 2季度5613969 3季度239762 4季度558294 钻取 根据维层次 改变数据的粒度 上卷 roll up 是指沿某一个维的概念分层向上归约 下钻 drill down 是上卷的逆向操作 它是沿某一个维的概 念分层向下或引入新的维来实现 其它OLAP操作 钻过 Drill Across 是指对多个事实表进行查询 钻透 Drill Through 是指对立方体操作时 利用数据库关系 钻透立方体的底层 进入后端的关系表 OLAP的其它操作还有统计表中最高值和最低值的项数 计算平均 值 增长率 利润 投资回报率等统计计算 多维数据模型的实现

7、 Relational OLAP ROLAP 关系数据库 利用关系数据库来存储和管理基本数据和聚合数据 并利用一些 中间件来支持缺失数据的处理 具有良好的可扩展性 Multidimensional OLAP MOLAP 利用多维数据库来存放和管理基本数据和聚合数据 其中需要对 稀疏矩阵处理技术 对预综合的数据进行快速索引 Hybrid OLAP HOLAP 利用关系数据库来存储和管理基本数据 利用多维数据库来存储 和管理聚合数据 多维数据的组织存放 细节数据 关系数据库中的数据组织多维数据库中的数据组织 MDB方法的优点 细节数据 清晰简明 占用存储少 性能好 尤其像 冰箱销售总量是多少 的查

8、询 RDB方法 找出有关 冰箱 的记录 再对销售 MDB方法 找到有关 冰箱 的行 按行求和 多维数据的组织存放 综合数据 RDB中数据组织 MDB中数据组织 MDB方法的优点 综合数据 多维概念表达清晰 占用存储少 对数据进行综合的速度快 只需按行 列累加 在RDB中 总和 作为某个域上的取值 属性 值 与列定义语义不符 用关系结构表示多维数据 关系数据库使用广泛 相当成熟 用二维表表达多维概念 用两类表来表示多维结构 事实表 维表 事实 fact 表 用来存储变量值和各维的码值 维表 用来存储维的描述信息 元数据 包括层次和类等 维度模型 一种非规范化的关系模型 由一组属性构成的表所组成

9、表与表之间的关系通过关键字和外键来定义 以良好的可理解性和方便的产生报表来进行组织 很少考虑修改的性能 通过MDX或相关的工具实现数据的查询和维护 E R模型和维度模型 ER模型维模型 数据组织一张表代表一个实体数据组织以事实表为核心 要求目标最少的数据冗余最大的可理解性 优化策略面向Update操作进行优 化 面向检索进行优化 面向系统面向事务处理的模型面向数据仓库的模型 星形模型 Product Table Product id Product disc Time Table Day id Month id Year id Sales Fact Table Product id Store

10、 id Item id Day id Sales amount Sales units Item Table Item id Item desc Store Table Store id District id Central fact table Denormalized dimensions Fact Table 每一个事实表通常包含了处理所关心的一系列的 度量值 每一个事实表的行包括 具有可加性的数值型的度量值 与维表相连接的外键 事实表 fact table Year Product Type Sales Region Marketing Campaign Buyer s Age To

11、tal Sales 2003Mythic WorldNortheastHistory Mag Spring Ad0 2556 342 2003Mythic WorldNortheastHistory Mag Spring Ad25 35104 547 2003Mythic WorldNortheastHistory Mag Spring Ad35 45234 385 2003Mythic WorldNortheastHistory Mag Spring Ad45 55534 532 2003Mythic WorldNortheastHistory Mag Spring Ad55 65829 2

12、82 2003Mythic WorldNortheastHistory Mag Spring Ad65 284 540 事实表讨论 假设 以上案例中marketing campaign 维有8个成员 year 维度有6个成员 product type维度有4个成员 sales region 维有4个成员 buyer s age维有6个成员 事实表中的记录 数可达到 8 6 4 4 6 or 4608 rows in the SalesFact table 度量组 measure group 事实表的特征 非常大 列数较少 经常发生 数据追加 变化 事实表的使用 各类度量值的聚集计算 Dimen

13、sion Table 每一张维表对应现实世界中的一个对象或者概念 例如 客户 产品 日期 地区 维表的特征 包含了众多描述性的列 通常情况下 跟事实表相比 行数相对较少 内容相对固定 维表的应用 基于维属性的过滤 切片 切块等 基于维属性的个中聚集操作 上卷 下钻 报表中各类标签的主要来源 事实表通过维表进行应用 Snowflake Schema Model Time Table Week id Period id Year id Dept Table Dept id Dept desc Mgr id Mgr Table Dept id Mgr id Mgr name Product Tabl

14、e Product id Product desc Item Table Item id Item desc Dept id Sales Fact Table Item id Store id Product id Week id Sales amount Sales units Store Table Store id Store desc District id District Table District id District desc 慢变维 SCD 相对与事实表 维表的内容稳定 新的事务或交易不断产生 新产品的加入却相对较少 新商场的开张更少 有些维度内容尽管变化相当缓慢 但维度

15、属性可能随着时 间发生变化 客户地址发生变化 商场根据地域进行分组 或者由于企业重组 地域的划分也随之 改变 数据仓库的生成 Extract 数据的抽取 Transform 数据的转换 Clean 数据的清洗 Load 数据的装载 数据抽取 转换和加载 ETL Effective data extract transform and load ETL processes represent the number one success factor for your data warehouse project and can absorb up to 70 percent of the ti

16、me spent on a typical data warehousing project DM Review March 2001 SourceTargetStaging Area 抽取 转换和加载 ETL 过程 抽取源数据 转换 清除数据 索引和相加 加载数据到数据仓库 检测修改 更新数据 Operational systems ETLData Warehouse Programs Tools Gateways ETL 任务 重要性和费用 Operational systems 相关性 实用性 可靠性 准确性 操作性 Data Warehouse ETL 抽取 清洗 整合 重构 装载 维持 更新 Warehouse database 抽取数据 Source systems Data from various data sources in various formats Extraction Routines Developed to select data fields from sources Consist of business rules audit trails er

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 环境科学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号