数据仓库维度模型知识点记录

上传人:m**** 文档编号:561280771 上传时间:2022-09-29 格式:DOCX 页数:4 大小:15.05KB
返回 下载 相关 举报
数据仓库维度模型知识点记录_第1页
第1页 / 共4页
数据仓库维度模型知识点记录_第2页
第2页 / 共4页
数据仓库维度模型知识点记录_第3页
第3页 / 共4页
数据仓库维度模型知识点记录_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《数据仓库维度模型知识点记录》由会员分享,可在线阅读,更多相关《数据仓库维度模型知识点记录(4页珍藏版)》请在金锄头文库上搜索。

1、1. 生命周期a) 业务需求定义i. 收集需求ii. 分析业务iii. 数据仓库建立总线矩阵iv. 项目规划b) 维度建模、i. 建模过程1. 标识需要建模的业务过程2. 声明粒度3. 标识和选择维度4. 标识和选择事实ii. 维度表1. 代理键a) 日期维度可以使用20140101 这样的智能键,智能键可以用来分区2. 渐变维度a) SCD1 直接更新b) SCD2 标记维度的时间作用域,插入新数据,增加新行c) SCD3 不同的列 记录不同时间域的值,增加新列d) 将经常变化属性集合为小维度表3. 退化维度a) 没有对应维度表的非事实属性:类似于订单 ID4. 支架维度/引用维度a) 比较

2、类似于雪花模型,例如顾客的生日属性可以链接到日期维度表。 日期维度表就是顾客维度的支架维度5. 多值维度a) 使用桥接表实现b) 事实与维度的多值关系i. 例如订单的为多商户分成,可以通过一个商户分组链接表实现, 订单事实中记录商户分组的ID,分组链接表中分行记录不同商 户的账号 ID 及其分成c) 维度与维度的多值关系i. 例如用户帐户维度与消费自然人客户维度有多对多关系。因此在 帐户维度表与自然人维度表中加入一个“帐户与客户关系”桥接 表。记录d) 可变层次展示i. 例如职员与职员间隶属关系:可以使用桥接表记录每个职员与其 所有下属之间的隶属距离和其下属的直接上司,就可以层次化的 表示出职

3、员之间关系6. 角色扮演维a) 例如下单日期维度和退款日期维度都是通过视图链接到日期维度表, 这两个维度都是角色扮演维。7. 杂项维度a) 慎用杂项维度b) 将小维度合并组成杂项维度。iii. 事实表1. 事务型事实2. 周期快照事实3. 累计快照事实4. 没有事实的事实a) 例如用户登录行为事实,其只有维度没有度量,那么添加一个值永远 为 1 的 login_cnt 字段为度量,方便 sum5. 面向状态的事实表a) 例如帐户余额其实对应了一个具体的自然人,在自然人的地理位置变 化后,该自然人维度会有SCD 2的转换,可能代理键从1 帐户余 额需要做一个SCD 2的转换,将自然人维度引用该为

4、2其实是为了查 询任意时间点,某个地理位置的帐户余额总和c)物理设计和ETL开发i. 源数据探查1. 出具数据剖析表来记录字段的类型,数据分布等ii. 子系统1. 提取a) 数据剖析:KETTLE有插件datacleaner实现i. NULL 值判断ii. 字符串匹配iii. 数值分布报表iv. 正则表达式匹配等b) 更改数据捕获系统: KETTLEc) 提取系统:KETTLE的INPUT节点的功能2. 清理和一致化: KETTLE 已经实现a) 数据清洗i. 转换数据类型ii. 重命令列等b) 数据检验i.Kettle提供了流读取功能来验证数据是否错误1. 取值范围是否合规2. 关系完整性是

5、否存在3. 是否符合状态机规则(例如没有支付日期时就不应该有支付 状态)4. 一般依赖约束:例如派生列和其父列是否满足约束c) 错误事件模式: KETTLE 的错误流节点i. 过程错误:trans step等出错ii. 数据校验错误iii. 过滤器错误iv. 一般步骤错误v. ETL工具箱中描述的错误事件数据分析表能够起作用d) 审核维度汇编器: KETTLE 通过统计节点实现i.审计事实细节:数据从哪里来,什么时候加载,在那个服务器上加载ii. 数据质量指标:读取了多少记录,过滤了多少记录iii. ETL 工具箱中提供了审计维度的模型e) 重复数据删除:KETTLE的删除节点f) 一致化系统

6、: KETTLE 的 LookUp 映射节点实现3. 装载和发布a) 渐变维度处理b) 代理键生成c) 层次结构管理d) 事实表的管理e) 都可由KETTLE现有节点或者组合不同节点实现4. 管理a) 任务调度系统: KETTLE 有简单实现b) 备份系统:没有c) 版本控制系统:没有d) 排序系统: KETTLE 有e) 谱系和依赖关系分析: KETTLE 可以通过插件实现。f) 监控系统: KETTLE 有简单的免费功能版监控d) 主数据管理i. 模型资源管理1. 类似于UML的模型管理2. 增加了各实体及属性的版本控制3. 实现a) 实体表:用来保存各个实体b) 属性表:用来保存各实体的

7、属性及其各版本对应信息,更改时间等c) 关系表:用来保存各实体间关系4. 用于解决类似于表扩散的问题e) 元数据管理i. 过程元数据1. ETL系统的开始、结束时间,CPU使用率,内存使用,处理数据行数等统 计数据2. 筛选和审计结果3. 数据库或者表使用信息4. 报表查看次数、系统调用次数等ii. 技术源数据1. 源数据系统描述:例如连接方式,账号、密码等2. ETL 调度依赖关系等3. 数据库中元素描述:例如mysql中的元数据4. OLAP 聚集的定义5. 报表的定义iii. 业务元数据1. 数据筛选说明2. 数据字典3. ETL MAPPING4. 业务规则描述:例如SCD类型、空值处理策略等iv. 扩展1.影响分析、血缘分析等其实是根据业务元数据中的ETL MAPPING,将各属 性及其派生属性生成类似于Storm中的业务树类似的有向无环图,从而查 询出其血缘及影响。f) 数据质量i. 属性取值范围约束ii. 关系完整性iii. 状态依赖规则(是否满足状态机模型约束,比如订单支付中状态只能对应支付 表中正在处理状态)iv. 一般性依赖状态:例如派生列依赖于其他列取值v. 数据质量保证的想法1. 通过数据剖析来控制源头数据2. 通过数据检验和错误处理保证处理过程的正确3. 通过审计维度保证处理结果的正确g) 调度系统i.调度跟踪ii.资源分配

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号