数据仓库和ETL学习笔记 (2)

上传人:大米 文档编号:495505148 上传时间:2023-05-10 格式:DOCX 页数:9 大小:10.86KB
返回 下载 相关 举报
数据仓库和ETL学习笔记 (2)_第1页
第1页 / 共9页
数据仓库和ETL学习笔记 (2)_第2页
第2页 / 共9页
数据仓库和ETL学习笔记 (2)_第3页
第3页 / 共9页
数据仓库和ETL学习笔记 (2)_第4页
第4页 / 共9页
数据仓库和ETL学习笔记 (2)_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《数据仓库和ETL学习笔记 (2)》由会员分享,可在线阅读,更多相关《数据仓库和ETL学习笔记 (2)(9页珍藏版)》请在金锄头文库上搜索。

1、细心整理数据仓库学习笔记1、维度表的特征(1维度表键。维度表的主键可以唯一确定表的一行。(2维度表很宽。一个典型的维度表会有相当多的属性/列。(3文本属性。维度表中的属性一般是文本格式的。(4非干脆相关属性。维度表中的某些属性常常不会及其中的其他属性干脆相关。(5非标准化。标准化会导致维度表增多,查询效率降低。(6上钻/下钻。维度表中的属性供应了获得从高层次的汇总信息到低层次细节信息的实力。(7多级层次构造。维度表通常会有多种多级层次构造,从而使钻取可以沿着这些多级层次构造中的任何一个进展。(8更少的记录。维度表中的记录通常会比事实表中的记录数更少。2、事实表的特征(1连接的事实表主键。事实表

2、中的一行记录及全部维度表中的相应记录相关。事实表中的主键必需是全部维度表主键连接起来的组合键。(2数据颗粒。数据粒度是指标的微小环节程度。(3完全加和指标。(4半加和指标。如百分比。(5表很长,但是不宽。通常事实表包含的属性比维度表更少。(6稀疏的数据。并不是全部维度属性的组合都会出此时此刻事实表中,没有对应的事实就不会出此时此刻事实表中。(7退化的维度。有些数字属性不是指标也不是事实,这种属性有些是参考数字,如订单数、发票号、订单流水号等,在某些类型的分析中是有用的。(8不含事实的事实表。当事实表表示事务的时候会出现这种状况。3、星型模式的键(1维度表的键要用代理键。(2维度表的主键必需是事

3、实表的外键。(3事实表的主键有3中选择:a一个单独的复合主键,长度是维度表键长度的总和。这种状况下,除了复合主键外,外键必需作为附加的属性保存在事实表中。这种状况增加了事实表的大小。b连接的主键,由维度表的主键连接而成。这样,就不须要将维度表的主键作为附加的属性以外键的形式存放在事实表中了。主键的每一个独立的局部都可以充当外键。c一个生成的主键,及维度表的键无关。除了生成的主键外,全部外键都必需作为附加属性存放在事实表中。这种方式同样增加了事实表的大小。ETL学习笔记1、ETL工具能做什么?从领先厂商的多种关系型数据库中抽取数据从旧数据库、索引文件和平面文件中抽取数据源字段和目标字段从一种格式

4、向另一种格式进展的数据转换执行标准转换、重定义键和构造性变更供应从数据源到目标的检查轨迹抽取和转换中商业规那么的应用将源系统中的几个记录组合成一个整合的目标记录元数据的记录和管理2、ETL处理过程的主要步骤(1确定数据仓库中须要的全部目标数据(2确定全部的数据源,包括内部和外部(3准备从源到目标数据元素的数据映像关系(4建立全面的数据抽取规那么(5确定数据转换和清洗规那么(6为聚集表制定准备(7组织数据缓存区域和检查工具(8为全部的数据装载编写规程(9维度表的ETL(10事实表的ETL3、数据抽取的要点数据源确认确认数据的源系统和构造抽取方法针对每个数据源,定义抽取过程是人工抽取还是基于工具抽

5、取抽取频率对于每个数据源,确定数据抽取的频率,每天、每星期、每季度,等等。时间窗口对于每个数据源,表示抽取过程进展的时间窗口。工作依次确定抽取任务中某项工作是否必需等到前面的工作成功完成才能起先。异样处理确定如何处理无法抽取的输入记录。4、数据转换根本任务(1选择,选择数据源,发生在整个数据转换过程的起先局部,通常构成了抽取功能本身的一局部。(2分别/合并,在数据转换过程中对局部源记录进展进一步分别操作。在数据仓库环境中,对很多源系统中选中局部的合并操作时更加普遍的现象。(3转化,这是一项包含一切的任务,它包括多种对单独字段的根本转化。(4汇总,把低粒度的数据汇总。(5丰富,对单个字段数据进展

6、重新支配和简化的过程,使他们对数据仓库环境更有用。5、数据转换的主要类型(1格式修正。如数据类型和字段长度。(2字段解码。解决一样数据项用过多字段值描述的问题。如性别有的远系统用1、2表示,有的用M、F表示。(3计算值和导出值。(4单个字段的分别。字段拆分。(5信息的合并。将来自不同数据源的对同一实体的描述信息合并,成为一个新的实体。(6特征集合转化(7度量单位的转化。将不同标准的度量单位转换成一样的标准度量单位。(8日期/时间转化。将日期和时间转换成统一格式。(9汇总。创立装载数据仓库的汇总,而不是载入大局部的低粒度数据。(10键的重新构造6、高质量数据的特征(1精确性。存储在系统中的关于一

7、个数据元素的值是这个数据元素的正确值。(2域完整性。一个属性的数值在合理且预定义的范围之内。(3数据类型。一个数据类型的值通常是依据这个属性所定义的数据类型来存储的。(4一样性。一个数据字段的形式和内容在多个源系统之间是一样的。(5冗余性。一样的数据在一个系统中不能存储在超过一个的地方。(6完整性。系统中的属性不应当有缺失的值。(7重复性。完全解决一个系统中记录的重复性的问题。(8构造明确。在数据项的构造可以分成不同局部的任何地方,这个数据项都必需包含定义好的构造。(9数据异样。一个字段必需依据预先定义的目的来运用。(10清楚。一个数据元素可能拥有数据质量的全部其他特征,但是假如用户不能清楚地

8、了解它的含义,那么元数据对于用户就毫无含义。正确的命名习惯可以帮助用户更好地理解数据元素。(11时效性。用户确定了数据的时效性。假如用户盼望客户维度数据不要超过一天,那么源系统中的客户数据的变更就必需每天都应用到数据仓库中。(12有用性。数据仓库中的每一个数据元素必需满足用户的一些需求。数据元素可能是正确的、高质量的,但是假如对于用户没有价值,那么数据仓库中的这个数据元素就是完全没用的。(13符合数据完整性的规那么。源系统中的关系数据库中存储的数据必需符合实体完整性和及参照完整性。允许运用空值作为主键的任何数据表都不具备实体完整性。参照完整性迫使正确地建立父子关系。在一个客户和订单的关系中,参

9、照完整性保证了数据库中一个客户全部订单的存在。7、数据质量问题类型列表(1字段中的虚假值(2数据值缺失(3对字段的非正规运用。姓名字段不能放性别。(4晦涩的值(5相互冲突的值。源系统中有一些相关字段的值必需是兼容的。如地区和邮政编码必需匹配。(6违反商业规那么。如一年不能超过365或366天。(7主键重用。(8标记不唯一。如同一个产品在销售系统和库存系统产品代码不一样。(9不一样的值。如性别在不同的系统中编码不一样。(10不正确的值(11一个字段多种用途(12错误的集成8、数据污染的来源(1系统转换2 数据老化 3 困难的系统集成 4 拙劣的数据库设计 5 数据输入的不完整信息 6 输入错误

10、7 国际化/本地化 8 欺诈 9 缺乏相关政策 9、 l l l l l l l l l 数据清洗工具所能完成的一些典型的错误发觉功能 便利快捷地识别重复记录 辨别出那些超出合法域值范围的数据项 找出不一样的数据 检查允许值的范围 检查不同来源的数据项的不一样性 允许用户辨别和确定数据质量问题的数量 监考数据质量虽时间变更的趋势 向用户报告分析所用数据的质量 解决关系数据库管理系统数据参照完整性问题 10、 数据清洗工具所能完成的一些典型的错误修正功能 l l l l l 标准不一样的数据 改善不同数据源中数据的合并过程 对属于同一个家庭的客户记录进展分群和关联 供应数据质量的衡量指标 使允许的数值生效

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号