《数据仓库层次结构规范》由会员分享,可在线阅读,更多相关《数据仓库层次结构规范(10页珍藏版)》请在金锄头文库上搜索。
1、数据中心规范数据中心规范 (征求意见稿) 一一 数据仓库层次结构规范数据仓库层次结构规范 1.1 基本分层结构基本分层结构 系统的信息模型从存储的内容方面可以分为,STAGE 接口信息模型、 ODS/DWD 信息模型,MID 信息模型、DM 信息模型、元数据信息模型。 在各个信息模型中存储的内容如下描述: 1) STAGE 层(对应原来数据模型的层(对应原来数据模型的 SRC 接口层接口层)信息模型:信息模型:提供业务系统 数据文件的临时存储, 数据稽核, 数据质量保证, 屏蔽对业务系统的干扰, 对于主动数据采集方式, 以文件的方式描述系统与各个专业子系统之间数 据接口的内容、 格式等信息。
2、与该模型对应的数据是各个专业系统按照该 模型的定义传送来的数据文件。STAGE 是生产系统数据源的直接拷贝, 由 ETL 过程对数据源进行直接抽取, 在格式和数据定义上不作任何改变。 与生产系统数据的唯一不同是,STAGE 层数据具有时间戳。 STAGE 层存在的意义在于两点: (1) 对数据源作统一的一次性获取,数据仓库中其他部分都依赖于 STAGE 层的数据,不再重复进行抽取,也不在生产系统上作运算,减小 生产系统的压力; (2) 在生产系统数据已经刷新的情况下, 保存一定量的生产系统的历 史数据,以便在二次抽取过程中运算出错的情况下可以进行回溯。 2) ODS/DWD 层(对应原模型的层
3、(对应原模型的 ODS 和和 DW 层)信息模型层)信息模型:简称 DWD 层 是数据仓库的细节数据层,是对 STAGE 层数据进行沉淀,减少了抽取的 复杂性,同时 ODS/DWD 的信息模型组织主要遵循企业业务事务处理的 形式,将各个专业数据进行集中。为企业进行经营数据的分析,系统将数 据按分析的主题的形式存放,跟 STAGE 层的粒度一致,属于分析的公共 资源。 3) MID 信息模型信息模型:轻度综合层是新模型增加的数据仓库中 DWD 层和 DM 层之间的一个过渡层次,是对 DWD 层的生产数据进行轻度综合和汇总 统计。轻度综合层与 DWD 的主要区别在于二者的应用领域不同,DWD 的数
4、据来源于生产型系统,并为满足一些不可预见的需求而进行沉淀; 轻度综合层则面向分析型应用进行细粒度的统计和沉淀。 PDF 文件使用 “pdfFactory Pro“ 试用版本创建 4) DM 信息模型信息模型:为专题经营分析服务,系统将数据按分析的专题组织成 多维库表的形式存放, 属于分析目标范畴的数据组织与汇总, 属于分析的 专有资源。其信息主要来源于 DWD 和 MID 层汇总,反映实时的经营状 况,时间维度为天。而历史经营状况的分析,时间维度一般为月,同时也 具有季度、年这样的维度。 5) MDW 元数据信息模型:元数据信息模型:描述数据及其环境的数据, 即是对数据资源的描述,是信息共享和
5、交换的基础和前提,用于描述数据集的内容、质量、表示方式、空间参考、管理方式以及数据集的其他特征。一般来说,它有两方面的用途。首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护, 元数据机制主要支持以下五类系统管理功能: ()描述哪些数据在数据仓库中; ()定义要进入数据仓库中的数据和从数据仓库中产生的数据; ()记录根据业务事件发生而随之进行的数据抽取工作时间安排; ()记录并检测系统数据一致性的要求和执行情况; ()衡量数据质量。 1.2 各层物理表前缀各层物理表前缀 在构建数据仓库时,至少应该具备以下物理几层:
6、联通数据模型规范要求的层次 数据中心物理模型层次名称 物理表前缀 维度数据层 DIM_ 展示层 DM_ 数据集市层(DM) 主题域 DW_F_ 轻度汇总层(MID) 轻度汇总层 DW_M_ 细节数据层(ODS/DWD) 细节数据层 DW_V_ 接口层(STAGE) 接口层 SRC_ 1.3 数据库对象命名规范数据库对象命名规范 所有数据库对象名称均使用 26 个大写英文字母、 下划线或数字来命名, 并不得以下划线开头。 PDF 文件使用 “pdfFactory Pro“ 试用版本创建 1.3.1 用户用户 用户名和表空间的名称应该采用同系统应用相似的英文字符或字符缩写,表空间所 对应的一个或多
7、个物理文件名也应有相关性。 用户创建的数据索引最好和数据文件分开存放 在不同表空间,以减少数据争用和提高响应速度。 以上从逻辑上分出的各数据层应当在数据库中用户实现其分离,规定如下: 数据层名称 用户 物理表 备注 接口层 SRC SRC 沉淀数据层 DW DW_V,DW_M,DW_F 数据集市层 DM DM_ 元数据层 MDW MDW_ 目前未设计 维度数据层 DIM DIM_ 1.3.2 数据库表空间数据库表空间 数据库表空间命名,原则上以数据仓库的基本分层结构为准,以 TBS_作前缀,为避免单个表空间数据量过大, 带来管理上的不便或者引起 I/O 瓶颈, 对于 STAG 和 ODS/DW
8、D 数据量比较大的层,可采用多个表空间存储数据,单表空间容量不要太大,以便于业务划分和存储管理为原则,建议单表空间容量控制在 800G 之内,表空间数据文件建议值为 4G。 数据表空间数据表空间 数据仓库分层结构 用户 表空间名 数据文件/裸设备 STAG SRC TBS_STAG001 TBS_STAGXXX 2G= 单 设 备 文 件=8G,建议值:4G TBS_DWV001, , TBS_DWVXXX 放 dw_v 开头的表 INDX_TBS_DWV 索引表空间 ODS/DWD DW TBS_DWM001, 放 dw_m 开头的表 PDF 文件使用 “pdfFactory Pro“ 试用
9、版本创建 , TBS_DWMXXX INDX_TBS_DWM 索引表空间 TBS_DWF001 放 dw_f 开头的表 INDX_TBS_DWF DWF 索引表空间 MID MID TBS_MID 同上 TBS_DM 同上 DM DM INDX_TBS_DM DM 索引 MDW MDW TBS_MDW 同上 DIM DIM TBS_DIM 同上 1.3.3 数据库表命名规范数据库表命名规范 表名长度不能超过 28 个字符, 表名中含有单词全部采用单数形式, 单词选择能够概括表内容的一个或多个英文单词,多个单词间使用下划线分割,单词如果过长可以使用缩写形式。 命名规则如下: 表的类型 前缀 层次
10、 说明 示例 维度表 DIM_ DIM DIM_+主键 客户视图 DW_V_USER_ DW_M_USER DW 产品视图 DW_V_PROD_ DW_M_PROD_ DW 市场营销视图 DW_V_MART_ DW_M_MART_ DW 三个视图 发展域 DW_F_DEV_ DW 8 个主题域 根据业务具体分为: 移动业务 DW_F_DEV_M_ 智能网 DW_F_DEV_I_ PDF 文件使用 “pdfFactory Pro“ 试用版本创建 数固 DW_F_DEV_D_ 收入域 DW_F_INCO_ DW 同上 使用域 DW_F_USE_ DW 同上 增值域 DW_F_INC_ DW 成本域
11、 DW_F_COST_ DW 资源域 DW_F_RES_ DW 竞争域 DW_F_COMP_ DW 服务域 DW_F_SERV_ DW 1.3.4 数据库分区表规范数据库分区表规范 对于海量数据表要考虑设计为分区表。 一般情况应该采用“月份”作为分区。分区的名称应该如“PART200504”这样的形式。 如按日建子分区,子分区名称形式如下:PART200504_SUBPART_01 1.3.5 数据库表索引数据库表索引 命名以 IDX+表名+一位流水号.例:IDX_ODS_BUSI_USER_1;如果表名过长可以使用 缩写形式 1.3.6 数据库表键值数据库表键值 主键命名以 PK+表名+一位
12、流水号(19).例: PK_DEPT_1 ;如果表名过长可以使用缩 写形式 外键命名以 FK+表名+一位流水号(19).例: FK_DEPT_1;如果表名过长可以使用缩 写形式 PDF 文件使用 “pdfFactory Pro“ 试用版本创建 1.3.7 数据库字段命名规范数据库字段命名规范 数据库字段名中含有单词选择能够概括表内容的一个或多个英文单词, 多个单词间使用下划线分割,单词如果过长可以使用缩写形式。 一些基本字段名示例: 用户 id USER_NO 用户数 USER_COUNTS 话单数 CDR_NUM 通话时长 CALL_DURATION 计费次数 MOBILE_TIMES 每个
13、字段必须有注释,并且在生成 SQL 脚本时一并生成,创建表时必须创建注释。 保持字段名和类型的一致性, 同一字段名在不同表中必需保持同一数据类型。 数据类型长度在定义时应稍大于目前标准的长度,用空间来换取将来变更带来的不便。 1.3.8 数据库存储过程规范数据库存储过程规范 (1)存储过程命名规则:P_目标表。 (2)存储过程要求有注释,注释内容为:列出创建人,创建用途,创建时间。 (3)存储过程日志规范: 每一存储过程均应记录执行存储过程的日志信息。必须调用专用写日志的存储过程,同时有 exception 时的处理机制。 (4)存储过程修改规范 修改时应注释清楚修改人,修改日期,修改原因和修
14、改内容。 1.3.9 数据库函数命名规范数据库函数命名规范 函数命名规则 F_功能,比如 F_TRAN_AREA。 1.3.10 据库触发器的命名规范据库触发器的命名规范 触发器以 TR 作为前缀,触发器名为相应的表的别名加上后缀,INSERT 触发器加PDF 文件使用 “pdfFactory Pro“ 试用版本创建 _INSERT , Delete 触发器加 _DELETE , Update 触发器加 _UPDATE , 如: TR_CUST_INSERT。 1.3.11 序列命名规范序列命名规范 序列以 S 作为前缀,序列命名规则为 S_字段别名。 二二 实施流程规范(完善中。 。 )实施
15、流程规范(完善中。 。 ) (1)规划 对实施计划的规划. (2)设计 设计实施方案(包括统一模型的修改)。 (3)实施 具体实施过程。 (4)测试 对实施结果测试。 (5)反馈 对实施过程中收集到的相关信息(系统需求、实施中遇到的问题和测试结果等) 反馈到相关部门和人员。 三三 数据库安全管理规范数据库安全管理规范 为了规范管理, 做好经营分析数据仓库的安全管理工作, 实现不同的责任人不同的层次, 将用户权限尽可能的管理起来同时又不影响正常工作,需要对数据库进行安全管理。 数据库安全管理从以下几个方面来进行: 3.1. 用户组管理用户组管理 对用户进行分类,目前经营分析应用用户可以分为如下几部分 前台程序开发人员 数据库开发人员 数据库管理员 外部使用人员 数据库管理人员由项目经理和数据经理来掌控,一般情况下不得使用 DBA 角色登陆数 据库。 PDF 文件使用 “pdfFactory Pro“ 试用版本创建 数据人员使用数据库开发人员角色登陆, 每个数据人员一个用户, 归属数据库开发人员 组。 前台程序开发人员,由界面开发人员使用,可以查看所有的表,但是无法进行 DDL 操 作。 外部使用人员,主要是面向联通用户和临时用户 3.2. 用户权限设定用户权限设定 对