数据质量管理解决方案

上传人:枫** 文档编号:561555911 上传时间:2023-08-19 格式:DOCX 页数:10 大小:357.24KB
返回 下载 相关 举报
数据质量管理解决方案_第1页
第1页 / 共10页
数据质量管理解决方案_第2页
第2页 / 共10页
数据质量管理解决方案_第3页
第3页 / 共10页
数据质量管理解决方案_第4页
第4页 / 共10页
数据质量管理解决方案_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《数据质量管理解决方案》由会员分享,可在线阅读,更多相关《数据质量管理解决方案(10页珍藏版)》请在金锄头文库上搜索。

1、数据质量管理解决方案设计原则对检核指标进行分类,按照大类归属,在每个大类下设定具体的数据质量检核指标,指标分类如下:度里标准度量标准定义完整性主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面及时性指数据提取、传送、处理、装载、展现的及时和快速性合法性主要包括格式、类型、值域和业务规则的有效性唯性指主键唯和候选键唯两个方面一致性指不冋系统之间的数据差异和相互矛盾的一致性准确性一个数据值与设定为准确的值之间的一致程度,或与可接受程度 之间的差异平台架构设计平台功能架构如据笊量:问麵査询甫祈一致性脅析振音捺口异歳村折播吿I功一魁爲J功能层用量检核功寵逻辑架构中,将整个数据质量管理平台分成四个

2、部分源系统层存储层功能层 表示层平台应用架构RM业岭希牌枝逸-凰阳第斋和蚓:族韦 數盪-塗慨虚吉盘件額吐段 文件刍记耳第平台检核架构3L呆耽绘打卜山山、丈升:lt?, ipi记爪敌问”,典炼IlhJY/IWTExtract申jWfT raTftromi 卜曲昭T insfbmi业务辄程H标数 据文件Rrieeii也龈咛A戟堀预处理检核架构分为三个部分接口文件检核 Reject文件检核 对业务指标/规则的检核关键稽核指标设计指标大类指标小类指标分类描述技术指标元整性接口文件指标接口文件在传输过程中的完整性数据记录指标记录数字段类指标字段缺失业务指标完整性客户信息类客户信息缺失账户信息类关键信息缺

3、失技术指标合法性字段类指标字段类型完整性值域类指标字段代码有效性业务指标合法性业务关系类指标业务间关联关系检查业务发展趋势类指标业务指标趋势技术指标及时性数据传输指标数据在传输过程中的及时率等数据处理指标数据的ETL处理及时率等技术指标一致性表间一致性物理表主外键的检查业务指标一致性业务统计指标一致性系统业务指标与源系统提供的业务指 标的一致程度业务指标准确性业务指标区间业务指标在给定范围内的准确度唯性主键唯性表内主键唯性1. 项目目标本着结合实际可执行和可实现的原则,分析目前企业存在的数据质量问题,本项目将目标分为 两部分数据质量的分析和检测流程,数据质量的管理指导方案。分析与检测:着重于在

4、数据的定义基础上,利用数据的逻辑和业务规则对数据质量进行检测和 分析;改进与管理:着重于在数据的分析和检测基础上,利用其结果对数据,特别是源系统的数据管 理提出改进意见,制定数据质量的管理制度;2. 项目成效 可为改善企业数据质量提供参考依据和解决方案; 可为建立数据质量管理制度提供指导方案; 降低数据质量的维护成本,提高数据可信度; 用作主数据管理( CID,PIM ),数据仓库,数据中心,数据管理等系 统在建设中的参考;3. 项目背景 目前企业存在多地区,多产品,多业务,多系统的环境,在数据信息,报表统计, 业务分析和业务元定义上存在数据不一致,不完整,不统一以及不真实和不及时 的情况,这

5、样让业务人员,管理者,信息使用者存在误解,导致决策出现偏差, 同时低下的数据质量往往造成开发出来的系统与用户的预期大相径庭,而在维护 阶段,也出现维护成本不断上升,工作量加大,系统难以扩展。这样的情况急切 等待数据质量管理的标准和指导方案.4. 项目概要深层剖析源数据,分析各个源系统的数据存储的结构,包括表数据,视 图数据,Excel数据等以及计算公式,比较方式,查看数据方式等等,记录其相 关性,定义业务元在各系统中的语义和与数据的关联,建立数据的一致性、完整 性、唯一性和准确性的定义标准和业务关联规则,数据校验引擎利用其规则对数 据进行校验,将校验结果按照准确到严重错误分成若干等级,针对不同

6、的校验等 级,对数据进行处理,需要人工处理的,必须提供相关的UI接口就行数据修正, 或者发出预警,通知源系统需要更新的数据。同时将对数据校验结果进行分析,并输出相应的报表结果,管理者可根据报表分 析,对源数据质量进行管理。管理者对数据的管理反馈到源数据的数据质量上,影响下一次数据的校 验,继续分析校验结果,依次循环,达到提高数据质量的效果,让数据的质量管 理形成良性循环,逐步提高。5. 项目范围本项目是针对企业在建设数据仓库,数据挖掘和数据中心中存在的数据质量问题提出的解决方案和指导评估标准,所以数据质量管理模型项目是 数据质量管理规范和数据质量问题的解决方案,不是软件和产品,更不 是数据模型

7、和 ETL 模型; 只针对重构数据和目标数据进行修改,而不对源数据进行修改; 提供源数据的检测分析以及质量报告,不对业务模型进行分析; 可以用作主数据管理,数据仓库和数据挖掘系统作为参考,但不包含此 类系统的构架模型 ;6. 总体构架项目涉及到数据质量的分析和验证,因此有数据的分析流程和数据的管理流 程,如下图數据分析与定更部分幣-性定义数据质量分析流程图槪讥记量濂数据统汁E7L过段问題疫礙与管理兀蚁据袴储伽N研究院&血Z/iw数据戊憾数据V-.数据质量管理流程图针对上图,首先是分析源数据系统,从业务和数据本身的角度剖析,包括对数据源中存储 的逻辑定义,表结构,视图结构,约束,触发器,唯一性等

8、等,得出相关的定义。由定义以及 定义的关联产生相应的业务规则和数据逻辑规则。数据的验证引擎利用这些产出的规则,对源数据和目标数据进行校验,并对应校验规则保 存校验结果;修正引擎用业务和数据逻辑的修正规则对校验结果进行自动修正和提供手动修正 接口,同时保留修改前后的记录;在数据质量管理模型中,需要对数据检验结果和修正结果进行分析,利用校验结果发现数 据源和数据流程中存在的问题,同时可以参考修正记录,对数据的质量提出适当的改进策略, 并采取适当的行为。我们有以下主要任务: 源系统剖析 源数据剖析的深度和业务层次,来定义数据语义的一致性,将企业相关数 据元就行分析,看看各系统间数据的不同部门对数据的

9、定义,这是确定数 据含义是否一致。 元定义 原系统的数据剖析是对分析各个原系统的数据存储的结构,包括表数据, 视图数据,Excel数据等以及计算公式,比较方式,查看数据方式,都数 据剖析的范围,这需要一个比较可行的方式,对于数据库中的内容,需要 有相应的导出完整数据字典的结构过程,能在 Excel 中修改,也能导入到 制定的表中进行保存,同时还能定期检查表结构是否发生变化。 数据验证 这里的验证有几种,数据结构验证,还有数据一致性,完整性,唯一性和 准确性的验证,每一种验证就需要建立固定的可变化的验证规则,而且验 证规则,验证体,验证结构都需要记录日志和验证结果,同时还需要提供 接口给UI,最

10、好能做到让业务人员自己更新验证规则,自己查看验证过程 和结果,为数据修补引擎提供接口 数据修正 针对不同类型的数据验证规则验证的数据进行更新,有指定规则自动更新 的,有人工干预修改的,主要是能有UI接口,提供修改功能和修改策略, 以及记录修改日志和标记。便于和正常数据区分 元数据管理 数据质量的元数据管理是贯穿整个解决方案体系,从数据剖析到最后的质 量检测和管理部分,记录管理元数据,操作元数据,业务规则元数据,验 证规则和修正规则等元数据,它是数据质量管理模型的灵魂。 检验分析这里的分析报表,如可以利用6Sigma的原理,对数据质量情况进行分析, 可以预先制定标准和参考依据,对数据质量进行等级

11、划分。方便企业制定 数据质量管理制度。也可以按照数据的检验结果,按照不同的数据源划分,检测数据误差来源 点,逐步解决数据质量问题 数据质量管理标准和等级定义 这部分是数据质量管理的汇总部分,借鉴系统剖析,元定义,数据验证和 修正,以及元数据和检验分析等部分的汇总和指标而建立的,意在提出较 完整的数据质量管理标注,并由此划分等级7.任务分解结合本项目的总体结构,可以分为: 数据分析和定义1. 源数据系统剖析范围和标准2. 数据语义的一致性的定义标准3. 数据元的完整性的定义标准4. 数据体的唯一性的定义标准5. 数据描述的准确性的定义标准6. 业务的关联性的定义标准7. 数据粒度的定义标准8. 数据生命周期的定义标准 数据质量问题发现1. 业务规则定义标准和方案2. 数据业务逻辑定义3. 数据量定义4. 数据验证引擎实现方案 数据质量问题修正1. 数据自动修改条件和标准2. 数据手动修改条件和标准3. 数据修补引擎实现方案 数据质量元数据管理1. 数据分析和定义部分元数据存储和管理2. 数据质量问题发现部分元数据存储和管理3. 数据质量问题修正部分元数据存储和管理4. 管理型元数据存储和管理 数据质量检测分析1. 数据质量评估范围2. 检测分析报告内容定义 数据质量的评估标准和等级划分

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号