数据治理那些事-数据质量1

上传人:hs****ma 文档编号:417278926 上传时间:2023-03-24 格式:DOCX 页数:4 大小:87.53KB
返回 下载 相关 举报
数据治理那些事-数据质量1_第1页
第1页 / 共4页
数据治理那些事-数据质量1_第2页
第2页 / 共4页
数据治理那些事-数据质量1_第3页
第3页 / 共4页
数据治理那些事-数据质量1_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《数据治理那些事-数据质量1》由会员分享,可在线阅读,更多相关《数据治理那些事-数据质量1(4页珍藏版)》请在金锄头文库上搜索。

1、数据治理那些事(7)数据质量1前面讲完了数据标准,包括基础数据标准,指标和标签和画像及主数据,主要讲的数据标准的 各种数据对象,那现状是不是和我们期望的一样呢?通常不是的,正因为现状不一样的,我们才 需要定义标准,如果都一样的,那现状就是标准的,还需要我们做标准吗?因为各个系统历史的 原因和问题,不可能考虑的当时各种需求,还是需求是经常变化的,当时满足,后来可能不满足 了,需求变化是没法避免的,所以才需要标准,标准是为了包容变化的需求的,那通过什么手段 来区分出来目标和现状不同呢,?或者说如何从现实走向目标呢?这是通过数据质量这个手段 来实现,所以说数据标准是数据质量的前提没错吧.本节先讲数据

2、质量方法论,然后再讲实际 数据质量的工作流程和步骤.数据质量管理方法论 业界普遍认可的数据质量定义为:数据对其期望目的的适合度。即:数据质量管理生命周 期及其相关的数据质量管理流程,都要为确保数据满足其自身的预期目标提供相应的方法 和手段。从技术和业务两个层面对于数据应当满足的质量目标进行定义,下表列出了一系列数据质量度量标准,最终的定义应当以规范的形式描述,例如:属性X的缺失率不超过2%。对于派生数据,源数据和转换的规则必须详细说明。Accurac y正确性Completeness 完整性Consistency致性Continuity 连续性Precedence先后顺序Precision精确

3、度Granularity数据粒度Currency当前性Duration数据时间跨度Retention数据保存周期Identit y唯一性Reference参照完整性Cardinalit y数据对应关系Inheritance继承关系Value Set数值集合Relationship依赖关系最终,上面描述的定义和规则将作为数据质量评估计划的输入,数据质量评估计划用来验 证定义和规则的正确性,并且这个计划将详细描述数据必须满足的、适合它预期用途的属 性,即:它定义了数据质量。这个计划将指导初始的数据度量,通常也称为数据剖析(后 面章节将详细说明数据剖析的理论和方法)。影响分析与共性分析完成数据质量目

4、标定义后,需要评估一个特定的数据质量问题在预期的数据使用适合性方 面会带来的影响,根据影响分析,我们可以确定数据质量问题的重要性与优先级别。所谓 共性分析就是分析错误具有的共性,我们期望许多错误都可以归结到某类共同的原因。这 个分析是为下一步追踪根本原因作准备。追踪根本原因 如下的鱼骨图是一个众所周知的用于鉴别数据质量背后根本原因的工具。它反应了需要达到的和实际的数据质量之间的差距原因通常是:信息、流程、技术,人员。预防/修复数据质量问题上图描述了追踪数据质量问题的根本原因可用到的选择。每一个选择都有相关的优点和弱 点。以下为上图的内容解释说明: 数据质量问题原因:导致数据质量问题的根本原因最

5、常见的有人员、流程、业务系统前 端、业务系统数据库、抽取和加载过程,这些方面都有可能产生数据质量问题,对于前3项(人员、流程、业务系统前端)重点在于预防,而对于后3项(业务系统数据库、抽取、加 载过程)则通常通过修复的手段来解决。优缺点:每一类数据质量问题的预防/修复都有其有利和不利的方面,比如:由于人员产生 的质量问题,有利的方面是可以在源头预防,但是不利的地方在于人员往往会疏于管理、 容易遗忘、不同人员的差异性和专注点不同,这些都会不可避免的产生一定的数据质量问 题。涉及数据量:数据质量问题需要修复的数据量有大致的规律,比如人员、流程、前端应用产生的质量问题需要修复的数据量往往不大,而数据

6、库、抽取、加载等后台环节导致的数业务系统据质量问题通常涉及数据量较大。有利因素不利因素涉及数据量源头修正源头修正便于校验便于批量修正便于批量修正便于批量修正管理成本 主观性强执行力度额外的开发量高风险 旦出错影响 极大重复同样错误重复同样错误小小小通常较大通常较大通常较大人员 流程前端抽取加载一预防:修复对于已经发生的数据质量问题,只能通过修复措施解决,但是从长远来看,重视预防措 施,在源头控制错误的产生更为重要。趋势监控一个已知的数据质量问题被修复后,并不意味着这个特定的问题被永远解决了。如果没有 有效的预防措施,错误仍有可能再现。因此我们应当对重要的数据质量问题做持续的监 控。下图是所示的

7、控制图经常被用来做质量问题监控,当错误数在一定浮动范围之内时, 认为质量问题处于可控状态。当监控流程识别到问题,例如当一个已知的数据质量超出了允许的控制范围,流程将需要从该分支返回到步骤三再一次识别根本原因。数据质量度量标准 数据质量的度量标准,分为功能性和功能性的标准: 功能性完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面 唯一性:指主键唯一和候选键唯一两个方面 一致性:指统一数据来源、冗余存储和统一口径的一致性 准确性:指计量误差、度量单位等方面的精确度 合法性:主要包括格式、类型、值域和业务规则的有效性非功能性及时性:指数据刷新、修改和提取等的及时和快速性 安全性:主要包括数据在传输、使用过程中的安全性 扩展性:该系统数据体系在不满足业务需求时进行扩展的可能性与复杂度 除此之外,数据质量度量标准的制定还应从用户的视角进行考虑,重视用户对数据的满意 程度。本节讨要讲数据质量检核的内容和评估的标准维度,数据质量检核首先确立数据质量检核点, 确认数据质量检核的规则,并形成检核脚本,并生成数据检核的结果报告,下节数据质量检核 的详细内容.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号