数据质量DCI测量实现设计

上传人:人*** 文档编号:489626945 上传时间:2024-01-10 格式:DOCX 页数:7 大小:244.03KB
返回 下载 相关 举报
数据质量DCI测量实现设计_第1页
第1页 / 共7页
数据质量DCI测量实现设计_第2页
第2页 / 共7页
数据质量DCI测量实现设计_第3页
第3页 / 共7页
数据质量DCI测量实现设计_第4页
第4页 / 共7页
数据质量DCI测量实现设计_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《数据质量DCI测量实现设计》由会员分享,可在线阅读,更多相关《数据质量DCI测量实现设计(7页珍藏版)》请在金锄头文库上搜索。

1、数据质量 DCI 测量实现设计1 数据质量量化指标定义1.1 量化指标维度测量过程量化应用说明完备性测量#12不可为空的字 段需要被填充N空值率=测 量的空值记录 数/测量的总 记录数越低越好,理论上空值率必 须等于0%完整性测量#13重复数据删除 (标记)R重复率=测 量的重复记录 数/测量的总 记录数越低越好,要求单字段有主 键的特性,如果某待测系统 没有任何具有主键特征的 字段,此维度与完备性合并R = N测量#14重复数 据历史性比较(合 理性,只适合有合 理性预期的字段, 比如性别比例)难以量化一致性测量#30合理性检查, 值的记录数分布与过去 填充相冋字段的数据实 例做比较(只适合

2、有合 理性预期的字段),前 后一致F填充率=1-测 量的空值记录 数/测量的总 记录数。总体上看,越高越好。高低 与业务相关,可以说是数据 密度。还是测量填充率,表 明该字段有多少数据,这属 于业务上的要求,而不是数 据库的范式要求及时性测量#49, DCI增量抽取 数据的更新或新数据的 条数U更新率=测 量的抽取间隔 中发生的更新、 新增记录数/ 测量的总记录 数咼低与业务相关,系统范围 来看越咼越好,新增、更新 频繁间接表明数据比较及 时有效性测量#27将数据与既定 的域(参照表,范围或 数学规则)中的有效值 做比较C合规率=1- 测量的不符合 码值的记录数 /测量的总记 录数越高越好表1

3、1. 完备性2. 完整性3. 一致性4. 及时性5. 有效性指标解读:指标反应某个数据字段的数据质量,量化指标由测量根据规则计算得到,测量是 对某个数据值的数据质量表示。从指标量化的定义上,可以看出FRUC指标是字段级的指标, 是对字段的数据质量的表示。产品功能上需求测量数据,并计算指标。要求测量后返回如下监控结果。电-FtCfl-旌曙号接口*字凰主K值河辭嗽工扱木情也SFZHGH0023342充整性附肯证号慌艮悄3D1fl.11.1T也伯虎DCKJIQCH滋工毎丰盲払XM0937716垃名世蛊小于2字转201.11.17阳日虎DGO03CCH執対拒口ZZDSDKt :学英 EJ哙邂瞬原弓绘E

4、Q-鼻處 电珀乏外朗号音字駛 谆自管悄3D1-B.11.1T6676910 I 龙阳 2021缭|.决數测量:a. 是否为空,返回空数据b. 是否重复,返回重复数据c. 是否新增,返回新增记录d. 是否更新,返回更新记录e. 是否满足取值范围(码值范围),返回不满足取值数据其中测量C,d无法做到单个数据值的测量,可以做到记录行级的测量,指标U更高一级,是 对表的数据质量的表示。1.2 Q 值Q 值=Q(N, F,U,R,C) = ( ( 1 N 空值率)+ (1 R 重复率)+ F 填充率 + U 更新率 + C 合规率 )5 )* 100%从数据质量维度出发,我们可以定相应的归一量化指标,分

5、别是空值率、填充率、重复 率、更新率与符合率。参见 错误!未找到引用源。1.3 测量级别定义测量级别适用测量数据值a,b,e记录行c,d字段F,R,C表Q,U数据源系统Q2 测量需求目前数据质量产品不实现测量计算过程和规则定义,只时间测量结果的展示。展示的信息需要完全开发DCI作业实现,DCI测量可分解成一下几个步骤。2.1 划定测量范围人工手动确定测量范围,需要测量的源数据的系统名,表名,字段名,待测指标。其中单个 字段只定义一个测量指标。表样:系统名表名表中文名表 主 键字段 名字段中文名测 量 类 别质量维 度取值范围问 题 描 述教务系统JW ZYXXSJLB专业数据ZYHZYH专业号

6、b完整性教务系统JW_ZYXXSJLB专业数据ZYHZYMC专业中文名 称b完整性教务系统JW ZYXXSJLB专业数据ZYHZYFXH专业方向a完备性教务系统JW ZYXXSJLB专业数据ZYHSSXK所属学科a完备性教务系统JW ZYXXSJLB专业数据ZYHXZ学制a完备性教务系统JW_ZYXXSJLB专业数据ZYHPYCC培养层次e有效性CODE: 01,DESC :本科 ,CODE: 02,DESC :专科 ,CODE: 03,DESC :专升本 2.2 设计 DCI 实现2.2.1 测量类别机讦珀态占QL生成记录=邑 空操作Jsy3_de1ailed_recond DETAILED

7、_RECORD_OUT record_de3c2.2.2 测量类别生成记录执行诙态SQL字段选择JH,ElI1 1 二一12.2.3 测量类别 c动.口 =1111 IIIIX IDETAIL!Hl ICi *itAr. -h-c&ol切先择sy s_d etall ed_recard ETAILE _RECORD_OUTrecord desc兰:=hidr2.2.4 测量类别 d过执Frecord deecs !s_de1a le d_re cord d ETAlLED_RE CORO_OUTHH生成记录III !=* I更靳记示E.n-】旳七sql*豳隆T.lll-.2.2.5 测量类别

8、eDETAJLIRECORD i-亜过吒迺花I: I;总丘sys_dst3 lad_rflCQid DETAIl_ED_RECORD_OUT加El左HLrecard_d05c生成记录J son 5biAcode2.3 测量 ALL_IN_ONE歩律名称Sxviteh 实自桂胚共串芭含r应3c沪uiifS式匚*m昏嵋烷将号I I再使用作业调用转换时传入参数:根据测量类别分发执行不同的数据质量测量。ZYXXEJLB:ZVH5SJLB7YMCSJLB:SSXKJW ZYXXSJLB:PYCCEE关于个转涣即。b信息懑: T 问名穂 JW.ZYXX$JLB;XZTransformation specification Advanced 日志 ParametersPass all parameter values down to the sub-transformation 包#ParameterStream column nameValue1CODE2COLUMNXZ3DIM24KEYSZYH5TABLEJW_ZTOCS 儿 B6TYPEa

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号