数据质量评价模型的建立和实现

上传人:大米 文档编号:489343788 上传时间:2023-05-16 格式:DOCX 页数:3 大小:13.18KB
返回 下载 相关 举报
数据质量评价模型的建立和实现_第1页
第1页 / 共3页
数据质量评价模型的建立和实现_第2页
第2页 / 共3页
数据质量评价模型的建立和实现_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《数据质量评价模型的建立和实现》由会员分享,可在线阅读,更多相关《数据质量评价模型的建立和实现(3页珍藏版)》请在金锄头文库上搜索。

1、摘 要本文提出了数据质量评价模型、质量校验与评价方法,论述了 “数据质量 分析评价系统”的程序实现流程、总体结构及功能,介绍了系统的关键技术及进一步的 研究方向。关键词质量模型质量检验质量评价数据作为一种资源,是支撑信息化建设和应用的主体,根据“进去的是垃圾,出来的 也是垃圾”这条原理,为了支持正确决策,就要求我们所管理的数据可靠,没有错误,能够准 确地反映采油厂的实际情况。胜利采油厂数据中心存放了5千万条的数据,还在以每天 2万条的速度加载,如何使这些海量数据在生产管理、科学研究、企业决策中发挥应有 作用,使用户能用、敢用、愿用,使数据真正为企业服务,这是几乎所有信息化企业亟 需迫切解决的问

2、题。为解决数据质量问题,各种管理手段、技术手段和新的数据评价体 系不断被应用在数据的采集和加工过程中。一、数据质量评价模型的提出背景采油厂的数据资源具有:横跨专业多,数据采集密度大、频度高,数据处理流程复 杂等特点,为了保证数据的可用性,数据管理人员在客户端、服务器端均设置了数据质 量审核规则,但是依然不可避免存在比例较高的数据质量问题,典型的有记录不全、数 据遗漏、数据错误、多义字段、矛盾值、违背业务规则、无法关联等。产生数据问题的 根本原因可以归结为以下几个方面:1. 没有从数据资源的战略高度对数据质量进行统一完整的定义,导致数据的分析评 估没有统一可靠的标准;2. 数据质量还停留在定性评

3、价,不能实现精确的量化评价,只是在业务需要某个数据 时,才到库里去手动统计,无法动态记录某个单位、某个月的真实数据质量发生情况,导致 数据质量考核缺乏可信的数据依据,大大影响考核力度;3. 没有一个能同时面对用户、专业部门、数据管理人员的可视化的数据质量监控评 价平台,三方无法共享一个平台,共同实行数据管控一体化,导致业务规则的变更滞后,问 题数据在库中的长期滞留;4. 也许有了 N个业务模型,但是没有把它放到时间轴上去控制流程,导致实际生产中 应该发生的活动的部分生产数据遗漏;虽然影响采油厂数据质量的原因是多方面的,但主要的原因还是集中在管理、制度 和数据采集加工规范化方面。对于如何通过管理

4、、制度、标准和流程来控制数据质量, 提高数据可信度,我们提出建立采油厂统一的数据质量分析评价模型,使用管理手段和技 术手段相结合的办法,建立一套完善的数据定义、控制、评估流程,依托科学严谨的数据 监督和质量控制体系持续地改进数据质量。二、数据质量分析评价模型构成构成数据质量分析评估模型的要素分别为:基础模型、数据质量辅助模型、数据质 量定义模型、数据质量控制模型、数据质量评价模型。1. 基础模型。基础模型部分是整个模型框架的支撑核心部分,其他质量模型的定义 和控制必须以基础模型中的计划和标准为依据。基础模型主要是映射、定义数据采集标 准,上载分单位的采集计划,同时纳入了约束规则定义规范、控制规

5、则定义规范、模板定 义规范。数据标准:分两部分,一部分是直接映射应用中的标准,例如源数据库标准;另一部分 是针对新增应用库和项目库标准的定义规范,包括代码定义标准、数据项定义标准(例如 是取英文还是汉语拼音,取几个字符)、值域定义标准等等新增表准的建立规范;采集计划:采集单位的每月上载的日度、月度、年度的采集计划;约束规则定义规范:主要描述质量定义模型中的语法构成;控制规则定义规范:针对服务器负载和采集表的及时性要求建立的后台执行过程的 控制方式的使用说明;2. 数据质量定义模型。数据质量定义模型的建立实现了以基础模型为前提对数据质 量的统一规范的定义,是数据质量分析评价的依据和基础。数据质量

6、定义模型可以使用质 量特性描述。数据质量特性归纳为数据的一致性、数据的准确性、数据的完整性、数据 的及时性4个关键特性。(1) 数据的一致性。数据一致性,包括源系统之间同一数据是否一致,源数据与抽取的 数据是否一致,数据中心内部各处理环节数据是否一致等。例如:单井基础信息、油井 日数据中的单元代码应该和本年度的单元代码表保持一致;05应用库中抽取的数据项要 与源头库保持一致等等。一致性的量化评价指标:字段一致率、表间字段一致率、表间记录一致率。(2) 数据的准确性。数据准确性,包括数据源是否准确、数据值域是否符合业务规则 和客观事实、编码映射关系是否准确、处理逻辑是否准确等。例如:作业日记的数

7、据应 该来源于作业队而不是采油队;一天的生产时间最大不可能超过24小时;水井干线压力 要介于040兆帕之间。准确性的量化评价指标:准确率、差错率、问题字段个数、问题记录覆盖率(3) 数据的及时性。数据及时性,包括数据处理(获取、整理、加载等)的及时性,数 据异常检测的及时性,数据处理更新的及时性等,例如:一口井油转水了,采集单位没有及 时更改数据,不仅会影响队到矿,矿到厂的产量,更会影响厂到局的产量和油水井数,而且 取自于该源数据的所有应用系统今天的诊断决策都会发生偏差。数据滞后的更新将严重 影响生产的正常化。及时性的量化评价指标:采集项目及时率;单位入库及时率(4) 数据的完整性。数据的完整

8、性,包括数据源是否完整、数据取值是否完整、实体 类型、属性特征、维度取值是否完整等。例如:要完成井筒的计算机屏幕再现,它所包含 的数据包括钻井数据、固井数据、套管数据、井径测井数据、井斜数据等等这里边存在 多个数据源情况,如果数据源不完整,或者套管数据中缺失数据项下深或者壁厚,井筒就不 可能完整成像。完整性的量化评价指标:字段缺失数、缺失记录覆盖率、计划完成率。3. 数据质量控制模型。数据质量控制模型以数据质量定义模型为基础,按照定义的 检查范围和时间以自动或手工方式完成对数据质量的检查工作。在质量控制过程中违反 了数据质量定义的,视为数据质量问题,数据质量问题直接通过数据质量的关键特性和 指

9、标反映出来。数据质量控制模型的控制内容表现在:对数据检查对象、数据检查频度、 数据检查时间、数据检查方式等方面进行控制。(1) 数据检查对象:是指根据采集计划设定需要检查的用户、专业数据表、数据库实 体。(2) 数据检查频度;是指根据数据表的采集计划和实际发生的频度,设定存储过程的 检查执行频率。(3) 数据检查时间:是指根据每日生产应用的密集时间以及数据发生到采集入库的密 集时间,综合设定一个检查开始执行的时刻。(4) 数据检查方式:是指执行检查过程的方式可以由后台过程自动控制,每间隔2小 时自动检查一次;也可以由人工干预手动检查,任意时刻都可以执行检查(当然尽量选 择数据库流量比较低的时候

10、)。4. 数据质量评价模型数据质量评价模型,是以数据质量定义模型为依据,由数据质量控制模型操控执行, 根据反馈的质量检查结果表,评议出数据质量的关键指标,实现对数据质量的量化诊断 和评价。数据质量分析评价模型功能核心是,通过对基础模型中的采集计划和质量定义模型 中的约束规则的处理,由控制模型调用可以实现检查分析的后台存储过程在实体库中执 行检查,形成查询结果,再由分析程序进行分析、计算、分类、汇总,生成反映采集计划 完成情况和数据质量量化指标的结果,存储到分析结果表中,从前台调用这个分析结果表, 就可以生成一份详尽的反映数据质量问题各类量化指标的数据质量分析评估报告,展现 所评估实体库的数据入

11、库的及时率、数据上报的完整性、数据采集的一致性、数据入库 的准确率。5. 数据质量辅助管理模型数据质量辅助管理包括报告模版管理、权限管理、数据库资源占用情况等等。三、数据质量评价模型的在数据质量评价系统中的实现1. 系统模块构成图数据库采用三层框架结构,数据层用于存储各种质量标准数据、检查与评价过程数 据及结果数据,逻辑层用于质量检查的各种逻辑处理,表现层是通过用户界面将检验与 评价结果以用户易懂的可视化方式表达出来。2. 程序实现流程图四、结论及建议在分析数据质量模型及质量检验工作流程的基础上,“数据质量分析评价系统”实 现了在同一平台下从分析方案制定、质量检查、质量评价、评估报告生成、错误信息反 馈整个工作流程,从而提高了数据质量分析与评价的自动化水平,满足大批量数据质量 控制需要,实现了对数据采集的完整性、及时性、准确性、一致性等关键指标进行量化 分析和评价。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号