数据质量和数据清理在电信数据仓库中的应用

上传人:第*** 文档编号:34097418 上传时间:2018-02-20 格式:DOC 页数:7 大小:403KB
返回 下载 相关 举报
数据质量和数据清理在电信数据仓库中的应用_第1页
第1页 / 共7页
数据质量和数据清理在电信数据仓库中的应用_第2页
第2页 / 共7页
数据质量和数据清理在电信数据仓库中的应用_第3页
第3页 / 共7页
数据质量和数据清理在电信数据仓库中的应用_第4页
第4页 / 共7页
数据质量和数据清理在电信数据仓库中的应用_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《数据质量和数据清理在电信数据仓库中的应用》由会员分享,可在线阅读,更多相关《数据质量和数据清理在电信数据仓库中的应用(7页珍藏版)》请在金锄头文库上搜索。

1、数据质量和数据清理在电信数据仓库中的应用Data Quality, Data Cleaning and Applying to Telecom Data Warehouse关键词:数据仓库;数据质量;数据清理;ETL;构件Keywords: Data Warehouse; Data Quality; Data Cleaning; ETL; Component摘要:在研究数据质量问题相关理论的基础上,面对电信企业高质量数据需求,设计了面向电信应用的数据质量控制体系,接着,详细介绍了包含概念定义层、逻辑规范层和物理实现层三层的数据清理框架,最后描述了采用基于构件的设计模式,实现的以数据清理为主要功

2、能的数据加载(ETL)系统。目前该系统已经应用于某电信运营企业数据仓库项目中,效果显著。Abstract: Based on the research of the theories related to data quality problems, and for the requirements of high level data quality to telecom enterprises, a data quality control architecture oriented telecom applications is designed. A data cleaning fra

3、mework with three tiers, such as notion defined tier, logic normalized tier and physical implemented tier, is discussed. An ETL system for the purpose of data cleaning is implemented by using design pattern based on component. The system is in used by a telecom enterprise, and worked well now.1 引言当今

4、企业已建设或正在建设数据仓库系统以辅助决策,提高其核心竞争力,这需要将长期积累的大量反映各种业务环境的数据,按照相应主题从同构或异构平台,通过一定的ETL 方法和过程将它们进行抽取、过滤、清洗、转换,然后加载到中央数据仓库中进行整合,形成完整的企业业务视图。数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程 1。数据仓库也被看作是一种过程,即对企业中同(异)种数据源中的数据进行整合、加工和分析的过程。ETL(Extraction, Transformation, Loading)即数据抽取、转换和加载,是数据仓库实现过程中,将数据由数据源系统向数据仓库加载的主要

5、过程。现实世界中的数据源极易受空缺、不一致和噪声数据的侵扰。根据 GIGO(garbage in ,garbage out)原理,没有良好的数据质量作后盾,再先进的数据处理技术和分析工具也不能发挥作用,要想数据仓库真正发挥作用,就必须提高业务系统的数据质量。由此看来,数据质量的控制成为数据仓库建设发展过程中越来越引起重视的突出问题,而解决这些问题的过程称为数据清理。数据清理(data cleaning,data cleansing 或者 data scrubbing)在文献2中被定义为:发现和清除数据中的错误和不一致来提高数据的质量。在数据仓库环境下,数据清理是 ETL 过程的一个重要部分,要

6、考虑数据仓库的集成性与面向主题的需要。数据清理目的是检测数据中存在的错误和不一致,剔除或者改正它们,这样就提高了数据的质量 2。业务系统数据清理是提升业务系统数据质量的有效手段,是数据仓库实施过程中数据质量管控的源头,是整个数据仓库项目成功的关键。业务系统数据清理工作一方面能有效提升业务系统的数据质量和系统可用性,另一方面也能有效降低整个数据仓库ETL 的复杂度和工作量,保证数据仓库中的数据质量。2 数据质量问题数据清理主要是针对源数据库,对其中出现二义性、重复、不完整、违反业务或逻辑规则等问题的数据进行相应的清洗操作,在清洗之前需要进行数据质量分析,以找出存在问题的数据,否则数据清洗将无从谈

7、起。21 数据质量定义文献3 中数据质量定义为:数据的一致性(consistency)、正确性(correctness)、完整性(completeness)和最小性(minimality)在信息系统中得到满足的程度。文献4认为:存在数据质量指示器和数据质量参数两类数据质量衡量指标,用户应根据应用的需求选择其中一部分,在此基础上提出了数据工程中数据质量的需求分析和模型。依据文献,结合电信运营企业的特点,对于数据质量,可以从以下四个方面来定义: 完整性(Completeness) ,数据是否按规则填写完整; 正确性(Correctness) ,数据是否满足域定义和业务逻辑要求; 一致性(Consi

8、stency) ,不同系统之间关联的数据在定义、含义、取值及操作等方面是否一致; 当前性(Currency) ,数据是否能够反应当前状态。以上四个方面,我们称之为 4C。高质量的数据应该是完整的、正确的、一致的、当前的。22 数据质量问题的分类文献2 根据处理的是单数据源还是多数据源以及问题出在模式层还是实例层,将数据质量问题分为 4 类:单数据源模式层问题、单数据源实例层问题、多数据源模式层问题和多数据源实例层问题。文献5根据用户角色的不同将数据仓库质量分为四类:设计与管理质量、软件实现质量、数据使用质量以及数据质量。其中每一类又定义了包括正确性、完整性、可靠性等指标。电信数据仓库数据源具有

9、多样性,在实际工作中,以参与人为主题,对几个生产系统进行了信息探索,对数据质量问题在正确性、完整性和一致性基础上做了进一步细分,根据业务专家的经验,采用了 60 个规则对数据质量进行检查。这些规则的分布如下表所示:表 1 分类应用及错误实例大类细类 规则出错实例记录中的关键字段值缺失108 身份证字段为空或不全 完整性 系统设计时缺少必要的字段8 8 无婚姻状况字段数据格式错误 2 2 日期格式错误(20001210.00)内容错误 8 6 用户类型应为“城市用户”的系统数据被定义为“农村用户” ;正确性数据不符合业务逻辑 158 出现安装时间为 “2077-12-10”不同的业务系统之间信息

10、不一致108 地域码在不同系统中定义不同,如长沙市定义为:“CSS” 、 “CS”、 “1351”一致性 业务系统内部不同的表之间信息不一致 7 7 某表按照 num_id 与主用户表进行关联,有部分 num_id 在公共用户表中不存在对本次信息探索中遇到的数据质量问题,对其中代表性问题归纳如下:(1) 在数据模型上,实体语义定义、属性定义、命名规则、编码规则自成体系,难于与其他系统做匹配;(2) 系统间存在同一实体数据记录数不一致的现象;(3) 存在信息残缺现象,缺乏分析所用的部分数据;(4) 系统中存在非结构化数据;(5) 历史数据的准确性完全没有保证。由此可见数据质量的改进存在若干难点,

11、比如:数据量大,数据格式不统一;数据质量标准不容易制定;数据清理的边界不容易定义;生产系统不断升级改造、人员岗位调整等因素容易造成前清后乱等等。23 数据质量控制方法及实现从对数据仓库自身数据的监控到对数据形成过程的管理,数据仓库中用于数据质量控制的方法有很多,但不论何种方法,面向数据仓库的长期建设,必须建立有效的数据质量评估体系。文献6提出:数据质量将逐渐与企业业绩和价值挂钩,企业应当开始采用方法来评估他们的数据质量能力和成熟度,就此提出了数据质量成熟度模型的评估理论。文献7 针对专门的数据质量模型进行计算的质量评估软件不能适应这种动态性的需求,将质量模型的描述作为元数据进行定义,在一个质量

12、元模型下,可以定义多个质量模型。在此基础上提出了一个可扩展的数据质量控制元模型,该元模型是对企业数据质量模型的抽象,由三层组成:核心层、初始层以及扩展层,目的是为企业的数据质量体系定义提供一个完整的框架。电信运营企业的业务需求是非常严格的,在领域专家的协助下,并采用了元模型定义的方法,设计了以下呈螺旋上升趋势的数据质量控制方法模型。如图 1 所示,首先明确清理主题,以及主题域定义的数据源及数据模型;接着对数据源进行抽样分析,对数据问题进行分类;第三步,在业务专家协助下,提出并验证商务规则和清理尺度来确保数据质量;最后,通过对业务规则的巩固和进一步核实,确认数据质量需求。整个过程通过有限循环,最

13、终产生了较完善的业务规则和数据质量分析报告。确 定 清 理 主 题 ( 如 跨 系 统 用 户 数 据 一 致 )与 电 信 专 家 协 商 开 发 业 务 规 则 和 标 准 验 证 业 务 规 则巩 固 业 务 规 则进 一 步 核 实业 务 规 则确 认 数 据 质 量原 系 统 数 据 抽 样 分 析图 1 电信运营企业数据质量控制方法3 数据清理3. 1 数据清理原理存在不完整的、含噪声的和不一致的数据是现实世界数据库或数据仓库的共同特点。数据清理原理就是利用有关技术如数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据 8。数据清理的原理如图 29 所示。脏数据

14、满足数据质量要求的数据业务知识清理算法清理规则手工清理自动清理数据清理图 2 数据清理原理3. 2 数据清理框架数据清理过程必须满足如下几个条件:不论是单数据源还是多数据源,都要检测并且除去数据中所有明显错误和不一致;尽可能地减小人工干预和用户的编程工作量,而且要容易扩展到其他数据源;应该和数据转化结合;要有相应的描述语言来指定数据转化和数据清理操作,所有这些操作应该在一个统一的框架下完成 10。文献11设计了数据 ETL 工具的整体框架,使用通用数据访问接口来屏蔽各种数据源之间的差异,并以数据清理为主要目的,为消除多数据源的模式冲突和数据冲突提供了通用而有效的解决方案。文献12提出了一个数据

15、清理框架,试图清晰地分离逻辑规范层和物理实现层。用户在逻辑层设计数据处理流程,确定清理过程需要执行的数据转化步骤;物理层实现这些数据转化操作,并对它们进行优化;同时文献12提出了一种描述性语言。该描述性语言可以在逻辑层上指定数据清理过程所需采取的数据转化操作,并指定何时可以抛出异常,要求用户的交互。该描述性语言还可以指定一些数据转化操作的参数,比如记录匹配操作所使用的距离函数等。文献13提出了一种交互式的数据清理框架,它由主要的四个部分构成:数据源,数据转换引擎,在线记录器以及自动差异监测器。用户利用系统提供的基本的数据转化操作,无须书写复杂的程序就能够完成数据清洗任务,而且用户能够随时看到每

16、一步转化操作后的结果,没有很长的延迟。不论采用何种清理方法,数据清理过程一般由四个阶段构成:清理主题定义;数据(质量 )分析、定义错误类型;针对分析结果,定义清理技术; 实现程序,搜索识别、修正错误。结合文献12的思想和电信运营企业的具体环境,设计了一个三层的数据清理框架,分别为:概念定义层、逻辑规范层和物理实现层。如图 3 所示。数 据 清 理 主 题客 户 资 料 清 理用 户 资 料 清 理订 单 数 据 清 理产 品 和 服 务 清 理套 餐 和 协 议 清 理帐 单 数 据 清 理质 量 分 析 、 定 义核 对 有 效 客 户 数数 据 源 间 资 料 对 比 、 核 实补 充 缺 失 的 客 户 关 键 字 段统 一 客 户 属 性 编 码客 户 归 并 与 切 割业 务 逻 辑处 理 逻 辑数 据 标 准 化缺 值 处 理噪 声 处 理数 据 备 份 / 恢 复 / 删 除归 并 或 切 割聚 类 / 孤 立 点 检

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号