提高数据仓库中数据质量的研究毕业论文

上传人:l**** 文档编号:129923968 上传时间:2020-04-24 格式:DOC 页数:45 大小:2.06MB
返回 下载 相关 举报
提高数据仓库中数据质量的研究毕业论文_第1页
第1页 / 共45页
提高数据仓库中数据质量的研究毕业论文_第2页
第2页 / 共45页
提高数据仓库中数据质量的研究毕业论文_第3页
第3页 / 共45页
提高数据仓库中数据质量的研究毕业论文_第4页
第4页 / 共45页
提高数据仓库中数据质量的研究毕业论文_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《提高数据仓库中数据质量的研究毕业论文》由会员分享,可在线阅读,更多相关《提高数据仓库中数据质量的研究毕业论文(45页珍藏版)》请在金锄头文库上搜索。

1、提高数据仓库中数据质量的研究毕业论文目 录1绪言21.1课题背景21.2国内外发展概况21.3本章小结42数据仓库52.1数据仓库(Data Warehouse,DW)52.2数据仓库应用的作用和意义72.3本章小节103数据仓库中的ETL及EMC中ETL的应用113.1 数据仓库中的ETL113.1.1ETL简介113.1.2ETL过程的特点113.1.3数据质量保证123.1.4元数据:拓展新型应用133.2实例概述143.3总体流程153.4接口表163.5企业数据迁移(EDM)模型层173.6事实表层183.7数据集市(DM)层183.8多维分析(OLAP)层183.9总体处理流程、反

2、馈过程193.10本章小结204EMC中数据调度校验的应用214.1需求分析214.1.1需求设计描述214.1.2功能性需求描述(按功能模块进行说明)214.1.3非功能性需求描述224.2系统总体设计234.2.1系统总体功能设计图234.2.2系统总体功能设计图说明234.2.3系统功能设计描述244.3概要设计254.3.1概要功能设计图254.3.2功能性描述(按功能模块)264.4后台调度流程284.4.1ETL任务调度概述284.4.2任务/任务组实例化284.4.3任务实例调度294.5后台校验流程304.5.1功能304.5.2数据结构304.5.3流程314.5.4重要函数

3、344.6本章小结435效果说明和总结44致谢45参考文献46附录A471. 绪论11.1 研究背景11.2 国外研究现状21.3 本文的主要研究容和容组织32. 数据仓库以及ETL42.1 数据仓库(Data WareHouse, DW)42.2 ETL(Extract, Transform, loading)62.2.1 ETL简介62.2.2 ETL过程特点72.2.3 数据质量保证82.2.4 元数据:拓展新星应用93. EMC项目中的ETL应用103.1 业务背景103.2 实例概述123.3 总体流程133.4 接口表143.4 企业数据迁移((EDM))模型层153.5 事实表层

4、163.6 数据集市(DM)层173.7 多维分析(OLAP)层173.8 总体处理流程、反馈过程174. . EMC中数据调度校验的应用194.1 需求分析194.1.1 需求设计描述194.1.2 功能性需求描述(按功能模块进行说明)194.1.3 非功能性需求描述204.2 系统总体设计214.2.1 系统总体功能设计图214.2.2 系统总体功能设计图说明214.2.3 系统功能设计描述224.3 概要设计234.3.1 概要功能设计图234.3.2 功能性描述(按功能模块)244.4 后台调度流程264.4.1 ETL任务调度概述264.4.2 任务/任务组实例化274.4.3 任务

5、实例调度284.5 后台校验流程294.5.1 功能294.5.2 数据结构294.5.3 流程294.5.4 重要函数325. .效果说明和总结42致谢43参考文献44 .专业.专注. 1. 绪论1.1 研究背景随着全球经济一体化进程的推进以及我国的经济快速增长,大多数行业的市场竞争激烈加剧。这对企业管理和经营决策的制定的时效性、科学性、准确性提出了很高的要求。只有以数据为基础,从基于经验的分析到基于准确事实的洞察,才能有效保证企业服务质量、营销成功率和管理水平,节约企业营销成本,最终使企业利润和客户满意度的最大化。数据仓库正是在这种大环境下应运而生了。随着我国电信体制改革的深化,行业垄断格

6、局已被打破,国通信市场形成了电信、移动、联通、网通、铁通等多元化竞争局面,竞争日趋激烈。电信运营商的经营理念也逐渐从“以产品为中心”转移到“以客户为中心”了。而面对客户的多样化、层次化、个性化的需求,大众化营销已经失去了其优势,基于客户信息、客户价值和行为,深入数据分析的洞察力营销、精确化营销的理念逐渐被各大电信运营商所接受。商务活动的主动权被交到了客户手中,而保持原有的客户对电信公司来说变的至关重要。在过去多年中电信行业建立了计费帐务系统、综合结算系统、97系统、10000号系统、大客户系统等多种业务支撑系统,然而各个系统相对独立,数据分散不一致。这就产生了数据依赖系统存在、缺少完整统一的客

7、户视图、数据共享缺少统一的标准共享困难、数据对闭环的业务流程支撑程度较弱等问题。基于此现状,电信公司确定整合客户数据并以客户为中心实行统一视图的目标,那么建设本企业的数据仓库就势在必行了,而同时保证数据仓库中数据的质量的有效性就成为了一个重点研究的问题。科学决策是现代企业的管理的核心与基础,但高质量的数据是正确决策的前提。要提供有质量保证数据,数据的抽取、转换和装载过程特别是转换过程相当重要。针对电信业务种类多,业务更新快,数据来源广的特点,ETL过程就变得充满挑战性。庆幸的是,已经有很多成熟的ETL工具,它们几乎能够自动完成数据的ETL过程。但用户显然不放心这样一个重要的过程对他们来说完全是

8、“透明化”的,加上多用户多任务必然会带来线程(或进程)的同步或互斥问题。所以本文将以ETL框架设计为基础出发。同时为了便于理解整个框架,来详细介绍ETL过程管理的具体流程和方法。同时,本文将流程的控制过程用可视化效果表现出来,提供流程定义和流程监控功能,并最终生成多维表。1.2 国外研究现状在企业信息化建设过程中,随着技术的发展,原有的信息系统不断被功能更强大的新系统所取代,从两层结构到三层结构,从Client/Serve:到Browser/Server,在新旧系统的切换过程中,必然面临一个数据迁移的问题。原有的旧系统从启用到被新系统取代,在其使用期间往往积累了大量珍贵的历史数据,其中许多历史

9、数据都是新系统顺利启用所必须的。另外,这些历史数据也是执行决策分析的重要依据。数据迁移,就是将这些历史数据进行清洗、转换,并装载至新系统中的过程。数据迁移主要适用于一套旧系统切换到另一套新系统,或多套旧系统切换到同一套新系统时,需要将旧系统中的历史数据转换到新系统中的情况。银行、电信、税务、工商、保险以及销售等领域发生系统切换时,一般都需要进行数据迁移对于多对一的情况,例如由于信息化建设的先后,造成有多个不同的系统同时运行,但相互间不能做到有效信息共享,所以就需要一套新系统包容几套旧系统的问题。数据迁移对系统切换乃至新系统的运行有着十分重要的意义,数据迁移的质量不仅仅是新系统成功运行的重要前提

10、,同时也是新系统今后稳定运行的有力保障。如果数据迁移失败,新系统将不能正常启用;;如果数据迁移的质量较差,没能屏蔽全部的垃圾数据,对新系统将会造成很大的隐患,新系统一旦访问这些垃圾数据,可能会由这些垃圾数据产生新的错误数据,严重时还会导致系统异常。相反,成功的数据迁移可以有效地保障新系统的顺利运行,能够继承珍贵的历史数据。无论对于一个公司还是一个部门,历史数据都是十分珍贵的一种资源,如公司的客户信息、银行的存款记录、税务部门的纳税资料等。早期的数据迁移工作往往是由程序人员手工编写存储过程完成的,对编写人员的技术要求很高,而且随着系统的升级换代、人员变动等原因使系统维护变得十分困难随着计算机技术

11、的发展与进步,逐渐出现了使用特定的ETL工具来完成数据迁移过程。目前很多数据库厂商纷纷推出针对其数据仓库产品的ETL解决方案,如Oracle公司的Warehouse Builder;等。这些工具具有功能强大,提供图形化界面以利于用户操作,易与第三方软件集成等优点,但其高昂的价格,复杂的操作往往让人望而却步。表1.1对手工编码与使用ETL工具实现数据迁移工作进行了比较。表1.1 人工编码与ETL工具比较对比项手工编码ETL工具灵活性最灵活比较灵活难易程度要求一定的技术水平相对容易管理和维护较难容易性能和效率取决于编写者水平较高开发周期较长较短工作量较重中等价格相对较低较高目前国外关于ETL领域的

12、研究非常活跃,主要涉及以下几个方面::(1)、建立一种通用的与领域无关的工具框架;(2);2、在自动化异常检测和清洗处理间增加人工判断处理以提高处理精度;(3);3、对海量数据集进行并行处理;(4);4、如何消除合并后数据集中以及重复数据;(5);5、研究高效的数据异常检测算法以避免扫描整个庞大的数据集。在我国,对ETL的研究开发甚少,还没有一个成型的、完善的ETL工具应用于数据仓库的系统中。1.3 本文的主要研究容和容组织本次设计主要采用的技术手段是:利用ETL在构造数据仓库中的原理,通过构造ETL数据流来实现数据的自动化处理,通过编写校验程序来处理数据流中非法数据,从而保证数据仓库中数据的

13、高质量。本文结构分为五章,第一章为绪论,主要介绍该课题的背景,过外发展概况以及应用的技术以及论文的组织结果等。;第二章为基础技术介绍,主要根据项目需要用到的数据仓库以及、ETL等技术做详细的介绍。;第三章将根据EMC项目情况讲解ETL的应用情况。;第四章重点讲解调度和校验过程,使读者能够更清晰的了解EMC项目中的实现方法;。第五章将根据实际应用对提高数据质量的效果做进一步的说明并总结获得结论。2. 数据仓库以及ETL2.l 1 数据仓库(Data WareHouse, DW)目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作 Building the Data

14、 Warehouse 一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,:首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 根据数据仓库概念的含义,数据仓库拥有以下四个特点:(1) 1、面向主

15、题::操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 (2) 2、集成的::面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库的信息是关于整个企业的一致的全局信息。 (3) 3、相对稳定的::操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号