毕业设计(论文)提高数据仓库中数据质量的研究

上传人:s9****2 文档编号:552631462 上传时间:2024-01-01 格式:DOC 页数:45 大小:2.29MB
返回 下载 相关 举报
毕业设计(论文)提高数据仓库中数据质量的研究_第1页
第1页 / 共45页
毕业设计(论文)提高数据仓库中数据质量的研究_第2页
第2页 / 共45页
毕业设计(论文)提高数据仓库中数据质量的研究_第3页
第3页 / 共45页
毕业设计(论文)提高数据仓库中数据质量的研究_第4页
第4页 / 共45页
毕业设计(论文)提高数据仓库中数据质量的研究_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《毕业设计(论文)提高数据仓库中数据质量的研究》由会员分享,可在线阅读,更多相关《毕业设计(论文)提高数据仓库中数据质量的研究(45页珍藏版)》请在金锄头文库上搜索。

1、湖南大学毕业设计(论文)第 I 页HUNAN UNIVERSITY毕业设计(论文)设计论文题目:提高数据仓库中数据质量的研究学生姓名:学生学号:专业班级:软件开发班学院名称:软件学院指导老师:学院院长:2008年5月20日提高数据仓库中数据质量的研究摘 要数据仓库是一个面向主题的、集成的、相对稳定的、能够反映历史变化并且能够支持管理决策的数据的集合。维护数据仓库中数据的正确性是非常重要的环节,而ETL是构建数据仓库的重要组成部分,要占据60%左右的工作量。提高数据仓库中的数据质量有利于保障数据仓库的可靠性,也有利于企业长期的总结和应用数据。提高数据质量的方法很多,鉴于本项目在实际工程应用中的经

2、验总结和实践积累,本文主要侧重于利用ETL调度以及校验的方式来提高数据仓库中的数据质量。首先,利用ETL调度原理实现数据的自动化调度,使数据成为一个流动的数据流,数据所在的数据库作为ETL流的起点,保存最终高质量数据的数据仓库作为ETL数据流的终点。其次,对于已经形成ETL数据流的数据生成流实例信息,对完成ETL流程处理的数据构造历史信息,从而保证能够对ETL流进行监控。再次,构造ETL流程的处理逻辑,这是构造高质量数据的核心部分,根据实际的经验构造自动化的校验程序,使数据流流过时校验程序能够纠正错误数据,最终达到获得高质量数据的目的。最后,经过EMC项目的实施情况证明,非法数据在以ETL流的

3、形式流经校验程序时都能够按照提前设定得到处理,保证了数据仓库中数据的稳定性。关键词:ETL,EMC(ETL管理中心),数据仓库The Research in Improving the Quality of Data in the Data WarehouseAbstractAuthor: Gao ZhongshanTutor: Shen YuxiangData Warehouse is a data collection which is subject-oriented, integrated, and relatively stable. It can reflect the chang

4、es of history and support the management decision. It is an important segment to maintain the accuracy of the data warehouse. However, ETL is an important part to build data warehouse and occupy about 60 percent of the load. The improvement of the quality in the data warehouse helps to guarantee the

5、 reliability and also help the enterprise to summarize and use the data for a long period of time. There are many methods to improve the quality of data. However, in the view of the experience summary and practice accumulation in the practical application, the paper mainly focuses on the ETL dispatc

6、her and way of check to improve data quality of data warehouse.First of all, the automation of data management which is realized by ETL principle make the data into a data stream., the database where the data exists become as starting point of ETL, saving the data warehouse with ultimate high-qualit

7、y data as the end of ETL.Second, for the data which the ETL data flow has been formed to generate example, for the data which complete ETL processes structure to handling historical information, thus ensuring that the ETL flow can monitoring.Third, building the processing logic of ETL tectonic proce

8、sses is the core of constructing high-quality data, constructing the automated calibration procedures based on the actual experience, so that the calibration procedures can correct erroneous data when passing by, and finally achieving the goal of access the high-quality data.Finally, the implementat

9、ion of the EMC project has proved that the illegal data in the form of ETL run through calibration procedures can be handled in accordance with the set in advance, ensuring the stability of data in warehouse data.Key words: ETL, EMC (ETL Manage Center), Data WareHouse目 录1. 绪论11.1 研究背景11.2 国内外研究现状21.

10、3 本文的主要研究内容和内容组织32. 数据仓库以及ETL42.1 数据仓库(Data WareHouse, DW)42.2 ETL(Extract, Transform, loading)62.2.1 ETL简介62.2.2 ETL过程特点72.2.3 数据质量保证82.2.4 元数据:拓展新星应用93. EMC项目中的ETL应用103.1 业务背景103.2 实例概述123.3 总体流程133.4 接口表143.4 企业数据迁移(EDM)模型层153.5 事实表层163.6 数据集市(DM)层173.7 多维分析(OLAP)层173.8 总体处理流程、反馈过程174. EMC中数据调度校验

11、的应用194.1 需求分析194.1.1 需求设计描述194.1.2 功能性需求描述(按功能模块进行说明)194.1.3 非功能性需求描述204.2 系统总体设计214.2.1 系统总体功能设计图214.2.2 系统总体功能设计图说明214.2.3 系统功能设计描述224.3 概要设计234.3.1 概要功能设计图234.3.2 功能性描述(按功能模块)244.4 后台调度流程264.4.1 ETL任务调度概述264.4.2 任务/任务组实例化274.4.3 任务实例调度284.5 后台校验流程294.5.1 功能294.5.2 数据结构294.5.3 流程294.5.4 重要函数325. 效

12、果说明和总结42致谢43参考文献441. 绪论1.1 研究背景随着全球经济一体化进程的推进以及我国的经济快速增长,大多数行业的市场竞争激烈加剧。这对企业管理和经营决策的制定的时效性、科学性、准确性提出了很高的要求。只有以数据为基础,从基于经验的分析到基于准确事实的洞察,才能有效保证企业服务质量、营销成功率和管理水平,节约企业营销成本,最终使企业利润和客户满意度的最大化。数据仓库正是在这种大环境下应运而生了。随着我国电信体制改革的深化,行业垄断格局已被打破,国内通信市场形成了电信、移动、联通、网通、铁通等多元化竞争局面,竞争日趋激烈。电信运营商的经营理念也逐渐从“以产品为中心”转移到“以客户为中

13、心”了。而面对客户的多样化、层次化、个性化的需求,大众化营销已经失去了其优势,基于客户信息、客户价值和行为,深入数据分析的洞察力营销、精确化营销的理念逐渐被各大电信运营商所接受。商务活动的主动权被交到了客户手中,而保持原有的客户对电信公司来说变的至关重要。在过去多年中电信行业建立了计费帐务系统、综合结算系统、97系统、10000号系统、大客户系统等多种业务支撑系统,然而各个系统相对独立,数据分散不一致。这就产生了数据依赖系统存在、缺少完整统一的客户视图、数据共享缺少统一的标准共享困难、数据对闭环的业务流程支撑程度较弱等问题。基于此现状,电信公司确定整合客户数据并以客户为中心实行统一视图的目标,

14、那么建设本企业的数据仓库就势在必行了,而同时保证数据仓库中数据的质量的有效性就成为了一个重点研究的问题。科学决策是现代企业的管理的核心与基础,但高质量的数据是正确决策的前提。要提供有质量保证数据,数据的抽取、转换和装载过程特别是转换过程相当重要。针对电信业务种类多,业务更新快,数据来源广的特点,ETL过程就变得充满挑战性。庆幸的是,已经有很多成熟的ETL工具,它们几乎能够自动完成数据的ETL过程。但用户显然不放心这样一个重要的过程对他们来说完全是“透明化”的,加上多用户多任务必然会带来线程(或进程)的同步或互斥问题。所以本文将以ETL框架设计为基础出发。同时为了便于理解整个框架,来详细介绍ET

15、L过程管理的具体流程和方法。同时,本文将流程的控制过程用可视化效果表现出来,提供流程定义和流程监控功能,并最终生成多维表。1.2 国内外研究现状在企业信息化建设过程中,随着技术的发展,原有的信息系统不断被功能更强大的新系统所取代,从两层结构到三层结构,从Client/Serve:到Browser/Server,在新旧系统的切换过程中,必然面临一个数据迁移的问题。原有的旧系统从启用到被新系统取代,在其使用期间往往积累了大量珍贵的历史数据,其中许多历史数据都是新系统顺利启用所必须的。另外,这些历史数据也是执行决策分析的重要依据。数据迁移,就是将这些历史数据进行清洗、转换,并装载至新系统中的过程。数据迁移主要适用于一套旧系统切换到另一套新系统,或多套旧系统切换到同一套新系统时,需要将旧系统中的历史数据转换到新系统中的情况。银行、电信、税务、工商、保险以及销售等领域发生系统切换时,一般都需要进行数据迁移对于多对一的情况,例如由于信息化建设的先后,造成有多个不同的系统同时运行,但相互间不能做到有效信息共享,所以就需要一套新系统包容几套旧系统的问题。数据迁移对系统切换乃至新系统的运行有着十分重要的意义,数据迁移的质量不仅仅是

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号