数据仓库建设实施总结方案

上传人:工**** 文档编号:507382799 上传时间:2022-11-25 格式:DOCX 页数:8 大小:167.90KB
返回 下载 相关 举报
数据仓库建设实施总结方案_第1页
第1页 / 共8页
数据仓库建设实施总结方案_第2页
第2页 / 共8页
数据仓库建设实施总结方案_第3页
第3页 / 共8页
数据仓库建设实施总结方案_第4页
第4页 / 共8页
数据仓库建设实施总结方案_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《数据仓库建设实施总结方案》由会员分享,可在线阅读,更多相关《数据仓库建设实施总结方案(8页珍藏版)》请在金锄头文库上搜索。

1、数据库房概括 经过多年IT的建设,信息关于 XX的平时管理已经日趋重要,并渐渐成 为重要的信息财产,信息财产的管理已经成为平时管理中一个特别重要的环节。怎 样管理和利用好XXX内部纷纷的数据也愈来愈成为信息管理的一项重要工作。在过去相当一段时间内,XX业务系统的建立主要环绕着业务的数据睁开, 应用的建立多是自下而上建立,主要以知足某个部门的业务功能为主,我们称之 为业务办理的时代。这样的建立方式造成了一个个分立的应用,分立的应用致使了一 个个的静态竖井。因为数据附属于应用,缺少XX全局的单调视图,形成了一个个 信息孤岛,分立的系统之间缺少交流,相同数据的孤岛致使只好获取片面的信息,而不 是全局

2、的单一视图。储存这些信息的载体可能是各样异构或同构的关系型数据库,也 有可能是XML、EXCEL等文件。所以,建立新一代的一体化平台提上了日程并最后 促成全域数据的管理方式,目的是覆盖XXX各个环节的重点业务数据,完美元数据 管理,形成全局的数据词典、业务数据规范和一致的业务指标含义,能够灵巧的获取 XXX业务数据的单调视图(需要保证数据的一致性、完好性、正确性和及时性)。数据 的互换和共享主要发生在上下级组织机构之间或同级的不一样部门之间。最后,这些 数据能够为部队剖析、决议支持(多维剖析、即席查问、数据发掘)等应用供给更及时、 正确、有效的支持。数据库房的目标是实现跨系统数据共享,解决信息

3、孤岛,提高数据质量, 协助决议剖析,供给,一致的数据服务。同时,数据库房的建立也面对着各样挑战,比方信息整 合在技术上的复杂度、信息整合的管理成本、数据资源的获取、信息整合 的实行周期以及整合项目的风险等。储存全域数据库整体架构显现层门户一致受权服务手机平板电脑PC单点登录中心业务多即席分查析流剖析工口程型管理数 据 整 合空 间 数 据基础服务层数据储存区互换 服务 系统边防一体化应用服务总总器线务工作擎信息 中间-件数据发掘 引擎弓陲OLAP主2知识 内容据管 据分驱引工 理引 析引动 擎 作 擎 擎管理引擎空间 地理 数据 引擎 v -rXOSD联邦关系型数据源模型库展望数据数据.数据复

4、制 冲洗据.大数变换 据流数据层(ISB)ExcelWeb服务UB库数据数据信息流程 服务地理数据_H_共享数据_大流媒体信息交互服务 服务非关系型数据源文本数据摄像头层(网络、储存、硬件、,系统置賢全域数据库整体架构* in*;信息行列应用层传感器/监控数据源虚构传感器智能传感器软件)最下边是基础架构层,主要包含支撑这 架构运转的主全域数据库整体的层次,系统、存贮备份系统、网络系统等内容。从下往上看,再上边是数据源层,既包含各个xmLHcel等,也包含各个总队、支队的业务数据源。数据源层之上是“互换服务系统”,主要包含信息服务总线和服务总线两部分。信息服务总线主要实现数据层的信息整合和数据变

5、换,而服务总线主要实现应用层的信 息互换和整合。信息服务总线主要依靠联邦、复制、冲洗、变换等技术实现,其主要 包含信息整合服务和冲洗变换加载服务两部分。经过信息服务总线的信息整合服务(数据联邦、复制),能够透明、及时的接见散布在总队和支队的各个业务系统中的 各样同构、异构数据(前提是拥有足够的权限)。信息整合服务在整个 XXX层面保证储存3/73了数据的完好性和及时性。信息服务主要使用两种技术来达成这一功能:联邦和复 制。经过联邦功能能够把关系数据、半构造化数据(如 Excel文件、XML文件、Web 搜寻引擎、MQ查问和内容源)构成一个逻辑数据库,对这些数据源中的表能够像操作当地数据 库表相

6、同进行操作,而不用关怀我们操作的这些数据基层是什么数据源,物理在什么地点。而针 对大数据量的数据接见或高并发的接见,往常将源数据增量及时复制到当地,复制的实现是鉴于 对源数据库的日记进行捕捉,获取增量数据,并鉴于信息的体制将其复制到目的数据库,复制的 过程中能够实现数据的归并、拆分、变换等操作。信息服务总线主要达成数据的剖析、冲洗(标准化)、变换、加载等工作。数据清 洗,主假如去除冗余数据,将零落字段归并成全局记录,并解决重叠和矛盾的数据,而后经过增添 关系和层次构造完美丰富信息。第一面对的挑战就是怎样更有效的辨别现有的业务系统,包含业务 系统使用的分类方法、层次构造、数据散布、数据词典等。假

7、如数据词典不完好或缺失,就要经过 方法找出其数据的储存构造以及各个表之间的主外键关系、各表之间的变换关系等,相同,数据的 散布状况相同能够使用剖析功能来达成。在对现有数据足够认识的基础上(达成了数据的剖析), 接下来就要拟订数据的冲洗规则以及变换规则,此中,冲洗规则又分为两种状况,一种冲洗规则是 明确的,另一种冲洗规则是模糊的,比方不一样系统中储存的地点信息,“南京市定淮 门大街9号”和“江苏省南京市下关区定淮门大街 9号”其实是一个地点,但计算 时机当作两个地点来办理。概率般配功能和动向权重策略能够般配创立高质量、正确的数据,并 在整个数据域中一致地辨别中心业务信息,如人名、地点、和时间。数

8、据冲洗、变换、加载服务对保障数据的正确性和一致性特别重要。在不一样的系统中,对同一业务会使用不一样的分类方法,相同,数据的类型和层次构造也会不一样。需要经过 数据冲洗、变换、加载层实现对这些信息格式的变换,般配成通用的信息格式和分类方法,以便 供给整个XXX业务层面聚合的业务视图。实质证明一体化平台(一期)的全域数据梳理中,手工 统计能够达成这项工作但不够好,不够直观和没有扩展连续能力。数据冲洗、变换、加载工作对 将来数据的使用特别重要,即便有工具帮助,工作量依旧很大。固然,开始的时候,这项工作看起来费时费劲,但从长久来看,它使得鉴于 这些数据的业务流程和一致数据视图实现自动化,并减少了人为干

9、涉不正确或不一致数据的努力,进而节俭了大批成本。XXX层面的单调视图一经成立, 其保护势必是一个连续进行的过程。储存数据的管理往常需要一个管理组织来对矛盾或缺失的数据进行决议,组织会往常需 要各个业务部门的人参加,而不只是限制于通技处或信息中心的人。XXX单调数据视图的保护,好多业务部门都做的不够好,时间一久,好多业务部门就变得厌烦,数据 冲洗变换的工作没有坚持下去。一旦数据的正确性出现问题,业务系统的全局共享就 没法再从中获益。互换服务系统中的服务总线主要鉴于流程服务、传输服务、互换服务等实现。经过 使用总线,能够支持各样协议以及数据格式的数据交互。经过搭建一个鉴于标准的、 开发的、易于集成

10、的、总线方式的服务总线,经过此后对现有系统的逐渐升级改造, 系统之间以一种成为“服务”的接口方式一致经过总线方式进行交互,经过对服务的 管理,系统之间交互的信息格式的差别、传输协议的差别、采纳技术的差别、物理地 点的不一样样等这些问题都由这个总线来进行障蔽。进一步经过流程管理,将模块和 系统之间的服务依据业务流程的需要进行编排,做到了“随需而变”。数据储存区包含ODS、数据库房/数据市集、共享数据库、特点库、模型库等,主 要供给各样数据的储存服务。此中,逻辑视图中ODS部分寄存了整个XXX单位全 局级的明细数据,而数据库房数据市集中储存了不一样级其余汇总数据。特点库主要寄 存各样数据分群特点、

11、业务分类特点等业务信息,模型库寄存建立的各样业务模型信 息等。基础服务层主要包含“应用服务器”,“服务总线”,“工作流引擎”,“信息中间 件”,“OLAP引擎”,“数据发掘引擎”,“事件驱动”,“规则引擎”,“共同 工作”和“空间地理数据引擎”。应用层包含各样应用,此中多维剖析、即席查问、报表统计、图形显现等。右侧的信息治理层主假如为了保证数据的完好性、一致性、正确性、及时性,保证 历史数据正确归档并在需要的时候能够和现有数据一同被结合接见,供给数据库安全、 审计、监控和合规服务,进而防备内部人员盗窃,防备欺骗作假,保护数据隐私,强迫 履行安全规范,强迫知足合规的要求,防备外面攻击对数据的损坏

12、。而元数据管理睬贯串数据业务层面、业务系统、信息整合服务总线、ETL层、数据储存区、信息服务层、显现层等各个层面,当数据口径出现问题时,能够供给数据在各 个层面的正向/逆向追踪功能。元数据的管理波及业务元数据和技术元数据两种。储存数据库房架构离线报表多维剖析数据库房整体架构即席查问报表统计数据发掘决议管理 展望剖析数据冲洗、变换 信息整合服务(基础数据干部数据梅沙数据数据互换有关业务单位联邦、复制)多维剖析从数据的全方向认识现状,管理人员常常希望从不一样的角度来审察业务彳 从时间、地区、类型、功能来看同一类数据的总和。每一个剖析的角度能够叫做一个 维,所以,把多角度剖析方式称为多维剖析。从前,

13、每一个剖析的角度需要制作一张报表。由此产生了在线多维剖析功能,依据用户常用的多种剖析角度,预先计算好 些协助构造,以便在查问时能赶快抽取到所要的记录,并快速地从一维转变到另一维,将不一样角度的信息以数字、直方图、饼图、曲线等等方式展此刻您眼前。 即席查问能够将数据进行查问分组,进行资源的管理,能够设置查问优先级,能够自动控 制,调动复杂查问和进行追踪剖析查问。能够依据以下重要方法进履行用,主动和动 态地控制数据库的查问流程,为不一样大小的查问定义不一样的查问类型,进而改良查问 之间的系统资源共享,防止较小的查问被较大的查问堵塞等。储存数据发掘数据发掘正如在矿井中能够开采出宝贵的矿石,在数据库房

14、的数据里也经常能够开 采出业务人员意想不到的信息。它比多维剖析更进一步。比如,假如管理人员要求比 较各个地区某类进出境特点数目在过去一年的状况,能够从多维剖析中找答案。但 是,假如管理人员要问为什么一个地区的进出境特点状况忽然变得特别好或是不好,或 者问该进出境特点在另一地区将会怎么样,这时数据发掘知识能够作出解答。数据库房层数据库房用于抽取、整合、散布、储存实用的信息,数据信息常常散布在不一样的部 门和下级单位,管理者要综观全局、运筹决胜,一定能快速地找到能反应真切状况的 数据,这些数据或许是目前的现实数据,也可能是过去的历史数据。所以,有必需把 各个地区的数据会合起来,去其糟粕、取其精髓,将真切的、对决议实用的数据保存 下来,随时准备管理人员使用。所以,数据库房不只是是个数据的储藏库房,更重要 的是它供给了丰富的工具来冲洗、变换和从各地提取数据,使得放在库房里的数占有 条有理,易于使用。储存

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号