数据仓库总体设计研究报告

上传人:壹****1 文档编号:473369224 上传时间:2023-09-09 格式:DOCX 页数:83 大小:903.21KB
返回 下载 相关 举报
数据仓库总体设计研究报告_第1页
第1页 / 共83页
数据仓库总体设计研究报告_第2页
第2页 / 共83页
数据仓库总体设计研究报告_第3页
第3页 / 共83页
数据仓库总体设计研究报告_第4页
第4页 / 共83页
数据仓库总体设计研究报告_第5页
第5页 / 共83页
点击查看更多>>
资源描述

《数据仓库总体设计研究报告》由会员分享,可在线阅读,更多相关《数据仓库总体设计研究报告(83页珍藏版)》请在金锄头文库上搜索。

1、- 64 -文档编号产品版本密级1.0共87页数据仓库系统总体设计文档作者:_ _日期:2001/12/20项目经理:_ _日期:2001/12/28部门经理:_ _ 日期:2002/01/08总 工 办:_ _日期:2002/01/08目 录1概述71.1背景71.1.1待开发的软件系统名称81.1.2系统的基本概念81.1.3项目组名称81.1.4项目代号81.2术语和缩写词81.3设计目标92系统设计92.1设计原则92.2系统结构112.2.1子系统划分112.3系统数据结构172.3.1逻辑结构122.3.2层次结构132.3.3网络拓扑结构142.3.4网络层次结构162.4行业特

2、殊需求172.5底层数据库(仓库)设计192.5.1设计原则192.5.2数据现状202.5.3数据存储整体规划212.6ETL系统242.6.1需求规定242.6.2运行环境242.6.3设计思想242.6.4结构说明252.6.5处理流程262.7系统管理272.7.1需求规定272.7.2运行环境282.7.3设计思想282.7.4结构说明282.7.5处理流程292.8数据展现302.8.1需求规定302.8.2运行环境322.8.3设计思想322.8.4结构说明322.8.5处理流程342.9界面设计342.9.1需求规定342.9.2主程序界面342.9.3主要页面设计352.10

3、接口设计382.10.1外部接口382.10.2内部接口392.11安全设计392.11.1网络安全392.11.2数据库安全422.12系统可靠性设计432.12.1可靠性432.12.2可维护性432.12.3可扩展性442.12.4健壮性442.12.5性能保证442.12.6出错处理452.12.7备份与恢复452.13运行设计462.14相关工具选择462.14.1数据库选择472.14.2WEB服务器和应用服务器472.14.3数据库建模工具482.14.4分析型工具482.14.5OLAP工具介绍492.14.6ORACLE公司OLAP介绍502.15开发环境512.15.1硬件

4、环境512.15.2操作系统512.15.3开发语言522.15.4数据库系统522.15.5中间件系统522.15.6应用系统533系统调试和测试533.1目的533.2基本要求543.2.1测试计划543.2.2测试说明543.2.3测试环境建立543.2.4测试报告543.3应遵循的原则543.4测试方法553.5测试重点554项目进度564.1项目资源计划564.1.1项目组564.1.2数据仓库领导小组办公室564.2项目工期计划564.3时间进度计划564.3.1数据仓库系统需求调查与两会系统574.4第一期开发主题574.5第二期开发主题574.6工作量分配计划575小结586参

5、考文献607附录617.1Oracle性能评估报告617.2主流WEB服务器比较657.3IBM小型机性能评估报告767.4详细网络拓扑图及设备清单787.5在多层体系结构下建立数据仓库83摘 要数据仓库系统的建立可以解决传统数据库不能很好提供分析决策功能的问题,可以发掘历史数据中隐含的大量有价值的信息,为国民经济的发展和宏观决策提供大量有效的参考信息。系统数据来源复杂,在数据仓库设计中不能采用常规方法解决问题;主题众多且分析热点会随时间变化而变化,要求主题下所含的信息在一定范围可变;主题下指标可能需要调整等实际情况,这和数据仓库的数据的不可修改性有矛盾;等等。我们结合数据仓库的特点和系统实际

6、情况,提供了一套完整的数据仓库系统的解决方案。整个数据仓库系统从数据采集到数据展现共分为四部分:1、数据抽取、转换、加载;2、系统管理(包括数据库维护);3、数据展现;4、支撑整个系统的数据库的设计(包括ETL中间数据库和数据仓库)保证系统具有相当的灵活性。各个部分独立完成本部分功能,同时紧密协作组成数据仓库系统。数据仓库系统管理与数据导入部分采用C/S模式有针对性的开发;数据仓库系统的数据展现采用流行的B/S模式向用户提供数据查询、决策分析。关键词:指标,主题,数据仓库,联机分析,数据挖掘,决策支持。1 概述1.1 背景经过2个多月的需求分析调查,确定了数据仓库系统总体定位(省政府数据仓库是

7、以充分发挥信息的社会作用和经济效益为最终目的)和系统功能需求。现根据需求分析规定和局具体情况,确定数据仓库整体方案,以指导数据仓库系统研究、开发、实现。省政府局数据具有建立数据仓库系统的基本条件:l 积累了大量历史数据,这是数据仓库存在的必要条件;l 随着市场经济的发展,社会各界(如金融投资等领域为了规避市场风险,提高决策的准确度,开发新的市场和利润增长点,挖掘市场潜力)对数据的需求不断增大,社会各界迫切需要利用数据进行决策分析,指导经济建设。省政府数据仓库建设存在以下困难:l 当前局各个处室没有统一规划的数据库系统;l 只有少量数据以电子文件形式存在,大部分历史数据保存在纸介质上,到目前为止

8、,建国以来的数据有一般以上以纸介质方式存储;l 由于我国制度在不断发展完善,指标在不同的历史时期的口径不同,为了使同类指标具有可比性,要确定不同时期各个指标的调整规则,并对历史数据按规则进行调整,这种调整除了少数指标可以按统一的算法进行以外,大部分调整工作需要人工参与;因此,省政府数据仓库的建设中数据的整理加载工作量极大,ETL(Extract、Transform、Cleaning、Load)工具开发难度大;完善的、与数据仓库系统良好联接的、统一规划的各个处室的数据库系统是据仓库系统的具有长久生命力的基本保障,因此各处室数据库的建设应同步进行。1.1.1 待开发的软件系统名称省政府数据仓库系统

9、1.1.2 系统的基本概念指标:系统的数据以指标为载体,所有的数据都是指标在不同时间,不同地域上的取值,统一指标可能有年度、月度、季度、半年、连续某几个月等时间段的数据,可能有国家、省、地、市、县、乡、村的数据,甚至有居民户、具体企业单位的明细数据,数据仓库中的数据就是这些数据的有机集合。主题:数据仓库中的数据按主题组织,这是由数据仓库以分析决策为主要目的决定的。主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域。省政府数据仓库是将指标数据按分析主题集成起来,供查询、分析、辅助决策。1.1.3 项目组名称数据仓库项目组1.1.4 项目代号XhnTJDW001-00191.

10、2 术语和缩写词指标:Statistical Parameter数据仓库:DW(DataWarehouse)主题:Subject数据集市:DataMart元数据:MetaData数据抽取、转换、加载:ETL(Extract、Transform、Cleaning、Load)联机分析处理:OLAP(On-LineAnalyticalProcessing)联机事务处理:OLTP(On-LineTransactionProcessing)决策支持系统:DSS(DecisionSupportSystem)数据挖掘:DM(DataMining)应用服务器:AS(ApplicationServer)Web服

11、务器:WebServer1.3 设计目标省政府数据仓库系统是以充分发挥信息的社会效益和经济价值为最终目的。将大量事务处理数据库中的数据进行清理、抽取和转换,并按决策主题进行多维重组,在高效的网络平台上充分发挥系统作为社会“数据库,信息库,思想库,智囊库”的作用,直接向党政领导、社会各界提供数据、信息服务,为信息工程建设提供一个“决策数据管理与分析中心”的基本解决方案。为省政府局建立一套面向党政领导、专业分析人员、广大社会群众对外发布信息的数据仓库系统。整个系统集数据采集、管理、维护、展现于一体,旨在建立数据仓库后既减轻局工作人员工作量,又能很好的为公众服务。前端数据展现要有通用性,采用浏览器浏

12、览数据,是瘦客户端。后端维护系统要具有高效性,能及时、高效处理、管理数据,功能强大,是胖客户端。数据仓库系统重在建立一个适应分析的系统环境,首期开发“两会”信息咨询,企业名录、人口普查、字典、工业经济、农业经济等主题。2 系统设计2.1 设计原则从充分发挥系统作为社会“数据库,信息库,思想库,智囊库”的作用,直接向党政领导、社会各界提供“快、精、准”的信息服务的需要出发,采用当今数据库领域成熟稳定的数据仓库、决策分析等技术,在高效的网络平台上为全省信息工程建设提供一个“决策数据管理与分析中心”的基本解决方案。1、 系统采用多层体系结构,建立一个良好开放性的数据仓库系统环境,适应不断增加和变化的

13、业务需求。多层体系结构通过引入中间层组件,扩大了传统的客户/服务器和两层计算模式。多层结构可由以下三类分层来定义:前端的客户层,负责提供可移植的表达逻辑;中间的应用层,允许用户通过将其与实际应用隔离而共享和控制业务逻辑;后端的数据管理与服务层,提供对专门服务(例如数据库服务器)的访问。多层结构与传统的客户/服务器结构的区别在于:在传统的客户/服务器两层结构中,用户将实际的业务逻辑放置到客户端(作为对表达逻辑的增补)或放置到后端数据库(作为数据逻辑的一部分包含在存储过程中)。而在多层结构中,用户将业务逻辑放到中间层上。这种模块化方法明确地划分了表达逻辑、业务逻辑和数据存储。多层结构通过将应用逻辑

14、集中到中间层,开发者可以迅速更新业务逻辑,而无需重新将应用递交到成千上万的桌面系统上。提高数据库的性能、改善系统的开放性、可扩展性和数据的安全性,并降低管理的复杂性。2、 结构化、层次化、模块化。采用面向对象技术,使系统高度结构化、模块化、层次化,整个系统由接口定义良好的多个模块组成,每个模块都有详细的功能说明和设计文稿,每个模块完成相对独立的功能,模块之间的接口定义规范,使模块功能的变化相对独立,不影响整个系统的功能和结构,便于系统升级,维护。3、 具有良好的平台移植性。选用支持多种操作平台的数据库服务器、应用服务器、WEB服务器等服务器软件系统,选用具有良好平台移植性的B/S和C/S模式下的开发语言开发应用程序和应用中间件,提高应用系统的平台移植性;4、 统一性和多样性相结合。面向用户的各个应用系统,尽量保持统一风格以适应用户的操作习惯,但各个系统根据内容具有各自的特色,整个系统和谐统一,清新明了。5、 自主开发和利用现有工具相结合。尽量利用各成熟的数据仓库系统软件(工具)为数据仓库这个具有特殊性的项目服务,针对具有特殊性的需求,开发特定的系统软件,缩短数据仓库开发周期,降低开

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号