数据仓库设计与实现

上传人:m**** 文档编号:510661760 上传时间:2023-01-01 格式:DOCX 页数:24 大小:213.40KB
返回 下载 相关 举报
数据仓库设计与实现_第1页
第1页 / 共24页
数据仓库设计与实现_第2页
第2页 / 共24页
数据仓库设计与实现_第3页
第3页 / 共24页
数据仓库设计与实现_第4页
第4页 / 共24页
数据仓库设计与实现_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《数据仓库设计与实现》由会员分享,可在线阅读,更多相关《数据仓库设计与实现(24页珍藏版)》请在金锄头文库上搜索。

1、数据仓库的设计与实现第 1 章 数据仓库的设计与实现1.1 数据仓库设计过程数据仓库的设计一般从操作型数据开始,通常需要经过以下几个处理过程;数据仓 库设计数据抽取数据管理。一、数据仓库设计 根据决策主题设计数据仓库结构,一般采用星型和雪花模型设计其数据模型,在设 计过程中应保证数据仓库的规范化和体系各元素的必要联系。二、数据抽取 根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源 进行清理、转换、对数据进行重新组织和加工,装载到数据仓库的目标库中。三、数据管理 数据管理分为目标数据维护和元数据维护两方面。目标数据维护是根据元数据为所 定义的更新频率、更新数据项等更新计划

2、任务来刷新数据仓库,以反映数据源的变化, 且对时间相关性进行处理。元数据是数据仓库的组成部分,元数据的质量决定整个数据 仓库的质量。当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改 元数据。1.2 需求分析与决策主题的选取通过对管理者和各级别的用户的数据分析需求进行调研,我们收集并整理出了用户 的决策分析需求如下:1.2.1 博士学位授予信息年度数据统计分析一、按主管部门统计 从主管部门的角度,分析在一个时间段(年)内,各主管部门所授予的博士学位信 息统计。可回答如“2008,由某部门主管的,博士学位授予一共有多少,其平均学习年 限是多少,脱产学习的有多少人?”等问题。具有表格

3、和图形两种方式来展示分析结果。 典型报表格式如表 1 所示。表 1 续 200 年度授予博士学位情况统计表(按主管部门统计)学习方式录取类别就业单位类别脱产半脱产业余定 向非定向机关科研、设计单位金 融 单 位部队待就业录 取 研 究 生其他二、按性质类别统计三、按地区统计 四、按单位统计五、按学科门类统计六、按一级学科统计七、按二级学科统计1.2.2 硕士学位授予信息年度数据统计分析一、按主管部门统计二、按性质类别统计三、按地区统计四、按单位统计五、按学科门类统计六、按一级学科统计七、按二级学科统计1.2.3 学士学位授予信息年度数据统计分析一、按主管部门统计二、按性质类别统计三、按地区统计

4、 四、按单位统计五、按学科门类统计 六、按学科类别统计七、按专业统计1.3 系统体系结构设计通过对当前各种主流数据仓库软件在性能、价格等方面的对比,充分考虑统计业务、 单位数量等实际情况,本系统决定采用SQL Server 2005数据仓库软件来构建综合信息 分析系统的数据仓库。本系统服务器端要求运行平台为Windows 2003 Server企业版,客户端要求Windows XP,浏览器为IE6.0;采用SQL Server 2005数据仓库构建方案构建数据仓库,选用Visual Studio.NET2003/SQL Server2005、Rose、Power Designer 等开发工具进

5、行系统开发。我们设计的综合信息分析系统构架在统计综合信息平台中,其核心功能表现为通过 数据转换技术,将直报数据库及其他数据源的数据库生成利于进行分析的、不同于关系 数据库的数据仓库,根据不同的分析需求建立不同的专题分析数据库(多维数据库), 最后对多维数据库进行利用联机分析处理、数据挖掘,其架构如图所示。分析查询冃艮表IIlliIIIIIIII I I IIIIIII賞据挖掘II前端展示工具OLAP服务器服务OLAP服势器数据仓库数掘集市QLAP服备罂一藉症一 抽取 转换数据仓库服务器380操柞蟹数据C3 O外部数擁库比他数据图1学位授予信息统计系统架构在这个体系结构中,存放于系统数据库中的业

6、务数据及外部数据源数据按照主题通 过ETL工具被抽取到ETL数据库(数据准备区),数据在ETL数据库中完成预处理工 作(清洗和转换),再通过ETL工具加载到数据仓库。数据进入数据仓库后按照维度和 事实存放,采用MS Analysis Serviees作为OLAP服务器,Analysis Serviees可以方便的 定义维度和构建OLAP立方体。用户使用前端的查询工具、报表工具、分析工具,就可 以访问决策支持系统并分析浏览数据了。由于数据预处理本身的复杂性,直接从外部数据源把数据整合到数据仓库必将导致 该过程即占用许多外部操作型数据库的资源和时间,也会影响数据仓库装载数据的效 率。借鉴算法研究中

7、“以空间换时间”的思想,再结合目前硬件成本的下降,本系统中, 我们在数据仓库的体系结构中添加一个专门进行数据预处理的存储区域以提高数据仓 库系统整体性能。在系统设计中,应注意以下问题:一、理顺学位授予信息之间的关系以及业务数据是保证数据质量的关键,抽取信息 的质量依赖于用户对结果的解释,容易导致错误。二、针对不完整的数据、不一致的数据、错误的数据以及冗余数据确定数据处理规 则,即ETL实施的具体规则。三、系统监控与数据管理包括维表的维护、增量数据抽取转换等的控制、系统出错 报警、异常处理、数据存储及访问的安全性、海量数据的查询效率、数据各份策略等。四、模型设计是系统的基础和成败的关键,在实际操

8、作的过程中,要注意的问题包 括主题的确定、分析内容的细化、粒度的设计等。1.4 系统数据逻辑结构设计1.4.1 基础层模型设计基础层数据用于存放从学历教育博士学位、同等学力人员申请博士学位、博士专业 学位、学历教育硕士学位、同等学力人员申请硕士学位、硕士专业学位、普通高等教育 本科毕业生学士学位、成人高等教育本科毕业生学士学位、来华留学本科毕业生学士学 位、学士专业学位等数据源 ETL 过来的数据,这些业务数据将进行整合、组织、重构 和存放。根据学位银行授予统计系统需求,基础层模型包含博士学位信息主题域、硕士 学位信息主题域、学士学位信息主题域。博士学位授予信息是指主题域存放所授予的博士学位信

9、息,分为学历教育博士学 位、同等学力人员申请博士学位、博士专业学位。主要的信息有:个人基本信息、学科 信息、学位信息、学位论文信息、前置学位信息、获学位后去向信息等。个人基本信息姓名 姓名拼音 性别码 国家或地区码 民族码 政治面貌码 出生日期 身份证件类型码 身份证件号码学历教育博士学位授予信息个人基本信息 学科信息 学位信息学位论文信息 前置学位信息 获学位后去向信息 其他信息其他信息照片文件名称 备注获学位后去向信息去向码就业单位性质类别码 就业单位省市码 工作性质码学位论文信息论文题目 论文关键词 论文类型码论文选题来源码刖置学位信息前置学位码前置学位一级学科码 获前置学位年月前置学位

10、授予单位码学位信息考生号 学号 入学年月 毕业年月学习方式码 导师姓名 学位证书编号 获学位日期 攻读类型码学科信息学位授予单位码学位授予单位校长(院长、所长)姓名 学位评定委员会主席姓名学位类别码 是否按一级学科授予 专业代码 自设专业代码图 2 学历教育博士学位授予信息基础层模型 硕士学位授予信息是指主题域存放所授予的硕士学位信息,分为学历教育硕士学 位、同等学力人员申请硕士学位、硕士专业学位。主要的信息有:个人基本信息、学科 信息、学位信息、学位论文信息、前置学位信息、获学位后去向信息等。学士学位授予信息是指主题域存放所授予的学士学位信息,分为普通高等教育本科 毕业生学士学位、成人高等教

11、育本科毕业生学士学位、来华留学本科毕业生学士学位、 学士专业学位。主要的信息有:个人基本信息、学科信息、学位信息等。1.4.2 汇总层模型设计汇总层模型的设计需要考虑汇总的粒度问题,汇总的粒度不同,能够回答的业务问 题也不一样,由于系统数据庞大繁杂,学位授予时间相对比较固定,本模型将汇总层模 型设计为年。该层的设计主要考虑数据向年度级别的汇总,解答如某年某主管单位所授予的博士 学位人数等业务问题。根据博士学位信息授予主题的需求分析,即分析的角度(也叫维 度)、指标、查询的内容,以博士学位信息授予主题为例,其汇总层的数据模型如图所 示。授予学历教育博士学位情况统计表(按主管部门统计)PK主管部门

12、其中学历博士 其中同等学历博士 其中专业学位博士 其中女 授予博士学位情况统计表(按主管部门统计)列1 平均年龄 少数民族 平均学习年限 其中一级学科授予 在学期间成果(论文) 期间成果(成果) 期间成果(专利) 学习方式(脱产) 学习方式(半脱产) 学习方式(业余) 录取类别(定向) 录取类别(非定向) 就业单位类别(机关) 就业单位类别(科研、设计单位) 就业单位类别(金融单位) 就业单位类别(部队) 就业单位类别(待就业) 就业单位类别(录取研究生) 就业单位类别(其他)学历教育博士学位授予信息FK1个人基本信息 学科信息 学位信息学位论文信息 前置学位信息 获学位后去向信息 其他信息

13、主管部门图 3 学历教育博士学位授予信息汇总层模型1.4.3 报表层模型设计报表层数据是用于存放学位授予信息统计系统中固定报表统计数据,同时也是灵活 查询的数据源。这些数据是根据报表业务规则,从基础层和汇总层统计而出,本模型主 要包括内容有:授予博士学位信息统计表、授予硕士学位信息统计表、授予学士学位信息统计表。以博士学位信息统计主题为例,其博士学位信息报表层的数据模型如图所示。授予博士学位情况统计表(按主管部门统计)PK主管部门其中学历博士 其中同等学历博士 其中专业学位博士 其中女 授予博士学位情况统计表(按主管部门统计)列1 平均年龄 少数民族 平均学习年限 其中一级学科授予 在学期间成

14、果(论文) 期间成果(成果) 期间成果(专利) 学习方式(脱产) 学习方式(半脱产) 学习方式(业余) 录取类别(定向) 录取类别(非定向) 就业单位类别(机关) 就业单位类别(科研、设计单位) 就业单位类别(金融单位) 就业单位类别(部队) 就业单位类别(待就业) 就业单位类别(录取研究生) 就业单位类别(其他)学历教育博士学位汇总(按主管部门统计)FK1主管部门同等学力人员申请博士学位(按主管部门统计)FK1主管部门博士专业学位汇总(按主管部门统计)FK1主管部门图 4 学历教育博士学位授予信息(按主管部门统计)报表层模型1.5 数据仓库模型设计为满足决策分析的需要,系统需要将各种数据源来的数据围绕决策主题存储到数据 仓库中,以提高数据查询、聚集的效率。数据仓库建模采用自上而下的三级建模方式, 即概念建模、逻辑建模、物理建模。概念建模可采用信息打包法,逻辑建模以星型建模 方法和雪花建模方法为主,物理建模以 3NF 和星型建模方式为主。图5数据仓库建模方法在数据仓库的3级数据模型中,概念模型表示现实世界的“业务信息”构成关系, 用业务数据库设计中的“实体一关系”方法(E-R方法)来设

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号