数据仓库开发应用过程课件

上传人:博****1 文档编号:570053577 上传时间:2024-08-01 格式:PPT 页数:53 大小:261.50KB
返回 下载 相关 举报
数据仓库开发应用过程课件_第1页
第1页 / 共53页
数据仓库开发应用过程课件_第2页
第2页 / 共53页
数据仓库开发应用过程课件_第3页
第3页 / 共53页
数据仓库开发应用过程课件_第4页
第4页 / 共53页
数据仓库开发应用过程课件_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《数据仓库开发应用过程课件》由会员分享,可在线阅读,更多相关《数据仓库开发应用过程课件(53页珍藏版)》请在金锄头文库上搜索。

1、第3章数据仓库开发应用过程 数据仓库的开发应用像生物一样具有其特有的、完整的生命数据仓库的开发应用像生物一样具有其特有的、完整的生命周期,数据仓库的开发应用周期可以分成:数据仓库规划分周期,数据仓库的开发应用周期可以分成:数据仓库规划分析阶段、数据仓库设计实施阶段以及数据仓库的使用维护三析阶段、数据仓库设计实施阶段以及数据仓库的使用维护三个阶段。个阶段。这三个阶段是一个不断循环、完善、提高的过程。在一般情这三个阶段是一个不断循环、完善、提高的过程。在一般情况下数据仓库系统不可能在一个循环过程中完成,而是经过况下数据仓库系统不可能在一个循环过程中完成,而是经过多次循环开发,每次循环都会为系统增加

2、新的功能,使数据多次循环开发,每次循环都会为系统增加新的功能,使数据仓库的应用得到新的提高。仓库的应用得到新的提高。本章学习目标:本章学习目标: (1) 了解数据仓库开发应用的特点了解数据仓库开发应用的特点 。 (2) 掌掌握握数数据据仓仓库库的的规规划划 、数数据据仓仓库库的的概概念念模模型型设设计计 、数数据据仓仓库库的的逻逻辑辑模模型型设设计计 、数数据据仓仓库库的的物物理理模模型型设设计计 和和数数据据仓仓库的实施库的实施 。 (3) 了解数据仓库的应用、支持和增强。了解数据仓库的应用、支持和增强。 数据仓库开发应用过程 3.1数据仓库开发应用过程数据仓库开发应用过程 3.23.2数据

3、仓库的规划数据仓库的规划 3.33.3数据仓库的概念模型设计数据仓库的概念模型设计 3.43.4数据仓库的逻辑模型设计数据仓库的逻辑模型设计 3.53.5数据仓库的物理模型设计数据仓库的物理模型设计 3.63.6数据仓库的实施数据仓库的实施 3.73.7数据仓库的应用、支持和增强数据仓库的应用、支持和增强 3.1数据仓库开发应用的特点 3.1.1 数据仓库开发应用的阶段性数据仓库开发应用的阶段性 数据仓库的开发应用过程划分为:数据仓库的开发应用过程划分为:创始阶段创始阶段成长阶段成长阶段控制阶段控制阶段成熟阶段成熟阶段 3.1.2 数据仓库的螺旋式开发方法设计体系结构开发概念模型开发逻辑模型数

4、据库与元数据设计数据抽取转换与加载开发中间件填充与测试数据仓库数据仓库应用数据仓库维护数据仓库评价规划与确定需求 规划 分析阶段 数据仓库 开发过程 设计实施 使用维护阶段 阶段 3.1.3数据仓库开发的特点数据仓库开发的特点从数据出发从数据出发需求不能在开发初期明确需求不能在开发初期明确不断循环的启发式过程不断循环的启发式过程3.2 数据仓库的规划3.2.1 选择数据仓库实现策略开发策略主要有:自顶向下:自顶向下:实际应用比较困难 。自底向上:自底向上:用于一个数据集市或一个部门的数据仓库开发 ,容易获得成功 。两种策略的联合使用 :能够快速地完成数据仓库的开发与应用,而且还可以建立具有长远

5、价值的数据仓库方案。在实际使用中难以操作 。3.2.2 确定数据仓库的开发目标和实现范围 首要目标是确定所需要信息的范围,确定数据仓库在为用户提供决策帮助时,在主题和指标领域需要哪些数据源。 另一个重要目标是确定利用哪些方法和工具访问和导航数据? 其它目标是确定数据仓库内部数据的规模 使用范围确定从用户的角度分析 从技术的角度分析 3.2.3 数据仓库的结构1.数据仓库的应用结构数据仓库的应用结构 基于业务处理系统的数据仓库基于业务处理系统的数据仓库 单纯数据仓库单纯数据仓库 单纯数据集市单纯数据集市 数据仓库和数据集市数据仓库和数据集市 2.数据仓库的技术平台结构数据仓库的技术平台结构单层结

6、构单层结构 客户客户/服务器两层结构服务器两层结构 三层客户三层客户/服务器服务器 多层式结构多层式结构 3.2.4 数据仓库使用方案和项目规划预算l实际使用方案是一个非常重要的需求原型,可以将最终用户的决策支持要求与数据仓库的技术要求联系起来 l开发方案的预算进行估计 l编制数据仓库开发说明书 :说明系统与企业战略目标的关系,系统与企业急需处理的、范围相对有限的开发机会。业务机会的说明以及任务概况说明、重点支持的职能部门和今后工作的建议。计划中需要阐明期望取得的有形和无形利益业务价值计划最好由目标业务主管来完成规划书中要确定数据仓库的开发目标实现范围、体系结构和使用方案及开发预算。3.3 数

7、据仓库的概念模型设计概念模型的设计可以分为以下几个阶段:用户需求调查、模型定义、模型分析和模型设计。 3.3.1 概念模型的需求调查概念模型的需求调查数据仓库开发的任务书 首先要明确用户的信息需求 了解管理人员在信息需求方面的内容 了解关于信息的来源 组织所使用的系统环境 3.3.2 概念模型的定义1.数据仓库用户的决策分析数据仓库用户的决策分析2.支持决策的数据需求分析支持决策的数据需求分析3.数据需求分析工具数据需求分析工具决策分析问题决策分析问题客户购买商品趋势分析客户购买商品趋势分析需求信息类需求信息类日期日期地点地点商品商品客户年客户年龄龄组组客户经济状客户经济状况况客户信用客户信用

8、需求信息需求信息1层层需求信息需求信息2层层需求信息需求信息3层层需求信息需求信息4层层需求信息需求信息5层层年年(4)季季(16)月月(48)国家国家(15)省省(60)市市(200)街道街道(2100)商店商店(20000)商品种类商品种类(7)商品小类商品小类(40)商品商品(220)年龄组年龄组(8)经济类经济类(10)信用信用(10)3.3.2 概念模型的定义4. 4.企业业务处理系统数据存储表企业业务处理系统数据存储表企业业务处理系统数据存储表企业业务处理系统数据存储表OracleSysbaseSQL ServerVFP其它模式其它模式销售单输入销售单输入销售单处理销售单处理商品管

9、理商品管理预算系统预算系统(Excel)财务计算财务计算库存控制库存控制后勤后勤外部数据源外部数据源商品供应商商品供应商市场调查公司市场调查公司3.3.3 概念模型的分析 客户变动信息商品变动信息客户号商品固有信息 客户固有 信息 客户号供应商号开户日期 日期销售数量 日期 商品号 商品 客户 销售3.3.4 概念模型的设计经济(年收入)100万以上10万以上1万以上1万以下地点国家省市销售销售数量销售价格销售金额时间ID地点ID商品ID年龄60岁以上40岁以上30岁以上20岁以上20岁以下日期年月日商品种类ID小类ID商品ID信用10万元以上1万元以上1千元以上1千元以下 0元经济(年收入)

10、100万以上10万以上1万以上地点国家省市销售销售ID销售数量销售价格销售金额时间ID地点ID商品ID年龄60岁以上40岁以上30岁以上20岁以上20岁以下日期年月日商品ID种类小类商品信用10万元以上1万元以上1千元以上1千元以下 0元商品ID生产厂家进货价格进货日期客户客户ID姓名地址电话邮政编码3.3.5 概念模型文档与评审1.概念模型设计文档概念模型设计文档数据仓库开发需求分析报告概念模型分析报告概念模型概念模型的评审报告。 2.概念模型的评审概念模型的评审 确定概念模型是否完整地、准确地描述了用户的决策分析环境。 确认用户是否已经和项目开发成员之间建立了稳定的联系? 3.概念模型的评

11、审人员概念模型的评审人员 数据仓库项目负责人、数据仓库分析人员、数据仓库设计人员和数据仓库用户 4.概念模型的评审内容概念模型的评审内容 数据仓库开发任务书;用户决策分析信息需求调查表;数据仓库主题;E-R图、星型模型和雪花模型。 3.4 数据仓库的逻辑模型设计数据仓库的逻辑模型设计任务:数据仓库的逻辑模型设计任务:分析主题域,确定要装载到数据仓库的主题;确定粒度层次划分;确定数据分割策略;关系模式的定义和记录系统定义、确定数据抽取模型等。逻辑模型最终设计成果:逻辑模型最终设计成果:每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中粒度划分数据分割策略表划分和数据来源等。 3.4.1 分

12、析主题域主题名主题名公共码键公共码键属性组属性组商商品品商品号商品号商品固有信息:商品号,商品名,类型,颜色等商品固有信息:商品号,商品名,类型,颜色等商品采购信息:商品号,供应商号,供应价,供应日期,供应量商品采购信息:商品号,供应商号,供应价,供应日期,供应量等等商品库存信息:商品号,库房号,库存量,日期等商品库存信息:商品号,库房号,库存量,日期等销销售售销售单号销售单号销售单固有信息:销售单号,销售地址等销售单固有信息:销售单号,销售地址等销售信息:客户号,商品号,销售价,销售量、销售时间等销售信息:客户号,商品号,销售价,销售量、销售时间等客客户户客户号客户号客户固有信息:客户号,客

13、户名,性别,年龄,文化程度,住址,客户固有信息:客户号,客户名,性别,年龄,文化程度,住址,电话等电话等客户经济息:客户号,年收入,家庭总收入等客户经济息:客户号,年收入,家庭总收入等3.4.2 粒度层次和聚集的确定 决定数据仓库采取的是单一粒度还是多重粒度,以及粒度划分的层次。通过聚集的设计为数据仓库的使用提供各种可能的聚集查询便利3.4.3 确定数据分割策略 把逻辑上整体的数据分割成较小的、可以独立管理的物理单元进行存储 。 便于数据的重构、重组和恢复,以提高创建索引和顺序扫描的效率 数据分割标准:1.数据量2.数据分析处理的对象3.粒度分割的策略 3.4.4 关系模型定义3.4.5 数据

14、仓库的实体定义实体的逻辑分析实体所有列的具体特征 列名列名列的列的键属性属性值来源来源/ /值域域完整性完整性约束束类型与大小型与大小Customer_NCustomer_Numberumber主主键列、外部列、外部键列列来自客来自客户实体的合法体的合法客客户键列列没有客没有客户键列,数据列,数据就不存在就不存在Char(10)Char(10)Order_NumbOrder_Numberer主主键列、外部列、外部键列列来自来自销售售单实体的合体的合法法键列列没有没有销售售单键列,数列,数据就不存在据就不存在Char(10)Char(10)Product_NuProduct_Numbermber

15、主主键列、外部列、外部键列列来自商品来自商品实体的合法体的合法键列列没有商品没有商品键列,数据列,数据就不存在就不存在Char(10)Char(10)Product_PrProduct_Priceice正的金正的金额数数Money(floaMoney(float)t)3.4.5 数据仓库的实体定义实体体容量容量更新更新频率率CustomerCustomer中等容量,有中等容量,有100100个重点客个重点客户,20002000个跟踪客个跟踪客户每月每月对客客户情况情况进行一次分析,更新行一次分析,更新频率也率也为每月一次每月一次ProductProduct小容量,小容量,500500种商品种商

16、品大大约有有500500种商品,商品的更新是每月一种商品,商品的更新是每月一次,数据更新也照此。次,数据更新也照此。Order_DetOrder_Detailail大容量,其上限是大容量,其上限是354354,000000,000000,000000,考,考虑到各种客到各种客户类型与各种商型与各种商品的品的组合情况,一般很少达到。合情况,一般很少达到。数据每月数据每月汇总一次,但是一次,但是业务处理系理系统的数据每日需要更新一次,因此更新的数据每日需要更新一次,因此更新频率率为每日一次。每日一次。3.4.6 数据仓库的数据抽取模型F1 数据抽取规则P2清理数据记录F8 数据清理规则F2KHCG

17、F5 CQLS_KHCGF6 CQLS_KHCGF7 SJCK_KHCGP4加载到数据仓库F3SPQKF4ZGYJP3数据排序聚集P1抽取数据源记录3.4.6 数据仓库的数据抽取模型2.数据仓库的数据抽取、转换与加载计划数据仓库的数据抽取、转换与加载计划(1)影响数据抽取、转换与加载的因素)影响数据抽取、转换与加载的因素数据格式数据格式坏数据坏数据系统的兼容性系统的兼容性数据源的变化数据源的变化数据抽取的时间数据抽取的时间 (2 2)数据抽取、转换与加载对策)数据抽取、转换与加载对策)数据抽取、转换与加载对策)数据抽取、转换与加载对策 全库比较全库比较利用程序日志利用程序日志利用数据库日志利用

18、数据库日志利用时间戳或利用位图索引利用时间戳或利用位图索引3.4.6 数据仓库的数据抽取模型3.数据仓库的数据清理转换方法数据仓库的数据清理转换方法(1)类型转换(2)串操作(3)数学函数(4)参照完整性(5)关键字翻译(6)聚集运算4.数据仓库的数据抽取、清理与转换模型数据仓库的数据抽取、清理与转换模型3.4.6 数据仓库的数据抽取模型数据平台数据平台数据库数据库表名表名备注备注Windows/SQL ServerXSSJKHCG客户采购商客户采购商品表品表Windows/SQL ServerXSSJSPQK商品情况表商品情况表Windows/AccessRSGLZGYJ职工业绩表职工业绩表

19、数据源抽取对象表 3.4.6 数据仓库的数据抽取模型数据源抽取规则表数据源抽取规则表 表表.列名列名过滤与连接条过滤与连接条件件比较值比较值复合条件复合条件备注备注KHCG.CGSL500AND采购商品数量大采购商品数量大于于500SPQK.SPIDABOR商品前两位非商品前两位非AB3.4.6 数据仓库的数据抽取模型数据抽取的目标列与源列对应关系表数据抽取的目标列与源列对应关系表 目标表目标表.列列源表源表.列列转换公式转换公式备注备注SJCK_KHCG.KHZYKHCG.KHZY直接转换直接转换客户职业客户职业SJCK_KHCG.CGRQKHCG.CGRQ将月将月/年年/日的日期格式转日的

20、日期格式转换成年换成年/月月/日格式日格式客户采购日期客户采购日期3.4.6 数据仓库的数据抽取模型数据抽取过程的排序、概括和导出情况表数据抽取过程的排序、概括和导出情况表 表表.列名列名排序排序概括概括/导导出出备注备注CQLS_KHCG.CGSL降序降序分组分组按照采购数量从大到小排序、按照日期进行按照采购数量从大到小排序、按照日期进行分组分组SJCK_KHCG.CGHZ概括概括对每一客户采购量按照星期分别进行概括处对每一客户采购量按照星期分别进行概括处理,计算客户的采购总量理,计算客户的采购总量SJCK_KHCG.PJL导出导出对每一客户采购情况按照星期分别进行平均对每一客户采购情况按照

21、星期分别进行平均采购量计算采购量计算3.4.6 数据仓库的数据抽取模型数据概括表与事实表对应关系数据概括表与事实表对应关系 概括表表概括表表.列列名名是否是否导出导出事实表事实表.列列名名备注备注SPGKB.SP_ID否否SPGYB.SP_ID商品编号商品编号SPGKB.GYS_ID否否SPGYB.GYS_ID供应商编号供应商编号SPGKB.SPGYZSL是是SPGYB.SPGYL商品供应总量,按照供应商编号对供商品供应总量,按照供应商编号对供应数量求和应数量求和SPGKB.SPGYZJE是是SPGYB.SPGYJE商品供应总金额,按照供应商编号对商品供应总金额,按照供应商编号对供应商品的金额

22、进行汇总供应商品的金额进行汇总数据转换与清理数据转换与清理 建一个建一个简单 ETL 包,包,该包可以从包可以从单个平面文个平面文件源提取数据,使用两个件源提取数据,使用两个查找找转换组件件转换该数数据,然后将据,然后将该数据写入数据写入 AdventureWorksDW 中的中的FactCurrencyRate 事事实数据表。数据表。 了解包要求了解包要求查看源查看源查看目标查看目标将源数据映射为与目标兼容将源数据映射为与目标兼容平面文件数据转换与清理平面文件数据转换与清理创建新的创建新的 Integration Services 项目项目添加和配置平面文件连接管理器添加和配置平面文件连接管

23、理器 添加和配置添加和配置 OLE DB 连接管理器连接管理器 添加一个数据流任务添加一个数据流任务 添加平面文件源组件添加平面文件源组件 添加并配置添加并配置 CurrencyKey 查找转换查找转换 添加和配置示例添加和配置示例 OLE DB 目标目标 运行运行回顾回顾excel的导入过程的导入过程Excel数据源定义数据源定义Excel数据输出类型的转换数据输出类型的转换3.4.7 数据仓库的元数据模型建立与应用在数据仓库的模型建立过程中,可以使用某种建模工具创建数据仓库的模型,此时需要从现有的业务处理系统中提取元数据,并建立数据仓库的逻辑模型和物理模型,包括数据仓库的逻辑名称、业务名称

24、、列名、物理列名、业务术语和描述、查询提示和样值等,并将这些元数据保存在元数据目录中。在数据仓库中添加关于数据加载的元数据,完成数据“来源定义”,主要是关于数据仓库源数据的一些描述信息,用作从源文件向数据仓库转换的准备。利用数据加载工具提取数据仓库中各种表的定义,并完成源数据到目标数据的映射定义,捕捉所有的转换信息。这些工作大多数在数据模型的设计中完成。3.4.7 数据仓库的元数据模型建立与应用将关于源数据到目标数据的映射、转换存储到元数据目录中。在将源数据加载进数据仓库时,需要能够从元数据目录中查找到有关源数据的类型和位置、目标数据的类型和位置、以及两者之间的映射。在数据加载前,还需要查看数

25、据仓库中物理状态的最新信息,例如,磁盘空间的大小等。一边利用元数据指导从源数据提取数据,并且根据被提取的源数据情况,从中提取元数据,例如,数据提取的时间、源数据的有关变化等。3.4.7 数据仓库的元数据模型建立与应用将所提取的源数据经过清理、转换后加载进数据仓库。根据数据加载情况,将所捕捉到的数据加载统计信息和审核信息保存到元数据目录中。在数据仓库模型建立过程中所获取的事实表信息在元数据目录中应该成为业务分组的一些元数据,这些业务分组元数据实际上是一些关于使用数据仓库的帮助信息,只是在元数据目录中应该按照业务分组,便于用户使用,这些元数据应该可以被前端展示工具获取。用户可以在前端数据展示工具中

26、形成查询请求,此时元数据可以为正确的查询请求生成提供帮助。数据仓库将查询使用等结果返回给用户。将用户的查询情况统计以后,保存在元数据目录中,作为分析、了解用户使用数据仓库情况的依据。3.4.7 数据仓库的元数据模型建立与应用数据源物理模型 查询统计逻辑模型 业务分组来源定义 加载统计来源-目标映射建模工具元 数 据 目录数据加载工具数据仓库前端展示工具a(7(7) ) b3.4.8 逻辑模型的评审逻辑模型的文档内容:主题域分析报告,数据粒度划分模型,数据分割策略,指标实体、维实体与详细类别实体的关系模式和数据抽取模型。对逻辑模型的评审主要集中在主题域是否可以正确地反映用户的决策分析需求。从用户

27、对概括数据使用的要求,评审数据粒度的划分和数据分割策略是否可以满足用户决策分析的需要。为提高数据仓库的运行效率是否需要对关系模式进行反规范化处理。数据的抽取模型是否正确地建立了数据源与数据仓库的对应关系。数据的约束条件和业务规则是否在这些模型中得到了正确的反映。3.5 数据仓库的物理模型设计表的数据结构类型、索引策略、数据存放位置以及数据存储分配等等。物理模型设计因素:I/O存取时间、空间利用率和维护的代价。工作:全面了解所选用的数据库管理系统,特别是存储结构和存取方法。了解数据环境、数据的使用频率、使用方式、数据规模以及响应时间要求等。了解外部存储设备的特征。3.5.1 数据仓库设计的规范保

28、证数据仓库的设计、实施和管理保持稳定,不产生混乱,需要对物理数据模型中的实体、表、列等进行规范化处理。使整个数据仓库的物理数据模型能够保持一致。规范化内容主要有:完整清晰的数据定义、合适的数据格式等。数据仓库中的每个组件或部件都确定相应的设计标准。3.5.2 确定数据结构的类型数据非规范化处理的优点有:能减少对表联结的需求,提高数据仓库运行性能。能减少编写专门决策支持应用程序的工作量,因为运用一些专门的查询工具,可以更容易访问数据。可以让用户以直观的易于理解的工具来操作数据,例如,可以利用电子报表来查看数据。3.5.3 数据仓库索引的创建1.索引创建策略索引创建策略建建立立索索引引时时,按按照

29、照索索引引使使用用的的频频率率,由由高高到到低低逐逐步步添添加。加。按主关键字和大多数外部关键字建立索引按主关键字和大多数外部关键字建立索引 2.事实表索引的创建事实表索引的创建事实表中一定要设置主键? 据仓库中的许多查询中都会涉及到时间的查询处理,因此应该将时间数据放在主键索引的最前面,这样不仅提高查询处理效率,而且还能够提高依据时间进行数据的加载速度。 事实表中的非键索引通常需要根据用户使用数据仓库查询的统计情况在以后设置。 3.维表索引的创建维表索引的创建一般的维表中只有一个单独的主键,为维表中主键设置一个惟一的索引是必不可少的 。为一些大型维表,例如,客户维表、商品维表等建立索引则可以

30、提高查询效率。 维表中建立非主键索引时,主要考虑对那些经常在连接条件、过滤操作和分组操作中出现的列创建单独列索引 。4.数据加载索引的创建数据加载索引的创建仔细分析在数据加载中所用到的各种查询操作,为那些重要的或耗时比较长的步骤建立索引,尽可能地提高数据加载速度。 如果所增加的数据将使某些表数据量增加10%以上,就需要在加载数据之前删除表中的索引,在完成数据加载以后,重新创建索引,这样也会提高数据加载的效率。3.5.4 确定数据存放位置数据的布局原则:不要把经常需要连接的几张表放在同一存储设备上。如果几台服务器之间的连接会造成严重的网络业务量的问题,则要考虑服务器复制表格。考虑把整个企业共享的

31、细节数据放在主机或其他集中式服务器上。别把表格和它们的索引放在同一设备上。一般可以将索引存放在高速存储设备上,而表格则存放在一般存储设备上,以加快数据的查询速度。3.5.5 确定存储分配3.5.6 数据仓库物理模型的评审设计评审的目标要确定:物理模型在满足数据仓库使用的灵活性、性能、数据完整性、系统可用性、数据的当前性和用户的满意度等 具体的评审项目有:表空间、分区、表格、数据压缩、控制表和引用表、索引、数据量、数据分布、线路通信量、数据仓库的更新、概况数据、预期变动和数据的文档化。3.6 数据仓库的实施 实施过程中需要完成的工作:实施过程中需要完成的工作:建立数据仓库与业务处理系统的接口建立

32、数据仓库与业务处理系统的接口数据仓库的体系结构建立数据仓库的体系结构建立实现数据仓库物理仓库与元数据库实现数据仓库物理仓库与元数据库进行数据仓库的数据初次加载进行数据仓库的数据初次加载完成数据仓库的中间件设计完成数据仓库的中间件设计进行数据仓库的测试。进行数据仓库的测试。 3.6.1 数据仓库与业务处理系统接口的设计 接口应该具有这样一些功能:接口应该具有这样一些功能:从面向应用和操作环境生成完整的数据;从面向应用和操作环境生成完整的数据;数据基于时间的转换;数据基于时间的转换;数据的聚集;数据的聚集;对对现现有有数数据据系系统统的的有有效效扫扫描描,以以便便今今后后数数据据仓仓库库的数据追加

33、。的数据追加。3.6.2 数据仓库的创建关系型数据库、多维数据库和对象数据库关系型数据库、多维数据库和对象数据库 创建数据仓库的工具:创建数据仓库的工具:创建数据仓库的工具:创建数据仓库的工具:MS SQL Server2000MS SQL Server2000Oracle9iOracle9iSybaseSybaseInformix Red Brick Decision Server Informix Red Brick Decision Server 3.6.3 数据仓库的数据加载、复制与发行数据加载之前,首先需要对准备加载的数据进行清理 复制技术 复制结构应完成以下的复杂任务:复制结构应完

34、成以下的复杂任务:不会受到系统失败等问题的影响,保证提供可靠的数据复制。只传送符合数据完整性规则的一致数据。可以优化传送过程,减少在捕获或修改数据和复制品作为结果传送之间的等待时间。数据发行系统完成以下的功能:数据发行系统完成以下的功能:保证数据以适时和有效的方式发行。保证只发送被排序的数据。建立正确的和所需要的服务水平标准。3.6.4 数据仓库的中间件设计1.代码发生器代码发生器2.数据复制工具数据复制工具3.数据泵数据泵4.广义数据获取工具和设备广义数据获取工具和设备拷贝中间件还应该能够进行数据清洁工作拷贝中间件还应该能够进行数据清洁工作可可对对记记录录或或列列重重组组、去去除除业业务务数

35、数据据、供供给给已已丢丢失失的的字字段段值值和和检检查查数数据据的的完整性和一致性完整性和一致性对列值的解码和转换对列值的解码和转换增加数据的时间戳增加数据的时间戳数据的概括或者衍生值的计算数据的概括或者衍生值的计算3.6.5 数据仓库的测试1.单元测试单元测试单单元元测测试试的的目目的的是是寻寻找找出出存存在在于于单单个个程程序序、存存储储过过程程和和其其它位于一些独立环境中模块的错误。它位于一些独立环境中模块的错误。 2.系统集成测试系统集成测试测测试试目目的的是是验验证证每每个个单单元元与与数数据据仓仓库库系系统统和和子子系系统统之之间间的的接接口口是是否否完完好好,是是否否能能够够正正

36、常常传传递递数数据据与与执执行行系系统统的的整整体体功能。功能。 3.7 数据仓库的应用、支持和增强3.7.1 数据仓库的用户培训及支持数据仓库的用户培训及支持1.用户的培训用户的培训向用户解释清楚数据仓库的作用与原理用各种案例向用户说明如何使用数据仓库 2.对数据仓库用户的支持对数据仓库用户的支持对数据仓库应用成功案例的推广 初始阶段的支持 技术人员、商业分析人员与用户一起讨论 3.7.2 数据仓库的使用方式1.信息处理信息处理2.分析处理分析处理3.数据挖掘数据挖掘3.7.3 数据仓库使用中的数据刷新1.从已有数据资源中获取更多数据从已有数据资源中获取更多数据2.从单位内部获取新的数据源从单位内部获取新的数据源3.获取新的或更多的行业数据源获取新的或更多的行业数据源 3.7.4 数据仓库的增强1.元数据库的局限性元数据库的局限性2.缺乏外部数据源缺乏外部数据源3.数据仓库数据加载性能不能满足要求数据仓库数据加载性能不能满足要求4.数据仓库应用范围的扩大数据仓库应用范围的扩大5.数据仓库整体性能的调整数据仓库整体性能的调整6.数据仓库重新规划数据仓库重新规划

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号