数据仓库概念学习

上传人:工**** 文档编号:560177081 上传时间:2023-01-21 格式:DOC 页数:6 大小:96KB
返回 下载 相关 举报
数据仓库概念学习_第1页
第1页 / 共6页
数据仓库概念学习_第2页
第2页 / 共6页
数据仓库概念学习_第3页
第3页 / 共6页
数据仓库概念学习_第4页
第4页 / 共6页
数据仓库概念学习_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《数据仓库概念学习》由会员分享,可在线阅读,更多相关《数据仓库概念学习(6页珍藏版)》请在金锄头文库上搜索。

1、数据仓库学习研究信息处理技术的发展,使得各类数据、信息急剧增长,给数据的传输、存储 都带来了许多新的问题。 人们希望能够看到所有数据和信息的综合情况, 而这些 数据与事务处理有许多不能被原有数据结构描述,不能被现有应用系统综合使 用。针对这一问题, 人们设想 专门为业务的统计分析 建立一个数据中心, 它的数 据来自联机的事务处理系统、 异构的外部数据源、 脱机的历史业务数据等, 这个 数据中心就叫数据仓库。 数据仓库技术的应运而生, 成为信息技术领域非常热门 的话题之一。数据仓库技术的提出, 建立了一种体系化的数据存储环境, 将分析决策所需 要的大量数据从传统的操作环境中分离出来, 使分散、不

2、一致的操作数据转换成 集成、统一的信息。1. 数据仓库概念数据仓库是一个 面向主题的、集成的、与时间相关、稳定的 数据集合,以便 支持管理决策。“面向主题”的数据仓库要求进行数据库设计 , 而一些数据库设计者忽略了 这一重要环节 , 根本没有进行正规的数据库设计。他们简单地把原有数据库或者 并非专为数据仓库设计的现有决策支持系统 (DSS )中的数据复制到数据仓库中。 这样建立的不是良构的、 可独立维护的主题数据库。 在数据仓库设计过程中, 数 据以所代表的业务内容划分,而不是以应用划分 。“数据集成性” 意味着数据仓库中的数据采用统一的格式和编码方式。在命名协议、关键字、关系、编码和翻译中的

3、一致性问题必须通过精心的设计取得。“与时间相关” 意味着数据仓库中的数据大都与时间相关。 因此,数据仓库 中的数据组织方式要便于按时间段计算和提取数据。“稳定的”是指数据仓库中的数据不进行实时更新。 通常数据是以每夜、 每 周或每月为周期进行升级 , 这一升级的过程不是简单的拷贝 , 而是要经过复杂的 提取、概括、聚集和过滤等操作过程。 数据一旦进入数据仓库 , 就不允许随便更 新。2. 数据仓库的内涵从数据仓库的基本概念及产生背景看来, 数据仓库具有以下内涵:(1) 数据仓库应支持多种数据源 , 不仅仅是数据库 , 还应有各种数据文件、文 本文件、应用程序等。(2) 数据仓库中存放的应该不仅

4、是供分析使用的数据 , 还应有在一定激发条 件下能主动起作用的处理规则、算法、甚至是过程。(3) 传统的物理数据仓库方法并非唯一的选择 ,应根据需求的具体情况 , 建立 虚拟数据仓库的解决方案。(4) 数据仓库中的数据并不完全是原始数据的简单归并和搬家 , 而应该是增 值和统一。因此“汇总并统一”是数据仓库的必须内涵描述。3. 数据仓库的基本组成数据仓库 DW( Data Warehouse) 既是一种结构和方法,又是一种技术 。各 种信息从不同信息源提取出来, 然后将其转换成公共的数据模型并和仓库中已有 的数据集成,当用户向仓库查询时,需要的信息已准备就绪,数据冲突、表达不 一致等问题已经得

5、到解决,这样,决策查询更容易、更有效。作为一种满足数据 仓库管理要求的特殊的数据库系统, DW 具体包含以下五个基本功能部分:数据定义: 主要完成数据仓库的结构和环境的定义, 包括:定义数据仓库中 数据库的模式、 数据仓库的数据源和从数据源提取数据的一组规则或模型。数据提取:数据提取部分负责从数据源提取数据, 并对获得的源数据 (source data)进行必要的加工处理,使其成为数据仓库可以管理的数据格式和语义规范。数据管理:数据管理由一组系统服务工具组成, 负责数据的分配和维护, 支 持数据应用。 数据分配完成获取数据的存储分布及分发到多台数据库服务器, 维 护服务完成数据的转储和恢复、

6、安全性定义和检测等。 另外, 用户直接输入系统 的数据也由该部分完成。数据应用:数据仓库的数据应用除了一般的直接检索性使用外, 还应当能够 完成比较常用的 数据表示和分析 ,如图表表示、统计分析、结构分析等。对于涉 及到众多数据的综合性较强的分析,可以借助专业数据分析工具。在客户机/服务器体系结构下, 这部分功能可以放在客户端来完成, 以便充分利用客户机上丰 富的数据分析软件。这部分主要包括了 报表生成、 OLAP 、数据挖掘、决策支持 工具应用 等方面,其中 OLAP 和数据挖掘是近年来研究的重点和热点。4. 数据仓库体系结构数据仓库是储存、管理信息数据的一种组织形式,其物理实质仍是计算机存

7、 储数据的系统,只是由于使用目的不同,其存储的数据在量和质以及前端分析工 具上与传统信息系统有所不同。数据仓库按照功能分为以下几部分。1、元(Meta)数据。元数据是数据仓库的核心,是关于数据的数据,是关 于数据和信息资源的描述信息。它通过对数据的内容,质量,条件和其他特征进 行描述和说明,帮助人们有效地定位、评论、比较、获取和使用相关数据。2、源数据。指分布在不同的应用系统中,存储在不同的平台和不同的数据 库中的大量的数据信息,是数据仓库的物质基础。3、 数据变换工具。为了优化数据仓库的分析性能,源数据必须经过变换以 最适宜的方式进入数据仓库。变换主要包括提炼、转换。数据提炼主要指数据的 抽

8、取,并对抽取数据删去不需要的运行信息, 检查数据的完整性和相容性等;数 据转换指统一数据编码和数据结构、 给数据加上时间标志、根据需要对数据集进 行各种运算以及语义转换等。数据变换工具为数据库和数据仓库之间架起了一座 桥梁,使源数据得到了增值和统一,最大限度地满足了数据仓库高层次决策分析的需要。4、数据仓库。源数据经过变换进入数据仓库。数据仓库以多维方式来组织数据和显示数据。属性维和时间维是数据仓库反映现实世界动态变化的基础,他们的数据组织方式是整个数据仓库技术的关键。5、数据分析工具。数据仓库系统的目标是提供决策支持,它不仅需要一般的统计分析工具,更需要功能强大的分析和挖掘工具,是数据仓库系

9、统的重要组 成部分。分析工具主要实现对数据仓库中的数据进行分析和综合。挖掘工具负责从大量的数据中发现数据的关系,找到可能忽略的信息,预测趋势和行为。数据仓库体系结构总结数据仓库并非是一个仅仅存储数据的简单信息库, 它是一个以大型数据管理 信息系统为基础, 附加在这个数据库系统之上, 存储了从企业所有业务数据库中 获取的综合数据,并能利用这些综合数据为用户提供经过处理后的有用信息的应 用系统。如果说传统数据库系统的重点与要求是快速、准确、安全、可靠地将数 据存进数据库中的话, 那么数据仓库的重点与要求就是能够准确、 安全、可靠地 从数据库中取出数据, 经过加工转换成有规律信息之后, 再供管理人员

10、进行分析 使用。思考建立一个数据仓库需要经过以下几个处理过程: 数据仓库设计; 数据处 理;数据展现。数据仓库设计数据仓库在设计之初应明确其主题, 主题是一个在较高层次将数据归类的标 准,每一个主题对应一个宏观的分析领域, 针对具体决策需求可细化为多个主题 表,具体来说就是确定决策涉及的范围和所要解决的问题。 但是主题的确定必须 建立在现有联机事务处理(OLTP系统基础上,否则按此主题设计的数据仓库存 储结构将成为一个空壳,缺少可存储的数据。但一味注重 OLTF数据信息,也将 导致迷失数据提取方向,偏离主题。为此,在模型设计过程中,需要在OLTP数据和主题之间找到一个“平衡点” ,根据主题的需

11、要完整地收集数据,这样构建 的数据仓库才能满足决策和分析的需要。数据处理由于业务系统的开发一般有一个较长的时间跨度,这就造成同一种数据在业务系统中可能会有多种完全不同的存储格式,甚至还有许多数据仓库分析中所要 求的数据在业务系统中并不直接存在,而是需要根据某些公式对各部分数据进行 计算才能得到。因此,确定如何抽取或查询源数据并非易事, 因为源数据往往存 储在多个地方,可能是一个RDMS个文本文件、一个Excel文件、一个DBF文 件或其他类型文件。在数据处理过程中,从设计的角度讲最好忽视一些连接问题,把主要精力集 中在源数据如何映射目标数据上,因为,结构统一、信息完备的数据平台是决策 分析的根

12、本保证。这里提醒一点,在数据抽取分析时需要对业务深刻理解,不能 简单的了解。比如我想取一个数据,在源系统中多个表都有,而你选择了一个。 在当时不会有什么问题,但随着后续工作的开展和分析就会出现意想不到的结 果。所以从哪一个表取不是随便的。同时,行业集约化、精细化管理的不断推进,建立统一的数据平台成为了今 后信息分析的迫切要求。为便于数据信息的统一转换,减少原型系统对源数据库 系统的依赖,在对异构数据源进行转换过程中往往采用文本导出、导入机制,其数据转换模式结构图如下系统专用数据库DW服导务器入指定模目录块一导出 数据 文本导出 数据 文本一一二数据库数据库导出数据文本数据库文件处理模式优点: 避免了数据仓库系统对源数据库系统的过分依赖;数据提供方能以简单的形式将数据提供给数据仓库系统,以便进行决策分析; 屏蔽了源数据格式差异; 能够以统一的方式处理获得的源数据, 从而提高了数据预处理效率;保障了源数据 以导出的文本文件作为数据源,避免了直接对源数据库的操作, 库系统的安全及效率。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号