数据仓库与联机分析处理总结

上传人:第*** 文档编号:34055051 上传时间:2018-02-20 格式:DOCX 页数:9 大小:24.80KB
返回 下载 相关 举报
数据仓库与联机分析处理总结_第1页
第1页 / 共9页
数据仓库与联机分析处理总结_第2页
第2页 / 共9页
数据仓库与联机分析处理总结_第3页
第3页 / 共9页
数据仓库与联机分析处理总结_第4页
第4页 / 共9页
数据仓库与联机分析处理总结_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《数据仓库与联机分析处理总结》由会员分享,可在线阅读,更多相关《数据仓库与联机分析处理总结(9页珍藏版)》请在金锄头文库上搜索。

1、数据仓库与联机分析处理一、基本概念数据仓库是面向主题的、集成的、时变的和非易失的有组织的数据集合,支持管理决策制定。有一些要素区别数据仓库与操作数据库。由于两种系统提供很不相同的功能,需要不同类型的数据,因此有必要将数据仓库与操作数据库分开维护。A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of managements decision-making process.”W. H. Inmon1.1 什么是数据仓库数据仓

2、库已被多种方式定义但没有一种严格的定义。课本:数据仓库是一种数据库,它与单位的操作数据库分别维护。数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。A decision support database that is maintained separately from the organizations operational database一个与组织结构的操作数据库分别维护的决定支持数据库;Support information processing by providing a solid platform of consolidate

3、d, historical data for analysis.为统一的历史数据分析提供坚实的平台,对信息处理提供支持。建立数据仓库(data warehousing):The process of constructing and using data warehouses 构建和使用数据仓库的过程1.2 subjected-oriented 面向主题的Organized around major subjects 围绕一些重要主题Focusing on the modeling and analysis of data for decision makers, not on daily o

4、perations or transaction 聚焦在为决策者的数据分析建模,而不是日常操作和交易Provide a simple and concise view around particular subject issues by excluding data that are not useful in the decision support process 排除对决策无用的数据1.3 integrated 集成的Constructed by integrating multiple, heterogeneous data sources 多个异构数据源,使用数据清理技术和数据集成

5、技术,确保一致性Data cleaning and data integration techniques are applied1.4 Time-variant 时变的The time horizon for the data warehouse is significantly longer than that of operational systems 比操作数据库的时间更长数据仓库的关键结构都显式或者隐式地包含了时间元素1.5 nonvolatile 非易失的A physically separate store of data transformed from the operat

6、ional environment数据仓库总是物理地分离存放数据。initial loading of data and access of data 数据的初始化装入和数据访问Dataware house 和 Heterogeneous Databse 异构数据库集成:wrapper mediater 查询驱动 query-driven数据仓库:update-drivenOLTP 联机事务处理 vs OLAP 联机分析处理用户和系统的面向性:OLTP 是面向顾客的 OLAP 是面向市场的数据内容: OLTP 系统管理当前数据 OLAP 管理大量历史数据数据库设计: OLTP 采用实体-关系模

7、型 ER 数据模型和采用面向应用的数据库设计 OLAP 采用星星或者雪花模 star or 面向主题视图: current ,local evolutional historical访问模式: update,原子事务,需要并发控制与恢复机制 大部分是只读操作,历史数据为什么需要分离数据仓库?High performance for both systems提高两个系统的性能数据库管理系统 OLTP 的协调: 存取方法,索引,同步控制,恢复数据仓库 OLAP 的协调: 复杂的 OLAP 查询,多维视图,合并不同的功能和不同的数据:数据维护: 决策支持需要历史数据,而操作数据库一般不维护历史数据数

8、据统一: 决策支持需要将来自异种源的数据统一(如聚集和汇总)数据质量: 不同的数据源通常使用不一致的数据表达,代码和形式,这些都需要协调但是越来越多的 OLAP 直接在数据库上操作数据仓库通常采用三层体系结构。底层是数据仓库服务器、它通常是关系数据库系统。中间层是 OLAP 服务器,底层是客户,包括查询和报表工具。数据仓库建模:数据立方体与 OLAPA data warehouse is based on a multidimensional data model which views data in the form of a data cube 基于多维数据模型 数据立方体形式数据立方体

9、(data cube):允许以多维对数据建模和观察,由维和事实定义。维 dimension table:一个单位想要记录的透视和实体 事实 fact table:contains measures (such as dollars_sold) and keys to each of the related dimension tables measures 度量 key 键Cuboid 方体 数据立方体基本方体 base cuboid顶点方体 apex cubiod多维数据模型的模式:1.star schema 星型模式。一个事实表,多个维表 2.Snowflake schema 雪花模式。在

10、星型模式的基础上,维表里面带维表3.Fact constellation 事实星座。DMQL 语句define cube sales_star time, item, branch, location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item

11、_key, item_name, brand, type, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city, province_or_state, country)数据立方体的三种度量方式:1.distributive 分布式 sum,count, min, max2.Algebraic 代数的 min_N, max_N 3.Holistic 整体的 median mode

12、一个概念分层定义一个映射序列,将低层概念到更一般的高层概念。Typical OLAP Operations典型的 OLAP 操作为上卷、下钻、切片和切块、转轴Design of dataware house四种观点:1. 自顶向下视图:使得我们可以选择数据仓库所需的相关信息2. 数据源视图:被操作数据库系统收集、存储和管理的信息3. 数据仓库视图:事实表和维表4. 商务查询视图:从最终用户的角度透视数据仓库的数据数据仓库设计过程:1.自顶向下2.自底向上3.混合4.瀑布5.螺旋Typical data warehouse design processChoose a business proc

13、ess to model, e.g., orders, invoices, etc. 商务处理过程Choose the grain (atomic level of data) of the business process 商务处理的粒度Choose the dimensions that will apply to each fact table record 维Choose the measure that will populate each fact table record 度量Three Data Warehouse Models从结构的角度看,有三种数据仓库模型:企业仓库、数据

14、集市、和虚拟仓库。 企业仓库 enterprise warehouse:企业仓库搜集了关于主题的所有信息,跨越整个组织。它提供企业范围内的数据集成,通常来自一个或多个操作的系统,或外部信息提供者,并且是跨功能的。通常,它包含详细数据和汇总数据,其大小由数千兆字节,到数百千兆字节,数兆兆字节,或更多。企业数据仓库可以在传统的大型机上实现,如 UNIX 超级服务器或并行结构平台。它需要广泛建模,可能需要多年设计和建造。数据集市 data mart:数据集市包含企业范围数据的一个子集,对于特定的用户是有用的。其范围限于选定的主题。例如,一个商场的数据集市可能限定其主题为顾客、商品和销售。包括在数据集

15、市中的数据通常是汇总的。通常,数据集市可以在低价格的部门服务器上实现,基于 UNIX 或 Windows/NT。实现数据集市的周期一般是数以周计,而不是数以月计或数以年计。然而,如果它们的规划不是企业范围的,从长远讲,可能涉及很复杂的集成。根据数据的来源不同,数据集市分为独立的和依赖的两类。在独立的数据集市中,数据来自一个或多个操作的系统或外部信息提供者,或者来自在一个特定的部门或地域局部产生的数据。依赖的数据集市中的数据直接来自企业数据仓库。虚拟仓库 virtual warehouse:虚拟仓库是操作数据库上视图的集合。为了有效地处理查询,只有一些可能的汇总视图被物化。虚拟仓库易于建立,但需

16、要操作数据库服务器具有剩余能力。数据仓库系统使用后端工具和实用程序来加载和刷新它的数据。这些工具和机制包含以下功能:数据提取:通常,由多个、异种、外部数据源收集数据。数据清理:检测数据中的错误,可能时订正它们。数据变换:将数据由遗产或宿主格式转换成数据仓库格式。装入:排序、综合、加固、计算视图、检查整体性,并建立索引和划分。刷新:传播由数据源到数据仓库的更新。Meta data is the data defining warehouse objects. It stores:Description of the structure of the data warehouseschema, view, dimensions, hierarchies, derived data defn, data mart locations and contentsOperational meta-datadata lineage (history of migrated data

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号