数据仓库及数据集市

资源描述

《数据仓库及数据集市》由会员分享，可在线阅读，更多相关《数据仓库及数据集市（6页珍藏版）》请在金锄头文库上搜索。

1、.数据仓库与数据集市看了很多数据仓库方面的资料，都涉及到了数据集市这一说法，刚开场对数据仓库和数据集市的区别也理解得比拟浅薄，现在做个深入的归纳和总结，主要从如下几个方面进展阐述：看了很多数据仓库方面的资料，都涉及到了数据集市这一说法，刚开场对数据仓库和数据集市的区别也理解得比拟浅薄，现在做个深入的归纳和总结，主要从如下几个方面进展阐述：1 根本概念2 为什么提出数据集市3 数据仓库设计方法论4 数据集市和数据仓库的区别5 仓库建模与集市建模6 案例分析：电信CRM数据仓库Bill Inmon说过一句话叫IT经理们面对最重要的问题就是到底先建立数据仓库还是先建立数据集市，足以说明搞清楚这两者之

2、间的关系是十分重要而迫切的！通常在考虑建立数据仓库之前，会涉及到如下一些问题：1 采取自上而下还是自下而上的设计方法2 企业围还是部门围3 先建立数据仓库还是数据集市4 建立领航系统还是直接实施5 数据集市是否相互独立一、根本概念数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W. H. Inmon 在其著作Buildingthe Data Warehouse一书中给予如下描述:数据仓库(Data Warehouse) 是一个面向主题的(SubjectOri2ented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( TimeVaria

3、nt) 的数据集合用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进展了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。为最大限度地实现灵活性，集成的数据仓库的数据应该存储在标准RDBMS 中，并经过规的数据库设计，以及为了提高性能而增加一些小结性信息和不规设计。这种类型的数据仓库设计被称为原子数据仓库。原子数据仓库的子集,又莆菁小硬挚獯嬖诘闹饕康氖亲魑菁械墓骰。币沧魑握招允莶挚狻硬挚獾拇笮写娣藕褪菘馍

4、杓瓶赡芪薹闾厥饫嘈陀没母髦中枨蟆渥蛹即各个数据集市被拷贝到其它计算机上,可作为它们自己的数据仓库。数据集市可以和产生它们的原子数据仓库一样大,甚至更大。它们可以位于原子数据仓库的附近，或分布到更靠近用户的位置，放置在何处取决于使用和通讯本钱。数据集市是用来满足特殊用户的应用需求的数据仓库，它们的规模可能到达数百GB。使其成为数据集市的关键是它的使用目标、围，而非规模大小。数据集市可以理解为是一个小型的部门或者工作组级别的数据仓库。有两种类型的数据集市如下列图：500)this.resized=true;this.style.width=500; /独立型直接从操作型环境中获取数据：这些数据集

5、市是由特定的工作组、部门或业务线进展控制的，完全是为满足其需求而构建的。实际上，它们甚至与其他工作组、部门或业务线中的数据集市没有任何连通性附属型从企业级数据仓库中获取数据：这样的数据集市往往以分布式的方式实现。虽然不同的数据集市是在特定的工作组、部门或生产线中实现的，但它们可以是集成、互连的，以提供更加全局的业务围的数据视图。实际上，在最高的集成层次上，它们可以成为业务围的数据仓库。这意味着一个部门中的终端用户可以访问和使用另一部门中数据集市中的数据二、为什么提出数据集市虽然 OLTP 和遗留系统拥有珍贵的信息，但是可能难以从这些系统中提取有意义的信息并且速度也较慢。而且这些系统虽然一般可支

6、持预先定义操作的报表，但却经常无法支持一个组织对于历史的、联合的、智能的或易于访问的信息的需求。因为数据分布在许多跨系统和平台的表中，而且通常是脏的，包含了不一致的和无效的值，使得难于分析。数据集市将合并不同系统的数据源来满足业务信息需求。假设能有效地得以实现，数据集市将可以快速且方便地访问简单信息以及系统的和历史的视图。一个设计良好的数据集市有如下特点有些特点数据仓库也具有，有些特点是相对于数据仓库来讲的： (1) 特定用户群体所需的信息，通常是一个部门或者一个特定组织的用户，且无需受制于源系统的大量需求和操作性危机想对于数据仓库。 (2) 支持访问非易变nonvolatile的业务信息。非

7、易变的信息是以预定的时间间隔进展更新的，并且不受 OLTP 系统进展中的更新的影响。 (3) 调和来自于组织里多个运行系统的信息，比方账目、销售、库存和客户管理以及组织外部的行业数据。 (4) 通过默认有效值、使各系统的值保持一致以及添加描述以使隐含代码有意义，从而提供净化的cleansed数据。 (5) 为即席分析和预定义报表提供合理的查询响应时间由于数据集市是部门级的，相对于庞大的数据仓库来讲，其查询和分析的响应时间会大大缩短。三、数据仓库设计方法论在数据仓库建立之前，会考虑其实现方法，通常有自顶向下、自底向上和两者综合进展的这样三种实现方案，下面分别对其做简要阐述：(1)自顶向下的实现自

8、顶向下的方法就是在单个工程阶段中实现数据仓库。自顶向下的实现需要在工程开场时完成更多方案和设计工作。这就需要涉及参与数据仓库实现的每个工作组、部门或业务线中的人员。要使用的数据源、平安性、数据构造、数据质量、数据标准和整个数据模型的有关决策一般需要在真正的实现开场之前就完成。(2)自底向上的实现自底向上的实现包含数据仓库的方案和设计，无需等待安置好更大业务围的数据仓库设计。这并不意味着不会开发更大业务围的数据仓库设计；随着初始数据仓库实现的扩展，将逐渐增加对它的构建。现在，该方法得到了比自顶向下方法更广泛的承受，因为数据仓库的直接结果可以实现，并可以用作扩展更大业务围实现的证明。(3)一种折中

9、方案每种实现方法都有利弊。在许多情况下，最好的方法可能是*两种的组合。该方法的关键之一就是确定业务围的架构需要用于支持集成的方案和设计的程度，因为数据仓库是用自底向上的方法进展构建。在使用自底向上或阶段性数据仓库工程模型来构建业务围架构中的一系列数据集市时，您可以一个接一个地集成不同业务主题领域中的数据集市，从而形成设计良好的业务数据仓库。这样的方法可以极好地适用于业务。在这种方法中，可以把数据集市理解为整个数据仓库系统的逻辑子集，换句话说数据仓库就是一致化了的数据集市的集合。这种方案的实施步骤通常分如下几步：(6) 从整个企业的角度定义方案和需求(7) 构建完整的仓库体系构造(8) 使数据容

10、一致而且标准化(9) 将数据仓库作为一种超级数据集市来实施关于Inmon 和 Kimball的大辩论：Ralph Kimball 和 Bill Inmon 一直是商业智能领域中的革新者，开发并测试了新的技术和体系构造。Bill Inmon 将数据仓库定义为一个面向主题的、集成的、随时间变化的、非易变的用于支持管理的决策过程的数据集合；他通过面向主题表示应该围绕主题来组织数据仓库中的数据，例如客户、销售、产品等等。每个主题区域仅仅包含该主题相关的信息。数据仓库应该一次增加一个主题，并且当需要容易地访问多个主题时，应该创立以数据仓库为来源的数据集市。换言之，*个特定数据集市中的所有数据都应该来自于

11、面向主题的数据存储。 Inmon 的方法包含了更多上述工作而减少了对于信息的初始访问。但他认为这个集中式的体系构造持续下去将提供更强的一致性和灵活性，并且从长远来看将真正节省资源和工作。下列图是他的设计方法图解：500)this.resized=true;this.style.width=500; /Ralph Kimball 说数据仓库仅仅是构成它的数据集市的联合，他认为可以通过一系列维数一样的数据集市递增地构建数据仓库。每个数据集市将联合多个数据源来满足特定的业务需求。通过使用一致的维，能够共同看到不同数据集市中的信息，这表示它们拥有公共定义的元素。设计方法如下列图：500)this.re

12、sized=true;this.style.width=500; /Kimball 的方法将提供集成的数据来答复组织迫切的业务问题并且要快于 Inmon 的方法。Inmon 的方法是只有在构建几个单主题区域之后，集中式的数据仓库才创立数据集市。而 Kimball 认为该方法缺乏灵活性并且在现在的商业环境中所花时间太长。实际上，方法的选择取决于工程的主要商业驱动。如果该组织正忍受糟糕的数据管理和不一致的数据，或者希望为今后打下良好的根底，则 Inmon 的方法就更好一些。如果该组织迫切需要给用户提供信息，则 Kimball 的方法将满足该需求。而一旦满足了迫切的信息需求后，就应该考虑包含独立

13、数据仓库的数据体系构造的转换方案。数据仓库将使数据集市与遗留系统和 OLTP 系统隔离，并且支持更快地创立将来的数据集市。由于数据仓库在整个开展中一直承当了重任，所以它将支持竭力关注数据集市。实际上基于商业驱动的需要，采用上面三种设计方案中的最后一种方法：自顶向下和自底向上综合的方案会很好的适应数据仓库建立过程中的不同需求。四、数据仓库与数据集市的区别数据仓库是企业级的，能为整个企业各个部门的运行提供决策支持手段；而数据集市则是一种微型的数据仓库,它通常有更少的数据,更少的主题区域,以及更少的历史数据,因此是部门级的，一般只能为*个局部围的管理人员效劳，因此也称之为部门级数据仓库。数据仓库和数

14、据集市之间的区别如下列图：数据仓库和数据集市的区别可从如下三个方面进展理解：1 数据仓库向各个数据集市提供数据2 几个部门的数据集市组成一个数据仓库500)this.resized=true;this.style.width=500; resized=true /3 下面从其数据容特征进展分析，数据仓库中数据构造采用规化模式，数据集市中的数据构造采用星型模式，通常仓库中数据粒度比集市的粒度要细，下列图反映了数据构造和数据容特征的区别500)this.resized=true;this.style.width=500; resized=true /五、数据仓库建模与数据集市建模数据只是所有业务活

15、动、资源以及企业结果的记录。数据模型是对那些数据的组织良好的抽象，因此数据模型成为理解和管理企业业务的最正确方法是极其自然的。数据模型起到了指导或方案数据仓库的实现的作用。在真正的实现开场之前，联合每个业务领域的数据模型可以帮助确保其结果是有效的数据仓库，并且可以帮助减少实现的本钱。(1)数据仓库的建模数据仓库数据的建模是将需求转换成图画以及支持表示那些需求的元数据的过程。出于易读性目的，本文将关于需求和建模的讨论相别离，但实际上这些步骤通常是重叠的。一旦在文档中记录一些初始需求，初始模型就开场成型。随着需求变得更加完整，模型也会如此。最重要的是向终端用户提供良好集成并易于解释的数据仓库的逻辑模型。这些逻辑模型是数据仓库元数据的核心之一。为终端用户提供的简单性以及历史数据的集成和联合是建模方法应该帮助提供的关键原则。(2)数据集市的数据建模因为仓库终端用户直接与数据集市进展交互，所以数据集市的建模是捕获终端用户业务需求的最有效工具之一。数据集市的建模过程取决于许多因素。下面描述了三个最重要的：数据集市的建模是终端用户驱动的。终端用户必须参与数据集市的建模过程，因为他们显然是要使用该数据集市的人。因为您应期望终端用户完全不熟悉复杂的数据模型，所以应该将建模技术和建模过程作为整体进展组织，以便使复杂性对终端用户透明。数

展开阅读全文