数据仓库与数据挖掘技术 第2章 数据仓库开发模型

上传人:san****019 文档编号:84272817 上传时间:2019-03-03 格式:PPT 页数:81 大小:271.50KB
返回 下载 相关 举报
数据仓库与数据挖掘技术 第2章 数据仓库开发模型_第1页
第1页 / 共81页
数据仓库与数据挖掘技术 第2章 数据仓库开发模型_第2页
第2页 / 共81页
数据仓库与数据挖掘技术 第2章 数据仓库开发模型_第3页
第3页 / 共81页
数据仓库与数据挖掘技术 第2章 数据仓库开发模型_第4页
第4页 / 共81页
数据仓库与数据挖掘技术 第2章 数据仓库开发模型_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《数据仓库与数据挖掘技术 第2章 数据仓库开发模型》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘技术 第2章 数据仓库开发模型(81页珍藏版)》请在金锄头文库上搜索。

1、第2章 数据仓库开发模型,主讲人:孙水华 副教授 信息科学与工程学院,数据仓库与数据挖掘技术,内 容,数据仓库开发模型概述 数据仓库的概念模型 数据仓库的逻辑模型 数据仓库的物理模型 数据仓库的元数据模型 数据的粒度和聚集模型 小结,2.1 数据仓库开发模型概述,模型是实际系统的表示,它向用户展现了重要的系统特征。同时,模型通过消除与其目的无关紧要的特征来简化显示。 模型是对现实世界进行抽象的工具。在信息管理中需要将现实世界的事物及其有关特征转换为信息世界的数据才能对信息进行处理与管理,这就需要依靠数据模型作为这种转换的桥梁。 设计一个能够真正支持用户进行决策分析的数据仓库,并非一件轻而易举的

2、事情。这需要经历一个从现实环境到抽象模型,从抽象模型到具体实现的过程。完成这个过程建立各种不同的数据模型是必不可少的。,数据仓库模型设计包括概念模型设计、逻辑模型设计、物理模型设计、元数据模型设计等内容。数据仓库的建模首先要将现实的决策分析环境抽象成一个概念数据模型。然后,将此概念模型逻辑化,建立逻辑数据模型。最后,还要将逻辑数据模型向数据仓库的物理模型转化。作为数据仓库灵魂的元数据模型则自始至终伴随着数据仓库的开发、实施与使用。数据仓库的数据抽取模型则说明抽取什么数据,从哪些业务系统抽取,对抽取的数据进行哪些转换处理等。数据仓库的数据建模技术如图2.1所示。,图2.1 数据仓库的数据建模技术

3、,现实世界是存在于现实之中的各种客观事物。概念世界是现实情况在人们头脑中的反应。逻辑世界是人们为将存在于自己头脑中的概念模型转换到计算机中的实际的物理存储过程中的一个计算机逻辑表示模式。计算机世界则是指现实世界中的事物在计算机系统中的实际存储模式。现实世界与其他模型的变化联系如图2.2所示。,图2.2 现实世界与其他模型的变化联系,数据仓库概念模型设计的目的是对数据仓库所涉及现实世界的所有客观实体进行科学、全面地分析和抽象,制定构建数据仓库的“蓝图”。数据仓库的概念模型设计时需要确定数据仓库的主要主题及其相互关系。主题应该能够完整、统一地刻画出分析对象所涉及的各项数据以及相互联系,根据需求分析

4、确定几个基本的主题域及其维度。概念模型设计主要完成以下工作: 1界定系统边界。 2确定主要的主题域。 3确定分析的维度和分析的内容。,2.2 数据仓库的概念模型,1界定系统边界。 即进行任务和环境评估、需求收集和分析,了解用户迫切需要解决的问题及解决这些问题所需要的信息,需要对现有数据库中的数据有一个完整而清晰的认识。,2确定主要的主题域。 对每一个主题域的公共码键、主题域之间的联系、充分代表主题的属性进行较明确的描述。,3确定分析的维度和分析的内容。 一旦主题划分清楚了,接着就要细化分析的具体内容以及根据分析内容的性质确定分析维度。通常维元素对应的是分析角度,而度量对应的是分析关心的具体指标

5、。一个指标究竟是作为维元素、度量还是维属性,取决于具体的业务需求,一般情况下,作为维元素或维属性的通常是离散型的数据,只允许有限的取值;作为度量是连续型数据,取值无限。如果一定要用连续型数据作为维元素,则必须对其按取值进行分段,以分段值作为实际的维元素。判断分析指标是作为维元素还是维属性时,则需要综合考虑这个指标占用的存储空间与相关查询的使用频度。,进行数据仓库数据建模之前,对数据仓库的需求进行分析是必不可少的,数据仓库需求分析需要对来自多个领域的需求进行详细分析。需求分析的方式有两种:一是对原有固定报表进行分析;二是对业务人员进行访谈。原有固定报表能较好地反映出原业务对数据分析的需求,而且数

6、据含义和格式相对成熟、稳定,在模型设计中需要大量借鉴。但数据仓库建设中仅仅替代目前的手工报表还是不够的,因此还应该通过业务访谈,进一步挖掘出日常工作中潜在的更广、更深的分析需求。只有这样,才能真正了解构建数据仓库模型所需的主题划分,数据仓库的主题划分实际上与分析内容的范围直接相关。 最终用户的需求体现在对工作流程的分析、决策的查询需求、报表需求、操作需求和数据需求等方面。,2.2.1 企业模型的建立,数据仓库的最终用户只能通过查询和报表工具以及数据仓库内部信息的某种映射关系来访问数据仓库内部数据,对他们而言,数据仓库是一个黑箱。 最终用户指定数据分析的类型,这些数据分析操作主要是对数据项进行揭

7、示更多的细节的分片和细剖,寻找企业隐含行为的数据挖掘,在对数据进行分析时可从二维或多维的、电子表格的、关系的、报表的、图表的和运营样本的数据等方面进行分析。,我们以SQL Server 2005数据库引入的Adventure Works示例数据库为例介绍数据仓库数据建模过程。 SQL Server 2005数据库的示例以名为Adventure Works Cycles的虚拟公司为背景,该公司是一家大型跨国生产公司,其产品主要包括生产金属和复合材料的自行车,公司总部设在华盛顿州的伯瑟尔市,有500名雇员,该公司在世界各地均建立了区域性销售团队,产品远销北美、欧洲和亚洲市场。Adventure W

8、orks Cycles目前的目标是专注于向高端用户提供产品,通过外部网站扩展其产品的销售渠道、通过降低生产成本来削减其销售成本。 下面将通过介绍该公司的原材料采购、生产和销售等环节的业务流程,提出该公司的数据仓库需求。,1.原材料采购业务流程。 该公司内部由采购部负责原材料采购,采购部门下设一个经理和多个采购员。每个采购员需要了解原材料和供应商的联系,负责多种原材料的采购,一种原材料只能由一个采购员采购,采购员和商品之间是一对多关系;一种原材料有多个供应商,一个供应商可以提供多种原材料,原材料和供应商之间是多对多的关系;采购部门经理需要管理员工,并且还需要了解原材料的库存情况,以确定需要采购的

9、商品并将任务分配给每个采购人员。,2.库存业务流程 公司由仓库管理部门对原材料、产品等物料信息进行库存管理,仓库管理部门管理多个仓库,下设一个经理和多个仓库管理员,每个仓库有多个仓库管理员,每个管理员只能在一个仓库中进行工作。仓库管理员需要知道他所管理的仓库中存储的物料的种类、数量、存储的时间、原材料的保值期及原材料进入仓库和离开仓库的时间等信息。一个仓库可以保存多种物料。仓库管理部门经理不但需要处理仓库管理员需要的数据,而且需要知道仓库管理员的基本信息,如家庭地址、联系电话等。,3.产品销售业务流程 Adventure Works Cycles公司的产品远销北美、欧洲和亚洲市场。公司目前有网

10、络销售和批发商销售两种销售渠道。因此,客户也分为个人消费者和商店两类,个人消费者是从在线商店购买产品的消费者,商店是从Adventure Works Cycles销售代表处购买产品后进行转售的零售店或批发店。销售人员关心产品的信息,包括:产品的价格、质量、颜色和规格等,以便向顾客推销相关的产品。销售部门经理需要了解产品销售情况, 以便在某种产品缺货时通知仓库管理部门运送商品;同时,他还需要了解每个销售员的工作业绩,对每个销售员进行考核,即销售部门经理需要了解商品、顾客和部门员工的情况。,在设计数据仓库数据模型时要从业务蕴涵的数据视角来理解业务,从业务分析中可以看出,不同部门对数据需求不同,同一

11、部门人员对数据需求也存在差异。如管理人员和普通业务人员对数据要求的程度是不同的,管理人员可能需要综合度较高或较为概括的数据,而普通业务人员需要细节数据。因此,数据仓库项目需求的收集与分析需要从历史数据与用户需求两个方面同时着手,采用“数据驱动+用户驱动”的设计理念。,2.2.2 规范的数据模型,关系模型是具有二维表格形式的数据模型,它建立在关系代数的基础上。是传统数据库中最常用的数据模型,其特点是把数据组织成二维表的形式,无论是实体还是实体间的联系都采用二维表,二维表的每一行叫作关系的一个元组,每一列叫作关系的一个属性。关系中的每一列的值总是取自一个集合,这个集合称为域。 关系模型可以用实体-

12、联系 (Entity-Relationship简称E-R)图来表示。E-R图通过定义了数据间的关系,去除数据冗余,使操作型处理简单,还可保证数据一致性。因此,关系模型在传统的操作型数据库系统中获得了巨大的成功。 范式是关系数据库模型设计的基本理论,一个关系模型可以从第一范式到第五范式进行无损分解,这个过程也称为规范化(Normalize)。,Adventure Works Cycles公司的业务数据分为5大部分,如表2-1所示。,这5个架构相关的表信息如表2-2所示。,续表,续表其它部分见p36,在实际设计中用于数据仓库设计的概念模型与业务数据处理系统的数据模型仍然具有一定的差距。 1. 数据

13、类型的差距:数据仓库的概念模型只包含用户所感兴趣的分析数据、描述数据和细节数据。 2. 数据的历史变迁性:数据仓库的概念模型扩充了关键字结构,增加了时间属性并作为关键字的一部分。 3. 数据的概括性:数据仓库的概念模型中还增加了一些基本数据所导出的衍生数据用于管理决策分析,这些在业务处理系统中是不存在的。,数据仓库项目需求的收集与分析需要从历史数据与用户需求两个方面同时着手,采用“数据驱动+用户驱动”的设计理念。 数据驱动是根据当前业务数据的基础和质量情况,以数据源的分析为出发点构建数据仓库,用户驱动则是根据用户业务的方向性需求,从业务需求出发,确定系统范围的需求框架。如图2.3所示,常常用“

14、两头挤法”找出数据仓库系统的真正需求。,图2.3 用户驱动与数据驱动相结合示意图,在企业模型建立过程中,与用户交流时,须确定数据仓库需要访问的有关信息。例如,Adventure Works Cycles公司管理要在数据仓库中得到有关产品销售收入的详细统计信息,可以确定其度量指标如下: 1度量指标:包括产品销售的实际收入、产品销售的预算收入及产品销售的估计收入。 2维度指标:包括已经销售的产品信息、销售地点和顾客信息等。 根据分析,可建立Adventure Works Cycles公司的企业数据模型如图2.4所示。,图2.4 Adventure Works Cycles公司企业数据模型,2.2.

15、3 常见的概念模型,在概念模型设计中,常用E-R图作为描述工具。E-R图中,长方体表示实体,即数据仓库的主题域,框内写上主题域名称;用椭圆表示主题域的属性,用无向边把主题域与其属性连接起来;再将边表示主题域之间的联系,主要有一对一的关系、一对多的关系、多对多的关系。,主题, 是指在较高层次上将业务数据进行综合、归类和分析的一个抽象概念,每个主题基本对应业务的一个分析领域。在主题分析中须对分析对象数据形成一个完整并且一致的描述,主题是根据分析需求确定的。主题域是对某个主题进行分析后确定的主题边界。主题域的确定通常由最终用户和数据仓库的设计人员共同完成。 例如,对于Adventure Works

16、Cycles公司的管理层可能需要分析的主题包括供应商、商品、客户和库存情况等主题。其中商品主题的内容包括记录各经销商商品的销售情况、公司商品库存情况、商品中各组成物料的采购情况等;客户主题包括的内容有客户购买商品情况;库存情况主题分析主要包括商品的存储情况和仓库的管理情况等。根据分析主题和主题域可得到Adventure Works Cycles公司的主题及主题域结构如图2.5所示。,图2.5 Adventure Works Cycles公司主题及主题域划分,接着可以用建立信息包图的方式进一步细化概念模型。信息包图是在某主题域中的一个主题分析的信息打包技术,它反映了在数据聚合条件下的多维数据在计算机内部的存储方式,可以体现各个不同平台的各个信息的聚合的概念性含义,主要包括定义指标、定义维度、和定义类别三个方面的内容。信息包图法也叫用户信息需求表法,就是在一张平面表格上描述元素的多维性,其中每一个维度用平面表格的一列表示,例如时间、地点、产品和顾客等。信息包图定义主题内容和主要性能指标之间的关系,其目标是在概念层满足用户需求。信息包图拥有三个重要对象:度量指标、维度、

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号