数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第13章

上传人:E**** 文档编号:89184300 上传时间:2019-05-20 格式:PPT 页数:98 大小:2.99MB
返回 下载 相关 举报
数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第13章_第1页
第1页 / 共98页
数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第13章_第2页
第2页 / 共98页
数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第13章_第3页
第3页 / 共98页
数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第13章_第4页
第4页 / 共98页
数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第13章_第5页
第5页 / 共98页
点击查看更多>>
资源描述

《数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第13章》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第13章(98页珍藏版)》请在金锄头文库上搜索。

1、1,第十三章 企业数据仓库系统构建,2,第十三章 目录,13.1 系统介绍 13.2 系统分析与设计 13.3 系统实现 13.4 数据(报表)展示和接口探讨 13.5 本章小结,3,伴随信息技术的迅速发展和企业管理决策支持的需要,数据仓库技术在近年来有了飞速的发展。已经从纯理论研究转化为决策支持领域中的一种实用性极强的技术。在企业中,随着信息管理的完善,积累了丰富的产、销、存及财务等一系列的管理数据,急待构建公司(集团)级数据仓库以用于支持分析、决策。 本章主要结合某企业构建基于SAP NetWeaver平台的先进的企业商业智能系统项目,展现一个EDW(企业数据仓库)构架的企业数据仓库的建设

2、。,4,13.1 系统介绍,13.1.1 系统建设的背景 13.1.2 系统定位和总体结构,5,13.1.1 系统建设的背景,随着近几年信息技术的日益成熟和ERP(Enterprise Resource Planning,企业资源计划)软件供应商对市场的大力培育,ERP系统已逐渐被企业界广泛接受,并成为不少成功企业提高经营管理效益的关键事务处理系统。 ERP系统是指建立在信息技术基础上,以系统化的管理思想,为企业决策层及员工提供决策及事务处理的管理平台。它是从MRP(物料需求计划)发展而来的新一代集成化管理信息系统,它扩展了MRP的功能,其核心思想是供应链管理。它跳出了传统企业边界,从供应链范

3、围去优化企业的资源。ERP系统集信息技术与先进的管理思想于一身,成为现代企业的运行模式,反映时代对企业合理调配资源,最大化地创造社会财富的要求,成为企业在信息时代生存、发展的基石。它对于改善企业业务流程、提高企业核心竞争力的作用是显而易见的。,6,ERP的成功实施和应用,在使企业流程规范化的同时,也使得企业管理系统能处理的数据量呈指数性增长。对企业管理者来说,相当程度上,企业管理就是“信息的管理”,大量准确、及时的数据信息库无疑就像一座高品位的金矿一样,会让其兴奋不已。如何开采和利用这些“金矿”无疑就成为了急待解决的问题。,13.1.1 系统建设的背景,7,13.1 系统介绍,13.1.1 系

4、统建设的背景 13.1.2 系统定位和总体结构,8,13.1.2 系统定位和总体结构,考虑到集团型企业数据仓库的实际使用和日后的维护,系统将采用EDW(企业数据仓库)建模思想为该企业构建数据仓库。在系统实现中,鉴于该企业实施ERP使用的是SAP公司的R/3系统,其系统内部表结构极其复杂,使用其它工具来实施数据仓库项目将面临非常大的开发量和风险。 为保证数据仓库项目的顺利实施和与现行系统的无缝连接,将采用基于SAP NetWeaver的SAP BI(Business Intelligence)对现已在线运行的SAP R/3系统的数据进行抽取, 根据EDW的建模思想构建企业数据仓库,并使用SAP

5、Enterprise Portal(企业门户)对报表进行展示和与其他业务系统连接。,9,如图13.1所示,系统总体结构以目前企业中运行的SAP R/3系统和其他业务系统为基础,将SAP R/3系统和其他业务系统作为数据仓库的数据源提取数据,数据在数据仓库中根据规则层层上载并根据需要加工、处理、合并,最终将数据存放在Cube中,基于Cube设计报表,在企业门户中进行展示和分析。,13.1.2 系统定位和总体结构,10,图13.1 系统总体结构,13.1.2 系统定位和总体结构,11,1. EDW建模特点,13.1.2 系统定位和总体结构,1. 数据不直接进数据分析区,先进操作数据存储区(ODS,

6、Operational Data Store);,2. 不同业务含义的数据、不同数据源的数据、不同明细级别的数据分别存储在不同的ODS中;,3. 从源系统抽取的数据不做任何清洗和转换等处理,直接将原始数据存储在最底层的ODS中;,4. 根据子公司(部门)以及集团(总部)的需求,创建数据转换和清洗后的ODS,数据来源于底层的ODS;,5. 汇总数据进数据分析区,根据报表及分析需求,创建多级方体MultiCube),报表基于相应的多级方体创建;,6. 统一考虑面向主题的分析维度,集团(总部)和子公司(部门)基于分析需求创建不同主题的分析维度,以满足各自需要。,12,图13.2 SAP BI标准ED

7、W模型,2. SAP BI标准EDW模型,13.1.2 系统定位和总体结构,13,如图13.2所示,EDW的建模思想将数据仓库区分为三个层次: (1)Extract Layer(数据提取层) SAP BW将数据仓库的数据源分为两种:SAP数据源和Non-SAP数据源。SAP BW和的组件完全集成,将各组件的数据源由预定义的提取机构及程序传输到BW的数据提取层。对于Non-SAP的数据源,BW有开放的构架,通过BAPI接口传输数据。 提取层的数据保留了来自源系统的原始数据,存储在二维的表中,以便于下一步的数据清洗、转换和整合。其优点是:一次抽取到BW后,如果需求有所变动,不需要重复去源系统中提取

8、相关数据,而直接在BW中处理,提高数据仓库的提取效率,降低对源系统的资源占用。 (2)Integration Layer(数据合并层) 将提取层的原始数据进行清洗和整合,其实质就是建立数据源之间的关联,把有用的相关数据统一放在二维表中,例如:把FI和CO的数据源整合到一个表中,以便于下一层建模的使用。数据合并层能够将提取层的原始数据自由组合,满足多变的业务需求。,13.1.2 系统定位和总体结构,14,(3)DataMart Layer(数据集市层) 最终的报表将在这层模型上建立,所以,该层将使用星形数据模型(SAP BW中称之为InfoCube)创建不同的分析维度,提高查询的效率。 数据上载

9、的流程从源系统到数据提取层,由数据合并层清洗、整合后传输到数据集市层建立多维模型。EDW建模思想的优势在于:将未来企业可能发生的业务变化,用三个层面的模型灵活处理。例如:当企业组织构架变化,即主数据发生变化后,BW可以在数据合并层应对主数据的变化。,13.1.2 系统定位和总体结构,15,优点:,3. EDW模型优缺点分析,13.1.2 系统定位和总体结构,1. 从模型体系结构上反应出公司的总体组织构架,标明子公司(部门)各自的业务特点;,2. 保留了业务系统(ERP和其他业务系统)的原始数据,便于数据核实;,3. 能够满足集团(总部)、分公司(部门)各自的分析需求;,4. 能够灵活调整模型结

10、构,满足新增需求,而不需要重新抽取数据,增加业务系统负荷,影响企业业务正常运转;,5. 在不需要改变数据源的前提下,新增模型和报表将相对容易,减少了实施和维护工作量;,16,缺点:,13.1.2 系统定位和总体结构,1. 由于存在多层的ODS,将增加系统的数据存储量;,2. 复杂的模型体系构架,需要维护人员更深地了解系统和业务知识;,3. 对数据上载的监控工作量大。,17,第十二章 企业数据仓库系统构建,13.1 系统介绍 13.2 系统分析与设计 13.3 系统实现 13.4 数据(报表)展示和接口探讨 13.5 本章小结,18,13.2 系统分析与设计,数据仓库构建时通常采用“自顶向下、逐

11、步求精”的方法,因此系统分析和设计过程采取逐层深入的策略,分为系统需求分析、模型设计和ETL设计。,19,13.2 系统分析与设计,13.2.1 系统需求分析 13.2.2 系统模型设计,20,13.2.1 系统需求分析,这一阶段的主要工作是确定数据仓库的主要主题及相互关系,即对需求范围内的业务及其间关系进行高度概括性的描述,把密切相关的业务对象进行归类,即划分主题域,并对每个主题域进行较为明确的描述。 1. 概要分析 抽调ERP各业务模块人员组成BW项目组,根据与业务部门的相关人员进行交流和调研,对每个模块(主题)的需求从关键指标、分析维度、分析方法进行了分析,最终形成概要分析报告。并对今后

12、的工作列出详细的时间计划。,21,以生产模块(主题)为例,通过调研、交流和分析得到: 关键分析指标: 1)量(产量、计划产量、交库数、入库数量、出库数量、库存数量); 2)率(计划完成率、成材率等)。 主要分析维度: 1)组织维度:公司 、工厂 、库存地、车间; 2)物料维度:大类、中类、小类、细分类、产品组、牌 号、物料组、生产调度员; 3)时间维度:年月、年月日、年、季、周。 主要分析方法: 1)比较分析(同比、环比); 2)趋势分析;,13.2.1 系统需求分析,22,3)比例分析。 最终将企业生产模块的主题分为两大类:一类是经营决策类,另一类是日常管理。列出需要在本期项目组组织开发的主

13、题清单。 在需求调研过程中,发现有部分报表的数据不能直接从目前的ERP系统中取得,需要从外部手工导入,或者需要在ERP系统规范业务操作、完善业务流程处理后才能获得,还有部分数据获取比较困难,例如钢材成材率,需要从已知的成品反查钢坯重量并计算才能得出,但在系统中反查钢坯信息非常困难,会导致系统性能大幅下降。,13.2.1 系统需求分析,23,2. 详细分析 在概要分析的基础上,初步确定数据仓库最终的主题及报表展现格式。并分解各主题(报表)指标,梳理数据逻辑关系,包括确定与SAP R/3系统相应字段的关联。例如表13.1中“生产调度员”字段,因为业务不同,在SAP R/3中很多数据库表都包含了该字

14、段,而且字段名称和描述可能不一致,需要将该字段与SAP R/3数据库表MARC中的FEVOR字段对应。,13.2.1 系统需求分析,24,13.2.1 系统需求分析,25,梳理完成所有的主题和指标,以及确定了主题(报表)数据的来源,最终提交详细分析报告,经过业务部门相关人员和领导、内部顾问、外部顾问签字确认后,进入实际建模阶段。 在详细分析时要充分考虑数据仓库逻辑设计中要解决的一个重要问题:决定数据仓库的粒度划分层次,粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类型。粒度是对数据仓库综合程度高低的一个衡量。粒度越小,用的存储空间越多,细节程度越高,综合程度越低,回答查询的种类

15、越多;反之粒度越大,用的存储空间越少,细节程度越低,综合程度越高,回答查询的种类越少。在实际应用中,粒度往往决定了指标的详细程度。例如一个炼钢作业区一个月生产了1000个批次的钢坯,对应每个批次产生的信息就是最低级别的粒度。但对分析统计人员来说,只需要了解这个作业区在本月内每天各生产什么品种的钢坯以及产量,而对于更高级别的统计员来说,只关心该作业区本月生产钢坯的大类及产量。由此可以看出,不同层次的分析统计人员,对数据粒度的要求是不同的。详细分析时就需要充分考虑这些用户的需求,使最终的模型能够满足各种用户的需求。,13.2.1 系统需求分析,26,13.2 系统分析与设计,13.2.1 系统需求

16、分析 13.2.2 系统模型设计,27,根据EDW建模思想和考虑到数据仓库日后实际维护工作的开展,根据数据用途不同将数据仓库分成了不同的业务模块(分析主题)。如图13.3所示,“企业数据仓库平台”下面包含工程、销售、采购与库存、生产、质量、设备、人力资源、公共对象、财务和成本等分析主题。单个分析主题下按EDW的建模思想又包含:主数据、原始数据层、数据仓库层、数据分析层(如图13.3中“成本”之下的层次)。,13.2.2 系统模型设计,28,图13.3 系统业务模块(分析主题)及数据层次,13.2.2 系统模型设计,29,主数据: 包含该主题(模块)建立数据仓库时需要的信息对象(系统中已存在大部分信息对象,但不能全部满足用户需求,可以用户自定义新建信息对象)。 原始数据层: 保存从SAP R/3或外部文件获取的数据于ODS中,不加以任何修改计算。另外,数据源、信息源、通讯结构、传输规则等也包含于原始数据层中。 数据仓库层: 该层将原始数据层中存储的原始数据进行加工后保存于ODS。加工过程实际就是通过更新规则对数据进行计算、更改。 数据分析层: 数

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号