数据仓库培训课件

上传人:cl****1 文档编号:569169432 上传时间:2024-07-27 格式:PPT 页数:76 大小:2.43MB
返回 下载 相关 举报
数据仓库培训课件_第1页
第1页 / 共76页
数据仓库培训课件_第2页
第2页 / 共76页
数据仓库培训课件_第3页
第3页 / 共76页
数据仓库培训课件_第4页
第4页 / 共76页
数据仓库培训课件_第5页
第5页 / 共76页
点击查看更多>>
资源描述

《数据仓库培训课件》由会员分享,可在线阅读,更多相关《数据仓库培训课件(76页珍藏版)》请在金锄头文库上搜索。

1、数据仓库与数据中心数据仓库与数据中心内部知识培训内部知识培训数据仓库与数据中心概述OLTP 与 OLAP多维数据分析模型数据整合应用介绍数据仓库与数据中心概述数据仓库的起因数据库方式数据库方式数据仓库方式数据仓库方式数据与应用分离,以实现数据高数据与应用分离,以实现数据高度共享、支持日常业务处理过程度共享、支持日常业务处理过程为目的(为目的(OLTPOLTP)以支持经营管理过程中以支持经营管理过程中的决策制定为目的的决策制定为目的(DSS(DSS,OLAP, DM)OLAP, DM)2020世纪世纪9090年代年代之前之前2020世纪世纪9090年代年代之后之后什么是数据仓库数据仓库就是一个面

2、向主题的、集成的、不可更新的、随时间不断变化的数据集合,用于支持经营管理过程中的决策制定。 W.H.Inmon数据仓库与数据中心概述数据仓库与数据中心概述数据仓库的四个特征数据仓库就是一个数据仓库就是一个面向主题面向主题的、的、集成集成的、的、不不可更新可更新的、的、随时间不断变化随时间不断变化的数据集合的数据集合,用,用于支持经营管理过程中的决策制定。于支持经营管理过程中的决策制定。 W.H.Inmon数据仓库与数据中心概述特征一 面向主题主题是用户使用数据仓库进行决策时所关心的重点方面,每一个主题基本对应一个宏观的分析领域。如: CRM 优质客户的挖掘 潜在大客户的发现 ERP 合同管理

3、物资库存的管理 面向主题是指数据仓库内的信息是按主题进行组织的,为按主题进行决策的过程提供信息。 传统数据库中的数据是原始、基础数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成数据仓库中的主题有时会因用户主观要求的变化而变化数据仓库与数据中心概述特征二 集成数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,因此数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系统以及Internet网上数据等,它们通过数据集成而形成数据仓库中的数据。统一 消除不同数据源之间的数据不一致的现象综合 对原有数据进行综合和计算数据仓库与数据

4、中心概述特征三 不可更新数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,主要供企业决策分析之用,执行的主要是查询操作,一般情况下不执行更新操作。同时,一个稳定的数据环境也有利于数据分析操作和决策的制订。需要更新的情况进行新的决策时需要抽取和更新新的数据通过删除丢弃一些过时的数据数据仓库与数据中心概述特征四 随时间不断变化数据仓库中的信息并不只是关于企业当时或某一时点的信息,而是系统记录了企业从过去某一时点到目前的各个阶段的信息,通过这些信息可以对企业的发展历程和未来趋势作出定量分析和预测。时间属性数据仓库中的数据通常都带有时间属性数据统一更新以时间段为单位什么是数据中心数据中心是公

5、司一体化信息平台的重要组成部分。数据仓库与数据中心概述广义 企业业务应用与数据资源进行集中、集成、共享、分析的场所、工具、流程等的有机组合狭义 应用层面的数据中心,具体包括数据仓库和建立在数据仓库之上的决策分析应用、数据ETL、ODS数据库、数据仓库、商务智能应用和元数据管理等数据仓库与数据中心概述数据中心的定位数据中心是企业一体化信息平台的基础,它可以为应用系统的整合与数据共享提供有效的解决方案,保障企业数据的一致性、及时性、完整性、安全性、有效性和准确性,提高企业信息系统的统一性,消除企业普遍存在的信息孤岛,解决信息系统沟通不畅的问题。数据仓库与数据中心概述数据中心的逻辑架构(广义)数据仓

6、库与数据中心概述数据中心的功能单元数据仓库与数据中心概述OLTP 与 OLAP多维数据分析模型数据整合应用介绍也叫事务处理,是指对数据库的日常联机访问操作,通常是对一个或一组记录的查询和修改,主要是为企业特定的应用服务的。也叫联机事务处理(OLTP)。操作型处理OLTP : On-Line Transaction Processing特点1、通常仅仅是对一个或一组记录的查询或修改2、执行频率高3、关心处理的响应时间、数据安全性和完整性等指标OLTP与OLAP也叫做信息型处理,主要用于企业管理人员的决策分析,为制订企业的未来经营管理计划提供辅助决策信息。也叫做联机分析处理(OLAP)。分析型处理

7、OLAP : On-Line Analytical Processing特点1、需要对大量的事务型数据进行统计、归纳和分析 2、需要访问大量的历史数据 3、执行频率和对响应时间的要求都不高 典型的OLAP 决策支持系统 (DSS-Decision Support System)OLTP与OLAPOLTP与OLAP在应用上的差异OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如电费交易OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果OLTP与OLAPOLTP 环境不适宜 OLAP 应用的原因在OLTP中直接构建OLAP应用是不

8、合适的,要提高分析处理和决策支持的效率和有效性,必须将OLAP及其所需的综合性数据从传统的OLTP和细节性数据中分离出来,按照DSS的需要重新进行组织,建立单独的分析处理环境。原因有六条: 1、事务处理和分析处理的性能特性不同2、数据集成问题3、数据的动态集成问题4、历史数据问题5、数据的综合问题6、数据的访问问题OLTP与OLAP原因一、事务处理和分析处理的性能特性不同OLTP 每次操作处理的时间短,存取数据量小,但操作频率高,并发程度大。OLAP 每次分析可能需要连续运行很长的时间,存取数据量大,但很少做这样的分析处理,也没有并发执行的要求。OLTP与OLAP原因二、数据集成问题OLTP

9、一般只需要与本部门业务有关的当前细节数据,而对整个企业范围内的集成应用考虑很少,这就造成大部分企业内部的数据是分散而非集成的。造成上述状况的原因1、事务处理应用的分散性2、数据不一致问题3、缺少分析所需的外部及非结构化数据OLAP 需要集成的数据,包括整个企业内部各部门的相关数据,以及企业外部、竞争对手等处的相关数据。因此用于分析处理的数据可能来自多种不同的数据源OLTP与OLAP原因三、数据动态集成问题对所需数据进行一次集成,以后就不再发生变化,称为静态集成对集成后的数据进行周期性刷新,称为动态集成在采用静态集成策略时,如果数据源中的数据发生了变化,那么这些变化就不能反映给决策者,导致决策使

10、用的是过时的数据。因此集成数据必须以一定的周期进行刷新(即采用动态集成策略),但传统的 OLTP 环境并不具备动态集成的能力。OLTP与OLAP原因四、历史数据问题OLTP 一般只需要当前数据,在数据库中一般也只存储短期数据 (3-6个月),且不同数据的保存期限也不一样OLAP更看重历史数据 (5-10年),可以通过对大量历史数据的详细分析来把握企业的发展趋势历史数据对于事务处理作用不大,但对于决策分析而言,如果没有历史数据的支撑,就变成了“无源之水”、“无本之木”。OLTP与OLAP原因五、数据的综合问题OLTP 需要的是当前的细节性操作数据, OLAP 需要的往往是大量的总结性分析型数据,

11、而非数据库中的细节性操作型数据OLTP 系统中积累的是大量的细节数据,而 OLAP 并不对这些细节数据进行分析,其原因是1、细节数据量太大,影响处理效率2、不利于分析人员将注意力集中于有用的信息上这就是常说的数据库中“数据丰富、信息贫困”现象。因此,在分析前往往需要对细节数据进行不同程度的综合,传统的事务处理系统不具备这种综合能力,而且在数据库系统中,这种综合还往往因为是一种数据冗余而被限制。OLTP与OLAP原因六、数据的访问问题OLTP 需要提供多种不同类型的数据访问操作,且对于需要修改的数据必须实时更新数据库OLAP数据的访问操作以读操作为主,且不需要实时的更新操作,只需要定时刷新OLT

12、P与OLAPOLAP 与 OLTP 分离的好处1、提高两个系统的性能2、提高操作型数据库的事务吞吐量3、避免两个系统中数据的结构、内容和用法的不同带来的困扰建立数据仓库的目的并不是要代替传统的事务处理系统(数据库),而是为了适应因市场商业经营行为的改变和精细化管理而进行的DSS的需要。数据仓库技术正成为企业信息集成和辅助决策应用的关键技术之一数据仓库技术正成为企业信息集成和辅助决策应用的关键技术之一OLTP与OLAP数据仓库与数据中心概述OLTP 与 OLAP多维数据分析模型数据整合应用介绍基本概念 对象(Object)和度量值(Measure)对象是我们所关心和分析的内容观察对象又称为度量值

13、度量值是一组值,而且通常为数字值度量值的选择取决于最终用户所请求的信息类型。一些常见的度量值有销售电量库存量发生金额职工人数线损率发现缺陷数量多维数据分析模型基本概念 维度(Dimension)维度是我们观察分析对象的角度例如:我们可以从三个“维度” 来观察“发现缺陷”这个对象时间维度缺陷类型缺陷等级多维数据分析模型基本概念 层(Layer)对分析对象可以在不同的深度层面上进行分析与观察,并可能得到不同的分析结果。因此,层 反映了对分析对象的观察深度一般而言,层是与维相关联的。在一个维中可允许存在若干个层,并且可以采用多种不同的层次划分方法 日期维 1、日期月份季度年 2、日期周年多维数据分析

14、模型基本概念 维度成员(Dimension Member)维度的一个取值称为该维度的一个“维度成员”如果一个维度是多层次的,则该维度的“维度成员”可以是1、在不同维度层次上的取值的组合 2、在某个维度层次上的取值对一个数据项来说,维度成员是该数据项在某维度中位置的描述。多维数据分析模型基本概念 多维数据集(Multi-Dimensional Dataset)一个多维数据集可以表示为(维1, 维2, , 维n,变量)变量表示我们观察的数据对象维1, 维2, , 维n分别表示我们观察的各个角度如(时间,单位, 缺陷类别,缺陷等级,发现缺陷数量)是一个有关“发现缺陷”的四维数据集,其数据成员可表示为

15、:(2008年,江苏,线路缺陷,类缺陷,300) (2008年1月,南京,设备缺陷, 类缺陷,35)多维数据分析模型多维数据分析模型事实表:销售表(产品标识符,商店标识符,日期标识符,销售额)维表1:产品表(产品标识符,类别,大类别)维表2:商店表(商店标识符,市名,省名,国名,洲名)维表3:时间表(时间标识符,日期,月份,季度,年份)多维数据分析模型数据立方体(Data Cube)存放数据视图的多维数据模型称为数据立方体数据立方体可以是物理存在的,也可以是一个逻辑定义三个维度以上的数据立方体也称为数据超立方体超过三个维度的信息难以实现全维度的同时展现多维数据分析模型多维数据分析多维数据分析是

16、指对以多维形式组织起来的数据采取切片、切块、旋转、钻取等各种分析动作,以求剖析数据,使最终用户能从多个角度、多个侧面地观察数据,从而深入地了解被包含在数据中的信息、内涵。切片(Slice)根据某一维上的某个维成员值选择统计数据进行分析切块(Dice)根据某一维上的某个维成员取值的区间选择统计数据进行分析旋转 调整维的排列次序的动作称为旋转钻取 上钻:也称 数据概括(roll up) 下钻:也称 数据细化(drill down)多维数据分析模型多维数据分析数据概括(roll up)将多维下标的取值提升到较高的概念层次上,从而形成新的统计查询结果,并进行分析。数据细化(drill down)将多维

17、下标的取值降低到较低的概念层次上,从而形成更细致的统计查询结果,并进行分析。Cube多维数据分析模型利用切片和切块(slice and dice)功能、逐层细化(drill)功能、维旋转功能等,可以轻松地完成传统方法难以完成的工作多维数据分析以“产品、城市、时间”三维数据为例 切片 对三维数据,通过“切片”和“旋转”(选择特定切割方向),分别从城市到产品等不同的角度观察各年的销售情况 钻取 沿时间维下钻,可以从年销售量出发进而观察各季度的销售情况 旋转 变换观察角度,可以从各时间段每种产品的销售情况转而分析各类产品在不同城市间的销售情况多维数据分析模型数据仓库与数据中心概述OLTP 与 OLA

18、P多维数据分析模型数据整合应用介绍系统功能模块概述系统功能模块可根据面向系统管理员、开发人员和公司级管理人员等不同角色进行划分。面向用户系统管理员、开发人员的功能模块面向用户系统管理员、开发人员的功能模块面向公司级管理人员的功能模块面向公司级管理人员的功能模块面向开发人员的功能模块面向开发人员的功能模块 应用介绍业务描述通过OLAP建模工具构建多维数据分析模型,以报表、查询、动态分析等段实现对指标数据的分析和展现。 应用介绍设计方案概述系统以查询、动态分析等手段实现对指标数据的分析和展现。系统以查询、动态分析等手段实现对指标数据的分析和展现。 应用介绍主要业务功能数据组织功能数据组织功能数据应

19、用功能数据应用功能数据管理功能数据管理功能应用介绍数据组织功能数据仓库数据仓库的定义数据仓库的作用数据仓库的数据存储分类应用介绍数据应用功能指标管理指标分类数据组织指标配置主题分析主题定义与指标配置即席查询应用介绍指标分类指标分类基础指标基础指标是数据仓库中指标的最小单元,是实际业务的反应。衍生指标衍生指标是以一个指标自身所包含的信息为依据,利用不同的衍生方式产生的具有一定业务含义的数据集合。 复合指标复合指标是以一组基础指标、衍生指标或已有的复合指标所包含的信息为依据,利用维度间存在的关联关系,通过对不同的指标数据进行组合运算产生的具有分析意义的数据集合。应用介绍数据组织从业务数据到操作数据

20、区从操作数据区到数据仓库从数据仓库到数据集市应用介绍从业务数据到操作数据区通过ETL过程,对业务系统的数据进行适当的编码转换,进入操作数据区,形成构建基础指标所必需的基础数据项。应用介绍从操作数据区到数据仓库根据管理分析的需求,确定基础指标的度量、维度及维度的层次结构等数据组织模型;依据数据模型在数据仓库中创建相应的数据实体(该数据实体称为基础数据集);对操作数据区中的基础数据项进行抽取、转换、过滤、聚合等操作,并将操作后所获得的数据集加载至数据仓库中的相应数据实体,完成基础指标的基础数据集建设。应用介绍从数据仓库到数据集市平台层根据数据集市所针对的业务需求特性,确定一组指标作为产生衍生指标、

21、复合指标的基础,并在此基础上确定衍生指标、复合指标的度量、度量运算规则、维度及维度的层次结构等数据组织模型;依据数据模型在数据集市中创建相应的数据实体;对数据仓库中的基础指标进行关联、过滤、聚合、运算等操作,并将操作后所获得的数据集加载至数据集市中的相应数据实体,完成衍生指标及复合指标的事实表和维度表建设。应用介绍 指标配置指标配置指标定义关联性设置应用介绍指标定义指标定义实现了指标在系统中的创建,根据指标数据来源及数据加工过程的不同,分别完成对基础指标、衍生指标和复合指标的定义。应用介绍关联性设置 指标从技术角度来看都是具有关联性的,对于指标总会存一个到两个相同的维度,而在业务人员来看,不同

22、的指标之间存在的关系并不唯一,关联性的设置就是提供这样的一个个性化的指标关联设置,用于解决不同业务人员对于指标间关系的不用界定。应用介绍 主题分析主题分析主题定义与配置即席查询应用介绍主题定义与配置主题是由一组面向特定管理分析需求的指标、查询方案及报表所构成的。主题的名称可由用户自行定义。主题可包含若干个子主题,主题及若干级子主题构成主题树。应用介绍即席查询即席查询是基于指标进行主题分析的一项高级应用 应用介绍数据管理功能元数据资源库ETL过程安全设计应用介绍元数据资源库元数据管理ETL元数据同步元数据完整性检查应用介绍ETL过程ETL任务的分类ETL任务配置ETL任务管理应用介绍安全分级应用

23、权限控制数据安全应用介绍主要分析下钻下钻该功能用于在图形组件中,对用户选中的某个图形区域所对应的维度层次的子层次的明细数据的查询展现。用户双击某个数据区或在右键菜单中选择下钻项,如选中的单元格对应单个维度,图形组件直接以刷新原图形的方式展现子层次明细数据。如选中的单元格对应多个维度,则图形组件先弹出选择对话框由用户选择下钻的维度,再以刷新原图形的方式展现子层次明细数据。仪表盘不能执行下钻操作。应用介绍上钻该功能用于在图形组件中,对用户选中的某个图形区域所对应的维度层次的父层次的统计数据的查询展现。用户单击某个数据区,在右键菜单中选择上钻项,如选中的单元格对应单个维度,图形组件直接以刷新原图形的

24、方式展现父层次统计数据。如选中的单元格对应多个维度,则图形组件先弹出选择对话框由用户选择上钻的维度,再以刷新原图形的方式展现父层次统计数据。仪表盘不能执行上钻操作。应用介绍旋转该功能用于将数据集中的位于行表头和列表头上的维度属性或度量互换。用户点击右键,在右键菜单中选择旋转操作,根据旋转后的数据系统自动使用适合的图形展现方式重绘图形展现。排序该功能用于指标在某个维度上的排名的分析,如按地区排名。应用介绍条件查询该功能用于对现状分析中的分析切片的简单的维度过滤查询及部分分析方式的指定,如地区和时间维度的过滤,在排序中指定TopN、BottomN或平均线等。应用介绍同比分析该功能用于指标本期与去年

25、同期的比较情况的分析,通常用同比增长量和同比增长率来反映,同比分析在分析中以弹出框的方式显示,由系统根据指标特性自动分析完成。应用介绍环比分析该功能用于指标本期与上期的比较情况的分析,通常用环比增长量和环比增长率来反映,环比分析在分析中以弹出框的方该功能用于指标本期与上期的比较情况的分析,通常用环比增长量和环比增长率来反映,环比分析在分析中以弹出框的方式显示,由系统根据指标特性自动分析完成。式显示,由系统根据指标特性自动分析完成。应用介绍占比分析该功能用于指标在某个维度上各成员占总数的百分比的分析,占比析在分析中以弹出框的方式显示,由系统根据指标特性自动分析完成。80/20分析该功能用于指标在

26、某个维度上统计完成总数百分之八十的成员情况的分析,80/20分析在分析中以弹出框的方式显示,由系统根据指标特性自动分析完成。应用介绍穿透分析该功能根据指标定义的穿透方式,传入用户选中的表格中的某个单元格所对应的维度属性和度量信息,查询其凭证数据。穿透分为Web Service和URL链接两种方式,Web Service方式返回根据传入条件生成的URL,系统自动跳转至该URL,URL链接方式一般为定制穿透,由系统直接跳转到该URL。应用介绍 展现方法文字报告用文字简单直接的描述客户所最关心的内容,一般放在页面的上部最容易看到的位置应用介绍仪表盘主要用于表示当前工作完成情况、进度等应用介绍柱形图数

27、据间的比较可以是同项数据的变化或不同项数据间的比较。数据正向直立演示应用介绍折线图数据变化趋势的演示,侧重于单一的数据应用介绍饼图显示每一组数据相对于总数值的大小,所占比重应用介绍雷达图显示各组数据偏离数据中心点的距离应用介绍面积图显示每一数值所占大小随时间或者类别而变化的曲线 应用介绍组合图将2种不互相干扰的图形进行组合而形成的新图形(例如将柱图同折线图进行组合) 应用介绍其他图形条形图:数据间的比较,可以是同项数据的变化或不同项数据间的比较。数据横向平行演示。XY 散点图:数据变化趋势的演示,侧重于成对的数据,不限于两个变量。曲面图:在连续曲面上跨两维显示数值的趋势线,还可以显示数值范围。圆环图:与饼图类似,可以添加多个系列。气泡图:比较成组的三个数值,类似于散点图。应用介绍

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号