1第第 2 2 章章数据仓库原理数据仓库原理 22.1 数据仓库结构体系数据仓库结构体系2.2 数据仓库的数据模型数据仓库的数据模型2.3数据抽取、转换和装载数据抽取、转换和装载2.4 元数据元数据32.1 数据仓库结构体系数据仓库结构体系2.1.1 数据仓库结构数据仓库结构2.1.2数据集市及其结构数据集市及其结构2.1.3 数据仓库系统结构数据仓库系统结构2.1.4 数据仓库运行结构数据仓库运行结构4 近近期期基基本本数数据据:是是最最近近时时期期的的业业务务数数据据,是是数数据据仓库用户最感兴趣的部分,数据量大仓库用户最感兴趣的部分,数据量大历历史史基基本本数数据据:近近期期基基本本数数据据随随时时间间的的推推移移,由由数据仓库的时间控制机制转为历史基本数据数据仓库的时间控制机制转为历史基本数据轻轻度度综综合合数数据据:是是从从近近期期基基本本数数据据中中提提取取出出的的,这这 层层 数数 据据 是是 按按 时时 间间 段段 选选 取取,或或 者者 按按 数数 据据 属属 性性(attributesattributes)和内容(和内容(contentscontents)进行综合进行综合。
高高度度综综合合数数据据层层:这这一一层层的的数数据据是是在在轻轻度度综综合合数数据基础上的再一次综合,是一种准决策数据据基础上的再一次综合,是一种准决策数据2.1.1 数据仓库结构数据仓库结构61.数据集市的产生数据集市的产生n数数据据仓仓库库工工作作范范围围和和成成本本常常常常是是巨巨大大的的开开发发数数据仓库是代价很高、时间较长的大项目据仓库是代价很高、时间较长的大项目n提供更紧密集成的数据集市就应运产生提供更紧密集成的数据集市就应运产生n目目前前,全全世世界界对对数数据据仓仓库库总总投投资资的的一一半半以以上上均均集集中在数据集市上中在数据集市上2.1.2 数据集市及其结构数据集市及其结构7n数据集市(数据集市(Data MartsData Marts)是一种更小、更集)是一种更小、更集中的数据仓库,为公司提供分析商业数据的中的数据仓库,为公司提供分析商业数据的一条廉价途径一条廉价途径nData MartsData Marts是指具有特定应用的数据仓库,是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场支持用户获得竞争优势或者找到进入新市场的具体解决方案。
的具体解决方案2.数据集市概念数据集市概念83.数据集市与数据仓库差别数据集市与数据仓库差别(1)数据仓库是基于整个企业的数据模型建立的,)数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题而数据集市是按照某一它面向企业范围内的主题而数据集市是按照某一特定部门的数据模型建立的特定部门的数据模型建立的2)部门的主题与企业的主题之间可能存在关联,)部门的主题与企业的主题之间可能存在关联,也可能不存在关联也可能不存在关联3)数据集市的数据组织一般采用星型模型数据集市的数据组织一般采用星型模型大型数据仓库的数据组织,如大型数据仓库的数据组织,如NCR公司采用第三范式公司采用第三范式9 1 1、规模是小的规模是小的2 2、特定的应用、特定的应用3 3、面向部门面向部门4 4、由业务部门定义,设计和开发、由业务部门定义,设计和开发5 5、由业务部门管理和维护、由业务部门管理和维护6 6、快速实现快速实现7 7、购买较便宜、购买较便宜8 8、投资快速回收投资快速回收9 9、更详细的、预先存在的数据仓库的摘要子集、更详细的、预先存在的数据仓库的摘要子集1010、可升级到完整的数据仓库可升级到完整的数据仓库4.数据集市的特性数据集市的特性10独立数据集市独立数据集市(Independent Data(Independent Data Mart)Mart)从属数据集市从属数据集市(Dependent Data Mart)(Dependent Data Mart)11 数数据据仓仓库库系系统统由由数数据据仓仓库库(DWDW)、仓仓库库管管理理和和分分析析工工具三部分组成。
具三部分组成2.1.2 数据仓库系统结构数据仓库系统结构121、仓库管理、仓库管理(1)数据建模)数据建模数据建模是建立数据仓库的数据模型数据建模是建立数据仓库的数据模型数据仓库的数据模型不同于数据库的数据模型在于:数据仓库的数据模型不同于数据库的数据模型在于:数据仓库只为决策分析用,不包含事务处理的数据数据仓库只为决策分析用,不包含事务处理的数据数据仓库的增加了时间属性数据数据仓库的增加了时间属性数据数据仓库增加了一些综合数据数据仓库增加了一些综合数据数据仓库的数据建模是适应决策用户使用的逻辑数据数据仓库的数据建模是适应决策用户使用的逻辑数据模型13解释解释数据模型数据模型不同于不同于数学模型数学模型:数据模型数据模型是对数据进行组织和存储结构的描述模型是对数据进行组织和存储结构的描述模型如数据库的数据模型,数据仓库的数据模型如数据库的数据模型,数据仓库的数据模型数学模型数学模型是对数据变量的关系建立方程的描述模型是对数据变量的关系建立方程的描述模型如线性规划模型如线性规划模型数学模型数学模型是是运筹学运筹学中讨论的中讨论的模型14(2)数据抽取、转换、装载)数据抽取、转换、装载n数据仓库中的数据,是通过在源数据中数据仓库中的数据,是通过在源数据中抽取数据,按数据仓库的逻辑数据模型抽取数据,按数据仓库的逻辑数据模型的要求进行数据转换,再按物理数据模的要求进行数据转换,再按物理数据模型的要求装载到数据仓库中去。
型的要求装载到数据仓库中去n数据抽取、转换、装载(数据抽取、转换、装载(ETL)是建立数)是建立数据仓库的重要步骤,需要花费开发数据据仓库的重要步骤,需要花费开发数据仓库仓库70%的工作量的工作量15(1 1)查询工具)查询工具 数数据据仓仓库库的的查查询询不不是是指指对对记记录录级级数数据据的的查查询,而是指对分析要求的查询询,而是指对分析要求的查询一般包含:一般包含:可可视视化化工工具具:以以图图形形化化方方式式展展示示数数据据,可可以帮助了解数据的结构,关系以及动态性以帮助了解数据的结构,关系以及动态性2、分析工具、分析工具16 (2 2)多维分析工具()多维分析工具(OLAPOLAP工具)工具)通过对信息的多种可能的观察形式进行快通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察进行深入的分析和观察多维数据的每一维代表对数据的一个特定多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等的观察视角,如时间、地域、业务等17(3 3)数据挖掘工具)数据挖掘工具 从大量数据中挖掘具有规律性知识,需要从大量数据中挖掘具有规律性知识,需要利用数据挖掘(利用数据挖掘(Data MiningData Mining)工具。
工具182.1.4 数据仓库的运行结构数据仓库的运行结构 数数据据仓仓库库应应用用是是一一个个典典型型的的客客户户/服服务务器器(C/SC/S)结结构构形形式:式:客客户户端端所所做做的的工工作作:客客户户交交互互、格格式式化化查查询询、结结果果显显示示、报表生成等报表生成等服服务务器器端端完完成成各各种种辅辅助助决决策策的的SQLSQL查查询询、复复杂杂的的计计算算和和各各类综合功能等类综合功能等19解释解释客户客户/服务器(服务器(C/S)是网络上一种重要的是网络上一种重要的组织形式组织形式数据仓库在网络上都是以服务器数据仓库在网络上都是以服务器(Server)形式提供服务,能对网络上)形式提供服务,能对网络上多个客户(多个客户(Client)同时提供服务同时提供服务20 OLAPOLAP服务器将加强和规范化决策支持的服务工服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部作,集中和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量分工作,降低了系统数据传输量这种结构形式工作效率更高这种结构形式工作效率更高OLAP的三层的三层C/S结构结构21 数据仓库存储采用多维数据模型。
数据仓库存储采用多维数据模型2.2 数据仓库的数据模型数据仓库的数据模型果汁可乐牛奶商品维奶油浴巾香皂北京上海长沙1 2 3 4 5 6 7城市维日期维22n维就是相同类数据的集合,商店、时间和产品维就是相同类数据的集合,商店、时间和产品都是维各个商店的集合是一维,时间的集合都是维各个商店的集合是一维,时间的集合是一维,商品的集合是一维每一个商店、每是一维,商品的集合是一维每一个商店、每一段时间、每一种商品就是某一维的一个成员一段时间、每一种商品就是某一维的一个成员n 每一个销售事实由一个特定的商品、一个特每一个销售事实由一个特定的商品、一个特定的时间、一个特定的商品组成定的时间、一个特定的商品组成n 两维表,如通常的电子表格三维构成立方两维表,如通常的电子表格三维构成立方体,若再增加一维,则图形很难想象,也不容体,若再增加一维,则图形很难想象,也不容易在屏幕上画出来易在屏幕上画出来23 大大多多数数的的数数据据仓仓库库都都采采用用“星星型型模模型型”星星型型模模型型是是由由“事实表事实表”(大表)以及多个(大表)以及多个“维表维表”(小表)所组成小表)所组成事事实实表表”中中存存放放大大量量关关于于企企业业的的事事实实数数据据(数数量量数数据据)。
例例如如:多多个个时时期期的的数数据据可可能能会会出出现现在在同同一一个个“事事实实表表”中中维维表表”中中存存放放描描述述性性数数据据,维维表表是是围围绕绕事事实实表表建建立立的的较小的表较小的表星型模型数据如下图:星型模型数据如下图:2.2.1星型模型星型模型24订货表客户表销售员表事实表产品表日期表地区表星型模型数据存储情况示意图 26 1.1.雪花模型雪花模型 雪雪花花模模型型对对星星型型模模型型的的维维表表进进一一步步层层次次化化,原原来来的的各各维维表表可能被扩展为小的事实表,形成一些局部的可能被扩展为小的事实表,形成一些局部的“层次层次”区域在在上上面面星星型型模模型型的的数数据据中中 ,对对“产产品品表表”“日日期期表表”“地区表地区表”进行扩展形成雪花模型数据见下图进行扩展形成雪花模型数据见下图2.2.星网模型星网模型 星星网网模模型型是是将将多多个个星星型型模模型型连连接接起起来来形形成成网网状状结结构构多多个个星型模型通过相同的维,如时间维,连接多个事实表星型模型通过相同的维,如时间维,连接多个事实表2.2.22.2.2雪花模型与雪花模型与与与雪花模型雪花模型27地区键事务键用户键时间键状态键时间键用户键事务键地区键费用时间键用户键状态键余额公司星网模型实例 292.2.3第三范式第三范式n范式实际上是传统的关系数据库的设计理论。
范式实际上是传统的关系数据库的设计理论n数据仓库可以按第三范式进行逻辑数据建模数据仓库可以按第三范式进行逻辑数据建模它不同于星型模型在于,把事实表和维表的属它不同于星型模型在于,把事实表和维表的属性都集中在同一数据库中,按第三范式组织数性都集中在同一数据库中,按第三范式组织数据它减少了维表中的键和不必要的属性它减少了维表中的键和不必要的属性n著名的著名的NCR数据仓库公司采用了第三范式的逻数据仓库公司采用了第三范式的逻辑数据模型辑数据模型30n星型模型在进行多维数据分析时,速度星型模型在进行多维数据分析时,速度是很快的但是增加维度将是很困难的是很快的但是增加维度将是很困难的事情n第三范式对于海量数据(如第三范式对于海量数据(如。