《BI_数仓整理学习.doc》由会员分享,可在线阅读,更多相关《BI_数仓整理学习.doc(13页珍藏版)》请在金锄头文库上搜索。
1、BI数据仓库学习整理学习整理1BIBusiness Intelligence,即商业智能,商务智能综合企业所有沉淀下来的信息,用科学的分析方法,为企业领导提供科学决策信息的过程。BOSS业务运营支撑系BPM企业绩效管理BPR业务流程重整CRM客户关系管理CUBE立方体DM(Datamart)数据集市 数据仓库的子集,它含有较少的主题域且历史时间更短数据量更少,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。DM(DataMine)数据挖掘DSS决策支持系统EDM企业数据模型3ERPEnterprise Resourse Planning企业资源规划。它是一个以管理会计为核心
2、的信息系统,识别和规划企业资源,从而获取客户订单,完成加工和交付,最后得到客户付款。换言之,ERP将企业内部所有资源整合在一起,对八个采购、生产、成本、库存、分销、运输、财务、人力资源进行规划,从而达到最佳资源组合,取得最佳效益。4ETL数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。KDD数据库中知识发现5 KPI企业关键业绩指标(KPI:KeyProcessIndication)是通过对组织内部流程的输入
3、端、输出端的关键参数进行设置、取样、计算、分析,衡量流程绩效的一种目标式量化管理指标,是把企业的战略目标分解为可操作的工作目标的工具,是企业绩效管理的基础。LDM逻辑数据模型6 MDD多维数据库(Multi Dimesional Database,MDD)可以简单地理解为:将数据存放在一个n维数组中,而不是像关系数据库那样以记录的形式存放。因此它存在大量稀疏矩阵,人们可以通过多维视图来观察数据。多维数据库增加了一个时间维,与关系数据库相比,它的优势在于可以提高数据处理速度,加快反应时间,提高查询效率。Metadata(元数据),它是“关于数据的数据,其内容主要包括数据仓库的数据字典、数据的定义
4、、数据的抽取规则、数据的转换规则、数据加载频率等信息。MOLAP自行建立了多维数据库,来存放联机分析系统数据7 ODS(四个特点)(Oprational Data Store)操作型数据存储,是建立在数据准备区和数据仓库之间的一个部件。用来满足企业集成的、综合的操作型处理需要,操作数据存储是个可选的部件。对于一些准实时的业务数据库当中的数据的暂时存储,支持一些同时关连到历史数据与实时数据分析的数据暂时存储区域。8 什么是数据集市DM数据集市可以看作是数据仓库的一个子集,它含有较少的主题域且历史时间更短数据量更少,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。二 数据仓库D
5、WDatawarehouse,数据仓库是一个集合或过程,4要素面向主题,集成,时间相关(反映历史变化), (稳定)不可修改的数据集合。数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。特点传统操作型数据库数据仓库面向主题菜市场按功能来分类每一个模块就如一个小摊位,萝卜,青菜都有超市按类型分类如都为利润的分为一个事实表事实表和维表的分类集成的与特定的应用相关,数据库之间独立的有联系,ETL的过程已经是将多个数据库联系统一,去除之间的不一致性。相对稳定通常实时更新
6、,数据根据需要及时发生变化供企业决策分析之用,数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常定期的加载、刷新。反映历史变化主要关心当前某一个时间段内的数据包含历史信息,系统记录了企业从过去某一时点下图是一个典型的企业数据仓库系统,通常包含数据源、数据存储与管理、数据的访问三个部分:最为重要的一张图这张图可以看出四个特点中,面向对象,集成,数据源:是指企业操作型数据库中的各种生产运营数据 即OLIP 数据的存储与管理:数据仓库的存储主要由元数据的存储及数据的存储两部分组成。元数据是关于数据的数据,其内
7、容主要包括数据仓库的数据字典、数据的定义、数据的抽取规则、数据的转换规则、数据加载频率等信息。各操作数据库中的数据按照元数据库中定义的规则,经过抽取、清理、转换、集成,按照主题重新组织,依照相应的存储结构进行存储数据的访问:由OLAP(联机分析处理)、数据挖掘、统计报表、即席查询等几部分组成。例如OLAP:针对特定的分析主题,设计多种可能的观察形式,设计相应的分析主题结构(即进行事实表和维表的设计),使管理决策人员在多维数据模型的基础上进行快速、稳定和交互性的访问,并进行各种复杂的分析和预测工作。按照存储方式来分,OLAP可以分成MOLAP以及ROLAP等方式,MOLAP (Multi-Dim
8、ension OLAP)将OLAP分析所需的数据存放在多维数据库中。分析主题的数据可以形成一个或多个多维立方体。ROLAP(Relational OLAP)将OLAP分析所需的数据存放在关系型数据库中。分析主题的数据以“事实表-维表”的星型模式组织。三 企业信息工厂企业信息工厂(Corporate Information Factory,简称EIF)是一种构建数据仓库的架构。企业信息工厂主要包括五个集成转换层(I&T)、操作数据存储(ODS)、企业级数据仓库(EDW)、数据集市(DM)、探索仓库(EW)等部件。这些部件有机的结合在一起,为企业提供信息服务。企业级数据仓库是企业信息工厂的核心部件
9、,用来保存整个企业的数据。一般,也称数据仓库,是用来满足企业战略决策的需要。数据仓库的数据来自数据准备区和操作数据存储。数据集市的数据来源是数据仓库。企业信息工厂中的数据集市一般来说是非规范化的、定制的和汇总的。而多维体系架构中的数据集市分为两种,分别是原子数据集市和聚集数据集市。一般来说,企业信息工厂中的数据集市相当于多维体系架构中的聚集数据集市。企业信息工厂中的数据流向一般是从源系统到数据准备区到操作数据存储到数据仓库到数据集市维Dimension维,是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维。商店、时间和产品都是维。各个商店的集合是一个维,时间的集合是一个维,商
10、品的集合也是一个维。代理关键字(维ID)代理关键字一般是指维度表中使用顺序(序列)分配的整数值作为主键,也称为“代理键”。代理关键字用于维度表和事实表的连接。使用代理关键字可以用来处理缓慢变化维。维度表数据的历史变化信息的保存是数据仓库设计的实施中非常重要的一部分。Kimball的缓慢变化维处理策略的核心就是使用代理关键字。优点1缓冲2性能3建不存在的维度记录4缓慢变化维处理缓慢变化维(能力的体现)随着时间的流失发生缓慢的变化处理缓慢变化维的方法通常有三种方式:第一种方式是直接覆盖原值。这样处理,最容易实现,但是没有保留历史数据,无法分析历史变化信息。第一种方式通常简称为“TYPE 1”。第二
11、种方式是添加维度行。这样处理,需要代理键的支持。实现方式是当有维度属性发生变化时,生成一条新的维度记录,主键是新分配的代理键,通过自然键可以和原维度记录保持关联。第二种方式通常简称为“TYPE 2”。第三种方式是添加属性列。这种处理的实现方式是对于需要分析历史信息的属性添加一列,来记录该属性变化前的值,而本属性字段使用TYPE 1来直接覆盖。这种方式的优点是可以同时分析当前及前一次变化的属性值,缺点是只保留了最后一次变化信息。第三种方式通常简称为“TYPE 3”。退化维度事实表中的部分ID如订单号,但他没有对应的维度表,这编号称为退化维微型维度为了解决快变超大维度,解决的方法是,将分析频率比较
12、高或者变化频率比较大的字段提取出来,建立一个单独的维度表。这个单独的维度表就是微型维度表。多维体系结构(MD)中的三个关键性概念,一致性维度,总线架构(Bus Architecture)和一致性事实(Conformed Fact)一致性维度解决数据仓库的集成问题在多维体系结构中,没有物理上的数据仓库,由物理上的数据集市组合成逻辑上的数据仓库。而且数据集市的建立是可以逐步完成的,最终组合在一起,成为一个数据仓库。如果分步建立数据集市的过程出现了问题,数据集市就会变成孤立的集市,不能组合成数据仓库,而一致性维度的提出正式为了解决这个问题。一致性维度的范围是总线架构中的维一致性维度建立的地点是多维体
13、系结构的后台(Back Room),即数据准备区。在同一个集市内,一致性维度的意思是两个维度如果有关系事实表,主要有三种事实表,分别是事务粒度事实表(Transaction Grain Fact Table),周期快照粒度事实表(Periodic Snapshot Grain FactTable)和累积快照粒度事实表(Accumulating Snapshot Grain Fact Table);从用途的不同来说,事实表可以分为三类,分别是原子事实表,聚集事实表和合并事实表。粒度分类事务事实表(Transaction fact table)记录的事务层面的事实,保存的是最原子的数据,也称“原子
14、事实表”周期快照事实表(Periodic snapshot fact table)以具有规律性的、可预见的时间间隔来记录事实,时间间隔如每天、每月、每年等等用途分类聚集事实表(Aggregated Fact Table)是原子事实表上的汇总数据,也称为汇总事实表如只有月度维,求和,平均值等合并事实表建立一个事实表,它的维度是两个或多个事实表的相同维度的集合聚集事实表和合并事实表的主要差别是合并事实表一般是从多个事实表合并而来。但是它们的差别不是绝对的,一个事实表既是聚集事实表又是合并事实表是很有可能的。因为一般合并事实表需要按相同的维度合并,所以很可能在做合并的同时需要进行聚集,即粒度变粗。非
15、重点预连接聚集表(pre-joined aggregagte table)是通过对事实表和维度表的联合查询而生成的一类汇总表。在预连接聚集表中,保存有维度表中的描述信息和事实表的事实值。切片事实表切片事实表的结构与相对应的基础表相同,数据来源于相对应的基础表。切片事实表由于缩小了表中数据的记录数,所以查询的效率得到了很大的提高蜈蚣事实表)是指那些一张事实表中有太多维度的事实表 事实表相关的维度在15个以下为正常,如果维度个数超过25个,就出现了维度过多的蜈蚣事实表一致性事实一致性事实和一致性维度有些不同,一致性维度是由专人维护在后台(Back Room),发生修改时同步复制到每个数据集市,而事实表一般不会在多个数据集市间复制。需要查询多个数据集市中的事实时,一般通过交叉探查(drill across)来实现。1.5 数据集市即席查询即席查询的位置通常是在关系型的数据仓库中:操作