BI的价值解析

上传人:桔**** 文档编号:588356247 上传时间:2024-09-08 格式:PPT 页数:39 大小:1.68MB
返回 下载 相关 举报
BI的价值解析_第1页
第1页 / 共39页
BI的价值解析_第2页
第2页 / 共39页
BI的价值解析_第3页
第3页 / 共39页
BI的价值解析_第4页
第4页 / 共39页
BI的价值解析_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《BI的价值解析》由会员分享,可在线阅读,更多相关《BI的价值解析(39页珍藏版)》请在金锄头文库上搜索。

1、 商商 务务 智智 能能(BI) 概概 述述 Business Intelligence2培训主要内容培训主要内容n名词解释名词解释n商业智能商业智能BIn数据仓库数据仓库DWn联机事务处理联机事务处理OLTPn联机分析处理联机分析处理OLAPn操作数据存储操作数据存储ODSnETLn数据挖掘数据挖掘DM3名词解释一名词解释一nBI (Business Intelligence)商务智能商务智能nDW (Data Warehouse) 数据仓库数据仓库nDM (Data Mining)数据挖掘数据挖掘nODS (Operational Data Store) 操作数据存储操作数据存储nETL

2、(Extraction-Transformation-Loading) 抽取抽取-转转换换-加载加载4名词解释二名词解释二nOLTP (on-line transaction processing) 联机事务处理联机事务处理nOLAP (Online Analytical Processing) 联机分析处理联机分析处理nCDC (Change Data Catching) 变化数据捕捉变化数据捕捉nCRM (Customer Relationship Management)客户关系管理客户关系管理nERP (Enterprise Resource Planning ) 企业资源计划企业资源计

3、划 5什么是什么是 BI(商务智能)(商务智能)n商务智能就好比商务智能就好比“数据加工厂数据加工厂”,即把商业活动中累,即把商业活动中累积的数据加工成可用于支持商业决策的信息。积的数据加工成可用于支持商业决策的信息。BI的范的范围很广,在实际商务中我们往往只需运用其中的某个围很广,在实际商务中我们往往只需运用其中的某个部分就可以暂时满足企业的需求,如数据仓库,联机部分就可以暂时满足企业的需求,如数据仓库,联机事务分析事务分析(OLAP),数据挖掘,决策支持系统,数据挖掘,决策支持系统(DDS)等。等。n商业智能是企业利用现代信息技术收集、管理和分析商业智能是企业利用现代信息技术收集、管理和分

4、析结构化和非结构化的商务数据和信息,创造和累计商结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力。强综合竞争力的智慧和能力。n这一过程这一过程(也是庞大系统工程也是庞大系统工程)中所涉及到的技术中所涉及到的技术,工工具具,管理管理,理念等等因素都可以纳入理念等等因素都可以纳入BI这个范畴。这个范畴。n是一个过程,是系统工程,是解决方案。是一个过程,是系统工程,是解决方案。6BI的组成(一):

5、的组成(一):ODS可操作数据存储:存储中间数据。可操作数据存储:存储中间数据。OLTP系统:提供原始数据,往往是几个到上百个系统。系统:提供原始数据,往往是几个到上百个系统。ETL过程:抽取原始数据,清洗,转换、并导入的过程。过程:抽取原始数据,清洗,转换、并导入的过程。Job Control任务调度控制:控制任务调度控制:控制ETL过程中各个任务。过程中各个任务。7BI的组成(二):的组成(二): 终端用户查询和报告工具(终端用户查询和报告工具(Report) OLAP工具:提供多维数据管理环境,其典型的应用是对商业问题工具:提供多维数据管理环境,其典型的应用是对商业问题的建模与商业数据分

6、析。的建模与商业数据分析。 数据挖掘(数据挖掘(Data Mining) 数据集市数据集市(Data Mart)和数据仓库(和数据仓库(Data Warehouse):包括数据):包括数据转换、管理和存取等方面,还包括一些业务模型,如财务分析模型。转换、管理和存取等方面,还包括一些业务模型,如财务分析模型。 主管信息系统主管信息系统(EIS,Executive Information System) 分析模型(分析模型(Analyse Model)8BI的架构的架构nBI=(OLTP)DB+ETL+ODS+DW+DataMart+OLAP+DM+DSS+REPORT+EIS+.9BI架构图例架

7、构图例元数据管理10DW (Data Warehouse) 数据仓库数据仓库n狭义:狭义:数据仓库是面向主题的、集成的、稳定的、随时间变化的,主要用于决策支持的数据库系统 是BI/DW工程中核心的OLAP数据库n广义:广义:等同于BI是一个工程,一个过程而不是一个项目。11DW (Data Warehouse) 数据仓库数据仓库2n面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。n集成的:数据仓库

8、中的数据是在对原有分散的数据库数据抽取、清理的集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。n相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被

9、长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。操作很少,通常只需要定期的加载、刷新。n反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对企业从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。的发展历程和未来趋势做出定量分析和预测。12OLTP (on-line transaction processi

10、ng) 联机事务处理联机事务处理n特点:事务驱动的,面向应用的,实时的。特点:事务驱动的,面向应用的,实时的。n它所擅长的就是处理当前实时的数据,实现企业业务它所擅长的就是处理当前实时的数据,实现企业业务的计算机化,主要针对企业的业务人员。的计算机化,主要针对企业的业务人员。n是传统的关系型数据库的主要应用,主要是基本的、是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理。日常的事务处理。 13OLAP (Online Analytical Processing) 联机分析处理联机分析处理n它所擅长的是对企业的当前和历史数据进行分析,对它所擅长的是对企业的当前和历史数据进行分析,对企

11、业的状况进行分析,主要是针对企业管理人员企业的状况进行分析,主要是针对企业管理人员 n是数据仓库系统的主要应用,支持复杂的分析操作,是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。侧重决策支持,并且提供直观易懂的查询结果。 14OLTP与与OLAP特点比较特点比较 OLTP OLAP 用户用户操作人员,低层管理人员操作人员,低层管理人员决策人员决策人员,高级管理人员高级管理人员 功能功能日常操作处理日常操作处理 分析决策分析决策 DB 面向应用面向应用 面向主题面向主题 设计数据设计数据 当前的,最新的,细节的,二当前的,最新的,细节的,二维的(行,列维

12、的(行,列 ),分立的),分立的 历史的历史的, 聚集的聚集的, 多维的,集多维的,集成的成的, 统一的统一的 存取存取 读读/写数十条记录写数十条记录 读上百万条记录读上百万条记录 工作单位工作单位 简单的事务简单的事务 复杂的查询复杂的查询 用户数用户数 上千个上千个 上百个上百个 DB 大小大小 100MB-GB 100GB-TB 15数据仓库建模的基本概念数据仓库建模的基本概念n第三范式第三范式n维度维度维度的粒度维度的层次n事实事实n关系型建模关系型建模星型模型雪花模型一个符合第三范式的关系必须具有以下三个条件一个符合第三范式的关系必须具有以下三个条件: 1.每个属性的值唯一,不具有

13、多义性; 2.每个非主属性必须完全依赖于整个主键,而非主键的一部分; 3.每个非主属性不能依赖于其他关系中的属性,因为这样的话,这种属性应该归到其他关系中去。 第三范式的定义基本上是围绕主键与非主属性之间的第三范式的定义基本上是围绕主键与非主属性之间的关系而作出的。关系而作出的。 维度是指一种视角,而不是一个固定的数字;是维度是指一种视角,而不是一个固定的数字;是一个判断、说明、评价和确定一个事物的多方位、多角一个判断、说明、评价和确定一个事物的多方位、多角度、多层次的条件和概念。度、多层次的条件和概念。时间是关键维度。时间是关键维度。指待分析数据的分割大小指待分析数据的分割大小 层次结构是一

14、组相互之间具有多对一关系层次结构是一组相互之间具有多对一关系的层次,并且这一组层次共同构成维。的层次,并且这一组层次共同构成维。 事实表是星型模式或雪花模式中的一个表,它存储用于量度业务(如销售量、商品成本或利润)的事实。 事实表还包含指向维表的外键。这些外键使事实表中的每个数据行与其对应的维和层次相关。16星型模式n星型模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。注注:每个维表都有一个维作为主键,所有这些维则组合成事实表的主键,换言之,事实表主键的每个元素都是维表的外键。事实表的非主属性称为事实 (Fact),它们一般都是

15、数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据。17雪花模型雪花模型n雪花模式将层次结构的不同层次进一步分隔到单独的雪花模式将层次结构的不同层次进一步分隔到单独的维表中。维表中。 18数据仓库设计的挑战数据仓库设计的挑战n在数据仓库系统中在数据仓库系统中,对数据库引擎最大的挑战主要是对数据库引擎最大的挑战主要是这样几种操作这样几种操作:多表连接、表的累计、数据排序、大多表连接、表的累计、数据排序、大量数据的扫描。量数据的扫描。 如何避免多表连接:在设计模型时对表进行合并,即所谓的预连接 (Pre-Join)。当数据规模小时,也可以采用星型模式, 这样能提高系统速度,但增加了数据

16、冗余量。 如何避免表的累计:在模型中增加有关小计数据 (Summarized Data)的项。这样也增加了数据冗余,而且如果某项问题不在预建的累计项内,需临时调整。 如何避免数据排序:对数据事先排序。但随着数据仓库系统的运行,不断有新的数据加入,数据库管理员的工作将大大增加。大量的时间将用于对系统的整理,系统的可用性随之降低。 如何避免大表扫描:通过使用大量的索引,可以避免对大量数据进行扫描。但这也将增加系统的复杂程度,降低系统进行动态查询的能力。 19ODS (Operational Data Store) 操作数据存储操作数据存储nODS是一个面向主题的、集成的、可变的、当前的细节是一个面

17、向主题的、集成的、可变的、当前的细节数据集合,用于支持企业对于即时性的、操作性的、集数据集合,用于支持企业对于即时性的、操作性的、集成的全体信息的需求。成的全体信息的需求。n是操作型系统中的集成,用于当前,历史以及其它细节是操作型系统中的集成,用于当前,历史以及其它细节查询查询(业务系统的一部分业务系统的一部分)。n 为决策支持提供当前细节数据为决策支持提供当前细节数据(数据仓库的一部分数据仓库的一部分)。n常常被作为数据仓库的过渡,也是数据仓库项目的可选常常被作为数据仓库的过渡,也是数据仓库项目的可选项之一。项之一。 20为什么需要有一个为什么需要有一个ODS系统系统 n在业务系统和数据仓库

18、之间形成一个隔离层。在业务系统和数据仓库之间形成一个隔离层。 n转移一部分业务系统细节查询的功能。转移一部分业务系统细节查询的功能。 n完成数据仓库中不能完成的一些功能。完成数据仓库中不能完成的一些功能。 一般来说,带有ODS的数据仓库体系结构中,DW层所存储的数据都是进行汇总过的数据和运营指标,并不存储每笔交易产生的细节数据,但是在某些特殊的应用中,可能需要对交易细节数据进行查询,这时就需要把细节数据查询的功能转移到ODS来完成,而且ODS的数据模型按照面向主题的方式进行存储,可以方便地支持多维分析等查询功能。即数据仓库从宏观角度满足企业的决策支持要求,而ODS层则从微观角度反映细节交易数据

19、或者低粒度的数据查询要求。 一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系统对数据进行抽取并不是一件容易的事。因此,ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。 在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的,在一些比较复杂的报表生成过程中,对业务系统的运行产生相当大的压力。ODS的数据从粒度、 组织方式等各个方面都保持了与业务系统的一致,那

20、么原来由业务系统产生的报表、细节数据的查询自然能够从ODS中进行,从而降低业务系统的查询压力。 21什么时候选择什么时候选择ODSn数据源太复杂。数据源太复杂。n客户需要实时报表客户需要实时报表 。22指标指标 DB ODS DW 系系统统功功能能设计目标设计目标 事务处理事务处理 中层辅助决策中层辅助决策 高层决策支持高层决策支持 处理类型处理类型 面向应用、联机事务面向应用、联机事务处理处理 日常关洛和控制的决策,事日常关洛和控制的决策,事务处理与决策分析并存务处理与决策分析并存 面向分析,高层决策支持分析面向分析,高层决策支持分析 主要功能主要功能 各部门的各部门的OLTP 企业级的企业

21、级的OLTP即时即时OLAP OLAP(长期趋势分析)(长期趋势分析) 需求特征需求特征确定的需求确定的需求 基于全局应用和中层决策的基于全局应用和中层决策的主题主题 居于决策分析和主题居于决策分析和主题 数数据据特特征征内容内容 当前数据当前数据 当前或接近当前的数据当前或接近当前的数据 历时数据历时数据 来源来源 组织外部组织外部 以系统内部为主以系统内部为主 系统内部系统内部 组织组织 按业务按业务 按主题按主题 按主题按主题 稳定性稳定性 更新频繁更新频繁 较稳定、允许更新较稳定、允许更新 稳定、不更新稳定、不更新 综合性综合性 细节数据细节数据 细节数据和综合数据细节数据和综合数据

22、细节数据和综合数据细节数据和综合数据 特征特征 分散的数据库分散的数据库 全局一致的数据环境全局一致的数据环境 全局一致的数据环境全局一致的数据环境 系系统统建建设设需求定义需求定义 基于事务处理的具体基于事务处理的具体需求需求 主题的确定较易获取主题的确定较易获取 主题的不断挖掘,很难获取主题的不断挖掘,很难获取 方法方法 多多 原型法原型法 时间周期时间周期 短短 较长较长 很长(很长(510年)年) 投资投资 少少 较大较大 很大很大 对用户需求对用户需求 低低 较高较高 很高很高 DB、DW、ODS之对比之对比23生产系统生产系统ODS应用举例应用举例实时批量接口实时接口批量渠道系统外

23、围系统外围系统核心系统EAIODSACRMDWOCRMECIF风险管理所有业务系统的批量数据ETL到ODS所有业务系统的实时数据均由EAI转发ODS仅和EAI发生实时数据交换,且这些数据主要是OCRM等管理系统进行实时数据同步ODS为ECIF等提供批量数据,同时也作为OCRM、DW、ECIF等管理系统的批量数据交换通道管理系统管理系统ODS统一管理银行的批量数据接口,EAI统一管理银行的实时数据接口。ODS和EAI的实时接口仅用于完成必要的管理系统和ODS之间的数据同步24ETL(Extraction-Transformation-Loading) 抽取抽取-转换转换-加载加载n数据抽取(数据

24、抽取(Extract)根据主题要求,把分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层(ODS)n清洗(清洗(Cleansing)剔除垃圾数据,去除噪音数据和不统一数据 n转换(转换(Transform)对不一致数据进行转换,便于汇总、聚合等统计方法的使用n装载(装载(Load) 导入到数据集市或数据仓库中25ETL处理过程处理过程26ETL:数据抽取:数据抽取(1) 抽取主要是针对各个业务系统及不同网点的分散数抽取主要是针对各个业务系统及不同网点的分散数据,充分理解数据定义后,规划需要的数据源及数据定据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,

25、制定增量抽取的定义。义,制定可操作的数据源,制定增量抽取的定义。27ETL:数据抽取:数据抽取(2)n不同数据源不同数据源n不同抽取数据:全量数据、增量数据不同抽取数据:全量数据、增量数据增量抽取的实现方法:n通过事物日志传递的方法实现数据增量变化 n以时间戳为准进行增量数据抽取 n不同抽取方式不同抽取方式(关键在于访问能力关键在于访问能力 ):程序、脚本:程序、脚本 n不同抽取间隔:实时、不同抽取间隔:实时、one hour 、T-1 n抽取效率:与数据量、方法、硬件、网络有关抽取效率:与数据量、方法、硬件、网络有关n抽取目标:抽取目标:DB、ODS、DW、File 28ETL:数据清洗数据

26、清洗(1) 清洗主要是针对系统的各个环节可能出现的数据清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题,允许二义性、重复、不完整、违反业务规则等问题,允许通过试抽取,将有问题的纪录先剔除出来,根据实际通过试抽取,将有问题的纪录先剔除出来,根据实际情况调整相应的清洗操作。情况调整相应的清洗操作。29ETL:数据清洗数据清洗(2)n数据判断:数据判断:二义性、重复、不完整、违反业务规则一致性n清洗实现:清洗实现:数据库条件查询外部数据文件对比、排序30ETL:数据转换:数据转换(1)转换主要是针对数据仓库建立的模型,通过一系转换主要是针对数据仓库建立的模型,通过一

27、系列的转换来实现将数据从业务模型到分析模型,通过列的转换来实现将数据从业务模型到分析模型,通过内建的库函数、自定义脚本或其他的扩展方式,实现内建的库函数、自定义脚本或其他的扩展方式,实现了各种复杂的转换,并且支持调试环境,清楚的监控了各种复杂的转换,并且支持调试环境,清楚的监控数据转换的状态。数据转换的状态。31ETL:数据转换:数据转换(2)n转换到统一的数据名称和定义(转换到统一的数据名称和定义(CodeString)CodeString为全辖统一的标准代码,所有源系统的代码字段在此统一n删除对决策应用没有意义的数据段删除对决策应用没有意义的数据段n计算统计和衍生数据计算统计和衍生数据n给

28、缺值数据赋给缺省值给缺值数据赋给缺省值n把不同的数据定义方式统一把不同的数据定义方式统一 32ETL:装载:装载装载主要是将经过转换的数据装载到数据仓库装载主要是将经过转换的数据装载到数据仓库里面,可以通过数据文件直接装载或直连数据库里面,可以通过数据文件直接装载或直连数据库的方式来进行数据装载,可以充分体现高效性。的方式来进行数据装载,可以充分体现高效性。在应用的时候可以随时调整数据抽取工作的运行在应用的时候可以随时调整数据抽取工作的运行方式,可以灵活的集成到其他管理系统中。方式,可以灵活的集成到其他管理系统中。33ETL系统架构概述系统架构概述n调度模块调度模块 :负责任务的管理、调度和分

29、发,作业依赖关系的管理;n作业主控作业主控(JCI) :负责计算资源的分配、作业的执行,控制作业执行的流程、跟踪作业执 行的结果、记录作业的日志。n数据库模块数据库模块:管理类数据库:用于调度和作业主控,保存任务和作业的相关配置信息和运行信息。管理类数据库:用于调度和作业主控,保存任务和作业的相关配置信息和运行信息。应用类数据库:用于具体应用的业务数据库。应用类数据库:用于具体应用的业务数据库。nETL域域: ETL架构中基本的计算资源组合,是一个计算机群,由JCI统一管理和控制,一个ETL域由一个ETL Server和多个ETL Client组成。nETL应用应用:应用部署和配置管理的基本单

30、位,一个ETL应用包含一组相关的作业单元、作业配置参数和应用环境参数。 n物理作业物理作业:具体负责数据加工的程序执行单元,DS作业或者非DS作业(SHELL脚本、用C/C+/PROC等开发的可执行程序)。34ETL系统架构系统架构2n参看参看ETL架构培训架构培训35DM (Data Mining)数据挖掘数据挖掘n“挖掘挖掘”出数据中隐藏的模式,趋势,关系的过程(出数据中隐藏的模式,趋势,关系的过程(Groth)n通过自动或半自动的方式在海量数据中发现有用的模式,规则通过自动或半自动的方式在海量数据中发现有用的模式,规则的过程(的过程(BeryyLinoff)n分析普通的数据(通常是海量的

31、)来发现数据之间比较稳定地分析普通的数据(通常是海量的)来发现数据之间比较稳定地关系,以易于理解的方式将数据总结出来向数据所有者提供有关系,以易于理解的方式将数据总结出来向数据所有者提供有价值的决策支持。(价值的决策支持。(Hand,Mannila&Smyth)n在不需要人或很少地手工干预下通过可行地计算机技术来挖掘在不需要人或很少地手工干预下通过可行地计算机技术来挖掘开采数据,对数据进行分析(开采数据,对数据进行分析(Wegman)n从大量的数据库中抽取出此前还没发现的有效实用地的信息,从大量的数据库中抽取出此前还没发现的有效实用地的信息,并且此后使用此信息来帮助制定关键的商业决策的过程并且

32、此后使用此信息来帮助制定关键的商业决策的过程(Cabena etal)36DM分析方法分析方法n关联分析关联分析n聚类分析聚类分析n局外者分析局外者分析n演变分析演变分析n其他其他37关联分析举例说明:关联分析举例说明:n总交易笔数(事务数):总交易笔数(事务数):1000n“锤子锤子”:50n“钉子钉子”:80n“钳子钳子”:20n“锤子锤子”和和“钉子钉子”:15n“钳子钳子”和和“钉子钉子”:10n“锤子锤子”和和“钳子钳子”:10n“锤子锤子”和和“钳子钳子”和和“钉子钉子”:5“锤子和钉子锤子和钉子”的支持度:的支持度:1.5%(15/1000)“锤子锤子=钉子钉子”的可信度:的可信度:30%(15/50)“钉子钉子=锤子锤子”的可信度:的可信度:19“锤子、钉子和钳子锤子、钉子和钳子”的支持的支持度:度:0.5%(5/1000)“锤子和钉子锤子和钉子=钳子钳子”的可的可信度:信度:33%(5/15)“钳子钳子=锤子和钉子锤子和钉子”的可的可信度:信度:25%(5/20)38谢谢 谢!谢!39四海皆融通四海皆融通

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号