BI商务智能入门资料

上传人:re****.1 文档编号:431714967 上传时间:2023-10-31 格式:DOC 页数:68 大小:718.53KB
返回 下载 相关 举报
BI商务智能入门资料_第1页
第1页 / 共68页
BI商务智能入门资料_第2页
第2页 / 共68页
BI商务智能入门资料_第3页
第3页 / 共68页
BI商务智能入门资料_第4页
第4页 / 共68页
BI商务智能入门资料_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《BI商务智能入门资料》由会员分享,可在线阅读,更多相关《BI商务智能入门资料(68页珍藏版)》请在金锄头文库上搜索。

1、2009/2/20资料整理篇 | kakaPISOFTBI商务智能入门资料关键字: Data-ETL-DW-DM/OLAP-Report OLAP 1. 目录1.BI概论12.联机事务处理OLTP13.ETL工具介绍:2MSSQL-Server的DTS ETL工具介绍3Informatica ETL工具介绍5Oracle Warehouse Builder工具介绍8ETL开源工具Kitchen介绍144.数据仓库(Data Warehouse DW)的架构185.数据集市 Data Mart186.数据挖掘Data Mining(DM)20数据挖掘的起源20数据挖掘能做什么20数据挖掘中的关联

2、规则22数据挖掘技术实现26数据挖掘与数据仓库融合发展26统计学与数据挖掘27数据挖掘相关的10个问题297.联机分析处理OLAP35作用35起源36分类36OLAP的发展背景37联机分析处理的特点38OLAP逻辑概念和典型操作39OLAP系统的体系结构和分类39联机分析处理的实现方式41主要OLAP厂商产品介绍45OLAP产品47OLAP MDX语言488.其他工具1SAP1IBM1Microstrategy1Cognos1SAS1Microsoft1Oracle2Sybase IQ3251. BI概论BI并不是一项新技术,它将数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)等技

3、术与客户关系管理(CRM)等结合起来 应用于商业活动实际过程当中,实现了技术服务于决策的目的;Mark Hammond从管理的角度看待BI,认为BI是从“根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或者知识),并且在恰当的时间通过恰 当的手段把恰当的信息传递给恰当的人”。Data-ETL-DW-DM/OLAP-Report OLAP(Essbase,ExpServer,Cognos)基本流程图:2. 联机事务处理OLTP 联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反

4、响,OLAP作为一类产品同联机事务处理 (OLTP) 明显区分开来。 当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支 持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。 OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标

5、是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是维这个概念。3. ETL工具介绍:ETL的定义:将数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。它是构建数据仓库的重要环节。数据仓库是面向主题 的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。数据仓库系统中有可能存在着大量的噪声数据,引起的主要原因有:滥用 缩写词、惯用语、数据输入错误、重复记录、丢失值、拼写变化等。即便是一个设计和规划良好的数据库系统,如果其中存在着大量的噪声数据,那么这个系统也是 没有任何意义的,因为“垃圾进,垃

6、圾出”(garbage in, garbage out),系统根本就不可能为决策分析系统提供任何支持。为了清除噪声数据,必须在数据库系统中进行数据清洗。目前有不少数据清洗研究和ETL研究,但是 如何在ETL过程中进行有效的数据清洗并使这个过程可视化,此方面研究不多。ETL为数据仓库服务,数据仓库用于数据分析,数据分析属于BI系统的要干的事儿。 一般中/小型ERP系统都会有不成熟的BI系统,为啥叫做不成熟? 因为它们或者有报表分析功能,但不具有OLAP(在线分析),或者有OLAP,但却没有数据挖掘和深度分析。或者干脆,来个大集成,直接利用第三方工具来达到相应的目的。 为什么会这样,究其原因,很多

7、情况是因为没有自主的数据仓库,没有数据仓库,其它的做起来也就有些四不象了。而要建立数据仓库,首要的是:ETL。 于是,需求就应运而生了。 对了,BI是什么?OLAP是啥?什么又是数据挖掘?鉴于我只能解释其表面含义,我就不多说了。各位不妨找本数据仓库的书,翻翻前几页,一般就明白了。或者Google一把。 我们捡当下最流行的BI应用:OLAP来说说它与ETL的关系。 了解OLAP的人都知道,它的分析模型由事实表和维表组成。但往往OLTP系统中的数据库是为事务而建,而并不为分析而建,而为了BI去改动OLTP数据 库是不现实,并且,很多情况下也基本上是不可能的(当然,有些公司把不可能的任务变成可能的,

8、但这显然是一种很僵硬的做法)。 这时候,ETL的作用就显出来了,它可以为OLAP服务,按业务主题提取分析模型进行数据抽取。 (OLAP分析需要什么样的数据支持?可以参看一下OLAP的星型模型)。 再说说数据挖掘: 这个课题实在太大,相关的书藉有很多很多,我还得花时间慢慢去学习。简单的说,这涉及ERP业务和统计学的知识。现在我暂时还没开始相关学习,但它与 ETL的关系却很明显。因为数据挖掘所要求的数据大都是高聚合的已处理的数据,所以,不管从获取难度和效率上来说,都不适合直接从OLTP中获取。 同样,需要ETL来帮忙。 因此,按本人粗浅的理解: ETL实在是: BI系统 设计开发,项目实施 之必备

9、良药! 有句名言讲得好:成为巨人不如站在巨人的肩膀上。 如果想对ETL有详尽的了解,不妨先了解一下现有流行的ETL工具。 MSSQL-Server的DTS ETL工具介绍 对于MSSQL-Server的DTS,在使用MS SQL-Server2000时,有最基本的接触,但仅限时简单的数据导入/导出。当开始了解ETL时,才发现DTS原来就是ETL的应用之一。 先不谈论DTS的好坏,但它至少MS产品的特点,易学,易用。所以,要了解ETL的应用,从DTS开始,在我看来,是个不错的选择。我只是学习,所以我没 有能耐去评价它,下面,只能讲DTS的功能一一列举出来,可能这些与SQL-Server的联机帮助

10、有些重复,但对我来说,是一个加深记忆的方法。 一:概念 自完全不同源的数据析取、转换并合并到单个或多个目的。主要应用于企业数据仓库的数据抽取过程,完成从源数据库/文件到数据仓库的抽取和转换过程。 看看,这不就是ETL要做的事儿。 二:特征 2.1:基于OLE DB,很方便从不同的数据源复制和转换数据。 是了,MS总是首要支持自已的其它产品,所以,它选择了最通用的Windows的标准。 2.2:有图形化设计器,也可通过编程二次开发。 这也是MS的长项,并且能把其它的东西一股脑儿的集成进来。 2.3:执行效率高于普通ADO(SQL)操作 据说是这样地,我做过简单的比较,确实不是一个数量级,原理呢?

11、估计可能有较多特殊处理,比如批量插入bcp,传输前的数据压缩等技术,当然,这只是我的猜测。 2.4:可调度。 这对于Windows系统,那很容易了,可以利用现成的系统级调度。 三:详细 来说点详细的东东,当然,这里的详细并不指全部,实际上,我也只能挑出比较有代表性的功能点列举一下,要是全部,那还不如抄袭联机帮助了。 3.1:包最小的可调度单元 包是基本任务,由工作流连接而成。包可以嵌套(包中的单个任务可以是执行另一个已存在的包)。 包是调度的直接管理对象,嵌套包保证包任务的重用。 3.2:任务最小的工作流连接单元 分为以下几种任务: 导出和导入数据任务、转换任务、复制数据库对象、邮件/消息发送

12、、Transact-SQL 语句或 Microsoft ActiveX® 脚本执行包、采用COM自定义任务。 其中,最常用的应该是普通转换任务。这等同于ETL中的T。 3.3:数据连接定义数据源和目的地 分为以下几种: 标准数据库(如 Microsoft SQL Server 2000、Microsoft Access 2000、Oracle、dBase、Paradox);与 ODBC 数据源的 OLE DB 连接;Microsoft Excel 2000 电子表格数据;HTML 源;以及其它 OLE DB 提供程序 文件连接数据链接连接(比较特殊) 注意:SQL-Server作为Wi

13、ndows应用产品,DTS自然也不支持Java。 对于标准数据库是最基本的应用,易于实现。文件连接涉及格式定义,还不算复杂。 3.4:转换数据转换 数据转换,指列进行,有多种方式: 3.4.1:简单复制方式。 3.4.2:简单转换(如,数据格式化,取字符串子串等) 3.4.3:ActiveX脚本(实际上是vbScript和JavaScript) 3.4.4:调用自定的COM对象进行转换。 通常会采用一二方式。如果要将DTS集成到你的应用中,可以第三种方式。 3.5:工作流 工作流包括成功,失败,完成。工作流支持脚本控制。可编程控制。 工作流方式对于纯数据抽取意义不大,但是考虑到任务包含收发邮件

14、,信息,上/下传文件,那就有必要了。当然,你也可以将这些任务单独提出到应用端执行,而不采用DTS中的任务。 3.6:元数据 元数据方式更多的留备扩展,最基础的应用是用来预定义数据表。 3.7:数据驱动的查询任务(一种特珠的转换方式) 一种很特殊的转换方式,支持参数。这里,单独把它提出来,因为它不是那么容易理解,我花了一些时间,才将其弄明白。 3.7.1:根据源数据的特征决定之后的查询方式(指增,删,改,查询操作)。 3.7.2:支持参数,参数通过定义绑定表来关联,通过定义转换脚本,可以计算出绑定列参数。 3.7.3:转换时可以定义批量处理。 3.7.4:转换支持多阶段抽取,可以定义阶段代码,阶段分为:行转换,转换失败,插入成功,插入失败,批处理完成,抽取完成。 此种应用异常复杂,应属高级应用。简单的看,当转换任务需要根据数据源来确定动作,这是非常有用的。比如你的应用存在多表存储,就可能根据表内的时间来确定之后的动作,达到数据分多表存储的目的。 3.8: 查找查询 作为转换数据任务和数据驱动的查询任务的一种功能。 查找查询使您得以对源和目的之外的其它连接运行查询和

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号