数据仓库解决方案概述

上传人:宝路 文档编号:48441818 上传时间:2018-07-15 格式:PPT 页数:51 大小:1.23MB
返回 下载 相关 举报
数据仓库解决方案概述_第1页
第1页 / 共51页
数据仓库解决方案概述_第2页
第2页 / 共51页
数据仓库解决方案概述_第3页
第3页 / 共51页
数据仓库解决方案概述_第4页
第4页 / 共51页
数据仓库解决方案概述_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《数据仓库解决方案概述》由会员分享,可在线阅读,更多相关《数据仓库解决方案概述(51页珍藏版)》请在金锄头文库上搜索。

1、Sybase DW/Business IntelligenceSybaseSybase中国有限公司中国有限公司议程数据仓库解决方案概述 Sybase数据仓库技术解决方案数据仓库设计工具 抽取、转换、清洗和装载工具 数据存储、管理服务器 数据分析和展现工具 数据字典(元数据)的管理工具“数据仓库是在企业管理和决策中 面向主题的,集成的, 与时间相关的 和不可修改的数据集合”Bill Inmon数据仓库定义OLTP系统财务系统 业务系统计费系统5-10 年过去 详细数 据当前 详细数据轻度 汇总数据高度 汇总数据数据集市用户分析网络资源分析数据仓库数据仓库数据仓库/决策分析系统网管系统数据仓库是完

2、全不同的数据库系统操作操作( (业务业务) )系统特性系统特性事务处理性能是第一位的支持日常的业务事务驱动数据是当前的并在不断变化存储详细数据 (每一个事件或事务)面向应用针对快速预定义的事务优化设计可预见的使用模式支持办事人员或行政人员信息信息( (分析分析) )系统特性系统特性 支持长远的业务战略决策分析驱动数据是历史的数据是静态的,除数据刷新外数据反映某个时间点或一段时间数据是汇总的 面向主题优化是针对查询而不是更新支持管理人员和执行主管人员DW/BI 在电信行业的应用 - How ?l立足于现有的OLTP系统l当前数据和历史数据l集中整合之后,构建一个 庞大的数据仓库l面向业务分析和决

3、策层l运用多维分析方法,充分 挖掘数据中的信息l应用DW/BI的三步曲数据抽取数据管理数据分析INFORMATION信 息u数据仓库(Data Warehouse)是一种专为联机分析应用 和决策支持系统提供数据源的结构化的数据环境u数据仓库要解决的问题是从数据库中获取信息的问题。信 息INFORMATIONDW/BI 在电信行业的应用 - 小结 什么是数据仓库(Data Warehouse) ?业务系统外部数据外部数据财务财务计费计费网管网管Information Access InfrastructureInformation Access Infrastructure通用信息访问、处理层(

4、基础数据库)通用信息访问、处理层(基础数据库)企业级数据仓库企业级数据仓库Global CatalogGlobal Catalog集成的信息管理设计和元数据维护决策支持应用决策支持应用Data Data MartsMartsData Data MartsMartsData Data MartsMartsData Data MartsMartsData Data MartsMartsData Data MartsMarts数据仓库的实际构造示意图议程数据仓库解决方案概述 Sybase数据仓库技术解决方案数据仓库设计工具 抽取、转换、清洗和装载工具 数据存储、管理服务器 数据分析和展现工具 数据字

5、典(元数据)的管理工具Sybase数据仓库相关产品的技术构成RelationalPackageLegacyExternal source Data Clean ToolSource DataData StagingWareHouse Admin. ToolsEnterpriseData Warehouse Data Extraction, Transformation and loadDatamartDatamartEnterprise/ CentralData WarehouseRDBMS ROLAPRDBMSRDBMS, Star SchemaArchitected DatamartsCe

6、ntral MetadataData ModelingToolEnd-User ToolEnd-User ToolMDBEnd-User ToolEnd-User ToolLocal MetadataLocal MetadataSybase数据仓库相关产品介绍一个集成化的产品集一个集成化的产品集集成的主要产品lIntegratelEnterprise ConnectlReplication ServerlPowerMartlDesignlWarehouse ArchitectlManagelSybase ASIQlVisualizelBriolCognoslAdministerlWarehou

7、se Control Center WarehouseWarehouse ControlControl CentreCentre议程数据仓库解决方案概述 Sybase数据仓库技术解决方案数据仓库设计工具 抽取、转换、清洗和装载工具 数据存储、管理服务器 数据分析和展现工具 数据字典(元数据)的管理工具设计: 成功的关键l数据库的设计对数据仓库系统的整体性能、装载和l建立索引的时间以及数据量的增长等的影响超过l任何其它方面。数据仓库设计工具WarehouseArchitect为数据仓库的设计提供三大功能: 多维建模 度量、维、属性 事实表,维表 维层次表,事实层次表 设计向导 聚合(Aggreg

8、ation Wizard) 分区(Partitioning Wizard) 逆向工程数据源 优化代码生成 目标数据仓库引擎(IQ,RDBMS) OLAP分析环境Time identifier = Time identifierProduct identifier = Product identifierCustomer identifier = Customer identifierStore identifier = Store identifierCustomer Customer identifierdouble Customer namechar(30)Sales Fact Produ

9、ct identifierdouble Time identifierdouble Customer identifierdouble Store identifierdouble Sales totalreal ProfitsrealStore Store identifierdouble Store namechar(50)Time Time identifierdouble Datetimestamp Monthchar(50) Quarterdouble YeardoubleProduct Product identifierdouble Product descriptionchar

10、(80)设计:WarehouseArchitect议程数据仓库解决方案概述 Sybase数据仓库技术解决方案数据仓库设计工具 抽取、转换、清洗和装载工具 数据存储、管理服务器 数据分析和展现工具 数据字典(元数据)的管理工具数据抽取、转换、清洗、集成挑战 多个、多种异构数据源 硬件,OS,RDBMS,文件 数据不规范,需要做大量的清洗和整合 转换规则复杂,繁多 繁琐的日常性工作,占80%工作量数据质量保证 数据增量抽取 抽取工作过程化,自动化数据抽取、转换、清洗、集成成功的关键 支持多个、多种异构数据源 轻松方便地设计数据的清洗,转换和整合规则 日常事务性工作自动化完成 有完善的数据质量保证体

11、系 有完备的数据增量抽取 直观,面向过程化设计;自动化的执行 开放性,可扩展性,易于实施和维护数据抽取、转换、清洗、集成解决的方案 手工编程实现 使用工具设计和实施 PowerMart/PowerCenter开发环境,一系列工具用于设计、执行和维护 数据的抽取、转换和装载流程 抽取转换引擎(服务器),自动执行集成: PowerMartSource DatabasesTarget DatabaseDesignerServer ManagerRepository ManagerWarehouse DesignerMapping DesignerTransformation DeveloperSou

12、rce AnalyzerRepositoryServer EngineSybase Informix Oracle Microsoft IBM/UDB ODBC DB2 SAP PeopleSoft VSAM Flat Files Web Logs XML IBM MQ GatewaysSybase Informix Oracle Microsoft ODBC IBM/UDB SAP BW PeopleSoft EPM Flat Files Gateways议程数据仓库解决方案概述 Sybase数据仓库技术解决方案数据仓库设计工具 抽取、转换、清洗和装载工具 数据存储、管理服务器 数据分析和展

13、现工具 数据字典(元数据)的管理工具数据存储、管理l挑战l数据规 模l查询性 能l装载速 度l易于管 理l存取访 问成功的关键 快速,高效数据存储技术 出色的查询性能 - 特殊的索引 技术,并行查询 可伸缩性 - GB 到 TB 级 易于管理 - 方便,灵活,GUI 存取访问 - 数据随时可用数据管理解决的方案 通用的关系数据库系统 专门的数据仓库服务器 Sybase IQ 专门为数据仓库/数据集市设计的关系型数据库 专门针对OLAP/DSS而优化的索引和查询处理技术Adaptive Server IQ数据存储: Adaptive Server IQl无处不索引(Index EVERYWHER

14、E)l数据压缩(通常达到原始数据的 70 - 75%)l垂直存储技术(Vertical Partitioning)l专利的Bit Wise索引技术跨越Bitmap的限制l多种索引类型:FP,LF,HNG,HGl低级数的限制从100扩充到1000l预连接的索引提供额外的显著提高性能手段(Join Index)l支持任意设计模式l星型、雪花、雪暴、星座模式l普通关系模式l支持任意加载方式l文件、内部数据、外部数据库直接加载l开放的接口计算“NY”州 A类商店的 平均销售额当表的记录数从几万条变为千万和上亿条时, 传统RDBMS技术面对的问题:u表扫描的性能极端低下 u冗余设计代价高昂、查询读取的无

15、效字段过多 u低级数类型数据上索引的失效 u普通索引加载和空间代价,造成不能任意建造 u即席查询的SQL顺序对性能有显著影响 u数值型比较和运算,无恰当手段加速处理传统RDBMS不适合数据仓库IQ的特殊存储方式-垂直存储(按列存储)Sybase IQ: 数据是按列存储 的,而不是按行存储好处: l只存取查询所需的数据l数据类型是一致的,因 而可以很容易被压缩l数据库易于修改和管理Sybase IQ: 只读完成查询所 涉及到的列计算在纽约的“A”类商店 的平均销售额好处: 无须使用其他的技术, Sybase IQ 就可以减少 I/O 超过 90%IQ的特殊存储方式-垂直存储(按列存储)“How

16、many MALES are NOT INSURED in CALIFORNIA?Gender M M F M M -800 Bytes/Row10M ROWSState NY CA CT MA CA -RDBMSRDBMS Insured Y Y N Y NMYCA MNCA FYNY MNCA1 243Gender Insured State+1 1 0 11 1 0 10 1 0 110M Bits10M Bits x 3 col / 8 16K Page= 235 I/Os800 Bytes x 10M 16K Page= 500,000 I/Osn基本上只能使用表扫描n查询过程读取了太多的无效数据IQIQExample: I/O 的明显减少IQ的索引特点索引即是数据 没有索引和数据的分别 任何一列可以建立多个索引 系统保证至少会存在一个索引(FP)索引的选择和设计主要基于: 数据的级数(离散值的个数) 在查询中的使用方式 和SQL语句的顺序无关索引的种类Fast Projection(FP)数据压缩存储 根据数据的特点会自

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号