《Pivotal Analytics DB技术特点》由会员分享,可在线阅读,更多相关《Pivotal Analytics DB技术特点(27页珍藏版)》请在金锄头文库上搜索。
1、1 Copyright 2013 Pivotal. All rights reserved.1 Copyright 2013 Pivotal. All rights reserved.Pivotal Analytics DB(GPDB)2 Copyright 2013 Pivotal. All rights reserved.lPivotal介绍lPivotalAnalyticsDB成功案例分享lPivotalAnalyticsDB技术特点目录3 Copyright 2013 Pivotal. All rights reserved.Pivotal介绍“We look at Greenplum
2、 as the leader of software-based solutions.”- Steve Hirsch, Chief Data Officer, NYSE Euronextl经验证的高速海量数据处理引擎领导者l下一个数据仓库架构,企业数据云的倡导者l行业内最优的price/performance解决方案l成立于2003,总部位于美国硅谷(SanMateo)l由世界级高性能计算及数据库专家组成专业研发团队l2008年12月进入中国l2010年8月与EMC合并,成立DataComputingDivisionl2013年,Pivotal,为一个崭新的技术时代构建支撑平台4 Copyri
3、ght 2013 Pivotal. All rights reserved.重新定重新定义企企业级 PaaS.ETC支持开放标准并与开源有效互动以数据为中心不与特定云平台绑定针对开发者的需求针对企业的需求Cloud FabricData FabricApplication FabricScale-out storage: HDFS/ObjectLanguages& FrameworksIngest & Query: very high-capacity & in-memoryAnalyticsServicesCloud Abstraction (portability)Automation:
4、App Provisioning & Life-cycleService Registry5 Copyright 2013 Pivotal. All rights reserved.lPivotal介绍lPivotalAnalyticsDB成功案例分享lPivotalAnalyticsDB技术特点目录6 Copyright 2013 Pivotal. All rights reserved.Greenplum Greenplum 全球代表性客户全球代表性客户7 Copyright 2013 Pivotal. All rights reserved.中国的代表性客户中国的代表性客户其它电信及互联
5、网交通金融8 Copyright 2013 Pivotal. All rights reserved.案例1:河北移动流量分析项目-准确分析数据业务流量组成,精确对无效数据进行流控-基于网络资源进行精准营销,提高单位资源的价值-快速定位业务质量下降原因,缩短故障处理时长,减少因为故障导致的用户投诉和业务量下降-及时解决用户投诉,提高数据用户满意度-统一资源容量规划,准确网络扩容,减少无效投资支撑支撑市场市场支撑运支撑运维维支撑支撑规划规划9 Copyright 2013 Pivotal. All rights reserved.河北移动流量分析的系统架构 Greenplum部署情况:-二期规模
6、:2+8 节点,采用DELL R710服务器,2*Intel Xeon 5520 4Cores 2.4GHz CPU, 32GB memory, M5015,2*146GB HDD,外挂2个DAS扩展盘柜,每个盘柜使用12块SATA 1TB10 Copyright 2013 Pivotal. All rights reserved.河北移动流量分析项目取得的成就目前应用情况-投诉处理分析模块的应用,数据业务客户投诉和重复投诉均有所下降。-精细化指标到小区,互联网下载速率大大提高。并应用于分公司的优化指导,实现了数据业务端到端优化。-除广泛应用于用户维护优化、客服外,也给数据部、网络部、市场部提
7、供应用,数据部进行流量分析,网络规划、掌握各市场区域的流量发展情况,做市场计划等。系统应用效果-业务部门:已具备针对业务、网站、终端和区域的基本分析能力,对了解用户业务喜好,对掌握对各类终端在网络上表现,对掌握各个市场区域的业务发展情况起到极大帮助。-运维部门:已具备对核心业务的业务质量监视分析能力,对掌握各业务承载质量,快速定位质量问题出现在流程的哪个阶段起到极大帮助;同时也提高了投诉处理效率和客户满意度。-规划部门:已具备对2G和TD网络下的流量流向分析能力,对2G和TD网络协同发展建设,对掌握全网业务分布和发展情况提供参考依据。11 Copyright 2013 Pivotal. All
8、 rights reserved.案例2:中国联通集团ODS大集中项目为总部侧提供数据采集,整合,存储,发布服务生产环境生产环境为BSS侧生产原型数据提供完整的稽核验证服务验证环境验证环境12 Copyright 2013 Pivotal. All rights reserved.项目取得的成就在有限的时间窗口内加载并格转完全国各省的数据在有限的时间窗口内加载并格转完全国各省的数据。由于统一平台需要为总部经分和省经分同时提供数据,单日加工处理数据量为500G1T, 因此从业务平台抽取数据,装载数据到统一平台,完成数据处理,再由统一平台提供给总部经分和省经分,时间窗口不超过5小时,因此对系统效率
9、有很高的要求。满足扩展性需要满足扩展性需要。由于存放海量分析数据,对新平台可扩展能力要求高,要求新平台在合理的软硬件预算内,最小化业务影响的条件下,可以完成扩展,并且处理能力呈线性增长。13 Copyright 2013 Pivotal. All rights reserved.案例3: FINRA(美国金融综合监管局)业务问题-全美各个交易所,银行,期货等明细交易数据竞争方案-Netezza/TeraData业务挑战-每天入库200亿条交易记录-每年数据增加200%数据仓库规模-5PB级,22Rack EMC DCA,共352节点(12*CPU core,48GRAM, 12*600GB S
10、AS磁盘,2*万兆网口)1314 Copyright 2013 Pivotal. All rights reserved.lPivotal介绍lPivotalAnalyticsDB成功案例分享lPivotalAnalyticsDB技术特点目录15 Copyright 2013 Pivotal. All rights reserved.基于基于X86架构无共享、大架构无共享、大规模并行模并行MPP技技术MasterSegmentSegmentSegmentSegmentMasterMaster节点点建立与客户端的连接和管理SQL的解析并形成执行计划调度管理服务器Segment节点点业务数据的存储
11、和存取用户查询SQL的执行数据库计算压力负载点Interconnect基于开放的万兆/千兆以太网技术16 Copyright 2013 Pivotal. All rights reserved.Shared-Nothing 架构架构优势DBSAN/共享存储DBDBDBDBDiskDBDBDBDBDiskDiskDiskDiskMasterShared-EverthingShared-StorageShared-Nothing红色表示共享资源绿色表示无共享资源17 Copyright 2013 Pivotal. All rights reserved.并行处理的关键43Oct 20 200512
12、64Oct 20 20051145Oct 20 20054246Oct 20 20056477Oct 20 20053248Oct 20 200512OrderOrderOrder DateCustomer ID50Oct 20 20053456Oct 20 20052163Oct 20 20051544Oct 20 20051053Oct 20 20058255Oct 20 200555数据均匀分布在每一块磁盘上面发挥每一块磁盘性能,根本上解决I/O瓶颈支持数据Distribution分布和Partition分区数据分布式存数据分布式存储-均匀分布均匀分布18 Copyright 2013
13、Pivotal. All rights reserved.SG (Scatter/Gather) Streaming1)分发阶段网络上任意可访问服务器性能随着节点数增加而增长大数据批量加载或准实时加载对数据库影响减至最少降低实施难度2)聚合阶段ETL只需要一个SQL(insertinto.selectfromext_table)Segment节点并发处理,避免单点瓶颈库内压缩技术,减少I/O请求“Greenplumisreachingdataloadingspeedsofover three terabytes per hour, and we know that the database c
14、an scale even further than that.Greenplumsfastperformanceiscriticalforus.”Steven Hirsch, Chief Data Officer, NYSE Euronext 19 Copyright 2013 Pivotal. All rights reserved.Polymorphic Data Storage(多态存储同时支持行存储及列存储)提供灵活存储技术四种表类型: 普通行表, AO表, 列存储表, 外部表两种压缩技术: Gzip (levels 1-9), QuickLZ同一库内甚至同一个表中多种存储技术混合使
15、用灵活定义不同表分区存储结构只需定义关键字orientation=row|olumn允许用户根据不同应用场景,达到最优性能效果Table CustomerJan 09Feb 09Mar 09Apr 09May 09Jun 09Jul 09Aug 09Sept 09Oct 09Nov 09Column-OrientedArchival CompressionColumn-OrientedFast CompressionRow-Oriented20 Copyright 2013 Pivotal. All rights reserved.内置内置Mapreduce技技术MapReduce是Googl
16、e提出的互联网时代分析搜索技术Greenplum是第一个MapReduce的数据库产品,将SQL的普遍性与MapReduce的灵活编程模式结合起来为非结构化大数据打开分析之门其中包括文本分析、图形分析、数据挖掘、机器学习以及更多内容SELECT key, REDUCE_FUNCTION(value) as value FROM (SELECT key, value FROM () ORDER BY key, value) r1 GROUP BY key ORDER BY key, value; MAP: NAME: map_function BODY: | return $value:$.|$
17、_ if (/$key/); return ; LANGUAGE: perl OPTIONS: DOCMAP21 Copyright 2013 Pivotal. All rights reserved.高可靠性高可靠性-镜像技像技术22 Copyright 2013 Pivotal. All rights reserved.动态在线系统扩容 Masterseg1seg2seg3seg4seg5seg6p数据自动在所有节点上重新分布p容量和性能在扩展后线性增长步骤1:新节点初始化加入MPP集群步骤2:数据在所有节点上重分布联网23 Copyright 2013 Pivotal. All righ
18、ts reserved.扩容性能增长曲线0210468节点数(个)性能和吞吐量GreenplumOracleDB224 Copyright 2013 Pivotal. All rights reserved.支持各种工具和接口支持各种工具和接口SUNHPIBMORACLEDB2EMCHitachi 支持各种数据源抽取、转换、加载 (ETL) InformaticaDataStage分析型应用JavaEE.NetSAP BOActuateOracle BIEECognosCisco支持符合X86架构硬件平台支持ODBC/JDBC等多种接口 支持各种ETL工具支持SQL直接并行访问外部数据文件支持
19、外部编程直接使用SQL并行访问数据库MySQLPostgresSQLServerIBMDB2Oracle数据文件25 Copyright 2013 Pivotal. All rights reserved.实时运行性能监控器实时运行性能监控器Command Center互动的基于Web的性能监控工具支持实时和历史视图,问题回溯实时资源利用情况实时SQL执行情况问题和查询内部细节26 Copyright 2013 Pivotal. All rights reserved.Pivotal DB技术一览表技术一览表 产品特性产品特性上层应用上层应用多级容错多级容错海量并行无共享架构海量并行无共享架构
20、并行查询优化器并行查询优化器Polymorphic Data Storage(多态数据存储)(多态数据存储)用户端用户端ODBC, JDBC, OLEDB, etc.核心核心MPP架构架构并行数据流管理引擎并行数据流管理引擎gNet Software Interconnect(gNet软交换)软交换)MPP Scatter/Gather Streaming(并行(并行 分发分发/聚合数据流)聚合数据流)在线扩容在线扩容负荷管理负荷管理Pivotal DB 自适应能力自适应能力数据加载及外部表技术数据加载及外部表技术PB级别数据快速加载级别数据快速加载准实时或批处理准实时或批处理网络上的任意数据
21、网络上的任意数据(结构化或非结构化)(结构化或非结构化)数据存取数据存取灵活建模灵活建模(Row- & Column-Oriented)库内压缩库内压缩多层分区技术多层分区技术索引技术索引技术, etc.LANGUAGE SUPPORT基于基于SQL99支持支持 MapReduce(CperlPythoJava Hadoop)兼容兼容SQL 2003 OLAP函数函数支持支持R语言库内分析语言库内分析,etc第三方工具第三方工具BI 工具工具, ETL 工具工具数据挖掘工具数据挖掘工具, etc数据库管理工具数据库管理工具GP PerfMon 集群监控工具集群监控工具pgAdmin3数据库管理工具数据库管理工具A NEW PLATFORM FOR A NEW ERA