greenplum mr 企业级hadoop _cmcc-fujian

资源描述

《greenplum mr 企业级hadoop _cmcc-fujian》由会员分享，可在线阅读，更多相关《greenplum mr 企业级hadoop _cmcc-fujian（46页珍藏版）》请在金锄头文库上搜索。

1、,Greenplum UAP 解决方案,王伟珣 Greenplum EMC,什么是大数据？,维基百科对大数据的定义，即无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合大数据呈现出三大特征，即3V 数据大(Volume)，例如Facebook每天在30万台服务器上处理25Tb数据时效性要求高(Velocity)，例如搜索引擎要求在几分钟内为用户查询新闻种类和来源多样化(Variety)，除了结构化的数据、半结构化、非结构化的数据大量产生,Source : 2011 IDC Digital Universe Study 1 ZB = 1024 EB, 1 EB = 102

2、4 PB,数据源正在膨胀,大数据分析: 是赢得业务的路径,在大数据时代: 数据有效分析是竞争的关键,预测客户行为，增加业务收入,LOW,HIGH,Agent “Best Guess”,Customer Profit,Branch Level Reporting Enabling Profit-based Recommendations,Legacy System,TRADITIONAL DATA LEVERAGED,BIG DATA LEVERAGED,Greenplum Big Data Analytics,Greenplum Database BI Reporting,Market Bas

3、ket Analysis & Customer Lifetime Value Computations Enabling User-based Recommendations,Greenplum In-Database Analytics,Data Enriched with Unstructured Activity Logs To Identify At Risk Customers,解决方案,利用更多的数据，降低业务风险,LOW,HIGH,Daily Risk Model Updates,Underwriting Risk,Monthly Risk Model Updates,Home

4、Price Trending,Localized Job Market Trends,Geographical Hazard Risk,Historical Loan Data,Professional & Social History of Applicant,Census Data,TRADITIONAL DATA LEVERAGED,BIG DATA LEVERAGED,Legacy System,Greenplum Database BI Reporting,Greenplum In-Database Analytics,K-Means Clustering & Decision Tr

5、ee Scoring Improves Accuracy,Employment History,Delivering In Minutes What Was Days,Greenplum Big Data Analytics,Unstructured Data Sources Enrich The Data,解决方案,The Greenplum UAP统一分析平台,Greenplum DB 极速分析平台,专为BI及数据分析优化深度整合统计数学模块高性能并行SQL执行器自动化并简单和传统DB一样，只需加载和运行SQL 数据多节点分布及高可用性都由DB自身实现极佳的横向扩展性 MPP s

6、hared-nothing 架构所有节点并发IO，而且并行运行SQL 容量，加载性能，SQL运行性能随节点线性增加,Greenplum MR 企业级Hadoop,企业级Apache Hadoop软件基于Apache Hadoop最新稳定版本企业级专业支持 24x7 EMC 支持服务强大的扩展能力经过数千节点测试验证企业级高可用性及易用性支持各项最新应用技术,Greenplum 模块化的DCA,世界第一: 高性能专门优化数据协同处理 MPP DB及MPP FS整合在一套一体机平台,Greenplum 提供最灵活的选择,Greenplum DCA 每1/4模块可以选择DB或者Ha

7、doop软件增加模块即可线性扩展易用，快速上线,Greenplum DCA数据计算一体机,革命性的模块结构,HD,DIA,GPDB,GPDB,强大的合作伙伴圈,Discovix,EMC GREENPLUM HD,用于企业环境的Apache Hadoop,Hadoop 组件 (hadoop.apache.org),Hadoop HDFS 架构,18,Google FS架构与Greenplum DB对比,Hadoop MapReduce原理,HIVE/Hadoop 架构,9/12/2018,20,HIVE - A warehouse solution over Map Reduce Frame

8、work,100% Apache interface,Greenplum MR Hadoop:,Oozie 和Mahout的支持会在未来版本中加入,目前支持,Enhanced Monitoring,Greenplum MR Hadoop: 企业版用于非结构化数据处理的企业级Hadoop,GREENPLUM MR HD 跑的更快,Greenplum MR HD比其他Hadoop发行版更快,DFSIO (越高越好),Terasort (越低越好),10 节点集群, 2x 4核, 24G DRAM, 12 x 1TB SATA 硬盘 7200 rpm, 4网卡,Elapsed time in mi

9、nutes,MB/sec,3.5 TB,GP MRHD,Apache,Greenplum MR HD 文件创建测试,测试在 10 节点集群上进行, 每节点2x 4核CPU, 24G DRAM 12 x 1TB SATA 硬盘 7200 rpm,标准Hadoop,Out of box,Tuned,Total Files (M),为什么 Greenplum MR HD 要快,GREENPLUM MR HD 更加可靠,Greenplum MR HD 提供可靠的Hadoop,Greenplum MR HD 作业跟踪器的高可用,确保业务连续性为关键业务设计自动带状态的重启任务跟踪器可自动重联，以防

10、止任务丢失持久化的任务状态,Greenplum Enterprise HD Distribution for Apache Hadoop,Enterprise HD MapReduce,Enterprise HD Lockless Storage Services,Distributed Name Node,Job Tracker HA,Greenplum MR HD 分布式命名节点,运行在Hadoop节点上的完全分布式系统自动且透明的失败转移持久化的元数据可以管理1万亿个文件,Greenplum MR HD 镜像,业务连续性高效的设计只更新变化数据数据是压缩且校验的易于管理

11、计划执行或者按需执行一致性保证,Cloud,Greenplum MR HD 快照,智能化快照自动数据去重数据块复用，节省存储空间高速且灵活对写操作没有性能损失容易管理计划执行或者按需执行拖拽式管理,GREENPLUM MR HD 易于使用,Greenplum MR HD 通过NFS直接访问,简化应用集成利用NFS提供随机读写能力提供直接访问命令行访问文件管理器桌面工具,Greenplum MR HD 简单易用的管理界面,直观完备一个节点到数千个节点,Greenplum MR HD 给您投资真正的回报,行业领先的性能优势提高服务质量降低业务影响无需为命名节点或

12、者作业跟踪系统的故障计划停机时间降低存储费用企业级数据保护消除对额外的NAS存储的需求,Greenplum DB与GP MR Hadoop集成优势：利用Hadoop为DB 提供存储空间,Greenplum DB可采用在hadoop上创建表空间方式，实现将GP数据直接存储在Hadoop HDFS文件系统上，进而拓展GP的容量，且HDFS为GP的IO提供所需的性能； CREATE FILESPACE goh ON HDFS ( 1: hdfs:/name-node/users/changl1/gp-data/gohmaster/gpseg-1, 2: hdfs:/name-node/user

13、s/changl1/gp-data/goh/gpseg0, 3: hdfs:/name-node/users/changl1/gp-data/goh/gpseg1, ) WITH (NUMREPLICA = 3, MIRRORING = false);,GPDB与Hadoop的并行数据流接口,说明：GP与Hadoop之间的接口采用并行数据流机制，GP数据节点直接访问Hadoop数据节点，这种并行技术大幅提高数据传输IO性能，而且IO性能与节点数成正比；,Namenode,B,replication,Rack1,Rack2,Datanode,Datanode,Datanode,Read/Writ

14、e,Segment,Segment host,Segment,Segment (Mirror),Segment host,Segment,Segment host,Segment,Segment host,Segment,Segment host,Master host,Meta Ops,GPDB Interconnect,Segment (Mirror),Segment (Mirror),Segment (Mirror),Segment (Mirror),Tables in HDFS filespace,GP DB 直接访问Hadoop FS的协作方式,GP DB-与Hadoop集成测试-三

15、表关联,结论：GP DB能够对存储在外部（集群外的Hadoop HDFS或普通文件系统）的文件直接做SQL查询、关联、聚合等操作。对于多表关联，数据存储在GP DB内速度是最快的；其次是数据存储在Hadoop上，用GP外部表方式来访问分析，比Hadoop HIVE快8倍左右；未来可以结合GPDB和HDFS，对于历史归档数据可以从GP转储到HDFS上，然后利用GP进行在线访问或HIVE的查询统计，这样可以释放出GP的容量和计算能力，降低成本；而近期数据建议保留在GPDB中，便于快速访问和计算。,测试案例说明:测试三张数据表关联查询时间对比(秒) ( CCBS_SAACNACN:4千万,14.7

16、G、CCBS_SAACNTXN_2009:1亿,35.8G、CCBS_SA_TX_ACCT_2009：3千万,4.2G),历史数据平台,历史数据查询系统逻辑架构,ETL and Batch Upload,Historical & End-of-day Data Acquisition & Transformation,Near Real-time Database Query and Analytics,Historical Database Query and Replay,Web,Unified Real-Time Web Architecture Full-duplex Real-Time Data Flow and Transactions,Browser & Mobile,Desktop,Programmable Analytics SQL, MapReduce, PL/R,Enterprise Web Communication Platform,

展开阅读全文

greenplum mr 企业级hadoop _cmcc-fujian

最新文档