大数据解决方案交流

资源描述

《大数据解决方案交流》由会员分享，可在线阅读，更多相关《大数据解决方案交流（33页珍藏版）》请在金锄头文库上搜索。

1、大数据解决方案交流,房树新国际商业机器（中国）有限公司,Agenda,从传统架构到大数据架构的转变几种典型方案介绍大数据案例分享,企业级市场的大数据应用机会,Key Industry Opportunity and Trends Telecom, Banking and Government contribute the largest incremental Big Data & Analytics market size from 2013 to 2017 in GCG,More rational than last year, not only focusing on Hadoop

2、 platform Telecom, Banking, Govt sectors will have more demands for advanced BD&A solutions Help customers begin their Big Data Journey Big data as services began to emerge in the market,如何着手考虑大数据五个建议,海量数据的处理方案,三种分析与计算模式的整合,传统分析方法和大数据分析方法的整合,银行与金融市场行业的大数据的部分场景,从传统数据处理到大数据，技术的变革,SQL,事务,分析,事务OldSQL,分析

3、 NewSQL,互联网 NoSQL,传统时代数据处理一种架构支持多类应用 (One Size Fits All）,大数据时代数据处理多种架构支持多类应用,架构多元化,传统数据库的基本架构是30年前以事务处理为主要应用设计的。大数据时代应采用新的技术架构。行业的技术大思路应该由“一种架构支持所有应用”转变成“多种架构支持多类应用”。数据库行业出现三个互为补充的三大阵营，OldSQL、NewSQL和NoSQL。,从传统数据处理到大数据，技术的变革,数据管理能力,TB,PB,EB,数据价值密度/实时性,高,低,OldSQL,NewSQL,NoSQL,流计算/内存计算 Stream/Storm/S

4、park,内存关系数据库TimesTen/Altibase,内存KV数据库Memcache/Redis,内存数据分析 DB2 BLU/HANA,海量数据批处理 Hadoop M-R/Spark,海量数据管理 MongoDB/SequoiaDB/Impala/HBase,数据仓库/MPP DB2 DPF/GreenPlum/GBase,传统事务处理 Oracle/DB2/SQL Server,大数据计算需要什么样的硬件平台？,OLAPDW BigData SQL NoSQL NewSQL RDBMS Hadoop Spark 批处理交互分析流计算,更大容量更低成本,更快的处理速度,支持多样化的计

5、算类型,横向扩展的能力更大更多的磁盘更少机器更少空间和耗电更低的造价,更快的CPU 更多的线程并行更大的内存容量和带宽更大的IO带宽 Flash加速,大数据处理技术的发展，对硬件提出了更高的要求,灵活的硬件配比支持从计算密集到IO密集多种计算类型灵活定制硬件创新，CPU、GPU和混合计算多种计算负载的混合调度,Power Linux 与Software 兼容需求,Power Linux 与Software兼容需求,Linux社区贡献排名公司第2，主流Linux发行版均有Power优化版本，Power支持KVM虚拟化。,IBM Power与开源的合作,白金赞助商，19 个核心贡献者

6、，贡献排名第2，超过100个活跃开发者。IBM基础架构云全面以OpenStack为中心。,投入10亿美金发展 Linux及相关开源技术。,IBM发起创立软件定义网络开源联盟,Hadoop社区主要贡献者，提供Hadoop发行版，发起成立ODP，提供Hadoop增强方案。,IBM与国内实力最强的星环、亚信，巨杉等新技术公司合作，开发Power优化的Hadoop版本和NewSQL数据库，与国内公司一起拓展开源商业生态系统。,IBM与Redis合作，基于IBM CAPI CPU硬件加速技术，建立创新的Redis方案。,IBM 和 Docker 宣布建立战略伙伴关系，提供基于Power的Docker优化

7、版本。,Power+PostgreSQL提供分布式事务处理数据库优化方案,Power+HBase：大数据快速存储查询方案（磁盘KV数据库）,磁盘KV型数据库，如（Hbase/Cassandra/Hypertable/ Accumulo等），能够很好地实现对海量数据的实时读写访问，实时数据存储管理和实时简单查询。其目标是存储并处理大型的数据，是一个分布式的，多版本的，面向列的存储模型，存储的是松散型数据。 -高可靠性 -高效性 -面向列 -可伸缩 IBM Power针对Hbase进行优化，提供更好地性能和安全性。目前已有多个基于Power的Hbase项目正在或已经交付。 Power不仅能为开源

8、Hbase提供更高运行性能，还能使用IBM Symphony软件对Hbase任务进行调度，进一步提高加载查询环节的性能表现。,Why Power?,-Power硬件在多线程，内存通道和IO带宽方面有更好的性能，并有更高的可靠性 -HBase在Powerlinux上有更好的性能,适用场景：海量结构化数据的快速预置查询，海量非结构化数据的实时读写与存储。,在某案例中，Power+Symphony+Hbase的组合，能够提升加载环节性能4倍以上，提升查询环节性能2倍以上。,Power+文档型数据库：大数据实时查询分析方案,MongoDB，最流行的开源NewSQL数据库面向文档存储完整的索引支持

9、模式自由，可自由更新数据结构支持复制和故障恢复，易扩展,Power针对MongoDB优化，可提供更好的性能和安全性。以下为某客户实地进行的测试，Power平台上的MongoDB可比x86提供5倍以上的处理性能。,SequoiaDB优秀的国产文档数据库产品灵活动态的数据类型并执行引擎线性水平扩张 MPP 无单点故障在压缩数据上执行SQL 保持数据接近CPU/核以下为采用Power+SequoiaDB方案构建的某应用日志查询分析平台。,Power+流计算：大数据实时分析计算方案,Stream,Storm,Spark Streaming,IBM成熟的商用流计算技术，广泛的案例验证,开源

10、流式计算框架，简单实用,大规模流式数据处理的新贵，基于Spark通用计算框架,Streaming,适用场景：实时监控告警分析，实时营销分析触发，高速数据采集预处理，流式动态数据处理等。,Power灵活支持商用和开源流计算方案，Power特性和流计算框架的结合，具有更好的性能和效费比。流式计算的原理是在内存里不间断地对流入的数据进行计算，通过多节点多核多线程并发已达到亚秒级快速处理大量数据的目的。因此，CPU的主频，并发多线程能力，cache大小，内存带宽和Java性能等方面都会直接影响到流式计算的性能表现。,IBM和x86针对流计算的性能指标对比,Power+Redis：创新大数据缓存方案（

11、内存KV数据库）,Load Balancer,500GB Cache Node,10Gb Uplink,POWER8 Server,Flash Array w/ up to 40TB,Differentiated NoSQL (POWER8 + CAPI Flash),New memory tier for POWER8 server Up to 40 TB for NoSQL based applications Cluster solution in a box Infrastructure Attributes 192 threads in 2U Server drawer 40 TB

12、of memory based Flash per 2U Drawer Shared Memory & Cache for dynamic tuning Elimination of I/O and Network Overhead,Todays NoSQL in memory (x86),Infrastructure Requirements Large Distributed (Scale out) Large Memory per node Networking Bandwidth Needs Load Balancing,基于Power8 CAPI接口的闪存创新方案，实现Redis在内

13、存和闪存间的自由切换，相对于全内存方案，提供更加灵活的性能成本配置，并具有更少的资源占用。,WWW,10Gb Uplink,WWW,Backup Nodes,500GB Cache Node,500GB Cache Node,500GB Cache Node,512GB Cache Node,24:1 Reduction in infrastructure 2.4x Price reduction 12x Less Energy 12x Less rack space 40TB of extended memory,4U,适用场景：高并发实时缓存，如网站前端静态数据，用户/商品/订单查询系统，

14、读写分离的读库等。,海量数据批处理，共享资源多应用大数据处理框架 -Power+ Hadoop M-R/Spark,HDFS,Map-Reduce/Yarn,GPFS,Symphony,HBase,Spark,物理层,平台层,工具层,Hive,Storm,BigSQL,Stream,Map Reduce,BigSheet,SPSS,Powerlinux：企业级环境的最佳选择，性能与成本最佳平衡的新一代硬件平台,标准linux,Redhat / Suse 全面支持,更加成熟、可靠与更高性能的分布式文件系统,领先的大数据计算调度平台，多租户管理，更智能调度，更高性能、SLA管理，支持更多大数据计算

15、类型,多种大数据应用，共享资源，混合运行,完全支持开源大数据版本,Powerlinux是大数据计算的理想平台,多线程: POWER7+ 每处理器核心有4线程, 而 Intel的处理器只有 2 线程高吞吐: POWER7+ 有非常大的内存和 I/O 带宽 (沃森成功的关键) 依赖Java应用: POWER7+ 提供了高度优化的JVM,企业用户的大数据建设方向是：资源共享的大数据中心,20,管理和运维方面的需求共享资源，提高资源利用率，提高投资收益资源统一调度，为每个应用弹性供给资源统一管理应用统一管理用户统一管理数据安全统一管理,业务和开发的需求统一的基础平台层，统一的数据和应用

16、接口，便于应用开发的标准化和开放化独立的基础平台层，便于灵活引入各种力量进行应用层的开发创新数据和应用的共享和重用，提高开发效率，推动应用的迭代创新,其关键是实现面向多租户的任务调度和资源管理,IBM面向多租户的大数据共享平台实现场景,IBM多租户大数据平台技术实现框架,Platform Computing Symphony EGO (DCOS) (dynamic cluster resource management supporting diverse tenants),HDFS / GPFS / GPFS FPO (reliable, distributed storage your choice of distributed, or fast parallel POSIX file systems),ABB application backbone Big Insights instance, Streams, Hbase, Oozie, Native

展开阅读全文