大数据平台技术框架选型分析教学内容

资源描述

《大数据平台技术框架选型分析教学内容》由会员分享，可在线阅读，更多相关《大数据平台技术框架选型分析教学内容（10页珍藏版）》请在金锄头文库上搜索。

1、此文档仅供收集于网络，如有侵权请联系网站删除只供学习与交流大数据平台框架选型分析一、需求城市大数据平台，首先是作为一个数据管理平台，核心需求是数据的存和取，然后因为海量数据、多数据类型的信息需要有丰富的数据接入能力和数据标准化处理能力，有了技术能力就需要纵深挖掘附加价值更好的服务，如信息统计、分析挖掘、全文检索等，考虑到面向的客户对象有的是上层的应用集成商，所以要考虑灵活的数据接口服务来支撑。二、平台产品业务流程此文档仅供收集于网络，如有侵权请联系网站删除只供学习与交流三、选型思路必要技术组件服务： ETL 非/关系数据仓储大数据处理引擎服务协调分析

2、 BI 平台监管四、选型要求 1需要满足我们平台的几大核心功能需求，子功能不设局限性。如不满足全部，需要对未满足的其它核心功能的开放使用服务支持 2国内外资料及社区尽量丰富，包括组件服务的成熟度流行度较高此文档仅供收集于网络，如有侵权请联系网站删除只供学习与交流 3需要对选型平台自身所包含的核心功能有较为深入的理解，易用其API 或基于源码开发 4商业服务性价比高，并有空间脱离第三方商业技术服务 5一些非功能性需求的条件标准清晰，如承载的集群节点、处理数据量及安全机制等五、选型需要考虑简单性：亲自试用大数据套件。这也就意味着：安装它，将它连接到你的Hadoop 安装，集成你

3、的不同接口（文件、数据库、B2B 等等），并最终建模、部署、执行一些大数据作业。自己来了解使用大数据套件的容易程度仅让某个提供商的顾问来为你展示它是如何工作是远远不够的。亲自做一个概念验证。广泛性：是否该大数据套件支持广泛使用的开源标准不只是 Hadoop 和它的生态系统，还有通过SOAP 和 REST web服务的数据集成等等。它是否开源，并能根据你的特定问题易于改变或扩展？是否存在一个含有文档、论坛、博客和交流会的大社区？特性：是否支持所有需要的特性？Hadoop 的发行版本（如果你已经使用了某一个）？你想要使用的Hadoop 生态系统的所有部分？你想要集成的所有接口

4、、技术、产品？请注意过多的特性可能会大大增加复杂性和费用。所以请查证你是否真正需要一个非常重量级的解决方案。是否你真的需要它的所有特性？陷阱：请注意某些陷阱。某些大数据套件采用数据驱动的付费方式（“ 数据税 ” ），也就是说，你得为自己处理的每个数据行付费。因为我们是在谈论大数据，所以这会变得非常昂贵。并不是所有的大数据套件都会生成本地Apache Hadoop代码，通常要在每个Hadoop 集群的服务器上安装一个私有引擎，而这样就会解除对于软件提供商的独立性。还要考虑你使用大数据套件真正想做的事情。某些解决方案仅支持将Hadoop 用于 ETL 来填充数据至数据仓库，而其他

5、一些解决方案还提供了诸如后处理、转换或Hadoop 集群上的大数据分析。 ETL 仅是 Apache Hadoop和其生态系统的一种使用情形。此文档仅供收集于网络，如有侵权请联系网站删除只供学习与交流六、方案分析自建套件hortonworks国内类 exadoopTDW+fineBI 成本100% 开源培训服务3k/ 人授权支持100K 性能单集群最大规模达到 5600 台，处理数据量可达百P 级功能按需整合HDFS 和 YARN 数据管理从各种引擎访问数据根据策略加载和管理数据身份验证、授权和数据保护大规模配置、管理、监控和运营Hadoop 群集与您的数据分

6、析工具集成跨平台配置部署易操作性安装复杂，操作需要专业培训。图形设计界面，参数配置，易上手。应用成熟度国外大客户较多文档 / 社区支持文档较多，社区一般，相关专业培训较多。官方社区比较活跃（英文）中文社区有1 个文档较少，多为英文文档文档较少，无商用服务，无任何技术支持扩展性开源开放开源开放开源开放移植性支持多操作系统支持多操作系统支持多操作系统支持多操作系统监控监控功能强大Armbri元无优势1、跟随产品阶段逐步完善整合自定义套件 2、自选流行组件，资料丰富 1、开源强大支持的开源套件 2、配套商业服务支持 1、

7、国产套件 2、交流支持方便 3、商业服务较灵活 1、开源中文支持 2、基于大数据处理核心，灵活组合其它组件来适应不同产品阶段及项目劣势整合周期不可控商业成本较高依赖于打包服务公司的支持半定制套件，预学现用此文档仅供收集于网络，如有侵权请联系网站删除只供学习与交流七、相关资料 https:/prestodb.io/ HDP (hortonworks) A Complete Enterprise Hadoop Data Platform 此文档仅供收集于网络，如有侵权请联系网站删除只供学习与交流开源工具汇总整理类别名称备注查询引擎 Phoenix Salesf

8、orce公司出品， Apache HBase 之上的一个SQL中间层，完全使用 Java 编写 Stinger 原叫 Tez，下一代Hive,Hortonworks主导开发，运行在YARN 上的 DAG 计算框架 Presto Facebook 开源 Shark Spark 上的 SQL执行引擎 Pig 基于 Hadoop MapReduce 的脚本语言 Cloudera Impala参照 Google Dremel实现，能运行在HDFS或 HBase上，使用C+开发 Apache Drill参照 Google Dremel实现 Apache Tajo 一个运行在YARN 上支持 SQL的分

9、布式数据仓库此文档仅供收集于网络，如有侵权请联系网站删除只供学习与交流 Hive 基于 Hadoop MapReduce 的 SQL查询引擎流式计算 Facebook Puma 实时数据流分析 Twitter Rainbird 分布式实时统计系统，如网站的点击统计 Yahoo S4 Java 开发的一个通用的、分布式的、可扩展的、分区容错的、可插拔的无主架构的流式系统 Twitter Storm使用 Java 和 Clojure实现迭代计算 Apache Hama 建立在 Hadoop 上基于 BSP （Bulk Synchronous Parallel）的计算框架，模仿了 Goo

10、gle 的 Pregel 。 Apache Giraph 建立在 Hadoop 上的可伸缩的分布式迭代图处理系统，灵感来自 BSP（bulk synchronous parallel）和 Google 的 Pregel HaLoop 迭代的 MapReduce Twister 迭代的 MapReduce 离线计算 Hadoop MapReduce经典的大数据批处理系统 Berkeley Spark 使用 Scala 语言实现，和MapReduce有较大的竞争关系，性能强于 MapReduce DataTorrent 基于 Hadoop2.X 构建的实时流式处理和分析平台，每秒可以处理超过10

11、亿个实时事件键值存储 LevelDB Google 开源的高效KV编程库，注意它只是个库 RocksDB Facebook 开源的，基于Google 的 LevelDB ，但提高了扩展性可以运行在多核处理器上 HyperDex 下一代 KV存储系统，支持strings、integers、floats、lists、maps 和 sets等丰富的数据类型 TokyoCabinet 日本人 Mikio Hirabayashi（平林干雄）开发的一款DBM 数据库，注意它只是个库（大名鼎鼎的DBM数据库 qdbm就是 Mikio Hirabayashi开发的） , 读写非常快 Voldemort

12、一个分布式键值存储系统，是 Amazon Dynamo的一个开源克隆， LinkedIn 开源 Amazon Dynamo 亚马逊的 KV模式的存储平台，无主架构 Tair 淘宝出品的高性能、分布式、可扩展、高可靠的KV结构存储系统，专为小文件优化，并提供简单易用的接口（类似Map）， Tair支持 Java 和 C 版本的客户端 Apache Accumulo 一个可靠的、可伸缩的、高性能的排序分布式的KV存储系统，参照 Google Bigtable而设计，建立在Hadoop、Thrift和 Zookeeper 之上。 Redis 使用 ANSI C 语言编写、支持网络、可基于内

13、存亦可持久化的日志型、单机版 KV数据库。从 2010 年 3 月 15 日起，Redis 的开发工作由VMware 主持 OceanBase 支持海量数据的高性能分布式数据库系统，实现了数千亿条记录、数百 TB数据上的跨行跨表事务 Amazon SimpleDB 一个可大规模伸缩、用 Erlang 编写的高可用数据存储此文档仅供收集于网络，如有侵权请联系网站删除只供学习与交流 Vertica 惠普 2011 收购 Vertica，Vertica是传统的关系型数据库，基于列存储，同时支持 MPP ，使用标准的SQL查询 , 可以和 Hadoop/MapReduce 进行集成 Cas

14、sandra Hadoop 成员， Facebook 于 2008 将 Cassandra 开源，基于O(1)DHT 的完全 P2P架构 HyperTable 搜索引擎公司Zvents 针对 Bigtable的 C+ 开源实现 FoundationDB 支持 ACID 事务处理的NoSQL数据库，提供非常好的性能、数据一致性和操作弹性 HBase Bigtable在 Hadoop 中的实现，最初是 Powerset 公司为了处理自然语言搜索产生的海量数据而开展的项目文件存储 CouchDB 面向文档的数据存储 MongoDB 文档数据库 Tachyon 加州大学伯克利分校的AMPLa

15、b基于 Hadoop 的核心组件开发出一个更快的版本 Tachyon ，它从底层重构了Hadoop 平台。 KFS GFS的 C+开源版本 HDFS GFS在 Hadoop 中的实现资源管理 Twitter MesosGoogle Borg的翻版 Hadoop Yarn类似于 Mesos 日志收集系统 Facebook Scribe Facebook 开源的日志收集系统，能够从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS ，分布式文件系统等）上，以便于进行集中统计分析处理，常与 Hadoop 结合使用， Scribe用于向 HDFS中 Push 日志 Cloudera

16、Flume Cloudera提供的日志收集系统，支持对日志的实时性收集 logstash 日志管理、分析和传输工具，可配合kibana 、ElasticSearch组建成日志查询系统 kibana 为日志提供友好的Web查询页面消息系统 StormMQ ZeroMQ 很底层的高性能网络库 RabbitMQ 在 AMQP 基础上完整的，可复用的企业消息系统 Apache ActiveMQ 能力强劲的开源消息总线 Jafka 开源的、高性能的、跨语言分布式消息系统，最早是由Apache 孵化的 Kafka （由 LinkedIn捐助给 Apache）克隆而来 Apache Kafka Linkedin于 2010 年 12 月份开源的分布式消息系统，它主要用于处理活跃的流式数据，由Scala 写成分布式服务ZooKeeper 分布式锁服务，PoxOS算法的实现，对应Google 的 Chubby RPC Apache Avro Hadoop 中的 RPC Facebook Th

展开阅读全文