大数据平台技术框架选型分析教学内容

上传人:雨水 文档编号:146050016 上传时间:2020-09-25 格式:PDF 页数:10 大小:615.83KB
返回 下载 相关 举报
大数据平台技术框架选型分析教学内容_第1页
第1页 / 共10页
大数据平台技术框架选型分析教学内容_第2页
第2页 / 共10页
大数据平台技术框架选型分析教学内容_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《大数据平台技术框架选型分析教学内容》由会员分享,可在线阅读,更多相关《大数据平台技术框架选型分析教学内容(10页珍藏版)》请在金锄头文库上搜索。

1、此文档仅供收集于网络,如有侵权请联系网站删除 只供学习与交流 大数据平台框架选型分析 一、需求 城市大数据平台, 首先是作为一个数据管理平台, 核心需求是数据的存和取, 然后因为海量数据、 多数据类型的信息需要有丰富的数据接入能力和数据标准化 处理能力, 有了技术能力就需要纵深挖掘附加价值更好的服务,如信息统计、 分 析挖掘、全文检索等, 考虑到面向的客户对象有的是上层的应用集成商,所以要 考虑灵活的数据接口服务来支撑。 二、平台产品业务流程 此文档仅供收集于网络,如有侵权请联系网站删除 只供学习与交流 三、选型思路 必要技术组件服务: ETL 非/关系数据仓储 大数据处理引擎 服务协调 分析

2、 BI 平台监管 四、选型要求 1需要满足我们平台的几大核心功能需求,子功能不设局限性。如不满足全部, 需要对未满足的其它核心功能的开放使用服务支持 2国内外资料及社区尽量丰富,包括组件服务的成熟度流行度较高 此文档仅供收集于网络,如有侵权请联系网站删除 只供学习与交流 3需要对选型平台自身所包含的核心功能有较为深入的理解,易用其API 或基于 源码开发 4商业服务性价比高,并有空间脱离第三方商业技术服务 5一些非功能性需求的条件标准清晰,如承载的集群节点、处理数据量及安全机 制等 五、选型需要考虑 简单性 :亲自试用大数据套件。这也就意味着:安装它,将它连接到你的Hadoop 安 装,集成你

3、的不同接口(文件、数据库、B2B 等等),并最终建模、部署、执行一些大数 据作业。自己来了解使用大数据套件的容易程度 仅让某个提供商的顾问来为你展示它 是如何工作是远远不够的。亲自做一个概念验证。 广泛性 :是否该大数据套件支持广泛使用的开源标准 不只是 Hadoop 和它的生态 系统,还有通过SOAP 和 REST web服务的数据集成等等。它是否开源,并能根据你的特 定问题易于改变或扩展?是否存在一个含有文档、论坛、博客和交流会的大社区? 特性 :是否支持所有需要的特性?Hadoop 的发行版本(如果你已经使用了某一个)? 你想要使用的Hadoop 生态系统的所有部分?你想要集成的所有接口

4、、技术、产品?请注 意过多的特性可能会大大增加复杂性和费用。所以请查证你是否真正需要一个非常重量级 的解决方案。是否你真的需要它的所有特性? 陷阱 :请注意某些陷阱。某些大数据套件采用数据驱动的付费方式(“ 数据税 ” ),也就 是说,你得为自己处理的每个数据行付费。因为我们是在谈论大数据,所以这会变得非常 昂贵。并不是所有的大数据套件都会生成本地Apache Hadoop代码, 通常要在每个Hadoop 集群的服务器上安装一个私有引擎,而这样就会解除对于软件提供商的独立性。还要考虑 你使用大数据套件真正想做的事情。某些解决方案仅支持将Hadoop 用于 ETL 来填充数据 至数据仓库,而其他

5、一些解决方案还提供了诸如后处理、转换或Hadoop 集群上的大数据 分析。 ETL 仅是 Apache Hadoop和其生态系统的一种使用情形。 此文档仅供收集于网络,如有侵权请联系网站删除 只供学习与交流 六、方案分析 自建套件hortonworks国内类 exadoopTDW+fineBI 成本100% 开源 培训服务3k/ 人 授权支持100K 性能单集群最大规 模达到 5600 台,处理数据 量可达百P 级 功能按需整合HDFS 和 YARN 数据管理 从各种引擎访问数据 根据策略加载和管理数据 身份验证、授权和数据保护 大规模配置、 管理、监控和 运营Hadoop 群集 与您的数据分

6、析工具集成 跨平台配置部署 易操 作性 安装复杂, 操作需要 专业培训。 图形设计界面,参数配置, 易上手。 应用 成熟 度 国外大客户较多 文档 / 社 区支 持 文档较多,社区一 般, 相关专业培训较 多。 官方社区比较活跃(英文) 中文社区有1 个文档较少, 多为英文文档 文档较少,无 商用服务,无 任何技术支持 扩展 性 开源开放开源开放开源开放 移植 性 支持多操作系统支持多操作系统支持多操作系 统 支持多操作系 统 监控监控功能强大Armbri元无 优势1、跟随产品阶段逐 步完善整合自定义 套件 2、自选流行组件, 资料丰富 1、开源强大支持的开源套 件 2、配套商业服务支持 1、

7、国产套件 2、交流支持方 便 3、商业服务较 灵活 1、开源中文支 持 2、基于大数据 处理核心,灵 活组合其它组 件来适应不同 产品阶段及项 目 劣势整合周期不可控商业成本较高依赖于打包服 务公司的支持 半定制套件, 预学现用 此文档仅供收集于网络,如有侵权请联系网站删除 只供学习与交流 七、相关资料 https:/prestodb.io/ HDP (hortonworks) A Complete Enterprise Hadoop Data Platform 此文档仅供收集于网络,如有侵权请联系网站删除 只供学习与交流 开源工具汇总整理 类别名称备注 查询引擎 Phoenix Salesf

8、orce公司出品, Apache HBase 之上的一个SQL中间层,完全使 用 Java 编写 Stinger 原叫 Tez,下一代Hive,Hortonworks主导开发,运行在YARN 上的 DAG 计算框架 Presto Facebook 开源 Shark Spark 上的 SQL执行引擎 Pig 基于 Hadoop MapReduce 的脚本语言 Cloudera Impala参照 Google Dremel实现,能运行在HDFS或 HBase上,使用C+开发 Apache Drill参照 Google Dremel实现 Apache Tajo 一个运行在YARN 上支持 SQL的分

9、布式数据仓库 此文档仅供收集于网络,如有侵权请联系网站删除 只供学习与交流 Hive 基于 Hadoop MapReduce 的 SQL查询引擎 流式计算 Facebook Puma 实时数据流分析 Twitter Rainbird 分布式实时统计系统,如网站的点击统计 Yahoo S4 Java 开发的一个通用的、分布式的、可扩展的、分区容错的、可插拔的 无主架构的流式系统 Twitter Storm使用 Java 和 Clojure实现 迭代计算 Apache Hama 建立在 Hadoop 上基于 BSP (Bulk Synchronous Parallel)的计算框架, 模仿了 Goo

10、gle 的 Pregel 。 Apache Giraph 建立在 Hadoop 上的可伸缩的分布式迭代图处理系统,灵感来自 BSP(bulk synchronous parallel)和 Google 的 Pregel HaLoop 迭代的 MapReduce Twister 迭代的 MapReduce 离线计算 Hadoop MapReduce经典的大数据批处理系统 Berkeley Spark 使用 Scala 语言实现,和MapReduce有较大的竞争关系,性能强于 MapReduce DataTorrent 基于 Hadoop2.X 构建的实时流式处理和分析平台,每秒可以处理超过10

11、亿个实时事件 键值存储 LevelDB Google 开源的高效KV编程库,注意它只是个库 RocksDB Facebook 开源的,基于Google 的 LevelDB ,但提高了扩展性可以运行 在多核处理器上 HyperDex 下一代 KV存储系统,支持strings、integers、floats、lists、maps 和 sets等丰富的数据类型 TokyoCabinet 日本人 Mikio Hirabayashi(平林干雄)开发的一款DBM 数据库,注意 它只是个库(大名鼎鼎的DBM数据库 qdbm就是 Mikio Hirabayashi开 发的) , 读写非常快 Voldemort

12、 一个分布式键值存储系统,是 Amazon Dynamo的一个开源克隆, LinkedIn 开源 Amazon Dynamo 亚马逊的 KV模式的存储平台,无主架构 Tair 淘宝出品的高性能、分布式、可扩展、高可靠的KV结构存储系统,专 为小文件优化,并提供简单易用的接口(类似Map), Tair支持 Java 和 C 版本的客户端 Apache Accumulo 一个可靠的、 可伸缩的、 高性能的排序分布式的KV存储系统, 参照 Google Bigtable而设计,建立在Hadoop、Thrift和 Zookeeper 之上。 Redis 使用 ANSI C 语言编写、支持网络、可基于内

13、存亦可持久化的日志型、 单机版 KV数据库。 从 2010 年 3 月 15 日起,Redis 的开发工作由VMware 主持 OceanBase 支持海量数据的高性能分布式数据库系统,实现了数千亿条记录、数百 TB数据上的跨行跨表事务 Amazon SimpleDB 一个可大规模伸缩、用 Erlang 编写的高可用数据存储 此文档仅供收集于网络,如有侵权请联系网站删除 只供学习与交流 Vertica 惠普 2011 收购 Vertica,Vertica是传统的关系型数据库,基于列存储, 同时支持 MPP ,使用标准的SQL查询 , 可以和 Hadoop/MapReduce 进行集 成 Cas

14、sandra Hadoop 成员, Facebook 于 2008 将 Cassandra 开源,基于O(1)DHT 的完 全 P2P架构 HyperTable 搜索引擎公司Zvents 针对 Bigtable的 C+ 开源实现 FoundationDB 支持 ACID 事务处理的NoSQL数据库,提供非常好的性能、数据一致性 和操作弹性 HBase Bigtable在 Hadoop 中的实现, 最初是 Powerset 公司为了处理自然语言 搜索产生的海量数据而开展的项目 文件存储 CouchDB 面向文档的数据存储 MongoDB 文档数据库 Tachyon 加州大学伯克利分校的AMPLa

15、b基于 Hadoop 的核心组件开发出一个更快 的版本 Tachyon ,它从底层重构了Hadoop 平台。 KFS GFS的 C+开源版本 HDFS GFS在 Hadoop 中的实现 资源管理 Twitter MesosGoogle Borg的翻版 Hadoop Yarn类似于 Mesos 日志收集系 统 Facebook Scribe Facebook 开源的日志收集系统,能够从各种日志源上收集日志,存储到 一个中央存储系统(可以是NFS ,分布式文件系统等)上,以便于进行 集中统计分析处理,常与 Hadoop 结合使用, Scribe用于向 HDFS中 Push 日志 Cloudera

16、Flume Cloudera提供的日志收集系统,支持对日志的实时性收集 logstash 日志管理、分析和传输工具,可配合kibana 、ElasticSearch组建成日 志查询系统 kibana 为日志提供友好的Web查询页面 消息系统 StormMQ ZeroMQ 很底层的高性能网络库 RabbitMQ 在 AMQP 基础上完整的,可复用的企业消息系统 Apache ActiveMQ 能力强劲的开源消息总线 Jafka 开源的、高性能的、跨语言分布式消息系统,最早是由Apache 孵化的 Kafka (由 LinkedIn捐助给 Apache)克隆而来 Apache Kafka Linkedin于 2010 年 12 月份开源的分布式消息系统,它主要用于处理活 跃的流式数据,由Scala 写成 分布式服务ZooKeeper 分布式锁服务,PoxOS算法的实现,对应Google 的 Chubby RPC Apache Avro Hadoop 中的 RPC Facebook Th

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 幼儿/小学教育 > 其它小学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号