大数据项目技术选型初稿

上传人:m**** 文档编号:511915269 上传时间:2022-12-17 格式:DOC 页数:20 大小:757KB
返回 下载 相关 举报
大数据项目技术选型初稿_第1页
第1页 / 共20页
大数据项目技术选型初稿_第2页
第2页 / 共20页
大数据项目技术选型初稿_第3页
第3页 / 共20页
大数据项目技术选型初稿_第4页
第4页 / 共20页
大数据项目技术选型初稿_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《大数据项目技术选型初稿》由会员分享,可在线阅读,更多相关《大数据项目技术选型初稿(20页珍藏版)》请在金锄头文库上搜索。

1、.目录结构一、主流架构选用技术二、 Hadoop版本选型方案三、选用的技术与其他工具的对比四、大数据相关的技术选型版本确定五、市场上的 hadoop发行版厂商资料六、具体操作专业资料.一、主流架构选用技术:采集层: flume ;sqoop存储层:包括文件存储层和数据存储层文件:采用 hdfs 存储数据:采用 hbase , redis 等模型层:离线处理: mr/yarn; 实时流式处理 spark streaming(比 storm的优势 )分析层: hive管理层: zookeeper(调度; ha )专业资料.二、 Hadoop版本选型方案:Hadoop提供的经典方案:HDP (Had

2、oop Data Platform)管理一体化数据接入FlumeScriptSQLNosqlStreamSearchIn-MemoryOthersSqoopPigHiveHbaseStormSolrSparkYARN-Ready AppsNFS专业资料.-WebHDFSYARNFalcon-HDFS-数据管理专业资料.三、选用的技术与其他工具的对比:选用 sqoop的好处:开源,抽取的数据可以直接传至hive ,可操作性和可视性高专业资料.选用 Flume的好处:纯Java 开发,框架分明,易于开发,可以直接写hdfs 且支持对text和 sequence压缩专业资料.选用 Spark 的好处

3、:基于存,适合需要多次迭代计算的算法,在迭代处理计算方面比 Hadoop快 100 倍以上, Spark 采用一个统一的技术堆栈解决了云计算大数据的所有核心问题安全操作认证,授权,审计,数据保护准备,管理,监控Storage : HDFSAmbariResource :YARNZookeeperAccess : HiveOoziePipeline:FalconCluster:Knox专业资料.Hue 的好处:多应用平台,便捷的操作流程;自动补全;查询结果表格化图像化四、大数据相关的技术选型版本确定:操作系统: CentOS6.X各个技术版本:(最新,最稳定,bug 少)Hadoop版本:此版本

4、是一个相对最新且比较稳定的版本,基数版本可能不稳定,最好选用偶数版本Zookeeper版本:此版本修复了此前的9 个问题,最明显的是在关闭zookeeper时会产生的一个停顿问题。Flume版本: 专业资料.Kafka 版本:Spark 版本:此版本能支持以上的版本且相对稳定版Sqoop版本: Hive 版本:Hbase 版本:Mahout版本: 五、市场上的hadoop发行版厂商资料:版本: 除了社区的ApacheHadoop外, Cloudera, Hortonworks,专业资料.MapR, EMC , IBM, Intel, 华为等都提供了自己的商业版本。版本容特点网址CDH包括HDF

5、S、ClouderaYARN、HBase、MapReduce、Hive 、Pig 、 Zookeeper、Oozie 、Mahout、Hue和其他开源工具( 包括实时查询引擎Impala) 。CDH完 全 开 源 , 比ApacheHadoop在兼容性,安全性,稳定性 上 有 所 增 强 ; ClouderaManager是集群的软件分发及管理监控平台,可以在几个小时部署好一个 hadoop集群,并对集群的节点及服务进行实时监控。标价为每年每个节点 4000 美元。.cloudera./documentation/archive/cdh/4-x/4-7-1/CDH4-Installation-

6、Guide/cdh4ig_topic_11_4.htmlHortonworksMapRHDP 包 括 HDFS 、http:/horYARN集成和测试封装;安装方便;管理、 HBase 、MapReduce 、Hive 、tonworks./Pig 、和监控服务;数据集成服务;元数HCatalog 、Zookeeper 、 Oozie 、Mahout据服务;高可用性;每 10 个节点每、 Hue 、Ambari、Tez 和 Hive美元。拥 有大量的年为 12500的实时版(Stinger)以及其他开源工具。Hadoop专家,对 Hadoop的发展起到了重要作用,拥有广泛的合作伙伴支持,专供Hadoop ;对专有代码的依赖低于Cloudera包括 HDFS 、HBase 、1. 构建一个HDFS 的私有替代品,https:/.mMapReduce、Hive 、专业资料.Mahout、Oozie 、Pig 、这个替代品比当前的开源版本快三apr./ZooKeeper、Hue和其他开源工具。 还包括直接 NFS 访问、快照和用于 “高可用性” 的镜像,有的HBase 实现(与 Apache API 完全兼容 ),以及MapR管理控制台。倍,自带快照功能,而且支持无NameNode单点故障(SPOF) ,并且在API 上和开源版兼容,所以可以考虑将其作为替代方案。不再

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 演讲稿/致辞

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号