大数据项目技术选型初稿

上传人:ni****g 文档编号:562793055 上传时间:2023-12-16 格式:DOCX 页数:16 大小:706.31KB
返回 下载 相关 举报
大数据项目技术选型初稿_第1页
第1页 / 共16页
大数据项目技术选型初稿_第2页
第2页 / 共16页
大数据项目技术选型初稿_第3页
第3页 / 共16页
大数据项目技术选型初稿_第4页
第4页 / 共16页
大数据项目技术选型初稿_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《大数据项目技术选型初稿》由会员分享,可在线阅读,更多相关《大数据项目技术选型初稿(16页珍藏版)》请在金锄头文库上搜索。

1、目录结构一、 主流架构选用技术二、 Hadoop版本选型方案三、 选用的技术与其他工具的对比四、 大数据相关的技术选型版本确定五、 市场上的hadoop发行版厂商资料六、 具体操作一、主流架构选用技术:采集层:flume;sqoop存储层:包括文件存储层和数据存储层文件:采用hdfs存储数据:采用hbase,redis等模型层:离线处理:mr/yarn;实时流式处理spark streaming(比storm的优势)分析层:hive管理层:zookeeper(调度;ha)二、 Hadoop版本选型方案:Hadoop提供的经典方案:HDP(Hadoop Data Platform)管理一体化 数

2、据接入Flume Script SQL Nosql Stream Search In-Memory OthersSqoop Pig Hive Hbase Storm Solr Spark YARN-Ready AppsNFS -WebHDFS YARNFalcon - HDFS - 数据管理三、选用的技术与其他工具的对比:选用sqoop的好处:开源,抽取的数据可以直接传至hive,可操作性和可视性高选用Flume的好处:纯Java开发,框架分明,易于开发,可以直接写hdfs且支持对text和sequence压缩选用Spark的好处:基于内存,适合需要多次迭代计算的算法,在迭代处理计算方面比Ha

3、doop快100倍以上,Spark采用一个统一的技术堆栈解决了云计算大数据的所有核心问题安全 操作认证,授权,审计,数据保护 准备,管理,监控Storage:HDFS AmbariResource:YARN ZookeeperAccess:Hive OoziePipeline:FalconCluster:KnoxHue的好处:多应用平台,便捷的操作流程;自动补全;查询结果表格化图像化四、 大数据相关的技术选型版本确定:操作系统:CentOS6.X各个技术版本:(最新,最稳定,bug少)Hadoop版本:hadoop-2.6.4.tar.gz此版本是一个相对最新且比较稳定的版本,基数版本可能不稳

4、定,最好选用偶数版本Zookeeper版本:zookeeper-3.4.8.tar.gz此版本修复了此前的9个问题,最明显的是在关闭zookeeper时会产生的一个停顿问题。Flume 版本:apache-flume-1.6.0-bin.tar.gzKafka版本:kafka_2.11-0.8.2.2.tgzhttp:/kafka.apache.org/082/documentation.htmlSpark版本:spark-1.6.0-bin-hadoop2.6.tgz此版本能支持Hadoop2.6.x以上的版本且相对稳定版Sqoop版本:sqoop-1.4.6.bin_hadoop-2.0.

5、4-alpha.tar.gzHive版本:apache-hive-1.2.1-bin.tar.gzHbase版本:hbase-1.1.3-bin.tar.gzMahout版本:apache-mahout-distribution-0.11.0.tar.gz五、市场上的hadoop发行版厂商资料:版本:除了社区的 Apache Hadoop 外, Cloudera , Hortonworks , MapR , EMC , IBM , Intel , 华为等都提供了自己的商业版本。 版本 内容 特点网址ClouderaCDH包括HDFS、YARN、HBase、MapReduce、Hive、Pig、

6、Zookeeper、Oozie、Mahout、Hue和其他开源工具(包括实时查询引擎Impala)。CDH完全开源,比 Apache Hadoop 在兼容性,安全性,稳定性上有所增强;Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个hadoop集群,并对集群的节点及服务进行实时监控。标价为每年每个节点4000美元。http:/ API完全兼容),以及MapR管理控制台。1.构建一个 HDFS 的私有替代品,这个替代品比当前的开源版本快三倍,自带快照功能,而且支持无 NameNode 单点故障 (SPOF) ,并且在 API 上和开源版兼容,所以可以考虑

7、将其作为替代方案。不再需要单独的 NameNode 机器,元数据分散在集群中,也类似数据默认存储三份。2.也不再需要用网络附加存储 (NAS) 来协助 NameNode 做元数据备份,提高了机器使用率。3.还有个重要的特点是可以使用 nfs 直接访问 hdfs ,提供了与旧有应用的兼容性。镜像功能也很适合做数据备份,而且支持跨数据中心的镜像,快照功能对于数据的恢复作用明显。4.每年每个节点4000美元。5.在性能方面具备优势。https:/ 平台管理,安全认证,作业调度算法,与 DB2 及 netezza 的集成上做了增强 。兼容性好,同时运行多种Hadoop版本的程序,IBM的服务。http

8、:/ Hadoop Intel 分发版主要是强调其能提供全面的 软硬件解决方案设计 , 针对硬件具有更好的性能优化 ,以及 提供集群管理工具和安装工具简化了 Hadoop 的安装和配置 ,能够提供项目规划到实施各阶段专业的咨询服务,实际中采购 Intel 版本貌似动力不足。 性能好,最先进入中国市场。http:/ Hadoop基于 Apache Hadoop ,构建 NameNode 、 JobTracker 、 HiveServer 的 HA 功能,进程故障后系统自动 Failover ,无需人工干预,这个也是对 Hadoop 的小修补,远不如 MapR 解决的彻底。http:/ 基于Apa

9、che协议,100%开源。2. 版本管理清晰。比如Cloudera,CDH1,CDH2,CDH3,CDH4等,后面加上补丁版本,如CDH4.1.0 patch level 923.142,表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch。3. 比Apache Hadoop在兼容性、安全性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证,有众多部署实例,大量的运行到各种生产环境。4. 版本更新快。通常情况,比如CDH每个季度会有一个update,每一年会有一个release。5. 基于稳定版本Apache Hadoop,并应用了最新Bug修复或Feature的patch6. 提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时内部署好集群。7. 运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单,有效。缺点:1. 涉及到厂商锁定的问题。(可以通过技术解决)六、具体操作:Hadoop2.6 HA搭建至少四台机器:ha

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 幼儿/小学教育 > 幼儿教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号