大数据之Hadoop入门 hadoop零基础教程_光环大数据培训

上传人:gua****an 文档编号:50657320 上传时间:2018-08-09 格式:DOCX 页数:4 大小:41.75KB
返回 下载 相关 举报
大数据之Hadoop入门 hadoop零基础教程_光环大数据培训_第1页
第1页 / 共4页
大数据之Hadoop入门 hadoop零基础教程_光环大数据培训_第2页
第2页 / 共4页
大数据之Hadoop入门 hadoop零基础教程_光环大数据培训_第3页
第3页 / 共4页
大数据之Hadoop入门 hadoop零基础教程_光环大数据培训_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《大数据之Hadoop入门 hadoop零基础教程_光环大数据培训》由会员分享,可在线阅读,更多相关《大数据之Hadoop入门 hadoop零基础教程_光环大数据培训(4页珍藏版)》请在金锄头文库上搜索。

1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/大数据之大数据之 HadoopHadoop 入门入门 hadoophadoop 零基础教程零基础教程_ _光环大数据培训光环大数据培训hadoophadoop 介绍介绍 ( (直奔主题直奔主题) )开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台 计算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数 据,包括 HDFS,MapReduce 基本组件与扩展组件 Pig、Hive、Hbase、Sqoop、Flume、ZooKeeper 和 Spark 等。

2、HadoopHadoop 基本组件基本组件HDFS 组件 : 提供了一种跨服务器的弹性数据存储系统,在由普通 PC 组成 的集群上提供高可靠的文件存储,通过将块保存多个副本的办法解决服务器或 硬盘坏掉的问题。MapReduce 组件 : 通过简单的 Mapper 和 Reducer 的抽象提供一个编程模 型,可以在一个由几十台上百台的 PC 组成的不可靠集群上并发地,分布式地处 理大量的数据集,而把并发、分布式(如机器间通信)和故障恢复等计算细节隐 藏起来。而 Mapper 和 Reducer 的抽象,又是各种各样的复杂数据处理都可以分 解为的基本元素。这样,复杂的数据处理可以分解为由多个 J

3、ob(包含一个 Mapper 和一个 Reducer)组成的有向无环图(DAG),然后每个 Mapper 和 Reducer 放到 Hadoop 集群上执行,就可以得出结果。MapReduceMapReduce 工作原理图如下:工作原理图如下:HadoopHadoop 扩展组件扩展组件这些技术主要包括了 Sqoop、Flume、Hive、Pig、ZooKeeper、Spark 等。Pig 组件 : Apache Pig 也是 Hadoop 框架中的一部分,Pig 提供类 SQL 语 言(Pig Latin)通过 MapReduce 来处理大规模半结构化数据。而 Pig Latin 是更 高级的

4、过程语言,通过将 MapReduce 中的设计模式抽象为操作,如 Filter,GroupBy,Join,OrderBy。Hive 组件 : 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理 海量结构化数据。它把海量数据存储于 hadoop 文件系统,而不是数据库,但 提供了一套类数据库的数据存储和处理机制,并采用 HQL (类 SQL )语言对这 些数据进行自动化管理和处理。我们可以把 Hive 中海量结构化数据看成一个 个的表,而实际上这些数据是分布式存储在 HDFS 中的。 Hive 经过对语句进光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数

5、据光环大数据 http:/行解析和转换,最终生成一系列基于 hadoop 的 map/reduce 任务,通过执行 这些任务完成数据处理。HbaseHbase 组件组件 :HBase 是一个构建在 HDFS 上的分布式列存储系统HBase 是基于 Google BigTable 模型开发的,典型的 key/value 系统;HBase 是 Apache Hadoop 生态系统中的重要一员,主要用于海量结构化数 据存储;从逻辑上讲,HBase 将数据按照表、行和列进行存储。与 hadoop 一样,Hbase 目标主要依靠横向扩展,通过不断增加廉价的商用 服务器,来增加计算和存储能力。与 HDFS

6、 关系图如下:Sqoop 组件 : Sqoop 工具是 hadoop 环境下连接关系数据库(如 :MySQL ,Oracle) ,和 hadoop 存储系统的桥梁,支持多种关系数据源和 hive,hdfs,hbase 的相互导入。一般情况下,关系数据表存在于线上环境的备 份环境,需要每天进行数据导入,根据每天的数据量而言,sqoop 可以全表导 入,对于每天产生的数据量不是很大的情形可以全表导入,但是 sqoop 也提供 了增量数据导入的机制。Flume 组件 : Flume 是 Cloudera 提供的日志收集系统,Flume 支持在日 志系统中定制各类数据发送方,用于从网站服务器上收集数据

7、。同时 Flume 提 供对数据进行简单处理,并写到 HDFS,HBase 等集中存储器中。Flume 是一个 分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。应用场景比如我们在做一个电子商务网站,然后我们想从消费用户中访问 点特定的节点区域来分析消费者的行为或者购买意图. 这样我们就可以更加快 速的将他想要的推送到界面上,实现这一点,我们需要将获取到的她访问的页 面以及点击的产品数据等日志数据信息收集并移交给 Hadoop 平台上去分析.而 Flume 正是帮我们做到这一点。现在流行的内容推送,比如广告定点投放以及 新闻私人定制也是基于次,不过不一定是使用 FLume,毕竟优秀的产品

8、很多,比 如 facebook 的 Scribe,还有 Apache 新出的另一个明星项目 chukwa,还有淘宝 Time Tunnel。结构如下图所示:光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/ZooKeeper 组件 : 一种集中服务,其用于维护配置信息,命名,提供分 布式同步,以及提供分组服务。ZooKeeper 是一个典型的分布式数据一致性的解决方案,分布式程序可以 基于它实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调通知、集群 管理、master 选举、分布式锁、分布式队列等功能。ZooKeeper 可以保证如

9、下 分布式一致性特性。顺序一致性:从同一个客户端发起的事务请求,最终将严格按照其发起顺 序被应用到 ZooKeeper 中。原子性:更新操作要么成功要么失败,没有中间状态单一视图:不管客户端连接哪一个服务器,客户端看到服务端的数据模型 都是一致的(the same view of service)。可靠性:一旦一个更新成功,那么那就会被持久化,直到客户端用新的更 新覆盖这个更新。实时性:Zookeeper 仅保证在一定时间内,客户端最终一定能够从服务端 读到最新的数据状态。Spark 组件: Spark 是一个 Apache 项目,它被标榜为“快如闪电的集群计 算”。它拥有一个繁荣的开源社区,

10、并且是目前最活跃的 Apache 项目之一。Spark 提供了一个更快、更通用的数据处理平台。和 Hadoop 的 MapReduce 相比,Spark 可以让你的程序在内存中运行时速度提升 100 倍,或者在磁盘上 运行时速度提升 10 倍。去年,在 100 TB Daytona GraySort 比赛中,Spark 战 胜了 Hadoop,它只使用了十分之一的机器,但运行速度提升了 3 倍。Spark 也 已经成为 针对 PB 级别数据排序的最快的开源引擎。 注: MapReduce 适合历 史数据分析计算,Spark 适合实时数据分析计算。Cloudera: 100%开源的商业化 Apa

11、che Hadoop 发行版本(CDH, Cloudera s Distribution including Apache Hadoop)和相关的组件,其中包括了各类安 全高效的企业级数据管理工具,如 Hive, HBase,Oozie, Zookeeper 等。Hortonworks: Hortonworks 是一家基于 Hadoop 提供大数据服务的公司, 致力于开发 Hadoop 框架内软件,提升大数据的处理能力。开发了很多增强特性 并提交至核心主干,这使得 Hadoop 能够在包括 Windows Server 和 Azure 在内 平台上本地运行。MapR: 获取更好的性能和易用性而

12、支持本地 Unix 文件系统而不是 HDFS。 提供诸如快照、镜像或有状态的故障恢复等高可用性特性。领导着 Apache 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Drill 项目,是 Google 的 Dremel 的开源实现,目的是在 Hadoop 数据上执行类 似 SQL 的查询以提供实时处理。为什么大家选择为什么大家选择光环大数据光环大数据!大数据培训、人工智能培训、Python 培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。【报名方式、详情咨询报名方式、详情咨询】光环大数据官方网站报名:光环大数据官方网站报名:http:/ /mobile/mobile/

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > IT计算机/网络 > 数据挖掘与识别

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号