扩展Hadoop的十大要点汇总_光环大数据培训

上传人:gua****an 文档编号:51644853 上传时间:2018-08-15 格式:DOCX 页数:6 大小:42.36KB
返回 下载 相关 举报
扩展Hadoop的十大要点汇总_光环大数据培训_第1页
第1页 / 共6页
扩展Hadoop的十大要点汇总_光环大数据培训_第2页
第2页 / 共6页
扩展Hadoop的十大要点汇总_光环大数据培训_第3页
第3页 / 共6页
扩展Hadoop的十大要点汇总_光环大数据培训_第4页
第4页 / 共6页
扩展Hadoop的十大要点汇总_光环大数据培训_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《扩展Hadoop的十大要点汇总_光环大数据培训》由会员分享,可在线阅读,更多相关《扩展Hadoop的十大要点汇总_光环大数据培训(6页珍藏版)》请在金锄头文库上搜索。

1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/扩展扩展 HadoopHadoop 的十大要点汇总的十大要点汇总_ _光环大数据培训光环大数据培训20 世纪 90 年代,每台应用服务器往往都拥有直接连接存储(DAS)。创建存储区域网络(SAN),是为了提供共享的存储池,以获得更大的规模和更高的效率。hadoop 逆转了这股潮流,让 DAS 重新流行起来。每个 Hadoop 集群都有自己的、横向扩展直接连接存储。它有助于 Hadoop 管理数据局部性,但是牺牲了共享存储的规模和效率。因此,如果你有Hadoop 发行版的多个实例,就会有多

2、个这种横向扩展的存储孤岛。Hedvig 公司的首席执行官兼创始人阿维纳什拉克希曼(Avinash Lakshman)说:“我们遇到的最大挑战就是,兼顾数据局部性与规模和效率。 ”数据局部性是指确保大数据集存储在执行分析任务的计算资源附近。对于 Hadoop来说,这就意味着管理数据节点(DataNode),而数据节点为 MapReduce 拥有足够好的性能提供了存储资源。它可以高效地工作,但是导致了另一个操作问题:大数据存储孤岛。本文介绍的这些要点有助于管理 Hadoop 环境中的大数据存储。1. 分散式存储集中式存储作为传统架构已有一段时间。但是大数据其实并不适合集中存储架构。Infogix

3、的金融服务行业(FSI)战略和运营经理森希尔拉贾曼尼坎(Senthil Rajamanickam)表示,Hadoop 旨在让计算资源更接近数据,同时充分利用 HDFS 文件系统的大规模横向扩展功能。然而,解决 Hadoop 管理自有数据的低效问题的常见方法,一向是将 Hadoop 数据存储在 SAN 上。而这带来了性能和规模方面的一系列瓶颈。现在,你的所有数据都通过集中式 SAN 控制器来处理,而控制器破坏了 Hadoop 的分布式、并行化的特性。你需要为多个数据节点管理多个 SAN,或者将所有数据节点保存到一个 SAN 上。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:

4、/ 光环大数据光环大数据 http:/拉克希曼说:“由于 Hadoop 是一种分布式应用系统,它应该可以在分布式存储上运行,那样你的存储保持与 Hadoop 本身一样的弹性。这需要你积极采用软件定义存储方法,在商用服务器上运行,但是它比把 Hadoop 放在传统 SAN 或 NAS 技术上高效得多,因为后者给 Hadoop 造成了瓶颈。2. 超融合 vs 分布式不过要小心,别将超融合与分布式混为一谈。某些超融合方法是分布式的,但这个术语通常意味着你的应用程序和存储可以共同驻留在同一个计算节点上。解决数据局部性问题很诱人,但是这会造成严重的资源争夺现象。 Hadoop 应用和存储平台将争夺同样的

5、内存和处理器资源。拉克希曼表示,最好在专用的应用层上运行 Hadoop,在专用的存储层中运行分布式存储,从而充分利用缓存和分层技术,以解决数据局部性和网络性能开销。3. 避免控制器阻塞点他强调了做到这一点的一个重要方面避免通过单一(或可能两个)点(比如传统控制器)来处理数据。通过改而确保存储平台并行化,就能显著提高性能。此外,这种方法提供了增量可扩展性。为数据湖添加容量就跟添加几台内置闪存或旋转磁盘的 x86 服务器一样简单。分布式存储平台可在必要时自动添加容量、重新均衡数据。4. 重复数据删除和压缩驾驭大数据的一个关键部分是重复数据删除和压缩。Hedvig 看到常见的大数据集可以缩减 70%

6、-90%。在 PB 级规模下,这意味着可节省数万美元的磁盘成本。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/拉克希曼说:“现代平台提供了内联式(而不是处理后)重复数据删除和压缩。这意味着,如果不先以某种方式来缩减数据,数据永远不会进入到磁盘,这大大减少了存储数据所需的容量。 ”5. 整合 Hadoop 发行版许多大组织都有多个 Hadoop 发行版。可能是由于开发人员需要访问多个“版本” ,或者业务部门久而久之采用了不同的版本。不管怎样,IT 总部常常最终负责这些集群的日常维护和操作。大数据数量真正开始影响业务时,存在多个 Hado

7、op 发行版会导致效率低下。拉克希曼说:“你可以创建一个单一、经过重复数据删除的压缩数据湖,然后它可以为 Hadoop 的多个实例提供数据,从而获得数据效率。 ”6. 对 Hadoop 虚拟化处理虚拟化技术在企业界刮起了一场风暴。在许多地方,如今超过 80%的物理服务器已虚拟化。不过由于性能和数据局部性问题,许多人避免了对 Hadoop 进行虚拟化处理。拉克希曼说:“你可以对 Hadoop 或 Spark 进行虚拟化处理。 ”7. 构建弹性数据湖构建数据湖并非易事,但大数据存储的需求可能需要数据湖。有许多方法可以着手构建,可是哪一种才是合适的方法?合适的架构有望构建一个活跃、弹性的数据湖,可以

8、存储来自所有数据源、采用多种格式的数据,包括结构化数据、非结构化数据和半结构化数据。更重要的是,它必须支持就在数据源处执行应用程序,而不是从远程源处执行,那光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/样需要移动数据。遗憾的是,传统的架构和应用程序(即非分布式)并不令人满意。由于数据集变得更庞大,必须将应用程序移到数据,而不是将数据移到应用程序,因为那样延迟太长。而有了 Hadoop/Spark,分析工作流变得更具破坏性了,因为数据和应用程序从不同的孤岛来执行,迫使数据移动并存储到多个平台上。日立公司大数据分析高级产品营销经理弗雷德欧

9、(Fred Oh)说:“理想的数据湖基础设施能够存储单一数据副本,并且让应用程序针对单一数据源执行,没必要移动数据或制作副本(比如在 Linux、虚拟机和 Hadoop 之间)。 ”8. 集成分析分析不是一种新的功能,多年来它就存在于传统的 RDBMS 环境中。不同之处在于,出现了基于开源的应用程序,以及能够将数据库表与社交媒体和非结构化数据源(比如维基百科)集成起来。关键在于,能够把多种类型和格式的数据集成为一种标准的数据,那样就能更轻松、更一致地完成可视化和报告。拥有完成这项工作的合适工具集是确保任何分析/商业智能项目成功的关键。欧说:“说到分析,重要的是要明白真正的挑战不在可视化,而在数

10、据集成,尤其是集成来自多个数据源、采用多种格式的数据。一套全面的数据集成工具和基于 GUI 的集成控制台可以克服企业在大数据方面的挑战。 ”9. 大数据遇上大视频大数据够糟糕,大视频更是为这个现象添加了压力。比如说,企业日益使用视频监控,不仅仅出于安全性,还为了提高运营和工业效率,简化流量管理,支持监管合规及另外几种使用场合。很快,这些数据源会生成大量内容。那些要处理大视频的企业最好确光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/保为此建立了合适类别的数据存储系统,无论是不是基于 Hadoop。欧说:“这些应用程序正在带来大量的视频数

11、据,要是没有合适的专用存储解决方案,这些数据会带来诸多问题,比如数据丢失和视频质量下降。 ”10. 没有赢家最近 Hadoop 无疑攻下了许多地盘。所以,随着数据存储量急剧增长,它会是最终赢家,击败其他所有方法吗?不太可能。比如说,由于 OLTP 方面的固有优点以及要求 100%的可用性,基于 SAN 的传统架构不会在近期被取代。但是如果需要分析以及与非结构化数据(比如社交媒体)集成,那么评估超融合平台就有引人入胜的理由,因为超融合平台将服务器计算、分布式文件系统、Hadoop/Spark 和更新颖的数据库应用软件与基于开源的分析工具整合起来。因此,最佳方法将超融合平台与分布式文件系统整合起来

12、,并集成了分析软件。基于 Linux 的传统 RDBMS 应用(DWO 和数据市场等)可满足这个用途,Hadoop/Spark/MapReduce 则应对新的社交媒体挑战,使用服务器虚拟化提供了灵活性和效率。但是这每种环境都可能形成不同的数据孤岛。理想的方法就是同时支持这三种环境,并增添这种功能:可在数据源处执行应用程序,并减少分析工作流中的数据移动。欧说:“成功的关键在于实施的系统考虑到了可扩展性、分析集成和专业知识。最终,存储专业人员需要预料未来的要求,而不仅仅着眼于存储。 ”为什么大家选择为什么大家选择光环大数据光环大数据!光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/大数据培训、人工智能培训、Python 培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。【报名方式、详情咨询报名方式、详情咨询】光环大数据官方网站报名:光环大数据官方网站报名:http:/ /mobile/mobile/

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 数据结构与算法

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号