mapr入门实战手册

上传人:shaoy****1971 文档编号:108154536 上传时间:2019-10-22 格式:DOCX 页数:21 大小:717KB
返回 下载 相关 举报
mapr入门实战手册_第1页
第1页 / 共21页
mapr入门实战手册_第2页
第2页 / 共21页
mapr入门实战手册_第3页
第3页 / 共21页
mapr入门实战手册_第4页
第4页 / 共21页
mapr入门实战手册_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《mapr入门实战手册》由会员分享,可在线阅读,更多相关《mapr入门实战手册(21页珍藏版)》请在金锄头文库上搜索。

1、MapR入门实战手册北京宽连十方数字技术有限公司技术部1 引言IBM的架构师Stephen Watt曾在Deriving new business insights with Big Data一文中简单讲解过大数据的生态系统。简而言之,大数据的生态系统,就是数据的生存周期。数据从产生,到处理,再到价值提取,最后被消费掉,这整个过程就构成了大数据的生态系统。如下图所示。在这个生态系统中,无论是数据的存储、数据的处理、数据的分享、数据的检索、数据的分析,还是数据的可视化,都存在着不同的商业需求。需求的出现必然会导致创新的产生。所以,在每个步骤都有不少初创公司在深耕自己所在的领域,试图通过新技术和新

2、方法来实现新的商业模式。数据的处理Hadoop是大数据时代数据处理的首选。脱胎于Google MapReduce的Hadoop凭借其开源和易用的特性,很快成为了大数据时代的最耀眼的主角。目前,Hadoop已经成为大数据生态环境中不可或缺的一环,是拥有海量数据处理需求的公司的标准配置,许多商业创新和产品创新也都是围绕着Hadoop展开的。Yahoo也已经认识到了Hadoop的价值,将Hadoop拆分成一个独立的商业公司HortonWorks进行运营。虽然Yahoo是Hadoop最大的贡献者,也进行了Hadoop的商业化,但却没法阻止其他的颇具实力的竞争者进入这个前途无限的领域。Cloudera便

3、是其中最耀眼的一个。且不说联合创始人中有Facebook和Google的精英们,就连Hadoop的创始人Doug Cutting也从Yahoo离职加入了Cloudera,这一举动当时在业界还引起了不小的震动。Cloudera最开始的模式是帮助企业管理数据,后来则转型为软件厂商。他们推出的软件发布包可以帮助企业更方便地搭建以Hadoop为中心的数据管理平台。Cloudera也是通过技术支持、培训和咨询等付费服务来盈利的,目前融资已达3600万美元。如果说Cloudera是依靠其华丽的精英团队来吸引客户的话,那么MapR则是通过过硬的产品来让业界认识到他们的价值。据称,经过MapR改造的Hadoo

4、p的速度可达原来的3倍。对于Hadoop的MapReduce模式,相信现在基本上已经没人提出质疑了,然而大家更关心的是,这玩意还能不能更快,MapR则很完美地回答了这个问题。EMC也宣布在一些产品使用MapR版本的Hadoop,而MapR也刚刚完成了2000万美元的融资。除了速度以外,Hadoop的易用性也是一个用户所关心的问题。虽然相比较其他的框架而言,Hadoop已经简化了许多使用MapReduce技术时所需要做的工作,但是对于终端用户而言可能还算不得十分友好。近日宣布完成570万美元A轮融资的海量数据管理软件商Platfora,就在试图解决这个问题。Platfora旨在提供一个更为友好且

5、更具操作性的用户界面,而且这个产品可以兼容包括Cloudera和MapR在内的各个Hadoop版本,能够大大降低使用Hadoop的门槛,让更多的公司体验到Hadoop的技术优势。不仅仅是Hadoop本身,就连Hadoop的周边也不乏成功的创新者。AsterData已经成功地被老牌数据仓库厂商TeraData以2.63亿美元收购,他们的核心技术叫做SQL-to-MapReduce,可以将海量非结构化数据的处理技术和结构化数据的数据仓库技术结合在一起。而这种高速处理海量非结构化数据的能力,恰恰是传统数据仓库的公司所欠缺的,这也是为什么TeraData肯花如此大的价钱买下AsterData的原因。2

6、 MapR是什么?Structure Big Data会议的主席GigaOm认为MapR是:构建一个HDFS的私有替代品,这个替代品比当前的开源版本快三倍,自带快照功能,而且支持无NameNode单点故障(SPOF),并且在API上和兼容,所以可以考虑将其作为替代方案。MapR是MapR Technologies Inc的一个产品,号称下一代Hadoop,使Hadoop变为一个速度更快、可靠性更高、更易于管理、使用更加方便的分布式计算服务和存储平台,同时性能也不断提高。它将极大的扩大了Hadoop的使用范围和方式。它包含了开源社区的许多流行的工具和功能,例如Hbase、Hive。它还100%和

7、Apache Hadoop的API兼容。它能够为客户节约一半的硬件资源消耗,使更多的组织能够利用海量数据分析的力量提高竞争优势。MapR有哪些版本?目前有两个版本,M3和M5,其中M3是免费的,M5为收费版,有试用期。具体功能差别如下见:MAPR EDITIONSM3 FREEM5 EditionComplete, Tested, Stable, IntegratedHive, Pig, HBase, Sqoop, Mahout, Flume, and more3x PerformanceDirect Access NFSUnlimited ScalabilityRealtime Data F

8、lowsMapR HeatmapProvisioning ControlBuilt-in MonitoringDependable, ReliableAlerts and AlarmsLockless Storage ServicesJob Tracker HADistributed Namenode HANFS Multinode HAMirroringSnapshotsData Placement ControlSupportMapr能做什么?Marp是一个比现有Hadoop分布式文件系统还要快三倍的产品,并且也是开源的。Mapr配备了快照,并号称不会出现SPOF单节点故障,且被认为是与现

9、有HDFS的API兼容。因此非常容易替换原有的系统。MapR的整体结构3 为什么要用MapR?3.1 MapR解决了哪些问题?MapR认为,解决Hadoop的种种问题,要采用以下设计思想:1) 集中式的meta server可扩展性不好,对应的解决方案就是使用分布式的meta server,让每个节点都变成meta server。 但是这里要解决的问题是meta server不能占用太多内存,要留出足够的内存供M/R 应用来使用。2) 要让每个Datanode上支持的block数量增加,同时减少block-report的大小。3) 因为内存容量总是有限的,所以要减小查找服务的内存开销。4) 服

10、务能够快速重启(这样可以更好的实现HA)。通过上述方式,MapR期望这种设计能极大的提高Hadoop的扩展能力,比如支持的节点数目从当前2000个左右扩展到10000个以上,系统文件容量从10-50PB扩展到1-10EB,文件数量从1.5亿扩展到1万亿(1 trillion)左右。同时,系统还需要支持完全的随机读写以及一系列企业应用特性,比如快照,mirror等等。MapR还期望在性能上有所突破,尽可能的榨取硬件的能力,并能对新的硬件技术(固态硬盘,万兆网卡等)提供支持。3.2 MapR的特性纵观其实现,整个MapR的核心是其分布式NameNode, 在MapR的设计中,分布式的NameNod

11、e又被称作Container,和Hadoop原始设计中的Namenode不一样的是,Container不仅维护了用户文件的meta data,也维护数据块。每个Container的大小在16GB-32GB之间(这也就意味着一个node上会有很多个container),同一个Container在不同node间有replica。对于用户来说,Container的概念过于底层,MapR引入了Volume的概念来降低使用用户门槛和提高系统的灵活性。 MapR Volume的概念和传统存储概念意义上的Volume相当类似,用户不需要直接管理Container,相应的,用户通过管理volumes来管理Co

12、ntainer:用户可以为每个Volume指定不同的大小限制,replication level等参数。此外,用户还可以对volume建立snapshot,mirror等。除了分布式Namenode这个大亮点之外,MapR还实现了一系列高级特性,对原来Hadoop的功能进行了大幅度的增强。这其中最吸引眼球的有两点:1) Direct Access NFS技术。顾名思义,用户可以直接在远程通过NFS 客户端把MapR HDFS装载到其本地,像操作本地文件一样来进行操作。这个特性在Hadoop峰会上引起了广泛关注,讲座结束后相当一部分问题都集中于此。比如,支持符号链接么(答案:支持)? 支持O_D

13、IRECT访问么(答案:O_DIRECT是相对本地文件系统而言的,对于NFS,O_DIRECT不是太有意义)? 同时Direct Access NFS支持文件的随机读写(原始Hadoop的文件系统可以被认为是只读的),大大的扩展了MapR Hadoop的应用范围。2) Snapshot,Mirror等企业应用特性。Snapshot(快照),Mirror(镜像)等企业应用特性是是企业IT管理人员必不可少的工具,是处理复杂需求的得力助手。通过支持Volume,MapRHadoop方便的支持了这些功能,使得Hadoop不再只是开发人员的专宠,数据科学家,IT管理人员也能够方便的访问Hadoop这个功

14、能强大的大数据分析平台。从整体上看,MapR比之其他Hadoop发行版具有三大优越性:EASY、DEPENDABLE、FAST。3.2.1 Easy(易用) 有强大的管理工具:MapR Control System,方便的查看集群的状态,作业执行情况,各项配置等; Mount Hadoop with Direct Access NFS . This allows users to mount the entire Hadoop cluster as an NFS volume . Users can simply browse files, automatically open associa

15、ted applications with a mouse click, or drag-and-drop files and directories into and out of the cluster. Additionally, standard command-line tools and UNIX applications and utilities (such as Grep, Tar, Sort, or Tail) can be used directly on data in the cluster. With other Hadoop distributions, the user must copy the data out of the cluster in order to use standard tools . 不同于HDFS的一次写入,MapR允许修改、重写文件,可并发读写任一文件。注: MapR的直接访问NFS功能,使用MapR,可以先将HDFS装载为NFS,然后再使用本地的工具,无论是Win

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号