大数据处理架构培训课件(ppt-44张)

资源描述

《大数据处理架构培训课件(ppt-44张)》由会员分享，可在线阅读，更多相关《大数据处理架构培训课件(ppt-44张)（45页珍藏版）》请在金锄头文库上搜索。

1、大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫大数据处理架构大数据处理架构Hadoop大数据大数据Big Data大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫提纲2.1 概述概述2.2 Hadoop项目结构项目结构2.3 Hadoop的安装与使用的安装与使用2.4 Hadoop集群的部署与使用集群的部署与使用大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫2.1概述2.1.1Hadoop简介2.1.2Hadoop发展简史2.1.3Hadoop的特性2.1.4Hadoop的应用现状大数据技术原理与应用

2、厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫2.1.1Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构Hadoop是基于Java语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中Hadoop的核心是分布式文件系统HDFS（HadoopDistributedFileSystem）和MapReduceHadoop被公认为行业大数据标准开源软件，在分布式环境下提供了海量数据的处理能力几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务，如谷歌、雅虎、微软、思科、淘宝

3、等，都支持Hadoop大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫2.1.2Hadoop发展简史 Hadoop最初是由ApacheLucene项目的创始人DougCutting开发的文本搜索库。Hadoop源自始于2002年的ApacheNutch项目一个开源的网络搜索引擎并且也是Lucene项目的一部分在2004年，Nutch项目也模仿GFS开发了自己的分布式文件系统NDFS（NutchDistributedFileSystem），也就是HDFS的前身2004年，谷歌公司又发表了另一篇具有深远影响的论文，阐述了MapReduce分布式编程思想2005年，Nu

4、tch开源实现了谷歌的MapReduceHadoop的标志大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫2.1.2Hadoop发展简史到了2006年2月，Nutch中的NDFS和MapReduce开始独立出来，成为Lucene项目的一个子项目，称为Hadoop，同时，DougCutting加盟雅虎2008年1月，Hadoop正式成为Apache顶级项目，Hadoop也逐渐开始被雅虎之外的其他公司使用2008年4月，Hadoop打破世界纪录，成为最快排序1TB数据的系统，它采用一个由910个节点构成的集群进行运算，排序时间只用了209秒在2009年5月，Hadoo

5、p更是把1TB数据排序时间缩短到62秒。Hadoop从此名声大震，迅速发展成为大数据时代最具影响力的开源分布式开发平台，并成为事实上的大数据处理标准大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫2.1.3Hadoop的特性 Hadoop是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，它具有以下几个方面的特性：高可靠性高效性高可扩展性高容错性成本低运行在Linux平台上支持多种编程语言大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫2.1.3Hadoop的应用现状 Hadoop凭借其突出的

6、优势，已经在各个领域得到了广泛的应用，而互联网领域是其应用的主阵地2007年，雅虎在Sunnyvale总部建立了M45一个包含了4000个处理器和1.5PB容量的Hadoop集群系统Facebook作为全球知名的社交网站，Hadoop是非常理想的选择，Facebook主要将Hadoop平台用于日志处理、推荐系统和数据仓库等方面国内采用Hadoop的公司主要有百度、淘宝、网易、华为、中国移动等，其中，淘宝的Hadoop集群比较大大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫2.1.3Hadoop的应用现状Hadoop在企业中的应用架构大数据技术原理与应用厦门大学计

7、算机科学系林子雨大数据华东师范大学信息管理系许鑫2.1.4ApacheHadoop版本演变ApacheHadoop版本分为两代，我们将第一代Hadoop称为Hadoop1.0，第二代Hadoop称为Hadoop2.0第一代Hadoop包含三个大版本，分别是0.20.x，0.21.x和0.22.x，其中，0.20.x最后演化成1.0.x，变成了稳定版，而0.21.x和0.22.x则增加了NameNodeHA等新的重大特性第二代Hadoop包含两个版本，分别是0.23.x和2.x，它们完全不同于Hadoop1.0，是一套全新的架构，均包含HDFSFederation和YARN两个系统，相比于0.2

8、3.x，2.x增加了NameNodeHA和Wire-compatibility两个重大特性大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫2.1.4ApacheHadoop版本演变大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫ApacheHadoopHortonworksCloudera（CDH：ClouderaDistributionHadoop）MapR2.1.5Hadoop各种版本选择Hadoop版本的考虑因素：是否开源（即是否免费）是否有稳定版是否经实践检验是否有强大的社区支持大数据技术原理与应用厦门大学计算机科学系林子雨大

9、数据华东师范大学信息管理系许鑫2.1.5Hadoop各种版本大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫2.2Hadoop项目结构Hadoop的项目结构不断丰富发展，已经形成一个丰富的Hadoop生态系统大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫2.2Hadoop项目结构组件组件功能功能HDFS分布式文件系统MapReduce分布式并行编程模型YARN资源管理和调度器Tez运行在YARN之上的下一代Hadoop查询处理框架HiveHadoop上的数据仓库HBaseHadoop上的非关系型的分布式数据库Pig一个基于Hadoo

10、p的大规模数据分析平台，提供类似SQL的查询语言PigLatinSqoop用于在Hadoop与传统数据库之间进行数据传递OozieHadoop上的工作流管理系统Zookeeper提供分布式协调一致性服务Storm流计算框架Flume一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统AmbariHadoop快速部署工具，支持ApacheHadoop集群的供应、管理和监控Kafka一种高吞吐量的分布式发布订阅消息系统，可以处理消费者规模的网站中的所有动作流数据Spark类似于HadoopMapReduce的通用并行框架大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息

11、管理系许鑫2.3Hadoop的安装与使用详细安装教程请参考：详细安装教程请参考：大数据技术原理与应用大数据技术原理与应用第二章第二章大数据处理架构大数据处理架构Hadoop 学习指南学习指南访问地址：访问地址：http:/ sudo useradd m hadoop s /bin/bash上面这条命令创建了可以登陆的hadoop用户，并使用/bin/bash作为shell接着使用如下命令设置密码，可简单设置为hadoop，按提示输入两次密码：$ sudo passwd hadoop可为hadoop用户增加管理员权限，方便部署，避免一些对新手来说比较棘手的权限问题：$ sudo adduse

12、r hadoop sudo大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫SSH登录权限设置配置配置SSH的原因的原因：Hadoop名称节点（NameNode）需要启动集群中所有机器的Hadoop守护进程，这个过程需要通过SSH登录来实现。Hadoop并没有提供SSH输入密码登录的形式，因此，为了能够顺利登录每台机器，需要将所有机器配置为名称节点可以无密码登录它们SSH是什么？是什么？SSH为SecureShell的缩写，是建立在应用层和传输层基础上的安全协议。SSH是目前较可靠、专为远程登录会话和其他网络服务提供安全性的协议。利用SSH协议可以有效防止远程管理过

13、程中的信息泄露问题。SSH最初是UNIX系统上的一个程序，后来又迅速扩展到其他操作平台。SSH是由客户端和服务端的软件组成，服务端是一个守护进程(daemon)，它在后台运行并响应来自客户端的连接请求，客户端包含ssh程序以及像scp（远程拷贝）、slogin（远程登陆）、sftp（安全文件传输）等其他的应用程序大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫安装Java环境Java环境可选择Oracle的JDK，或是OpenJDK可以在Ubuntu中直接通过命令安装OpenJDK7$ sudo apt-get install openjdk-7-jre open

14、jdk-7-jdk还需要配置一下JAVA_HOME环境变量具体请参考网络教程：http:/ sudo tar -zxf /下载下载/hadoop-2.6.0.tar.gz -C /usr/local # 解压到解压到/usr/local中中$cd /usr/local/$sudo mv ./hadoop-2.6.0/ ./hadoop # 将文件夹名改为将文件夹名改为hadoop$sudo chown -R hadoop:hadoop ./hadoop # 修改文件权限修改文件权限Hadoop解压后即可使用。输入如下命令来检查Hadoop是否可用，成功则会显示Hadoop版本信息：$ cd /

15、usr/local/hadoop$./bin/hadoop versionHadoop默认模式为非分布式模式（本地模式），无需进行其他配置即可运行。大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫伪分布式安装伪分布式安装配置配置Hadoop可以在单节点上以伪分布式的方式运行，Hadoop进程以分离的Java进程来运行，节点既作为NameNode也作为DataNode，同时，读取的是HDFS中的文件Hadoop的配置文件位于/usr/local/hadoop/etc/hadoop/中，伪分布式需要修改2个配置文件core-site.xml和hdfs-site.xml

16、Hadoop的配置文件是xml格式，每个配置以声明property的name和value的方式来实现大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫伪分布式安装伪分布式安装配置配置实验步骤：实验步骤：修改配置文件：core-site.xml，hdfs-site.xml，mapred-site.xml初始化文件系统hadoopnamenode-format启动所有进程start-all.sh访问web界面，查看Hadoop信息运行实例大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫伪分布式安装伪分布式安装配置配置修改配置文件core-s

17、ite.xml hadoop.tmp.dir file:/usr/local/hadoop/tmp Abase for other temporary directories. fs.defaultFS hdfs:/localhost:9000 name为fs.defaultFS的值，表示hdfs路径的逻辑名称hadoop.tmp.dir表示存放临时数据的目录，即包括NameNode的数据，也包括DataNode的数据。该路径任意指定，只要实际存在该文件夹即可大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫伪分布式安装伪分布式安装配置配置修改配置文件hdfs-si

18、te.xml dfs.replication 1 dfs.namenode.name.dir file:/usr/local/hadoop/tmp/dfs/name dfs.datanode.data.dir file:/usr/local/hadoop/tmp/dfs/data dfs.replication表示副本的数量，伪分布式要设置为1dfs.namenode.name.dir表示本地磁盘目录，是存储fsimage文件的地方dfs.datanode.data.dir表示本地磁盘目录，HDFS数据存放block的地方大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理

19、系许鑫伪分布式安装伪分布式安装配置配置关于三种Shell命令方式的区别：1.hadoopfs2.hadoopdfs3.hdfsdfshadoopfs适用于任何不同的文件系统，比如本地文件系统和HDFS文件系统hadoopdfs只能适用于HDFS文件系统hdfsdfs跟hadoopdfs的命令作用一样，也只能适用于HDFS文件系统大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫2.4.1集群节点类型2.4.2集群规模2.4.3集群硬件配置2.4.4集群网络拓扑2.4.5集群的建立与安装2.4.6集群基准测试2.4.7在云计算环境中使用Hadoop2.4Hadoop集

20、群的部署与使用大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫2.4.1Hadoop集群中有哪些节点类型Hadoop框架中最核心的设计是为海量数据提供存储的HDFS和对数据进行计算的MapReduceMapReduce的作业主要包括：（1）从磁盘或从网络读取数据，即IO密集工作；（2）计算数据，即CPU密集工作Hadoop集群的整体性能取决于CPU、内存、网络以及存储之间的性能平衡。因此运营团队在选择机器配置时要针对不同的工作节点选择合适硬件类型一个基本的Hadoop集群中的节点主要有NameNode：负责协调集群中的数据存储DataNode：存储被拆分的数据块J

21、obTracker：协调数据计算任务TaskTracker：负责执行由JobTracker指派的任务SecondaryNameNode：帮助NameNode收集文件系统运行的状态信息大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫2.4.2集群硬件配置在集群中，大部分的机器设备是作为Datanode和TaskTracker工作的Datanode/TaskTracker的硬件规格可以采用以下方案：4个磁盘驱动器（单盘1-2T），支持JBOD(JustaBunchOfDisks，磁盘簇)2个4核CPU,至少2-2.5GHz16-24GB内存千兆以太网NameNode提

22、供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务，因此需要更多的RAM，与集群中的数据块数量相对应，并且需要优化RAM的内存通道带宽，采用双通道或三通道以上内存。硬件规格可以采用以下方案：8-12个磁盘驱动器（单盘1-2T）2个4核/8核CPU16-72GB内存千兆/万兆以太网SecondaryNameNode在小型集群中可以和NameNode共用一台机器，较大的群集可以采用与NameNode相同的硬件大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫2.4.3集群规模要多大Hadoop集群规模可大可小，初始时，可以从一个较小规模的集群开

23、始，比如包含10个节点，然后，规模随着存储器和计算需求的扩大而扩大如果数据每周增大1TB，并且有三个HDFS副本，然后每周需要一个额外的3TB作为原始数据存储。要允许一些中间文件和日志（假定30%）的空间，由此，可以算出每周大约需要增加一台新机器。存储两年数据的集群，大约需要100台机器对于一个小的集群，名称节点（NameNode）和JobTracker运行在单个节点上，通常是可以接受的。但是，随着集群和存储在HDFS中的文件数量的增加，名称节点需要更多的主存，这时，名称节点和JobTracker就需要运行在不同的节点上第二名称节点（SecondaryNameNode）会和名称节点可以运行在相

24、同的机器上，但是，由于第二名称节点和名称节点几乎具有相同的主存需求，因此，二者最好运行在不同节点上大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫2.4.4集群网络拓扑普通的Hadoop集群结构由一个两阶网络构成每个机架（Rack）有30-40个服务器，配置一个1GB的交换机，并向上传输到一个核心交换机或者路由器（1GB或以上）在相同的机架中的节点间的带宽的总和，要大于不同机架间的节点间的带宽总和大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫2.4.5集群的建立与安装采购好相关的硬件设备后，就可以把硬件装入机架，安装并运行Hadoo

25、p安装Hadoop有多种方法：（1）手动安装（2）自动化安装为了缓解安装和维护每个节点上相同的软件的负担，可以使用一个自动化方法实现完全自动化安装，比如RedHatLinuxKickstart、Debian或者Docker自动化安装部署工具，会通过记录在安装过程中对于各个选项的回答来完成自动化安装过程。大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫2.4.6Hadoop集群基准测试如何判断一个Hadoop集群是否已经正确安装？可以运行基准测试Hadoop自带有一些基准测试程序，被打包在测试程序JAR文件中用TestDFSIO基准测试，来测试HDFS的IO性能用排

26、序测试MapReduce：Hadoop自带一个部分排序的程序，这个测试过程的整个数据集都会通过洗牌（Shuffle）传输至Reducer，可以充分测试MapReduce的性能大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫2.4.7在云计算环境中使用HadoopHadoop不仅可以运行在企业内部的集群中，也可以运行在云计算环境中可以在AmazonEC2中运行Hadoop。EC2是一个计算服务，允许客户租用计算机（实例），来运行自己的应用。客户可以按需运行或终止实例，并且按照实际使用情况来付费Hadoop自带有一套脚本，用于在EC2上面运行Hadoop在EC2上运行

27、Hadoop尤其适用于一些工作流。例如，在AmazonS3中存储数据，在EC2上运行集群，在集群中运行MapReduce作业，读取存储在S3中的数据，最后，在关闭集群之前将输出写回S3中；如果长期使用集群，复制S3数据到运行在EC2上的HDFS中，则可以使得数据处理更加高效，因为，HDFS可以充分利用数据的位置，S3则做不到，因为，S3与EC2的存储不在同一个节点上大数据技术原理与应用厦门大学计算机科学系林子雨大数据华东师范大学信息管理系许鑫本章小结Hadoop被视为事实上的大数据处理标准，本章介绍了Hadoop的发展历程，并阐述了Hadoop的高可靠性、高效性、高可扩展性、高容错性、成本低、

28、运行在Linux平台上、支持多种编程语言等特性Hadoop目前已经在各个领域得到了广泛的应用，雅虎、Facebook、百度、淘宝、网易等公司都建立了自己的Hadoop集群经过多年发展，Hadoop项目已经变得非常成熟和完善，包括Common、Avro、Zookeeper、HDFS、MapReduce、HBase、Hive、Chukwa、Pig等子项目，其中，HDFS和MapReduce是Hadoop的两大核心组件本章最后介绍了如何在Linux系统下完成Hadoop的安装和配置46凡事不要说我不会或不可能，因为你根本还没有去做！47成功不是靠梦想和希望，而是靠努力和实践48只有在天空最暗的时候，

29、才可以看到天上的星星49上帝说：你要什么便取什么，但是要付出相当的代价50现在站在什么地方不重要，重要的是你往什么方向移动。51宁可辛苦一阵子，不要苦一辈子52为成功找方法，不为失败找借口53不断反思自己的弱点，是让自己获得更好成功的优良习惯。54垃圾桶哲学：别人不要做的事，我拣来做！55不一定要做最大的，但要做最好的56死的方式由上帝决定，活的方式由自己决定！57成功是动词，不是名词！28、年轻是我们拼搏的筹码，不是供我们挥霍的资本。59、世界上最不能等待的事情就是孝敬父母。60、身体发肤，受之父母，不敢毁伤，孝之始也；立身行道，扬名於后世，以显父母，孝之终也。孝经61、不积跬步，无以致千里

30、；不积小流，无以成江海。荀子劝学篇62、孩子：请高看自己一眼，你是最棒的！63、路虽远行则将至，事虽难做则必成！64、活鱼会逆水而上，死鱼才会随波逐流。65、怕苦的人苦一辈子，不怕苦的人苦一阵子。66、有价值的人不是看你能摆平多少人，而是看你能帮助多少人。67、不可能的事是想出来的，可能的事是做出来的。68、找不到路不是没有路，路在脚下。69、幸福源自积德，福报来自行善。70、盲目的恋爱以微笑开始，以泪滴告终。71、真正值钱的是分文不用的甜甜的微笑。72、前面是堵墙，用微笑面对，就变成一座桥。73、自尊，伟大的人格力量；自爱，维护名誉的金盾。74、今天学习不努力，明天努力找工作。75、懂得回报

31、爱，是迈向成熟的第一步。76、读懂责任，读懂使命，读懂感恩方为懂事。77、不要只会吃奶，要学会吃干粮，尤其是粗茶淡饭。78、技艺创造价值，本领改变命运。79、凭本领潇洒就业，靠技艺稳拿高薪。80、为寻找出路走进校门，为创造生活奔向社会。81、我不是来龙飞享福的，但，我是为幸福而来龙飞的！82、校兴我荣，校衰我耻。83、今天我以学校为荣，明天学校以我为荣。84、不想当老板的学生不是好学生。85、志存高远虽励志，脚踏实地才是金。86、时刻牢记父母的血汗钱来自不易，永远不忘父母的养育之恩需要报答。87、讲孝道读经典培养好人，传知识授技艺打造能人。88、知技并重，德行为先。89、生活的理想，就是为了理想的生活。张闻天90、贫不足羞，可羞是贫而无志。吕坤

展开阅读全文

大数据处理架构培训课件(ppt-44张)

最新文档