chapter2-第二章-大数据处理架构hadoop(2016年2月24日版本)

资源描述

《chapter2-第二章-大数据处理架构hadoop(2016年2月24日版本)》由会员分享，可在线阅读，更多相关《chapter2-第二章-大数据处理架构hadoop(2016年2月24日版本)（44页珍藏版）》请在金锄头文库上搜索。

1、,第二章大数据处理架构Hadoop,大数据技术原理与应用,提纲,2.1 概述 2.2 Hadoop项目结构 2.3 Hadoop的安装与使用 2.4 Hadoop集群的部署与使用,2.1 概述,2.1.1 Hadoop简介 2.1.2 Hadoop发展简史 2.1.3 Hadoop的特性 2.1.4 Hadoop的应用现状,2.1.1 Hadoop简介,Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构 Hadoop是基于Java语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中 Hadoop的核心是分布式文件系统H

2、DFS（Hadoop Distributed File System）和MapReduce Hadoop被公认为行业大数据标准开源软件，在分布式环境下提供了海量数据的处理能力几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务，如谷歌、雅虎、微软、思科、淘宝等，都支持Hadoop,2.1.2 Hadoop发展简史,Hadoop最初是由Apache Lucene项目的创始人Doug Cutting开发的文本搜索库。Hadoop源自始于2002年的Apache Nutch项目一个开源的网络搜索引擎并且也是Lucene项目的一部分在2004年，Nutch项目也模仿GFS

3、开发了自己的分布式文件系统NDFS（Nutch Distributed File System），也就是HDFS的前身 2004年，谷歌公司又发表了另一篇具有深远影响的论文，阐述了MapReduce分布式编程思想 2005年，Nutch开源实现了谷歌的MapReduce,Hadoop的标志,2.1.2 Hadoop发展简史,到了2006年2月，Nutch中的NDFS和MapReduce开始独立出来，成为Lucene项目的一个子项目，称为Hadoop，同时，Doug Cutting加盟雅虎 2008年1月，Hadoop正式成为Apache顶级项目，Hadoop也逐渐开始被雅虎之外的其他公司使用

4、2008年4月，Hadoop打破世界纪录，成为最快排序1TB数据的系统，它采用一个由910个节点构成的集群进行运算，排序时间只用了209秒在2009年5月，Hadoop更是把1TB数据排序时间缩短到62秒。Hadoop从此名声大震，迅速发展成为大数据时代最具影响力的开源分布式开发平台，并成为事实上的大数据处理标准,2.1.3 Hadoop的特性,Hadoop是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，它具有以下几个方面的特性：高可靠性高效性高可扩展性高容错性成本低运行在Linux平台上支持多种编程语言,2.1.3 Hadoop的

5、应用现状,Hadoop凭借其突出的优势，已经在各个领域得到了广泛的应用，而互联网领域是其应用的主阵地 2007年，雅虎在Sunnyvale总部建立了M45一个包含了4000个处理器和1.5PB容量的Hadoop集群系统 Facebook作为全球知名的社交网站，Hadoop是非常理想的选择，Facebook主要将Hadoop平台用于日志处理、推荐系统和数据仓库等方面国内采用Hadoop的公司主要有百度、淘宝、网易、华为、中国移动等，其中，淘宝的Hadoop集群比较大,2.1.3 Hadoop的应用现状,Hadoop在企业中的应用架构,2.1.4 Apache Hadoop版本演变,Apache

6、 Hadoop版本分为两代，我们将第一代Hadoop称为Hadoop 1.0，第二代Hadoop称为Hadoop 2.0 第一代Hadoop包含三个大版本，分别是0.20.x，0.21.x和0.22.x，其中，0.20.x最后演化成1.0.x，变成了稳定版，而0.21.x和0.22.x则增加了NameNode HA等新的重大特性第二代Hadoop包含两个版本，分别是0.23.x和2.x，它们完全不同于Hadoop 1.0，是一套全新的架构，均包含HDFS Federation和YARN两个系统，相比于0.23.x，2.x增加了NameNode HA和Wire-compatibility两个重

7、大特性,2.1.4 Apache Hadoop版本演变,Apache Hadoop Hortonworks Cloudera（CDH：Cloudera Distribution Hadoop） MapR ,2.1.5 Hadoop各种版本,选择 Hadoop版本的考虑因素：是否开源（即是否免费）是否有稳定版是否经实践检验是否有强大的社区支持,2.1.5 Hadoop各种版本,2.2 Hadoop项目结构,Hadoop的项目结构不断丰富发展，已经形成一个丰富的Hadoop生态系统,2.2 Hadoop项目结构,2.3 Hadoop的安装与使用,详细安装教程请参考厦门大学数据实验室出品的大

8、数据技术原理与应用第二章大数据处理架构Hadoop 学习指南访问地址：,2.3.1 Hadoop安装之前的预备知识 2.3.2 安装Linux虚拟机 2.3.3 安装双操作系统 2.3.4 详解Hadoop的安装与使用,2.3.1 Hadoop安装之前的预备知识,（一）Linux的选择,（1）选择哪个Linux发行版？在Linux系统各个发行版中，CentOS系统和Ubuntu系统在服务端和桌面端使用占比最高，网络上资料最是齐全，所以建议使用CentOS 或Ubuntu 在学习Hadoop方面，虽然两个系统没有多大区别，但是推荐使用Ubuntu操作系统（2）选择32位还是64位？如

9、果电脑比较老或者内存小于2G，那么建议选择32位系统版本的Linux 如果内存大于4G，那么建议选择64位系统版本的Linux,2.3.1 Hadoop安装之前的预备知识,（二）系统安装方式：选择虚拟机安装还是双系统安装,建议电脑比较新或者配置内存4G以上的电脑可以选择虚拟机安装电脑较旧或配置内存小于等于4G的电脑强烈建议选择双系统安装，否则，在配置较低的计算机上运行LInux虚拟机，系统运行速度会非常慢鉴于目前教师和学生的计算机硬件配置一般不高，建议在实践教学中采用双系统安装，确保系统运行速度,2.3.1 Hadoop安装之前的预备知识,（三）关于Linux的一些基础知识 Shell 是

10、指“提供使用者使用界面”的软件（命令解析器），类似于DOS下的command和后来的cmd.exe。它接收用户命令，然后调用相应的应用程序 sudo命令 sudo是ubuntu中一种权限管理机制，管理员可以授权给一些普通用户去执行一些需要root权限执行的操作。当使用sudo命令时，就需要输入您当前用户的密码输入密码在Linux的终端中输入密码，终端是不会显示任何你当前输入的密码，也不会提示你已经输入了多少字符密码，读者不要误以为键盘没有响应输入法中英文切换 linux中英文的切换方式是使用键盘“shift”键来切换，也可以点击顶部菜单的输入法按钮进行切换。Ubuntu自带的Sunpin

11、yin中文输入法已经足够读者使用 Ubuntu终端复制粘贴快捷键在Ubuntu终端窗口中，复制粘贴的快捷键需要加上 shift，即粘贴是 ctrl+shift+v,2.3.1 Hadoop安装之前的预备知识,（四）Hadoop安装方式单机模式：Hadoop 默认模式为非分布式模式（本地模式），无需进行其他配置即可运行。非分布式即单 Java 进程，方便进行调试伪分布式模式：Hadoop 可以在单节点上以伪分布式的方式运行，Hadoop 进程以分离的 Java 进程来运行，节点既作为 NameNode 也作为 DataNode，同时，读取的是 HDFS 中的文件分布式模式：使用多个节点构

12、成集群环境来运行Hadoop,2.3.2 安装Linux虚拟机,一、材料和工具 1、下载VirtualBox虚拟机软件 2. 下载Ubuntu LTS 14.04 ISO映像文件,二、步骤（一）确认系统版本如果选择的系统是64位Ubuntu系统，那么在安装虚拟机前，我们还要进入BIOS开启CPU的虚拟化,2.3.2 安装Linux虚拟机,(二)安装前的准备,1.打开VirtualBox，点击“创建”按钮，创建一个虚拟机 2.给虚拟机命名，选择操作系统，版本 3.选择内存大小，这里设置的1024M 4.创建虚拟硬盘 5.选择虚拟硬盘文件类型VDI 6.虚拟硬盘选择动态分配 7.选择文件存储的

13、位置和容量大小 8.点击创建,2.3.2 安装Linux虚拟机,(三)安装Ubuntu,2.3.3 安装双操作系统,第一步：制作安装U盘具体可参考百度经验文章第二步：双系统安装具体可参考百度经验文章 ,安装后Window和Ubuntu 14.04都可以用，默认windows优先启动可以在电脑启动时，选择进入Ubuntu系统而不是 Windows系统,2.3.4 Hadoop的安装与使用（单机/伪分布式）,Hadoop基本安装配置主要包括以下几个步骤：创建Hadoop用户 SSH登录权限设置安装Java环境单机安装配置伪分布式安装配置,详细安装配置过程请参考厦门大学数据库实验室出

14、品教程 Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04 在“大数据课程学生服务站”中的第二章学习指南有该教程链接地址,创建Hadoop用户,如果安装 Ubuntu 的时候不是用的 “hadoop” 用户，那么需要增加一个名为 hadoop 的用户,首先按 ctrl+alt+t 打开终端窗口，输入如下命令创建新用户 :,上面这条命令创建了可以登陆的 hadoop 用户，并使用 /bin/bash 作为 shell,接着使用如下命令设置密码，可简单设置为 hadoop，按提示输入两次密码：,可为 hadoop 用户增加管理员权限，方便部署，避免一些对新手来

15、说比较棘手的权限问题：,SSH登录权限设置,配置SSH的原因： Hadoop名称节点（NameNode）需要启动集群中所有机器的Hadoop守护进程，这个过程需要通过SSH登录来实现。Hadoop并没有提供SSH输入密码登录的形式，因此，为了能够顺利登录每台机器，需要将所有机器配置为名称节点可以无密码登录它们,SSH是什么？ SSH 为 Secure Shell 的缩写，是建立在应用层和传输层基础上的安全协议。SSH 是目前较可靠、专为远程登录会话和其他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题。SSH最初是UNIX系统上的一个程序，后来又迅速扩展到其

16、他操作平台。 SSH是由客户端和服务端的软件组成，服务端是一个守护进程(daemon)，它在后台运行并响应来自客户端的连接请求，客户端包含ssh程序以及像scp（远程拷贝）、slogin（远程登陆）、sftp（安全文件传输）等其他的应用程序,安装Java环境,Java环境可选择 Oracle 的 JDK，或是 OpenJDK 可以在Ubuntu中直接通过命令安装 OpenJDK 7,还需要配置一下 JAVA_HOME 环境变量具体请参考网络教程：,单机安装配置,Hadoop 2 可以到官网下载，需要下载 hadoop-2.x.y.tar.gz 这个格式的文件，这是编译好的，另一个包含 src 的则是 Hadoop 源代码，需要进行编译才可使用,Hadoop 2 安装文件的下载,如果读者是使用虚拟机方式安装Ubuntu系统的用户，请用虚拟机中的Ubuntu自带firefox浏览器访问本指南，再点击下载地址，才能把hadoop文件下载虚拟机ubuntu中。请不要使用Windows系统下的浏览器下载，文件会被下载到Windows系统中，虚拟机中的U

展开阅读全文