Hadoop技术验证文档－金锄头文库

资源描述

《Hadoop技术验证文档》由会员分享，可在线阅读，更多相关《Hadoop技术验证文档（53页珍藏版）》请在金锄头文库上搜索。

1、作者：Pan Hon glia ng仅供个人学习中国联通Hadoop技术沉淀联通集团系统集成有限公司2012-12-31修订历史记录版本日期AMD修订者说明1.02012-12-24A于滨创建1.012012-12-31M吴朋、刘玉修订1.12013-1-6M于滨修订（A-添加，M-修改，D-删除）目录1 前言62 环境配置82.1 环境简介8.2.2 网络主机名配置9.2.3 SSH互信配置（无密码验证）.9.2.4 安装文件列表1.13 应用安装1.23.1 JAVA环境安装123.2 MY SQL 安装133.3 Hadoop 安装与部署 143.4 Hive的安装与部署 193.5 H

2、base的安装与部署 213.6 Hive 与 Hbase 的对比 244 数据入库254.1 数据来源格式简介254.2 原始入库方式及命令274.3 入库代码介绍 275 HIVE 的 SQL 执行285.1 SQL执行方式及命令285.2 JAVA 执行 SQL 代码 295.3 多表关联305.4 GroupBy OrderBy306 MASTER单点故障解决方式326.1 Master单点原因326.2 解决方式327 HADOOP的压缩格式337.1 Hadoop可以使用的压缩方式 337.2 压缩对比348 HADOOP出库方式358.1 概述358.2 出库命令358.3 Ja

3、va调用出库代码 369 功能验证37.9.1 功能测试概述379.2 测试结果一览表 3810性能验证4210.1验证环境4210.2性能测试执行过程以及结果 43HIVE压缩文件导入测试 43HIVE文件导出测试43hive更新操作测试44hive删除操作测试45HIVE插入操作测试46hive查询操作测试441前言Hadoop 简介：Hadoop是由apache基金会开发的一个分布式系统的基础架构。使用它，用户可以在不了解分布式底层细节的情况下，充分的利用集群的威力，高速的查询和计算。相比其他分布式大数据处理框架，Hadoop具有如下的优势：可靠性充分考虑到了数据丢失存储失败的情况，因

4、此会在多个机架的多个server上，维护多个副本，以确保能够在数据失效的情况下及时还原。高效性Hadoop以并行的方式处理任务，一个任务可以视情况拆分成数百个甚至上千个任务同时处理。低成本Hadoop所依赖的节点server是普通的社区服务器，成本非常低，任何人都可以使用。高扩展性Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。名词解释：Hive:Hive是基于Hadoop的一款数据仓库工具，提供比较完整的 SQL 查询功能。可将大数据量的查询操作，拆分转换成多个由MapReduce 执行的子任务并发运行。Hbase：Hbase即

5、Hadoop Database是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用 HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。Hdfs:即 Hadoop Distributed File System,是一个分布式文件系统。HDFS有着高容错性(fault-tolerent)的特点，并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据，适合那些有着超大数据集(large data set)的应用程序。目的：掌握Hadoop分布式系统的架构及工作原理能够搭建Hadoop集成环境。能

6、够上手开发hadoop应用。适用范围：适用于海量数据处理分析，适合 Hadoop研发者阅读使用。2环境配置2.1环境简介当前环境使用的是结算机器，使用了 132.42.49.212-132.42.49.215 共4台机器。机器信息如下表所示：IP地址主机名hadoop中的作用js2test16master结点js2test15slave结点js2test14slave结点js2test13备用结点2.2网络主机名配置网络主机名配置需要修改/etc/hosts文件，在/etc/hosts文件中追加如下内容：js2test13js2test14js2test15js2test162.3 SSH互信

7、配置（无密码验证）Hadoop运行过程中需要管理远端 Hadoop守护进程，在Hadoop 启动以后，NameNode是通过SSH（ Secure Shel）来启动和停止各个 DataNode上的各种守护进程的。这就必须在节点之间执行指令的时候是不需要输入密码的形式，故我们需要配置SSH运用无密码公钥认证的形式，这样NameNode就可以使用SSH无密码登录并启动 DataName进程，同样原理，DataNode上也能使用SSH无密码登录到 NameNodemaster无密码登录所有的slave服务器（1）在master机器上生成其无密码密钥对时，输入ssh-keygen -t rsa一直回

8、车。生成的密钥对：id_rsa和id_rsa.pub默认存储在/.ssh目录下ssh-keyge n -t rsa（2）然后将.pub 文件写入 authorized_keyscat /.ssh/id_rsa.pub /.ssh/authorized_keys（3）修改 authorized_keys权限chmod 600 /.ssh/authorized_keys（4）将公钥复制到到slave机器上（5）实现 master无密码访问slave1在 slave1 上执行 ssh-keygen -t rsa将前面 master拷贝至上的公钥写入到132.42.49.213 的 authorize

9、d_keyscat /master.id_rsa.pub /.ssh/authorized_keyschmod 600 /.ssh/authorized_keys验证master是否可以无密码登陆，切换到master主机执行：下面就是重复上面的步骤把剩余的服务器进行配置。配置master无密码登录所有的slave服务器完成。slave无密码登录master服务器前面在每台slave机器上执行过“ ssh-keygen -t rsa” 生成了各自的密钥对，将公钥复制到 master主机上slavel: scp/.ssh/id_rsa.pubslave2: scp/.ssh/id_rsa.pub将

10、slave主机的公钥追加到master的authorized_keys文件。cat slave1.id_rsa.pub/.ssh/authorized_keyscat slave2.id_rsa.pub/.ssh/authorized_keyschmod 600 authorized_keys测试slave无密码登陆 master以上结束之后master和slave之间可以无密码连接。2.4安装文件列表安装Hadoop、Hive和Hbase时，安装文件仅仅为各自的一个压缩文件。此处使用的文件列表如下：jdk-6u27-li nux-x64.b in3应用安装3.1 JAVA环境安装安装时注意3

11、2位和64位系统要选择相应的安装包。安装步骤如下：1. 上传 jdk-6u27-linux-x64.bin 文件至 linux 环境下。2. 为当前用户设置操作权限：chmod +x jdk-6u27-li nux-x64.bi n3. 安装jdk，执行.bin文件，此时会将java jdk解压至当前目录./jdk-6u27-li nux-x64.bi n4. 配置java环境变量vi /etc/profile在profile中增加CLASSPATH二.:$JAVA_HOME/lib.tools.jar PATH=$JAVA_HOME/bi n:$PATH export JAVA_HOME

12、CLASSPATH PATH5. 使环境变量生效，执行./etc/profile 或者 source /etc/profile3.2 MY SQL 安装安装MySQL主要是为了配合Hive存储数据库元数据使用步骤如下：1. 上传MySQL客户端及服务器端安装文件至linux2. cd至上传目录下，执行rpm命令安装MySQL3. 安装完毕后，使用mysql -uroot -p命令，用root登录mysql,当提示输入密码时，按回车键(root用户密码默认为空)。输入use mysql命令，使用数据库服务器自带的 mysql库。创建用户执行如下sql脚本，创建名为settle，密码为settle

13、的用户：in sertin tomysql.user(Host,User,Password)values(localhost,settle,password(settle);flush privileges;为settle授权grant all privileges on * to settlelocalhost ide ntified by settle;flush privileges;3.3 Hadoop 安装与部署1. 从网上下载hadoop安装包上传到linux 目录下2. 解压缩安装包3. 在目录中，需要修改六个文件， core-site.xml、hadoop-env.sh hdfs-site.xml、mapred-site.xml、 masters slaves修改方式如下：core-site.xml中增加如下配置项，代表name node的配置: fs.default .n ame hdfs:132.42.49.215:9000 注：如下是Hadoop的默认临时路径，这个最好配置，然后在新增节点或者其他情况下莫名其妙的DataNode启动不了，就删除此文件中的tmp目录即可。不过如果删除了 NameNode机器的此目录，那么就需要重新执行 NameNode格式化的命令了。vpropertyhadoop.tmp.dir/data/hd

展开阅读全文