Hadoop技术验证文档

上传人:桔**** 文档编号:470476832 上传时间:2023-02-05 格式:DOC 页数:53 大小:373KB
返回 下载 相关 举报
Hadoop技术验证文档_第1页
第1页 / 共53页
Hadoop技术验证文档_第2页
第2页 / 共53页
Hadoop技术验证文档_第3页
第3页 / 共53页
Hadoop技术验证文档_第4页
第4页 / 共53页
Hadoop技术验证文档_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《Hadoop技术验证文档》由会员分享,可在线阅读,更多相关《Hadoop技术验证文档(53页珍藏版)》请在金锄头文库上搜索。

1、作者:Pan Hon glia ng仅供个人学习中国联通Hadoop技术沉淀联通集团系统集成有限公司2012-12-31修订历史记录版本日期AMD修订者说明1.02012-12-24A于滨创建1.012012-12-31M吴朋、刘玉修订1.12013-1-6M于滨修订(A-添加,M-修改,D-删除)目录1 前言62 环境配置82.1 环境简介8.2.2 网络主机名配置9.2.3 SSH互信配置(无密码验证).9.2.4 安装文件列表1.13 应用安装1.23.1 JAVA环境安装123.2 MY SQL 安装133.3 Hadoop 安装与部署 143.4 Hive的安装与部署 193.5 H

2、base的安装与部署 213.6 Hive 与 Hbase 的对比 244 数据入库254.1 数据来源格式简介254.2 原始入库方式及命令274.3 入库代码介绍 275 HIVE 的 SQL 执行285.1 SQL执行方式及命令285.2 JAVA 执行 SQL 代码 295.3 多表关联305.4 GroupBy OrderBy306 MASTER单点故障解决方式326.1 Master单点原因326.2 解决方式327 HADOOP的压缩格式337.1 Hadoop可以使用的压缩方式 337.2 压缩对比348 HADOOP出库方式358.1 概述358.2 出库命令358.3 Ja

3、va调用出库代码 369 功能验证37.9.1 功能测试概述379.2 测试结果一览表 3810性能验证4210.1验证环境4210.2性能测试执行过程以及结果 43HIVE压缩文件导入测试 43HIVE文件导出测试43hive更新操作测试44hive删除操作测试45HIVE插入操作测试46hive查询操作测试441前言Hadoop 简介:Hadoop是由apache基金会开发的一个分布式系统的基础架构。使用它,用户可以在不了解分布式底层细节的情况下,充分的利用集群的威力,高速的查询和计算。相比其他分布式大数据处理框架,Hadoop具有如下的优势: 可靠性充分考虑到了数据丢失存储失败的情况,因

4、此会在多个机架的 多个server上,维护多个副本,以确保能够在数据失效的情况 下及时还原。高效性Hadoop以并行的方式处理任务,一个任务可以视情况拆分成 数百个甚至上千个任务同时处理。低成本Hadoop所依赖的节点server是普通的社区服务器,成本非常 低,任何人都可以使用。高扩展性Hadoop是在可用的计算机集簇间分配数据并完成计算任务的, 这些集簇可以方便地扩展到数以千计的节点中。名词解释:Hive:Hive是基于Hadoop的一款数据仓库工具,提供比较完整的 SQL 查询功能。可将大数据量的查询操作,拆分转换成多个由MapReduce 执行的子任务并发运行。Hbase:Hbase即

5、Hadoop Database是一个高可靠性、高性能、面向列、 可伸缩的分布式存储系统,利用 HBase技术可在廉价PC Server上搭 建起大规模结构化存储集群。Hdfs:即 Hadoop Distributed File System,是一个分布式文件系统。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问 应用程序的数据,适合那些有着超大数据集(large data set)的应用 程序。目的:掌握Hadoop分布式系统的架构及工作原理能够搭建Hadoop集成环境。能

6、够上手开发hadoop应用。适用范围:适用于海量数据处理分析,适合 Hadoop研发者阅读使用。2环境配置2.1环境简介当前环境使用的是结算机器,使用了 132.42.49.212-132.42.49.215 共4台机器。机器信息如下表所示:IP地址主机名hadoop中的作用js2test16master结点js2test15slave结点js2test14slave结点js2test13备用结点2.2网络主机名配置网络主机名配置需要修改/etc/hosts文件,在/etc/hosts文件中追加如下内容:js2test13js2test14js2test15js2test162.3 SSH互信

7、配置(无密码验证)Hadoop运行过程中需要管理远端 Hadoop守护进程,在Hadoop 启动以后,NameNode是通过SSH( Secure Shel)来启动和停止各个 DataNode上的各种守护进程的。这就必须在节点之间执行指令的时 候是不需要输入密码的形式,故我们需要配置SSH运用无密码公钥认证的形式,这样NameNode就可以使用SSH无密码登录并启动 DataName进程,同样原理,DataNode上也能使用SSH无密码登录到 NameNodemaster无密码登录所有的slave服务器(1)在master机器上生成其无密码密钥对时,输入ssh-keygen -t rsa一直回

8、车。生成的密钥对:id_rsa和id_rsa.pub默认存储在/.ssh目录下ssh-keyge n -t rsa(2)然后将.pub 文件写入 authorized_keyscat /.ssh/id_rsa.pub /.ssh/authorized_keys(3)修改 authorized_keys权限chmod 600 /.ssh/authorized_keys(4)将公钥复制到到slave机器上(5)实现 master无密码访问slave1在 slave1 上执行 ssh-keygen -t rsa将前面 master拷贝至上的公钥写入到132.42.49.213 的 authorize

9、d_keyscat /master.id_rsa.pub /.ssh/authorized_keyschmod 600 /.ssh/authorized_keys验证master是否可以无密码登陆,切换到master主机执行:下面就是重复上面的步骤把剩余的服务器进行配置。配置master无密码登录所有的slave服务器完成。slave无密码登录master服务器前面在每台slave机器上执行过“ ssh-keygen -t rsa” 生成了各自的密钥对,将公钥复制到 master主机上slavel: scp/.ssh/id_rsa.pubslave2: scp/.ssh/id_rsa.pub将

10、slave主机的公钥追加到master的authorized_keys文件。cat slave1.id_rsa.pub/.ssh/authorized_keyscat slave2.id_rsa.pub/.ssh/authorized_keyschmod 600 authorized_keys测试slave无密码登陆 master以上结束之后master和slave之间可以无密码连接。2.4安装文件列表安装Hadoop、Hive和Hbase时,安装文件仅仅为各自的一个压缩文件。此处使用的文件列表如下:jdk-6u27-li nux-x64.b in3应用安装3.1 JAVA环境安装安装时注意3

11、2位和64位系统要选择相应的安装包。安装步骤如下:1. 上传 jdk-6u27-linux-x64.bin 文件至 linux 环境下。2. 为当前用户设置操作权限:chmod +x jdk-6u27-li nux-x64.bi n3. 安装jdk,执行.bin文件,此时会将java jdk解压至当前目 录./jdk-6u27-li nux-x64.bi n4. 配置java环境变量vi /etc/profile在profile中增加CLASSPATH二.:$JAVA_HOME/lib.tools.jar PATH=$JAVA_HOME/bi n:$PATH export JAVA_HOME

12、CLASSPATH PATH5. 使环境变量生效,执行./etc/profile 或者 source /etc/profile3.2 MY SQL 安装安装MySQL主要是为了配合Hive存储数据库元数据使用步骤如下:1. 上传MySQL客户端及服务器端安装文件至linux2. cd至上传目录下,执行rpm命令安装MySQL3. 安装完毕后,使用mysql -uroot -p命令,用root登录mysql,当提示输入密码时,按回车键(root用户密码默认为空)。输入use mysql命令,使用数据库服务器自带的 mysql库。创建用户执行如下sql脚本,创建名为settle,密码为settle

13、的用户:in sertin tomysql.user(Host,User,Password)values(localhost,settle,password(settle);flush privileges;为settle授权grant all privileges on * to settlelocalhost ide ntified by settle;flush privileges;3.3 Hadoop 安装与部署1. 从网上下载hadoop安装包上传到linux 目录下2. 解压缩安装包3. 在目录中,需要修改六个文件, core-site.xml、hadoop-env.sh hdfs-site.xml、mapred-site.xml、 masters slaves修改方式如下:core-site.xml中增加如下配置项,代表name node的配置: fs.default .n ame hdfs:132.42.49.215:9000 注:如下是Hadoop的默认临时路径,这个最好配置, 然后在新增节点或者其他情况下莫名其妙的DataNode启动不了,就删除此文件中的tmp目录即可。不过如果 删除了 NameNode机器的此目录,那么就需要重新执行 NameNode格式化的命令了。vpropertyhadoop.tmp.dir/data/hd

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 活动策划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号