hadoop 100道面试题及答案解析

上传人:n**** 文档编号:57648732 上传时间:2018-10-23 格式:PDF 页数:20 大小:638.59KB
返回 下载 相关 举报
hadoop 100道面试题及答案解析_第1页
第1页 / 共20页
hadoop 100道面试题及答案解析_第2页
第2页 / 共20页
hadoop 100道面试题及答案解析_第3页
第3页 / 共20页
hadoop 100道面试题及答案解析_第4页
第4页 / 共20页
hadoop 100道面试题及答案解析_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《hadoop 100道面试题及答案解析》由会员分享,可在线阅读,更多相关《hadoop 100道面试题及答案解析(20页珍藏版)》请在金锄头文库上搜索。

1、3.6误 )3.7Hadoop 支持数据的随机读写。(错 ) . 8NameNode 负责管理 metadata,client端每次读写请求,它都会从磁盘中3.8读取或则会写入 metadata 信息并反馈 client 端。(错误) 8NameNode 本地磁盘保存了 Block 的位置信息。( 个人认为正确,欢迎提出其它意见) . 93.93.103.11DataNode 通过长连接与 NameNode 保持通信。(有分歧 ) 9Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。(错误 ) 9 3.123.133.14Slave 节点要存储数据,所以它的磁盘越大越好。( 错误

2、) 9hadoop dfsadmin report 命令用于检测 HDFS 损坏块。(错误 ) 9Hadoop 默认调度器策略为 FIFO(正确 ) . 9100 道常见道常见 Hadoop 面试题及答案解析面试题及答案解析目录1单选题 51.11.21.31.41.51.61.7下面哪个程序负责 HDFS 数据存储。 5HDfS 中的 block 默认保存几份? . 5下列哪个程序通常与 NameNode 在一个节点启动? 5Hadoop 作者 6HDFS 默认 Block Size 6下列哪项通常是集群的最主要瓶颈:. 6关于 SecondaryNameNode 哪项是正确的? . 623

3、多选题 72.12.22.32.42.5下列哪项可以作为集群的管理? 7配置机架感知的下面哪项正确: 7Client 端上传文件的时候下列哪项正确? . 7下列哪个是 Hadoop 运行的模式: 7Cloudera 提供哪几种安装 CDH 的方法? . 7判断题 83.13.23.3Ganglia 不仅可以进行监控,也可以进行告警。( 正确) . 8Block Size 是不可以修改的。(错误 ). 8Nagios 不可以监控 Hadoop 集群,因为它不提供 Hadoop 支持。(错误 ) 8 3.4如果 NameNode 意外终止,SecondaryNameNode 会接替它使集群继续工作

4、。(错误 ) 83.5Cloudera CDH 是需要付费使用的。(错误 ). 8Hadoop 是 Java 开发的,所以 MapReduce 只支持 Java语言编写。(错83.15集群内每个节点都应该配 RAID,这样避免单磁盘损坏,影响整个节点运行。(错误 ) . 93.16因为 HDFS 有多个副本,所以 NameNode 是不存在单点问题的。(错误 ) 9 3.173.183.19误 )3.20每个 map 槽就是一个线程。(错误 ) . 9Mapreduce 的 input split 就是一个 block。(错误 ) 10NameNode 的 Web UI 端口是 50030,它

5、通过 jetty 启动的 Web 服务。(错10Hadoop 环境变量中的 HADOOP_HEAPSIZE 用于设置所有 Hadoop 守护线程的内存。它默认是 200 GB。( 错误). 10DataNode 首次加入 cluster 的时候,如果log中报告不兼容文件版本,那3.21需要 NameNode 执行“Hadoop namenode -format”操作格式化磁盘。(错误 ) 10问答题(一) 1044.1Hadoop 集群可以运行的 3 个模式? 10单机(本地)模式中的注意点? 10伪分布模式中的注意点? 10VM 是否可以称为Pseudo? 10全分布模式又有什么注意点?

6、. 10Hadoop 是否遵循 UNIX 模式? . 11Hadoop 安装在什么目录下?. 11Namenode、Jobtracker 和tasktracker 的端口号是? 11Hadoop 的核心配置是什么?. 11那当下又该如何配置? 11RAM 的溢出因子是? . 11fs.mapr.working.dir 只是单一的目录? 11hdfs-site.xml 的 3 个主要属性? 11如何退出输入模式? . 11当你输入 hadoopfsck/造成“connectionrefusedjavaexception”时,系4.24.34.44.54.64.74.84.94.104.114.1

7、24.134.144.15统究竟发生了什么? . 11我们使用 Ubuntu 及Cloudera,那么我们该去哪里下载 Hadoop,或者是默认就与 Ubuntu 一起安装? 114.164.174.184.194.204.214.224.234.24“jps”命令的用处? 11如何重启 Namenode? 11Fsck 的全名?. 12如何检查 Namenode是否正常运行? 12mapred.job.tracker 命令的作用? . 12/etc/init.d 命令的作用是? . 12如何在浏览器中查找Namenode? 12如何从 SU 转到Cloudera? . 124.254.264

8、.274.284.294.304.314.324.334.344.354.364.374.384.394.404.414.424.434.444.45启动和关闭命令会用到哪些文件? 12Slaves 由什么组成? 12Masters 由什么组成? 12hadoop-env.sh 是用于做什么的? . 12Master 文件是否提供了多个入口? 12hadoop-env.sh 文件当下的位置? . 12在 Hadoop_PID_DIR 中,PID 代表了什么? 12/var/hadoop/pids 用于做什么? . 12hadoop-metrics.properties 文件的作用是? 12Ha

9、doop 需求什么样的网络?. 13全分布式环境下为什么需求 password-lessSSH? 13这会导致安全问题吗? 13SSH 工作的端口号是? . 13SSH 中的注意点还包括? . 13为什么 SSH本地主机需要密码? 13如果在 SSH中添加key,是否还需要设置密码? 13假如 Namenode中没有数据会怎么样? 13当 JobTracker 宕掉时,Namenode 会发生什么? . 13是客户端还是 Namenode决定输入的分片? . 13是否可以自行搭建 Hadoop 集群? . 13是否可以在 Windows 上运行Hadoop? . 135问答题(二) 135.1

10、5.25.35.45.55.65.75.85.9写出以下执行命令. 13简述一下 hdfs的数据压缩算法,工作中用的是那种算法,为什么? 14三个 datanode,当有一个 datanode 出现错误会怎样? 14hdfs 原理,以及各个模块的职责? . 14哪个进程通常与 namenode 在一个节点启动?并做分析 16hdfs 的体系结构? . 16HDFS,replica 如何定位 17HDFS 存储的机制? 17hdfs 的 client 端,复制到第三个副本时宕机, hdfs 怎么恢复保证下次写第三副本?185.105.115.125.135.145.15block 块信息是先写

11、dataNode 还是先写nameNode? . 18Hive 的 join有几种方式,怎么实现 join的? . 18hive 内部表和外部表的区别? . 19hive 是如何实现分区的? 19hive 支持 not in吗? . 19Hive 有哪些方式保存元数据,各有哪些优缺点。 . 195.165.175.185.195.20hive 如何优化 19hive 能像关系数据库那样,建多个库吗? 19hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别? . 19hive 相对于 Oracle 来说有那些优点? 20Hive 的 sort by

12、 和 order by 的区别 201单选题单选题1.1下面哪个程序负责下面哪个程序负责HDFS数据存储。数据存储。a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker答案 C datanode1.2HDfS 中的中的 block默认保存几份?默认保存几份?a)3 份b)2 份c)1 份d)不确定答案 A 默认 3 分1.3下列哪个程序通常与下列哪个程序通常与NameNode 在一个节点启动?在一个节点启动?a)SecondaryNameNodeb)DataNodec)TaskTrackerd)Jobtracker答案

13、 D,此题分析:hadoop 的集群是基于 master/slave 模式,namenode 和 jobtracker 属于 master,datanode 和tasktracker属 于 slave , master只 有 一 个 , 而 slave 有 多 个SecondaryNameNode 内存需求和 NameNode 在一个数量级上,所以通常secondaryNameNode(运行在单独的物理机器上)和 NameNode 运行在不同的机器上。JobTracker 和 TaskTrackerJobTracker 对应于 NameNodeTaskTracker 对应于DataNodeDa

14、taNode 和 NameNode 是针对数据存放来而言的JobTracker 和 TaskTracker 是对于 MapReduce 执行而言的mapreduce 中几个主要概念,mapreduce 整体上可以分为这么几条执行线索:obclient,JobTracker 与 TaskTracker。1、JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar文件存储到hdfs,并把路径提交到Jobtracker,然后由JobTracker 创建每一个 Task(即MapTask 和ReduceTask)并将它们分发到各个 TaskTracker 服务中去执行。2、J

15、obTracker 是一个 master 服务,软件启动之后 JobTracker 接收 Job,负责调度 Job的每一个子任务task 运行于 TaskTracker 上,并监控它们,如果发现有失败的 task 就重新运行它。一般情况应该把 JobTracker 部署在单独的机器上。3、TaskTracker 是运行在多个节点上的 slaver 服务。TaskTracker 主动与 JobTracker 通信,接收作业,并负责直接执行每一个任务。TaskTracker 都需要运行在 HDFS 的 DataNode上。1.4Hadoop作者作者a)Martin Fowlerb)Kent Bec

16、kc)Doug cutting答案 C Doug cutting1.5HDFS 默认默认 Block Sizea)32MBb)64MBc)128MB答案:B(因为版本更换较快,这里答案只供参考)1.6下列哪项通常是集群的最主要瓶颈:下列哪项通常是集群的最主要瓶颈:a)CPUb)网络c)磁盘磁盘 IOd)内存答案:C 磁盘该题解析:首先集群的目的是为了节省成本,用廉价的 pc 机,取代小型机及大型机。小型机和大型机有什么特点?1.cpu 处理能力强2.内存够大所以集群的瓶颈不可能是 a 和 d3.网络是一种稀缺资源,但是并不是瓶颈。4.由于大数据面临海量数据,读写数据都需要 io,然后还要冗余数据,hadoop 一般备3份数据,所以 IO 就会打折扣。1.7关于关于 SecondaryNameNode 哪项是正确的?哪项是正确的?a)它是 NameNode 的热备b)它对内存没有要求c)它的目的是帮助它的目的是帮助 NameNode 合并编辑日志,减少合并编辑日志,减少 NameNode 启动时间启动时间d)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 资格认证/考试 > 其它考试类文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号