hadoop 100道面试题及答案解析

资源描述

《hadoop 100道面试题及答案解析》由会员分享，可在线阅读，更多相关《hadoop 100道面试题及答案解析（20页珍藏版）》请在金锄头文库上搜索。

1、3.6误）3.7Hadoop 支持数据的随机读写。（错） . 8NameNode 负责管理 metadata，client端每次读写请求，它都会从磁盘中3.8读取或则会写入 metadata 信息并反馈 client 端。（错误） 8NameNode 本地磁盘保存了 Block 的位置信息。（个人认为正确，欢迎提出其它意见） . 93.93.103.11DataNode 通过长连接与 NameNode 保持通信。（有分歧） 9Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。（错误） 9 3.123.133.14Slave 节点要存储数据，所以它的磁盘越大越好。（错误

2、） 9hadoop dfsadmin report 命令用于检测 HDFS 损坏块。（错误） 9Hadoop 默认调度器策略为 FIFO（正确） . 9100 道常见道常见 Hadoop 面试题及答案解析面试题及答案解析目录1单选题 51.11.21.31.41.51.61.7下面哪个程序负责 HDFS 数据存储。 5HDfS 中的 block 默认保存几份？ . 5下列哪个程序通常与 NameNode 在一个节点启动？ 5Hadoop 作者 6HDFS 默认 Block Size 6下列哪项通常是集群的最主要瓶颈：. 6关于 SecondaryNameNode 哪项是正确的？ . 623

3、多选题 72.12.22.32.42.5下列哪项可以作为集群的管理？ 7配置机架感知的下面哪项正确： 7Client 端上传文件的时候下列哪项正确？ . 7下列哪个是 Hadoop 运行的模式： 7Cloudera 提供哪几种安装 CDH 的方法？ . 7判断题 83.13.23.3Ganglia 不仅可以进行监控，也可以进行告警。（正确） . 8Block Size 是不可以修改的。（错误）. 8Nagios 不可以监控 Hadoop 集群，因为它不提供 Hadoop 支持。（错误） 8 3.4如果 NameNode 意外终止，SecondaryNameNode 会接替它使集群继续工作

4、。（错误） 83.5Cloudera CDH 是需要付费使用的。（错误）. 8Hadoop 是 Java 开发的，所以 MapReduce 只支持 Java语言编写。（错83.15集群内每个节点都应该配 RAID，这样避免单磁盘损坏，影响整个节点运行。（错误） . 93.16因为 HDFS 有多个副本，所以 NameNode 是不存在单点问题的。（错误） 9 3.173.183.19误）3.20每个 map 槽就是一个线程。（错误） . 9Mapreduce 的 input split 就是一个 block。（错误） 10NameNode 的 Web UI 端口是 50030，它

5、通过 jetty 启动的 Web 服务。（错10Hadoop 环境变量中的 HADOOP_HEAPSIZE 用于设置所有 Hadoop 守护线程的内存。它默认是 200 GB。（错误）. 10DataNode 首次加入 cluster 的时候，如果log中报告不兼容文件版本，那3.21需要 NameNode 执行“Hadoop namenode -format”操作格式化磁盘。（错误） 10问答题（一） 1044.1Hadoop 集群可以运行的 3 个模式？ 10单机（本地）模式中的注意点？ 10伪分布模式中的注意点？ 10VM 是否可以称为Pseudo？ 10全分布模式又有什么注意点？

6、. 10Hadoop 是否遵循 UNIX 模式？ . 11Hadoop 安装在什么目录下？. 11Namenode、Jobtracker 和tasktracker 的端口号是？ 11Hadoop 的核心配置是什么？. 11那当下又该如何配置？ 11RAM 的溢出因子是？ . 11fs.mapr.working.dir 只是单一的目录？ 11hdfs-site.xml 的 3 个主要属性？ 11如何退出输入模式？ . 11当你输入 hadoopfsck/造成“connectionrefusedjavaexception”时，系4.24.34.44.54.64.74.84.94.104.114.1

7、24.134.144.15统究竟发生了什么？ . 11我们使用 Ubuntu 及Cloudera，那么我们该去哪里下载 Hadoop，或者是默认就与 Ubuntu 一起安装？ 114.164.174.184.194.204.214.224.234.24“jps”命令的用处？ 11如何重启 Namenode？ 11Fsck 的全名？. 12如何检查 Namenode是否正常运行？ 12mapred.job.tracker 命令的作用？ . 12/etc/init.d 命令的作用是？ . 12如何在浏览器中查找Namenode？ 12如何从 SU 转到Cloudera？ . 124.254.264

8、.274.284.294.304.314.324.334.344.354.364.374.384.394.404.414.424.434.444.45启动和关闭命令会用到哪些文件？ 12Slaves 由什么组成？ 12Masters 由什么组成？ 12hadoop-env.sh 是用于做什么的？ . 12Master 文件是否提供了多个入口？ 12hadoop-env.sh 文件当下的位置？ . 12在 Hadoop_PID_DIR 中，PID 代表了什么？ 12/var/hadoop/pids 用于做什么？ . 12hadoop-metrics.properties 文件的作用是？ 12Ha

9、doop 需求什么样的网络？. 13全分布式环境下为什么需求 password-lessSSH？ 13这会导致安全问题吗？ 13SSH 工作的端口号是？ . 13SSH 中的注意点还包括？ . 13为什么 SSH本地主机需要密码？ 13如果在 SSH中添加key，是否还需要设置密码？ 13假如 Namenode中没有数据会怎么样？ 13当 JobTracker 宕掉时，Namenode 会发生什么？ . 13是客户端还是 Namenode决定输入的分片？ . 13是否可以自行搭建 Hadoop 集群？ . 13是否可以在 Windows 上运行Hadoop？ . 135问答题（二） 135.1

10、5.25.35.45.55.65.75.85.9写出以下执行命令. 13简述一下 hdfs的数据压缩算法，工作中用的是那种算法，为什么？ 14三个 datanode，当有一个 datanode 出现错误会怎样？ 14hdfs 原理，以及各个模块的职责？ . 14哪个进程通常与 namenode 在一个节点启动？并做分析 16hdfs 的体系结构？ . 16HDFS，replica 如何定位 17HDFS 存储的机制? 17hdfs 的 client 端，复制到第三个副本时宕机， hdfs 怎么恢复保证下次写第三副本?185.105.115.125.135.145.15block 块信息是先写

11、dataNode 还是先写nameNode? . 18Hive 的 join有几种方式，怎么实现 join的？ . 18hive 内部表和外部表的区别？ . 19hive 是如何实现分区的？ 19hive 支持 not in吗？ . 19Hive 有哪些方式保存元数据，各有哪些优缺点。 . 195.165.175.185.195.20hive 如何优化 19hive 能像关系数据库那样，建多个库吗？ 19hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别？ . 19hive 相对于 Oracle 来说有那些优点？ 20Hive 的 sort by

12、和 order by 的区别 201单选题单选题1.1下面哪个程序负责下面哪个程序负责HDFS数据存储。数据存储。a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker答案 C datanode1.2HDfS 中的中的 block默认保存几份？默认保存几份？a)3 份b)2 份c)1 份d)不确定答案 A 默认 3 分1.3下列哪个程序通常与下列哪个程序通常与NameNode 在一个节点启动？在一个节点启动？a)SecondaryNameNodeb)DataNodec)TaskTrackerd)Jobtracker答案

13、 D，此题分析：hadoop 的集群是基于 master/slave 模式，namenode 和 jobtracker 属于 master，datanode 和tasktracker属于 slave ， master只有一个，而 slave 有多个SecondaryNameNode 内存需求和 NameNode 在一个数量级上，所以通常secondaryNameNode（运行在单独的物理机器上）和 NameNode 运行在不同的机器上。JobTracker 和 TaskTrackerJobTracker 对应于 NameNodeTaskTracker 对应于DataNodeDa

14、taNode 和 NameNode 是针对数据存放来而言的JobTracker 和 TaskTracker 是对于 MapReduce 执行而言的mapreduce 中几个主要概念，mapreduce 整体上可以分为这么几条执行线索：obclient，JobTracker 与 TaskTracker。1、JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar文件存储到hdfs，并把路径提交到Jobtracker,然后由JobTracker 创建每一个 Task（即MapTask 和ReduceTask）并将它们分发到各个 TaskTracker 服务中去执行。2、J

15、obTracker 是一个 master 服务，软件启动之后 JobTracker 接收 Job，负责调度 Job的每一个子任务task 运行于 TaskTracker 上，并监控它们，如果发现有失败的 task 就重新运行它。一般情况应该把 JobTracker 部署在单独的机器上。3、TaskTracker 是运行在多个节点上的 slaver 服务。TaskTracker 主动与 JobTracker 通信，接收作业，并负责直接执行每一个任务。TaskTracker 都需要运行在 HDFS 的 DataNode上。1.4Hadoop作者作者a)Martin Fowlerb)Kent Bec

16、kc)Doug cutting答案 C Doug cutting1.5HDFS 默认默认 Block Sizea)32MBb)64MBc)128MB答案：B(因为版本更换较快，这里答案只供参考)1.6下列哪项通常是集群的最主要瓶颈：下列哪项通常是集群的最主要瓶颈：a)CPUb)网络c)磁盘磁盘 IOd)内存答案：C 磁盘该题解析：首先集群的目的是为了节省成本，用廉价的 pc 机，取代小型机及大型机。小型机和大型机有什么特点？1.cpu 处理能力强2.内存够大所以集群的瓶颈不可能是 a 和 d3.网络是一种稀缺资源，但是并不是瓶颈。4.由于大数据面临海量数据，读写数据都需要 io，然后还要冗余数据，hadoop 一般备3份数据，所以 IO 就会打折扣。1.7关于关于 SecondaryNameNode 哪项是正确的？哪项是正确的？a)它是 NameNode 的热备b)它对内存没有要求c)它的目的是帮助它的目的是帮助 NameNode 合并编辑日志，减少合并编辑日志，减少 NameNode 启动时间启动时间d)

展开阅读全文