大数据测试试题－金锄头文库

资源描述

《大数据测试试题》由会员分享，可在线阅读，更多相关《大数据测试试题（8页珍藏版）》请在金锄头文库上搜索。

1、大数据试题名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页，共 8 页 -2 作者：日期：名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页，共 8 页 -3 一、填空题（将正确的答案写入答题纸中。每空1 分，共 20 分）1、HDFS 有 _ NameNode_ _，_ DataNode_ _ 和_ SecondaryNameNode_ _ 组成；2、Hadoop集群可以运行在_ 单机模式 _ _，_ 伪分布式模式 _ _和_ 完全分布式模式_ _3个模式？3、安装完全分布式Apache Hadoop 的核心配置文件有_ core-site.xml_ _,_ hdfs-site

2、.xml_ _,_ mapred-site.xml_ _,_ yarn-site.xml_ _。4、HBase 中通过 _ HDFS_ _存储底层数据,通过 _ _Zookeeper_ _提供消息通信机制5、HIVE 默认采用 _ _ Derby _ _ _ _数据库进行元数据的存储，而真实的数据是存储在_ _HDFS _ _ _ 中。6、如何在浏览器中查看HDFS 运行状况的默认端口号是_ 50070_ _ 查看 yarn 运行状态的默认端口号是 _ 8088_ _ 7、HDFS 中当前 block 大小为 128M,如果当前要上传到HDFS 中的文件大小为300M，那么在存储时会分配_ 3

3、_ _ 个 block进行存储。8、HDFS 获取根目录下的文件列表的命令shell 命令是 _hadoop fs-ls-R/_ _ _ _ _ _；根目录下创建hdfs 文件夹的shell 命令是 _ _ hadoop fs-mkdir/hdfs_ _ _ _ _。9、YARN 架构中整个集群同一时间提供服务的ResourceManager 有_ 1_ _ 个，负责集群资源的统一管理和调度。二、选择题（将正确的答案写入答题纸中。每题2 分，共 20 分）1、配置 Hadoop 时，JAVA_HOME 包含在哪一个配置文件中(B)Ahadoop-default.xml Bhadoop-env.

4、sh Chadoop-site.xml Dconfiguration.xs 2、下面哪个程序负责HDFS 数据存储。（C）A)NameNode B)Jobtracker C)Datanode D)secondaryNameNode 3、下列关于Hadoop API 的说法错误的是（A）AHadoop 的文件 API 不是通用的，只用于HDFS 文件系统BConfiguration 类的默认实例化方法是以HDFS 系统的资源配置为基础的CFileStatus 对象存储文件和目录的元数据DFSDataInputStream 是 java.io.DataInputStream 的子类4、HDfS 中

5、的 block 默认保存几份?（A）A)3 份B)2 份C)1 份D)不确定名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页，共 8 页 -4 5、为销售报表展示开发一个MapReduce 作业，Mapper 输入数据的Key 是年份（IntWritable），Value 表示商品标识（Text）。下列哪一项决定该Mapper 的数据类型？（D）A.JobConf.setMapInputKeyClass 与 JobConf.setMapInputValuesClass B.HADOOP_MAP_DATATYPES 环境变量C.随作业一起提交的mapper-specification.x

6、ml 文件D.InputFormat 格式类6、HDFS 无法高效存储大量小文件，想让它能处理好小文件，比较可行的改进策略不包括（D）A.利用 SequenceFile、MapFile、Har 等方式归档小文件B.多 Master 设计C.Block 大小适当调小D.调大 namenode 内存或将文件系统元数据存到硬盘里7、下列哪个程序通常与NameNode 在一个节点启动？（D）a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 8、下面与HDFS 类似的框架是？（C）(A)NTFS(B)FAT32(C)GFS(D)EXT3

7、9、HDFS 的是基于流数据模式访问和处理超大文件的需求而开发的，默认的最基本的存储单位是64M，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是（C）A一次写入，少次读写B多次写入，少次读写C一次写入，多次读写D多次写入，多次读写10、HBase 中的批量加载底层使用（A）实现。A MapReduce B Hive C Coprocessor D Bloom Filter 三、简答题（将正确的答案写入答题纸中。每题5 分，共 20 分）1、简述下HDFS 数据读流程；答：步骤如下，能大致描述清楚流程，没有关键错误即可1、跟 namenode 通信查询元数据（block 所在

8、的 datanode节点），找到文件块所在的datanode服务器名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页，共 8 页 -5 2、挑选一台datanode（就近原则，然后随机）服务器，请求建立socket 流3、datanode开始发送数据（从磁盘里面读取数据放入流，以packet 为单位来做校验）4、客户端以packet 为单位接收，先在本地缓存，然后写入目标文件，后面的block 块就相当于是 append到前面的 block 块最后合成最终需要的文件。2、如何查看hadoop 进程并列出hadoop的几个进程名答：使用 jps 命令可查看hadoop进程。Namenod

9、e,SecondaryNameNode，Datanode，ResourceManager，NodeManager3、请简述MapReduce 中 combiner、partition 的作用答：combiner：有时一个map 可能会产生大量的输出，combiner 的作用是在map 端对输出先做一次合并，以减少网络传输到reducer 的数量。注意：mapper 的输出为combiner 的输入，reducer 的输入为 combiner 的输出。partition：把 map任务输出的中间结果按照key 的范围划分成R份(R 是预先定义的reduce任务的个数)，划分时通常使用hash函数

10、，如：hash(key)mod R 这样可以保证一段范围内的key，一定会由一个reduce 任务来处理。4、HBase 的检索支持3 种方式是哪些？答：（1）通过单个Rowkey 访问，即按照某个Rowkey 键值进行get 操作，这样获取唯一一条记录；（2）通过 Rowkey 的 range 进行 scan，即通过设置startRowKey 和 endRowKey，在这个范围内进行扫描。这样可以按指定的条件获取一批记录；（3）全表扫描，即直接扫描整张表中所有行记录。四、程序题（将正确的答案写入答题纸中。每题10 分，共 20 分）1、以一段文本作为输入对象，写一个WordCount程序。

11、例如文本数据的情况如下统计出文本中每个单词出现的次数，输出结果如下面例子所示名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页，共 8 页 -6 答：public class WordCount public static class TokenizerMapper extends Mapper private final static IntWritable one=new IntWritable(1);private Text word=new Text();public void map(Object key,Text value,Context context )throws I

12、OException,InterruptedException StringTokenizer itr=new StringTokenizer(value.toString();while(itr.hasMoreTokens()word.set(itr.nextToken();context.write(word,one);public static class IntSumReducer extends Reducer private IntWritable result=new IntWritable();public void reduce(Text key,Iterable value

13、s,Context context )throws IOException,InterruptedException int sum=0;for(IntWritable val:values)sum+=val.get();result.set(sum);context.write(key,result);名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页，共 8 页 -7 public static void main(String args)throws Exception Configuration conf=new Configuration();Job job=Job.getIn

14、stance(conf,word count);job.setJarByClass(WordCount.class);job.setMapperClass(TokenizerMapper.class);job.setCombinerClass(IntSumReducer.class);job.setReducerClass(IntSumReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);FileInputFormat.addInputPath(job,new Pa

15、th(args0);FileOutputFormat.setOutputPath(job,new Path(args1);System.exit(job.waitForCompletion(true)?0:1);2、写一段代码，利用Java api 操作 HDFS 文件系统，实现文件的上传和下载，Hadoop 文件系统地址为hdfs:/hadoop:8020，将本地hadoop.txt 文件上传至根目录下的hadoop 文件夹中，将HDFS 中 hadoop 文件中的hadoop1.txt 下载到本地public class App public static final String HDF

16、S_PATH=hdfs:/hadoop:8020;public static void main(String args)throws Exception /创建FileSystem Configuration configuration=new Configuration();FileSystem fileSystem=FileSystem.get(new URI(HDFS_PATH),configuration,hadoop);/文件上传Path localPath=new Path(hadoop.txt);Path hdfsPath=new Path(/hadoop);fileSystem.copyFromLocalFile(localPath,hdfsPath);/文件下载hdfsPath=new Path(/hadoop/hadoop1.txt);localPath=new Path(hadoop1.txt);fileSystem.copyToLocalFile(hdfsPath,localPath);五、分析题（将正确的答案写入答题纸中。每题20 分，共 20 分）1、有如

展开阅读全文