大数据测试试题

上传人:橙** 文档编号:333371460 上传时间:2022-09-01 格式:PDF 页数:8 大小:1.16MB
返回 下载 相关 举报
大数据测试试题_第1页
第1页 / 共8页
大数据测试试题_第2页
第2页 / 共8页
大数据测试试题_第3页
第3页 / 共8页
大数据测试试题_第4页
第4页 / 共8页
大数据测试试题_第5页
第5页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《大数据测试试题》由会员分享,可在线阅读,更多相关《大数据测试试题(8页珍藏版)》请在金锄头文库上搜索。

1、大数据试题名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 8 页 -2 作者:日期:名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 8 页 -3 一、填空题(将正确的答案写入答题纸中。每空1 分,共 20 分)1、HDFS 有 _ NameNode_ _,_ DataNode_ _ 和_ SecondaryNameNode_ _ 组成;2、Hadoop集群可以运行在_ 单机模式 _ _,_ 伪分布式模式 _ _和_ 完全分布式模式_ _3个模式?3、安装完全分布式Apache Hadoop 的核心配置文件有_ core-site.xml_ _,_ hdfs-site

2、.xml_ _,_ mapred-site.xml_ _,_ yarn-site.xml_ _。4、HBase 中通过 _ HDFS_ _存储底层数据,通过 _ _Zookeeper_ _提供消息通信机制5、HIVE 默认采用 _ _ Derby _ _ _ _数据库进行元数据的存储,而真实的数据是存储在_ _HDFS _ _ _ 中。6、如何在浏览器中查看HDFS 运行状况的默认端口号是_ 50070_ _ 查看 yarn 运行状态的默认端口号是 _ 8088_ _ 7、HDFS 中当前 block 大小为 128M,如果当前要上传到HDFS 中的文件大小为300M,那么在存储时会分配_ 3

3、_ _ 个 block进行存储。8、HDFS 获取根目录下的文件列表的命令shell 命令是 _hadoop fs-ls-R/_ _ _ _ _ _;根目录下创建hdfs 文件夹的shell 命令是 _ _ hadoop fs-mkdir/hdfs_ _ _ _ _。9、YARN 架构中整个集群同一时间提供服务的ResourceManager 有_ 1_ _ 个,负责集群资源的统一管理和调度。二、选择题(将正确的答案写入答题纸中。每题2 分,共 20 分)1、配置 Hadoop 时,JAVA_HOME 包含在哪一个配置文件中(B)Ahadoop-default.xml Bhadoop-env.

4、sh Chadoop-site.xml Dconfiguration.xs 2、下面哪个程序负责HDFS 数据存储。(C)A)NameNode B)Jobtracker C)Datanode D)secondaryNameNode 3、下列关于Hadoop API 的说法错误的是(A)AHadoop 的文件 API 不是通用的,只用于HDFS 文件系统BConfiguration 类的默认实例化方法是以HDFS 系统的资源配置为基础的CFileStatus 对象存储文件和目录的元数据DFSDataInputStream 是 java.io.DataInputStream 的子类4、HDfS 中

5、的 block 默认保存几份?(A)A)3 份B)2 份C)1 份D)不确定名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 8 页 -4 5、为销售报表展示开发一个MapReduce 作业,Mapper 输入数据的Key 是年份(IntWritable),Value 表示商品标识(Text)。下列哪一项决定该Mapper 的数据类型?(D)A.JobConf.setMapInputKeyClass 与 JobConf.setMapInputValuesClass B.HADOOP_MAP_DATATYPES 环境变量C.随作业一起提交的mapper-specification.x

6、ml 文件D.InputFormat 格式类6、HDFS 无法高效存储大量小文件,想让它能处理好小文件,比较可行的改进策略不包括(D)A.利用 SequenceFile、MapFile、Har 等方式归档小文件B.多 Master 设计C.Block 大小适当调小D.调大 namenode 内存或将文件系统元数据存到硬盘里7、下列哪个程序通常与NameNode 在一个节点启动?(D)a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 8、下面与HDFS 类似的框架是?(C)(A)NTFS(B)FAT32(C)GFS(D)EXT3

7、9、HDFS 的是基于流数据模式访问和处理超大文件的需求而开发的,默认的最基本的存储单位是64M,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是(C)A一次写入,少次读写B多次写入,少次读写C一次写入,多次读写D多次写入,多次读写10、HBase 中的批量加载底层使用(A)实现。A MapReduce B Hive C Coprocessor D Bloom Filter 三、简答题(将正确的答案写入答题纸中。每题5 分,共 20 分)1、简述下HDFS 数据读流程;答:步骤如下,能大致描述清楚流程,没有关键错误即可1、跟 namenode 通信查询元数据(block 所在

8、的 datanode节点),找到文件块所在的datanode服务器名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 8 页 -5 2、挑选一台datanode(就近原则,然后随机)服务器,请求建立socket 流3、datanode开始发送数据(从磁盘里面读取数据放入流,以packet 为单位来做校验)4、客户端以packet 为单位接收,先在本地缓存,然后写入目标文件,后面的block 块就相当于是 append到前面的 block 块最后合成最终需要的文件。2、如何查看hadoop 进程并列出hadoop的几个进程名答:使 用 jps 命令可查看hadoop进程。Namenod

9、e,SecondaryNameNode,Datanode,ResourceManager,NodeManager3、请简述MapReduce 中 combiner、partition 的作用答:combiner:有时一个map 可能会产生大量的输出,combiner 的作用是在map 端对输出先做一次合并,以减少网络传输到reducer 的数量。注意:mapper 的输出为combiner 的输入,reducer 的输入为 combiner 的输出。partition:把 map任务输出的中间结果按照key 的范围划分成R份(R 是预先定义的reduce任务的个数),划分时通常使用hash函数

10、,如:hash(key)mod R 这样可以保证一段范围内的key,一定会由一个reduce 任务来处理。4、HBase 的检索支持3 种方式是哪些?答:(1)通过单个Rowkey 访问,即按照某个Rowkey 键值进行get 操作,这样获取唯一一条记录;(2)通过 Rowkey 的 range 进行 scan,即通过设置startRowKey 和 endRowKey,在这个范围内进行扫描。这样可以按指定的条件获取一批记录;(3)全表扫描,即直接扫描整张表中所有行记录。四、程序题(将正确的答案写入答题纸中。每题10 分,共 20 分)1、以一段 文本作为输入对象,写一个WordCount程序。

11、例如文本数据的情况如下统计出文本中每个单词出现的次数,输出结果如下面例子所示名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 8 页 -6 答:public class WordCount public static class TokenizerMapper extends Mapper private final static IntWritable one=new IntWritable(1);private Text word=new Text();public void map(Object key,Text value,Context context )throws I

12、OException,InterruptedException StringTokenizer itr=new StringTokenizer(value.toString();while(itr.hasMoreTokens()word.set(itr.nextToken();context.write(word,one);public static class IntSumReducer extends Reducer private IntWritable result=new IntWritable();public void reduce(Text key,Iterable value

13、s,Context context )throws IOException,InterruptedException int sum=0;for(IntWritable val:values)sum+=val.get();result.set(sum);context.write(key,result);名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 8 页 -7 public static void main(String args)throws Exception Configuration conf=new Configuration();Job job=Job.getIn

14、stance(conf,word count);job.setJarByClass(WordCount.class);job.setMapperClass(TokenizerMapper.class);job.setCombinerClass(IntSumReducer.class);job.setReducerClass(IntSumReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);FileInputFormat.addInputPath(job,new Pa

15、th(args0);FileOutputFormat.setOutputPath(job,new Path(args1);System.exit(job.waitForCompletion(true)?0:1);2、写一段代码,利用Java api 操作 HDFS 文件系统,实现文件的上传和下载,Hadoop 文件系统地址为hdfs:/hadoop:8020,将本地hadoop.txt 文件上传至根目录下的hadoop 文件夹中,将HDFS 中 hadoop 文件中的hadoop1.txt 下载到本地public class App public static final String HDF

16、S_PATH=hdfs:/hadoop:8020;public static void main(String args)throws Exception /创建FileSystem Configuration configuration=new Configuration();FileSystem fileSystem=FileSystem.get(new URI(HDFS_PATH),configuration,hadoop);/文件上传Path localPath=new Path(hadoop.txt);Path hdfsPath=new Path(/hadoop);fileSystem.copyFromLocalFile(localPath,hdfsPath);/文件下载hdfsPath=new Path(/hadoop/hadoop1.txt);localPath=new Path(hadoop1.txt);fileSystem.copyToLocalFile(hdfsPath,localPath);五、分析题(将正确的答案写入答题纸中。每题20 分,共 20 分)1、有如

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 初中教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号