完整版大数据试题－金锄头文库

资源描述

《完整版大数据试题》由会员分享，可在线阅读，更多相关《完整版大数据试题（8页珍藏版）》请在金锄头文库上搜索。

1、、填空题（将正确的答案写入答题纸中。每空1分，共20分）1、 HDFS 有 _ NameNode_ , DataNode禾廿 _ SecondaryNameNode_ _ 组成；2、 Hadoop集群可以运行在一单机模式, 一伪分布式模式和一完全分布式模式3个模式？3、安装完全分布式 Apache Hadoop 的核心配置文件有_ core-site.xml, _ hdfs-site.xml, _ mapred-site.xml, _ yarn-site.xml_ _。4、 HBase中通过 HDFS存储底层数据,通过 Zookeeper提供消息通信机制5、 HIVE默认采用_ D

2、erby数据库进行元数据的存储，而真实的数据是存储在HDFS中。6、如何在浏览器中查看HDFS运行状况的默认端口号是50070 查看yarn运行状态的默认端口号是80887、 HDFS中当前block大小为128M,如果当前要上传到HDFS中的文件大小为 300M，那么在存储时会分配_ 3个block进行存储。8、 HDFS 获取根目录下的文件列表的命令shell命令是_hadoop fs -Is -R /_ ; 根目录下创建 hdfs 文件夹的 shell命令是hadoop fs -mkdir/hdfs。9、 YARN架构中整个集群同一时间提供服务的ResourceManager有个，负责

3、集群资源的统一管理和调度。二、选择题（将正确的答案写入答题纸中。每题2分，共20分）1、配置Hadoop时，JAVA_HOME包含在哪一个配置文件中（B）A. hadoop-default.xmlB. hadoop-e nv.shC. hadoop-site.xmlD. con figurati on.xs2、下面哪个程序负责HDFS数据存储。（C）A）NameNodeB）JobtrackerC）Data nodeD）sec on daryNameNode3、下列关于 Hadoop API的说法错误的是（A）A. Hadoop的文件API不是通用的，只用于 HDFS文件系统B. Conf

4、iguration类的默认实例化方法是以HDFS系统的资源配置为基础的C. FileStatus对象存储文件和目录的元数据D .FSDataInputStream 是 java.io.DatalnputStream 的子类4、HDfS中的block默认保存几份？（ A）A）3份B）2份C）1份D）不确定5、为销售报表展示开发一个MapReduce作业，Map per输入数据的 Key是年份（In tWritable ）,Value表示商品标识（Text）。下列哪一项决定该 Mapper的数据类型？（ D）A. JobConf.setMapInputKeyClass 与 JobConf.se

5、tMapInputValuesClassB. HADOOP_MAP_DA TATYPES 环境变量C. 随作业一起提交的 mapper-specification.xml文件D. InputFormat 格式类6、HDFS无法高效存储大量小文件，想让它能处理好小文件，比较可行的改进策略不包括（D）A. 利用SequenceFile、MapFile、Har等方式归档小文件B. 多Master设计C. Block大小适当调小D. 调大name node内存或将文件系统元数据存到硬盘里7、下列哪个程序通常与NameNode在一个节点启动？（ D）a）Sec on daryNameNodeb）Da

6、taNodec）TaskTrackerd）Jobtracker8、下面与HDFS类似的框架是？（ C）（A）NTFS（B）FAT32（C）GFS（D）EXT39、 HDFS的是基于流数据模式访问和处理超大文件的需求而开发的，默认的最基本的存储单位是64M，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是（C）A 一次写入，少次读写B多次写入，少次读写C. 一次写入，多次读写D .多次写入，多次读写10、HBase中的批量加载底层使用（A）实现。A MapReduceB HiveC CoprocessorD Bloom Filter三、简答题（将正确的答案写入答题纸中。每题5

7、分，共20分）1、简述下HDFS数据读流程；答：步骤如下，能大致描述清楚流程，没有关键错误即可1、跟name node通信查询元数据（block所在的data node节点），找到文件块所在的 data node服务器2、挑选一台data node （就近原则，然后随机）服务器，请求建立 socket流3、 data node开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验）4、客户端以packet为单位接收，先在本地缓存，然后写入目标文件，后面的block块就相当于是append到前面的block块最后合成最终需要的文件。2、如何查看hadoop进程并列出hadoo

8、p的几个进程名答：使用 jps 命令可查看 hadoop 进程。Name node. Seco ndaryNameNode, Data nodeResourceMa nager ， NodeMa nager3、请简述 Map Reduce 中 combi ner、partition 的作用答：combiner:有时一个map可能会产生大量的输出，combiner的作用是在 map端对输出先做一次合并，以减少网络传输到 reducer的数量。注意：map per的输出为 combi ner的输入，reducer的输入为 combi ner的输出。partition :把map任务输出的中间结果

9、按照key的范围划分成 R份（R是预先定义的reduce任务的个数），划分时通常使用 hash函数，如：hash（key） mod R这样可以保证一段范围内的key，一定会由一个reduce任务来处理。4、HBase的检索支持3种方式是哪些？答：（1）通过单个Rowkey访问，即按照某个 Rowkey键值进行get操作，这样获取唯一一条记录；（2）通过Rowkey的range进行scan，即通过设置 startRowKey和endRowKey，在这个范围内进行扫描。这样可以按指定的条件获取一批记录；（3）全表扫描，即直接扫描整张表中所有行记录。四、程序题（将正确的答案写入答题纸中。每题1

10、0分，共20分）1、以一段文本作为输入对象，写一个 WordCount程序。例如文本数据的情况如下hallo worldhello javahello pythonhello phphello wcmX统计出文本中每个单词出现的次数，输出结果如下面例子所示hello 5java 1php 1python 1占亡ala1k/orld 1答：public classWordCou nt public static classToke ni zerMapperexte nds MappervObject, Text, Text, I ntWritable private final staticI

11、ntWritableone = new IntWritable( 1);private Text word = new Text();public void map(Object key, Text value, Con text con text)throwslOExcepti on, In terruptedExcepti on Str in gToke ni zer itr =new Str in gToke nizer(value.toStri ng();while (itr.hasMoreToke ns() word .set(itr.nextToken();context.writ

12、e(word , one);public static classIn tSumReducerextendsReducer private IntWritable result = new IntWritable();public void reduce(Text key, Iterablev In tWritable values,Con text con text)throwsIOExcepti on, In terruptedExcepti on int sum = 0;for(In tWritable val : values) sum += val.get();result .set

13、(sum);con text.write(key,result );public static voidmain( Stri ng args)throws Excepti on Configuration conf =new Configuration();Job job = Job.getI nsta nee(conf, word cou nt);job.setJarByClass(WordCount.class );job.setMapperClass(TokenizerMapper.class );job.setCombinerClass(IntSumReducer.class );jo

14、b.setReducerClass(lntSumReducer.class );job.setOutputKeyClass(Text.class );job.setOutputValueClass(IntWritable.class );File In putFormat.add In putPath (job, new Path(args 0);FileOutputFormat.setOutputPath (job, new Path(args 1);System. exit (job.waitForCompletion(true ) ?0:1);2、写一段代码，利用Java api操作HDFS文件系统，实现文件的上传和下载，Hadoop文件系统地址为hdfs:/hadoop:8020，将本地 hadoop.txt文件上传至根目录下的hadoop文件夹中，将 HDFS中hadoop文件中的hadoop1.txt下载到本地public class App public static finalStri ngHDFS_PATH = hdfs:/hadoop:8020;public static voidmain( Stri ng args)throws Excepti on / 创建 FileSystemConfiguration configurati

展开阅读全文