完整版大数据试题

上传人:s9****2 文档编号:495165153 上传时间:2022-10-08 格式:DOC 页数:8 大小:65.50KB
返回 下载 相关 举报
完整版大数据试题_第1页
第1页 / 共8页
完整版大数据试题_第2页
第2页 / 共8页
完整版大数据试题_第3页
第3页 / 共8页
完整版大数据试题_第4页
第4页 / 共8页
完整版大数据试题_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《完整版大数据试题》由会员分享,可在线阅读,更多相关《完整版大数据试题(8页珍藏版)》请在金锄头文库上搜索。

1、、填空题(将正确的答案写入答题纸中。每空1分,共20分)1、 HDFS 有 _ NameNode_ , DataNode禾廿 _ SecondaryNameNode_ _ 组成;2、 Hadoop集群可以运行在 一 单机模式, 一 伪分布式模式和 一 完全分布式模式3个模式?3、 安装完全分布式 Apache Hadoop 的核心配置文件有_ core-site.xml, _ hdfs-site.xml, _ mapred-site.xml, _ yarn-site.xml_ _。4、 HBase中通过 HDFS存储底层数据,通过 Zookeeper提供消息通信机制5、 HIVE默认采用_ D

2、erby数据库进行元数据的存储,而真实的数据是存储在HDFS中。6、 如何在浏览器中查看HDFS运行状况的默认端口号是50070 查看yarn运行状态的默认端口号是80887、 HDFS中当前block大小为128M,如果当前要上传到HDFS中的文件大小为 300M,那么在存储时会分配_ 3个block进行存储。8、 HDFS 获取根目录下的文件列表的命令shell命令是_hadoop fs -Is -R /_ ; 根目录下创建 hdfs 文件夹的 shell命令是hadoop fs -mkdir/hdfs。9、 YARN架构中整个集群同一时间提供服务的ResourceManager有个,负责

3、集群资源的统一管理和调度。二、选择题(将正确的答案写入答题纸中。每题2分,共20分)1、 配置Hadoop时,JAVA_HOME包含在哪一个配置文件中(B)A. hadoop-default.xmlB. hadoop-e nv.shC. hadoop-site.xmlD. con figurati on.xs2、 下面哪个程序负责HDFS数据存储。(C)A)NameNodeB)JobtrackerC)Data nodeD)sec on daryNameNode3、 下列关于 Hadoop API的说法错误的是(A)A. Hadoop的文件API不是通用的,只用于 HDFS文件系统B. Conf

4、iguration类的默认实例化方法是以HDFS系统的资源配置为基础的C. FileStatus对象存储文件和目录的元数据D .FSDataInputStream 是 java.io.DatalnputStream 的子类4、HDfS中的block默认保存几份?( A)A)3份B)2份C)1份D)不确定5、 为销售报表展示开发一个MapReduce作业,Map per输入数据的 Key是年份(In tWritable ),Value表示商品标识(Text)。下列哪一项决定该 Mapper的数据类型? ( D)A. JobConf.setMapInputKeyClass 与 JobConf.se

5、tMapInputValuesClassB. HADOOP_MAP_DA TATYPES 环境变量C. 随作业一起提交的 mapper-specification.xml文件D. InputFormat 格式类6、HDFS无法高效存储大量小文件,想让它能处理好小文件,比较可行的改进策略不包括(D)A. 利用SequenceFile、MapFile、Har等方式归档小文件B. 多Master设计C. Block大小适当调小D. 调大name node内存或将文件系统元数据存到硬盘里7、 下列哪个程序通常与NameNode在一个节点启动? ( D)a)Sec on daryNameNodeb)Da

6、taNodec)TaskTrackerd)Jobtracker8、下面与HDFS类似的框架是?( C)(A)NTFS(B)FAT32(C)GFS(D)EXT39、 HDFS的是基于流数据模式访问和处理超大文件的需求而开发的,默认的最基本的存储 单位是64M,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是(C)A 一次写入,少次读写B多次写入,少次读写C. 一次写入,多次读写D .多次写入,多次读写10、HBase中的批量加载底层使用(A)实现。A MapReduceB HiveC CoprocessorD Bloom Filter三、简答题(将正确的答案写入答题纸中。每题5

7、分,共20分)1、简述下HDFS数据读流程;答:步骤如下,能大致描述清楚流程,没有关键错误即可1、跟name node通信查询元数据 (block所在的data node节点),找到文件块所在的 data node服务器2、挑选一台data node (就近原则,然后随机)服务器,请求建立 socket流3、 data node开始发送数据(从磁盘里面读取数据放入流,以packet为单位来做校验)4、 客户端以packet为单位接收,先在本地缓存,然后写入目标文件,后面的block块就相 当于是append到前面的block块最后合成最终需要的文件。2、如何查看hadoop进程并列出hadoo

8、p的几个进程名答:使 用 jps 命令可查看 hadoop 进程。Name node. Seco ndaryNameNode, Data nodeResourceMa nager , NodeMa nager3、请简述 Map Reduce 中 combi ner、partition 的作用答:combiner:有时一个map可能会产生大量的输出,combiner的作用是在 map端对输出先做一次合并,以减少网络传输到 reducer的数量。注意:map per的输出为 combi ner的输入,reducer的输入为 combi ner的输出。partition :把map任务输出的中间结果

9、按照key的范围划分成 R份(R是预先定义的reduce任务的个数),划分时通常使用 hash函数,如:hash(key) mod R这样可以保证一段范围内的key,一定会由一个reduce任务来处理。4、HBase的检索支持3种方式是哪些?答:(1) 通过单个Rowkey访问,即按照某个 Rowkey键值进行get操作,这样获取唯一一条 记录;(2)通过Rowkey的range进行scan,即通过设置 startRowKey和endRowKey,在这个范 围内进行扫描。这样可以按指定的条件获取一批记录;(3)全表扫描,即直接扫描整张表中所有行记录。四、程序题(将正确的答案写入答题纸中。每题1

10、0分,共20分)1、以一段文本作为输入对象,写一个 WordCount程序。 例如文本数据的情况如下hallo worldhello javahello pythonhello phphello wcmX统计出文本中每个单词出现的次数,输出结果如下面例子所示hello 5java 1php 1python 1占亡ala1k/orld 1答:public classWordCou nt public static classToke ni zerMapperexte nds MappervObject, Text, Text, I ntWritable private final staticI

11、ntWritableone = new IntWritable( 1);private Text word = new Text();public void map(Object key, Text value, Con text con text)throwslOExcepti on, In terruptedExcepti on Str in gToke ni zer itr =new Str in gToke nizer(value.toStri ng();while (itr.hasMoreToke ns() word .set(itr.nextToken();context.writ

12、e(word , one);public static classIn tSumReducerextendsReducer private IntWritable result = new IntWritable();public void reduce(Text key, Iterablev In tWritable values,Con text con text)throwsIOExcepti on, In terruptedExcepti on int sum = 0;for(In tWritable val : values) sum += val.get();result .set

13、(sum);con text.write(key,result );public static voidmain( Stri ng args)throws Excepti on Configuration conf =new Configuration();Job job = Job.getI nsta nee(conf, word cou nt);job.setJarByClass(WordCount.class );job.setMapperClass(TokenizerMapper.class );job.setCombinerClass(IntSumReducer.class );jo

14、b.setReducerClass(lntSumReducer.class );job.setOutputKeyClass(Text.class );job.setOutputValueClass(IntWritable.class );File In putFormat.add In putPath (job, new Path(args 0);FileOutputFormat.setOutputPath (job, new Path(args 1);System. exit (job.waitForCompletion(true ) ?0:1);2、写一段代码,利用Java api操作HDFS文件系统,实现文件的上传和下载,Hadoop文件系统地址为hdfs:/hadoop:8020,将本地 hadoop.txt文件上传至根目录下的hadoop文件夹中,将 HDFS中hadoop文件中的hadoop1.txt下载到本地public class App public static finalStri ngHDFS_PATH = hdfs:/hadoop:8020;public static voidmain( Stri ng args)throws Excepti on / 创建 FileSystemConfiguration configurati

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号