南开大学22春《大数据开发技术》综合作业二答案参考50

资源描述

《南开大学22春《大数据开发技术》综合作业二答案参考50》由会员分享，可在线阅读，更多相关《南开大学22春《大数据开发技术》综合作业二答案参考50（13页珍藏版）》请在金锄头文库上搜索。

1、南开大学22春大数据开发技术综合作业二答案参考1. HDFS中当一些数据节点不可用时，会导致一些数据块的副本数量( )冗余因子A.大于B.小于C.等于D.大于等于参考答案：B2. 图的结构通常表示为：G(V，E)，其中，G表示( )A.图B.子图C.顶点D.边参考答案：A3. Storm中如果要让每一个Task都会收到所有的Tuple，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：B4. RDD是一个可读写的数据结构。( )T.对F.错参考答案：F5. S

2、park Streming中( )函数当被调用类型分别为(K，V)和(K，W)键值对的2个DStream时，返回类型为(K，(V，W)键值对的一个新 DStream。A.unionB.reduceC.joinD.cogroup参考答案：D6. 回溯法解旅行售货员问题时的解空间树是( )。A.子集树B.排列树C.深度优先生成树D.广度优先生成树参考答案：A7. Hive提供了大数据批处理计算功能。( )A.正确B.错误参考答案：B8. 以下哪个函数可以求两个RDD交集 ( )A.unionB.substractC.intersectionD.cartesian参考答案：C9. 大数据智能感知层：

3、主要包括( )及软硬件资源接入系统。A.数据传感体系B.网络通信体系C.传感适配体系D.智能识别体系参考答案：ABCD10. Scala通过( )来定义变量A.valB.valC.defineD.def参考答案：A11. 用户可以在Hadoop YARN上运行Spark。( )A.正确B.错误参考答案：A12. RDD中zip操作要求两个RDD的partition数量以及元素数量都相同。( )T.对F.错参考答案：T13. GraphX中( )方法可以查询度数A.degreesB.degreeC.verticesD.edges参考答案：A14. Map Task和Reduce Task均由(

4、)启动。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案：D15. 流计算系统的需求有( )。A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案：ACE16. 静态数据采取( )计算模式A.批量B.实时C.大数据D.动态参考答案：A17. HDFS中SecondaryNameNode可减少( )重启的时间A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案：A18. 请问RDD的( )操作用于将相同键的数据聚合A.joinB.zipC.combineByKeyD.collect参考答案：C19. D

5、stream窗口操作中( )方法基于滑动窗口对源DStream中的元素进行聚合操作，得到一个新的DstreamA.windowB.countByWindowC.reduceByWindowD.reduceByKeyAndWindow参考答案：C20. Spark对只有未曾设置存储级别的RDD才能设置存储级别，设置了存储级别的RDD不能修改其存储级别。( )A.正确B.错误参考答案：A21. Scala函数组合器中foreach和map类似，有返回值。( )A.正确B.错误参考答案：B22. Dstream窗口操作中( )方法基于滑动窗口对(K，V)键值对类型的DStream中的值按K使用聚合函

6、数func进行聚合操作，得到一个新的DstreamA.windowB.countByWindowC.reduceByWindowD.reduceByKeyAndWindow参考答案：D23. Spark中DataFrame的( )方法是查询指定字段的数据信息A.selectB.selectExprC.colD.apply参考答案：ABCD24. 计算一个算法时间复杂度通常可以计算循环次数、基本操作的频率或计算步。( )A.错误B.正确参考答案：B25. 以下哪个方法可以创建RDD( )A.parallelizeB.makeRDDC.textFileD.loadFile参考答案：ABC26. S

7、cala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括面向对象编程的特性。( )A.正确B.错误参考答案：B27. 居民通过健康云平台中的数据，了解健康情况，防患于未然; 医疗机构通过对远程监控系统中的数据分析，缩短住院时间，提高家庭护理比例和门诊医生预约量。( )A.对B.错参考答案：A28. 对于不同顶点之间的信息交换，Pregel采用了( )A.远程数据读取B.共享内存C.纯消息传递模型D.共享消息参考答案：C29. RDD的sortBy函数包含参数numPartitions，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相

8、等，即为this.partitions.size。( )T.对F.错参考答案：T30. Spark Streaming中时间片也可称为批处理时间间隔(batch interval)，时间片是人为地对数据进行定量的标准，作为拆分数据的依据，一个时间片的数据对应一个RDD实例。( )A.正确B.错误参考答案：A31. MapReduce中Client会跟踪任务的执行进度、资源使用量等信息。( )A.正确B.错误参考答案：B32. NoSQL数据库与关系数据库相比适用于哪些领域( )A.电信B.银行C.互联网企业大数据处理D.传统企业的数据分析参考答案：CD33. 应用于分布式数据存储与管理数据在地

9、理上分布于多个数据中心的应用程序的数据库是哪种( )A.列族数据库B.键值数据库C.图数据库D.文档数据库参考答案：A34. 程序是算法用某种程序设计语言的具体实现。( )A.错误B.正确参考答案：B35. Spark可以从( )分布式文件系统中读取数据A.HDFSB.HbaseC.HiveD.Tachyon参考答案：ABCD36. 早期对于流计算的研究多数是基于对传统数据库处理的流式化，即实时数据库，很少研究流计算框架。( )A.正确B.错误参考答案：A37. 以下哪个函数可以对RDD进行去重( )A.sortByB.filterC.distinctD.intersection参考答案：C3

10、8. 数据采集，又称数据获取，是大数据生命周期的第一个环节，通过RFID.射频识别技术，传感器，交互型社交网络，移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。( )A.对B.错参考答案：A39. Scala列表方法中丢弃前n个元素，并返回新列表的方法是( )A.dropB.headC.filterD.init参考答案：A40. Spark Streming中( )函数可以使用func将源DStream中的每个元素进行聚合操作，返回一个内部所包含的RDD只有一个元素的新DStreamA.unionB.reduceC.joinD.cogroup参考答案：B41. Spark

11、 SQL可以通过( )方法加载json文件为DataFrameA.formatB.jsonC.getD.read参考答案：AB42. Mllib中metrics.roc表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：D43. MapReduce中( )会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker 发送过来的命令并执行相应的操作。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案：D44. Scala 使用( )关键字来继承一个类A.extendsB.overrid

12、eC.extendD.overrides参考答案：A45. 图结构中如果任意两个顶点之间都存在有向边，那么称之为( )A.完全图B.有向完全图C.无向图D.简单图参考答案：B46. Spark中DataFrame的( )方法是进行分组查询A.order byB.group byC.select byD.sort by参考答案：B47. 利用概率的性质计算近似值的随机算法是数值概率算法，运行时以一定的概率得到正确解的随机算法是蒙特卡罗算法。( )A.错误B.正确参考答案：B48. 以下哪种数据库适合于批量数据处理和即席查询( )A.MySQLB.OracleC.HbaseD.NosSQL参考答案

13、：C49. 关于Map端Shuffle过程中的合并与归并，说法正确的是( )。A.两个键值对和，如果合并，会得到B.合并不会改变最终结果C.两个键值对和，如果归并，会得到D.两个键值对和，如果归并，会得到参考答案：ABD50. MspReduce中的Map和Reduce函数使用( )进行输入输出。A.key/value对B.随机数值C.其他计算结果参考答案：A51. MLlib中用于线性回归算法的包主要有( )A.LinearRegressionWithSGDB.RidgeRegressionWithSGDC.LassoWithSGDD.LeftRegression参考答案：ABC52. RDD中的collect 函数是一个行动操作，把RDD 所有元素转换成数组并返回到Driver 端，适用于大数据处理后的返回。( )T.对F.错参考答案：F53. Hadoop在配置伪分布式时需要修改哪几个配置文件( )。A.hbase-site.xmlB.hdfs-site.xmlC.core-site.xmlD.map-site.

展开阅读全文