南开大学21秋《大数据开发技术》综合测试题库答案参考26

资源描述

《南开大学21秋《大数据开发技术》综合测试题库答案参考26》由会员分享，可在线阅读，更多相关《南开大学21秋《大数据开发技术》综合测试题库答案参考26（13页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋大数据开发技术综合测试题库答案参考1. PairRDD中( )函数可以合并具有相同键的值A.mapValuesB.groupByC.groupByKeyD.reduceByKey参考答案：A2. MapReduce将输入文件切分成M个分片，Master将其中( )个分片分给处于空闲状态的N个Worker来处理。A.MB.NC.M-1D.N-1参考答案：A3. Spark Streming中Dstream是一种抽象的离散流。( )T.对F.错参考答案：T4. Pig是Hadoop项目中一种数据仓库工具。( )A.正确B.错误参考答案：B5. Spark Streming中( )函数

2、可以对源DStream的每个元素通过函数func返回一个新的DStreamA.mapB.flatMapC.filterD.union参考答案：A6. 以下哪个是Scala的数据类型( )A.AnyB.NULLC.NothingD.AnyRef参考答案：ABCD7. Spark DataFrame中( )方法可以返回一个ListA.collectB.takeC.takeAsListD.collectAsList参考答案：CD8. 使用分治法求解不需要满足的条件是( )。A.子问题必须是一样的B.子问题不能够重复C.子问题的解可以合并D.原问题和子问题使用相同的方法解参考答案：A9. 数据产生方式

3、的运营式系统阶段的数据产生方式是主动的。( )A.正确B.错误参考答案：B10. Scala列表方法中将函数应用到列表的所有元素的方法是( )A.filterB.foreachC.mapD.mkString参考答案：B11. GraphX中( )方法可以查询边信息A.numVerticesB.numEdgesC.verticesD.edges参考答案：D12. Spark SQL读取的数据源支持( )A.Hive表B.Parquent文件C.JSON数据D.关系数据库参考答案：ABCD13. Hadoop启动所有进程的命令为( )。A.all-start.shB.all-start.exeC.

4、start-all.shD.start-all.exe参考答案：C14. 以下哪种数据库适合于批量数据处理和即席查询( )A.MySQLB.OracleC.HbaseD.NosSQL参考答案：C15. Scala中创建一个方法时经常用void表示该方法无返回值。( )T.对F.错参考答案：F16. 流计算系统的需求有( )。A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案：ACE17. HDFS中当一些数据节点不可用时，会导致一些数据块的副本数量( )冗余因子A.大于B.小于C.等于D.大于等于参考答案：B18. Storm中如果要让所有的Tuple都发送到同一个Task中，应该采用哪

5、种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：C19. 用户可以在Hadoop YARN上运行Spark。( )T.对F.错参考答案：T20. Dstream输出操作中( )方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案：D21. 广度优先是什么的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心

6、法D.回溯法参考答案：A22. HBase的客户端并不依赖Master，而是通过( )来获得Region位置信息，大多数客户端甚至从来不和Master通信，这种设计方式使得Master负载很小A.MasterB.RegionC.ZookeeperD.Chubby参考答案：C23. Storm框架是实时计算系统，所以不能使用数据库。( )A.正确B.错误参考答案：B24. 关系数据库与NoSQL数据库相比有哪些优势( )A.支持事务ACID四性B.可以支持超大规模数据存储C.以完善的关系代数理论作为基础D.具有强大的横向扩展能力参考答案：AC25. Scala函数组合器中groupBy是对集合中

7、的元素进行分组操作，结果得到的是一个Map。( )A.正确B.错误参考答案：A26. Spark支持使用( )语言编写应用A.ScalaB.PythonC.JavaD.R参考答案：ABCD27. RDD的sortBy排序默认是升序。( )T.对F.错参考答案：T28. RDD中join操作最后只返回两个RDD都存在的键的连接结果。( )A.正确B.错误参考答案：A29. Scala函数组合器可以对集合中的元素进行分组操作，结果得到的是一个Map的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案：C30. 从分治法的一般设计模式可以看出，用它设计出的程序一

8、般是递归算法。( )A.错误B.正确参考答案：B31. 任何可用计算机求解的问题所需的时间都与其规模无关。( )A.错误B.正确参考答案：A32. PairRDD中mapValues是针对键值对(Key，Value)类型的数据中的key和Value进行Map操作。( )T.对F.错参考答案：F33. Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是( )A.filterB.foreachC.mapD.mkString参考答案：D34. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案：A35. 分支限界法解旅行售货员问题时，活结点表的组

9、织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案：A36. Spark持久化RDD后，在再一次需要计算该RDD时将需要重新计算。( )A.正确B.错误参考答案：B37. 数据归约(Data Reduction)主要有( )。A.维度规约B.样本规约C.数据聚集D.离散化概念分层参考答案：ABCD38. 批处理系统关注( )，流处理系统关注( )。A.吞吐率，延时B.延时，吞吐率C.延时，速度D.速度，吞吐率参考答案：A39. MLlib中用于线性回归算法的包主要有( )A.LinearRegressionWithSGDB.RidgeRegressionWithSGDC.LassoWi

10、thSGDD.LeftRegression参考答案：ABC40. Python是一种面向对象的解释型计算机程序设计语言。( )A.对B.错参考答案：A41. 下列哪一种算法不是随机化算法?( )A.蒙特卡罗算法B.拉斯维加斯算法C.动态规划算法D.舍伍德算法参考答案：C42. Spark可以通过哪些外部存储创建RDD( )A.文本文件B.目录C.压缩文件D.通配符匹配的文件参考答案：ABCD43. GraphX中( )方法可以查询顶点个数A.numVerticesB.numEdgesC.verticesD.edges参考答案：A44. ( )可解决HDFS中名称节点运行期间EditLog不断变

11、大的问题A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案：B45. Scala中集合连接时如果元素有重复的就会移除重复的元素。( )A.正确B.错误参考答案：A46. UMP系统的哪个功能实现了负载均衡( )A.读写分离B.资源隔离C.资源调度D.可扩展参考答案：A47. RDD的union函数会将两个RDD元素合并成一个并且去处重复元素。( )A.正确B.错误参考答案：B48. Scala函数组合器中flatmap结合了map和flatten的功能，接收一个可以处理嵌套列表的函数，然后把返回结果连接起来。( )A.正确B.错误参考答案：A4

12、9. 大数据处理的关键技术主要包括：数据采集和预处理、数据存储、数据计算架构、数据分析和挖掘、数据可视化展示等。( )A.对B.错参考答案：A50. 计算一个算法时间复杂度通常可以计算循环次数、基本操作的频率或计算步。( )A.错误B.正确参考答案：B51. 以下哪个函数可以对RDD进行排序( )A.sortByB.filterC.distinctD.intersection参考答案：A52. RDD的行动操作通过某种函数将一个RDD转换为一个新的RDD，但是转换操作是懒操作，不会立刻执行计算。( )A.正确B.错误参考答案：B53. 以下是机器学习的常用算法的是( )A.回归算法B.聚类算法

13、C.降维算法D.分类算法参考答案：ABCD54. Scala函数组合器可以接收一个可以处理嵌套列表的函数，然后把返回结果连接起来的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案：D55. 大数据的特征是( )。A.数据体量大B.数据产生速度快C.数据种类多D.数据计算快E.数据价值高参考答案：ABCE56. Mllib中metrics.roc表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：D57. HDFS中客户端在读取到数据后，会采用( )对数据块进行校验，以确定正确性A.md5B.哈希桶C.sha1D.奇偶校验参考答案：AC58. 贪心算法的基本要素是贪心选择质和最优子结构性质。( )A.错误B.正确参考答案：B59. 在HBase中，更新操作会用最新的当前值去替换记录中原来的旧值，旧值被

展开阅读全文