南开大学21秋《大数据开发技术》综合测试题库答案参考26

上传人:s9****2 文档编号:500689097 上传时间:2023-03-20 格式:DOCX 页数:13 大小:13.64KB
返回 下载 相关 举报
南开大学21秋《大数据开发技术》综合测试题库答案参考26_第1页
第1页 / 共13页
南开大学21秋《大数据开发技术》综合测试题库答案参考26_第2页
第2页 / 共13页
南开大学21秋《大数据开发技术》综合测试题库答案参考26_第3页
第3页 / 共13页
南开大学21秋《大数据开发技术》综合测试题库答案参考26_第4页
第4页 / 共13页
南开大学21秋《大数据开发技术》综合测试题库答案参考26_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《南开大学21秋《大数据开发技术》综合测试题库答案参考26》由会员分享,可在线阅读,更多相关《南开大学21秋《大数据开发技术》综合测试题库答案参考26(13页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋大数据开发技术综合测试题库答案参考1. PairRDD中( )函数可以合并具有相同键的值A.mapValuesB.groupByC.groupByKeyD.reduceByKey参考答案:A2. MapReduce将输入文件切分成M个分片,Master将其中( )个分片分给处于空闲状态的N个Worker来处理。A.MB.NC.M-1D.N-1参考答案:A3. Spark Streming中Dstream是一种抽象的离散流。( )T.对F.错参考答案:T4. Pig是Hadoop项目中一种数据仓库工具。( )A.正确B.错误参考答案:B5. Spark Streming中( )函数

2、可以对源DStream的每个元素通过函数func返回一个新的DStreamA.mapB.flatMapC.filterD.union参考答案:A6. 以下哪个是Scala的数据类型( )A.AnyB.NULLC.NothingD.AnyRef参考答案:ABCD7. Spark DataFrame中( )方法可以返回一个ListA.collectB.takeC.takeAsListD.collectAsList参考答案:CD8. 使用分治法求解不需要满足的条件是( )。A.子问题必须是一样的B.子问题不能够重复C.子问题的解可以合并D.原问题和子问题使用相同的方法解参考答案:A9. 数据产生方式

3、的运营式系统阶段的数据产生方式是主动的。( )A.正确B.错误参考答案:B10. Scala列表方法中将函数应用到列表的所有元素的方法是( )A.filterB.foreachC.mapD.mkString参考答案:B11. GraphX中( )方法可以查询边信息A.numVerticesB.numEdgesC.verticesD.edges参考答案:D12. Spark SQL读取的数据源支持( )A.Hive表B.Parquent文件C.JSON数据D.关系数据库参考答案:ABCD13. Hadoop启动所有进程的命令为( )。A.all-start.shB.all-start.exeC.

4、start-all.shD.start-all.exe参考答案:C14. 以下哪种数据库适合于批量数据处理和即席查询( )A.MySQLB.OracleC.HbaseD.NosSQL参考答案:C15. Scala中创建一个方法时经常用void表示该方法无返回值。( )T.对F.错参考答案:F16. 流计算系统的需求有( )。A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案:ACE17. HDFS中当一些数据节点不可用时,会导致一些数据块的副本数量( )冗余因子A.大于B.小于C.等于D.大于等于参考答案:B18. Storm中如果要让所有的Tuple都发送到同一个Task中,应该采用哪

5、种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案:C19. 用户可以在Hadoop YARN上运行Spark。( )T.对F.错参考答案:T20. Dstream输出操作中( )方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案:D21. 广度优先是什么的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心

6、法D.回溯法参考答案:A22. HBase的客户端并不依赖Master,而是通过( )来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小A.MasterB.RegionC.ZookeeperD.Chubby参考答案:C23. Storm框架是实时计算系统,所以不能使用数据库。( )A.正确B.错误参考答案:B24. 关系数据库与NoSQL数据库相比有哪些优势( )A.支持事务ACID四性B.可以支持超大规模数据存储C.以完善的关系代数理论作为基础D.具有强大的横向扩展能力参考答案:AC25. Scala函数组合器中groupBy是对集合中

7、的元素进行分组操作,结果得到的是一个Map。( )A.正确B.错误参考答案:A26. Spark支持使用( )语言编写应用A.ScalaB.PythonC.JavaD.R参考答案:ABCD27. RDD的sortBy排序默认是升序。( )T.对F.错参考答案:T28. RDD中join操作最后只返回两个RDD都存在的键的连接结果。( )A.正确B.错误参考答案:A29. Scala函数组合器可以对集合中的元素进行分组操作,结果得到的是一个Map的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案:C30. 从分治法的一般设计模式可以看出,用它设计出的程序一

8、般是递归算法。( )A.错误B.正确参考答案:B31. 任何可用计算机求解的问题所需的时间都与其规模无关。( )A.错误B.正确参考答案:A32. PairRDD中mapValues是针对键值对(Key,Value)类型的数据中的key和Value进行Map操作。( )T.对F.错参考答案:F33. Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是( )A.filterB.foreachC.mapD.mkString参考答案:D34. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案:A35. 分支限界法解旅行售货员问题时,活结点表的组

9、织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案:A36. Spark持久化RDD后,在再一次需要计算该RDD时将需要重新计算。( )A.正确B.错误参考答案:B37. 数据归约(Data Reduction)主要有( )。A.维度规约B.样本规约C.数据聚集D.离散化概念分层参考答案:ABCD38. 批处理系统关注( ),流处理系统关注( )。A.吞吐率,延时B.延时,吞吐率C.延时,速度D.速度,吞吐率参考答案:A39. MLlib中用于线性回归算法的包主要有( )A.LinearRegressionWithSGDB.RidgeRegressionWithSGDC.LassoWi

10、thSGDD.LeftRegression参考答案:ABC40. Python是一种面向对象的解释型计算机程序设计语言。( )A.对B.错参考答案:A41. 下列哪一种算法不是随机化算法?( )A.蒙特卡罗算法B.拉斯维加斯算法C.动态规划算法D.舍伍德算法参考答案:C42. Spark可以通过哪些外部存储创建RDD( )A.文本文件B.目录C.压缩文件D.通配符匹配的文件参考答案:ABCD43. GraphX中( )方法可以查询顶点个数A.numVerticesB.numEdgesC.verticesD.edges参考答案:A44. ( )可解决HDFS中名称节点运行期间EditLog不断变

11、大的问题A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案:B45. Scala中集合连接时如果元素有重复的就会移除重复的元素。( )A.正确B.错误参考答案:A46. UMP系统的哪个功能实现了负载均衡( )A.读写分离B.资源隔离C.资源调度D.可扩展参考答案:A47. RDD的union函数会将两个RDD元素合并成一个并且去处重复元素。( )A.正确B.错误参考答案:B48. Scala函数组合器中flatmap结合了map和flatten的功能,接收一个可以处理嵌套列表的函数,然后把返回结果连接起来。( )A.正确B.错误参考答案:A4

12、9. 大数据处理的关键技术主要包括:数据采集和预处理、数据存储、数据计算架构、数据分析和挖掘、数据可视化展示等。( )A.对B.错参考答案:A50. 计算一个算法时间复杂度通常可以计算循环次数、基本操作的频率或计算步。( )A.错误B.正确参考答案:B51. 以下哪个函数可以对RDD进行排序( )A.sortByB.filterC.distinctD.intersection参考答案:A52. RDD的行动操作通过某种函数将一个RDD转换为一个新的RDD,但是转换操作是懒操作,不会立刻执行计算。( )A.正确B.错误参考答案:B53. 以下是机器学习的常用算法的是( )A.回归算法B.聚类算法

13、C.降维算法D.分类算法参考答案:ABCD54. Scala函数组合器可以接收一个可以处理嵌套列表的函数,然后把返回结果连接起来的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案:D55. 大数据的特征是( )。A.数据体量大B.数据产生速度快C.数据种类多D.数据计算快E.数据价值高参考答案:ABCE56. Mllib中metrics.roc表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:D57. HDFS中客户端在读取到数据后,会采用( )对数据块进行校验,以确定正确性A.md5B.哈希桶C.sha1D.奇偶校验参考答案:AC58. 贪心算法的基本要素是贪心选择质和最优子结构性质。( )A.错误B.正确参考答案:B59. 在HBase中,更新操作会用最新的当前值去替换记录中原来的旧值,旧值被

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号