南开大学22春《大数据开发技术》离线作业二及答案参考24

资源描述

《南开大学22春《大数据开发技术》离线作业二及答案参考24》由会员分享，可在线阅读，更多相关《南开大学22春《大数据开发技术》离线作业二及答案参考24（13页珍藏版）》请在金锄头文库上搜索。

1、南开大学22春大数据开发技术离线作业二及答案参考1. 回溯法搜索解空间树时，常用的两种剪枝函数为约束函数和限界函数。( )A.错误B.正确参考答案：B2. Hbase和传统数据库一样都是列式数据库。( )A.正确B.错误参考答案：B3. Scala函数组合器可以通过一个函数重新计算列表中所有元素，没有返回值。( )A.正确B.错误参考答案：B4. var a=10; do a+=1;while(aA.9B.10C.11D.12参考答案：B5. Scala函数组合器可以通过一个函数重新计算列表中所有元素，并且返回一个相同数目元素的新列表的方法是( )A.mapB.foreachC.flatten

2、D.flatmap参考答案：A6. Spark Streming中( )函数当被调用类型分别为(K，V)和(K，W)键值对的2个DStream时，返回类型为(K，(V，W)键值对的一个新 DStream。A.unionB.reduceC.joinD.cogroup参考答案：D7. RDD是一个可读写的数据结构。( )T.对F.错参考答案：F8. 最大效益优先是下列哪项的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案：A9. ( )是Spark的数据挖掘算法库A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案：D10. 实现合并排序利用

3、的算法是( )。A.分治策略B.动态规划法C.贪心法D.回溯法参考答案：A11. 关系数据库的关键特性包括完善的事务机制和高效的查询机制。( )A.正确B.错误参考答案：A12. 传统的数据处理流程的前提是( )。A.存储的数据是旧的B.存储的数据是实时的C.需要用户主动发出查询D.不需要用户主动发出查询参考答案：AC13. RDD的行动操作是用于触发转换操作的操作，这个时候才会真正开始进行计算。( )A.正确B.错误参考答案：A14. 算法是由若干条指令组成的有穷序列，且要满足输入、输出、确定性和有限性四条性质。( )A.错误B.正确参考答案：B15. Mllib中metrics.fMeas

4、ureByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：C16. SQL Azure体系结构层中哪层相当于网关，相当于普通Web系统的逻辑层( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案：B17. 使用分治法求解不需要满足的条件是( )。A.子问题必须是一样的B.子问题不能够重复C.子问题的解可以合并D.原问题和子问题使用相同的方法解参考答案：A18. Map Task和Reduce Task均由( )启动。A.ClientB.Job TrackerC

5、.TaskD.Task Tracker参考答案：D19. 优点是性能好(高并发)，灵活性高，复杂性低，数据结构灵活提供嵌入式文档功能的数据库是( )A.列族数据库B.键值数据库C.图数据库D.文档数据库参考答案：D20. 关联分析又称为关联规则学习。( )A.对B.错参考答案：A21. MapReduce将输入文件切分成M个分片，Master将其中( )个分片分给处于空闲状态的N个Worker来处理。A.MB.NC.M-1D.N-1参考答案：A22. 可使用( )，( )，( )进行光滑。A.最大值B.箱中位数C.箱边界D.箱均值参考答案：BCD23. Strassen矩阵乘法是利用什么实现

6、的算法?( )A.分治策略B.动态规划法C.贪心法D.回溯法参考答案：A24. HBase的客户端并不依赖Master，而是通过( )来获得Region位置信息，大多数客户端甚至从来不和Master通信，这种设计方式使得Master负载很小A.MasterB.RegionC.ZookeeperD.Chubby参考答案：C25. 回溯法是一种既带有系统性又带有跳跃性的搜索算法。( )A.错误B.正确参考答案：B26. 如果numPartitions是分区个数，那么Spark每个RDD的分区ID范围是( )A.0，numPartitionsB.0，numPartitions-1C.1，numPar

7、titions-1D.1，numPartitions参考答案：B27. Scala 集合分为可变的和不可变的集合。( )A.正确B.错误参考答案：A28. Scala列表方法中丢弃前n个元素，并返回新列表的方法是( )A.dropB.headC.filterD.init参考答案：A29. 大型图计算通常是由一个集群完成的，集群环境中执行远程数据读取会有较高的延迟。( )A.正确B.错误参考答案：A30. 递归函数意味着函数可以调用它( )A.其他函数B.主函数C.子函数D.自身参考答案：D31. Spark Streming中对DStream的任何操作都会转化成对底层RDDs的操作。( )A.

8、正确B.错误参考答案：A32. 已得到广泛应用的分布式文件系统主要包括( )。A.GFSB.MapReduceC.HbaseD.HDFS参考答案：AD33. Spark中DataFrame的( )方法是进行排序查询A.order byB.group byC.select byD.sort by参考答案：A34. Mllib中metrics.roc表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：D35. 阿里云RDS中一个实例可以创建多个数据库，在实例内数据库命名唯一，所有数据库都会共享该实例下的资源，如CPU、内存、磁盘容量等。( )A.正确B.错误参考答案：A36. Dst

9、ream输出操作中( )方法在Driver中打印出DStream中数据的前12个元素。A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案：C37. Spark DataFrame中( )方法可以返回一个Array对象A.collectB.takeC.takeAsListD.collectAsList参考答案：AB38. PairRDD中mapValues是针对键值对(Key，Value)类型的数据中的key和Value进行Map操作。( )A.正确B.错误参考答案：B39. 从分治法的一般设计模式可以看出，用它设

10、计出的程序一般是递归算法。( )A.错误B.正确参考答案：B40. Scala中集合连接时如果元素有重复的就会移除重复的元素。( )A.正确B.错误参考答案：A41. Scala函数组合器可以对集合中的元素进行分组操作，结果得到的是一个Map的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案：C42. 分布式离线分析可以实现秒级别的实时分析响应。( )A.正确B.错误参考答案：B43. Hbase中Zookeeper文件记录了( )的位置A.META.表B.-ROOT-表C.RegionD.Master参考答案：B44. Spark中DataFrame的

11、查询操作也是一个懒操作，仅仅生成一个查询计划，只有触发Action操作才会进行计算并返回查询结果。( )A.正确B.错误参考答案：A45. 以下哪个函数可以对RDD进行排序( )A.sortByB.filterC.distinctD.intersection参考答案：A46. 文件块的大小和副本个数只能由系统指定。( )A.正确B.错误参考答案：B47. 以下哪个是Scala的数据类型( )A.AnyB.NULLC.NothingD.AnyRef参考答案：ABCD48. 以下不可以使用分治法求解的是( )。A.棋盘覆盖问题B.选择问题C.归并排序D.0/1背包问题参考答案：D49. spark

12、-submit配置项中( )表示启动的executor数量A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案：A50. 分支限界法解最大团问题时，活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案：B51. Graph类中如果要根据边数据创建图，边数据需要加载为二元组，可以选择是否对边分区，应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdg

13、eED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValue,)D.GraphLoader.edgeListFile(sc,filename)参考答案：C52. 用分支限界法设计算法的第二步是( )。A.针对所给问题，定义问题的解空间(对解进行编码)B.确定易于搜索的解空间结构(按树或图组织解)C.以广度优先或以最小耗费(最大收益)优先的方式搜索解空间D.在搜索过程中用剪枝函数避免无效搜索参考答案：B53. Hbase中缓存刷新，每次刷写都生成一个新的StoreFile文件，因此，每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案：A54. UMP系通过( )来实现实现集群成员管理、元数据存储、MySQL实例管理、故障恢复、备份、迁移、扩容等功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服

展开阅读全文