南开大学22春《大数据开发技术》离线作业二及答案参考24

上传人:汽*** 文档编号:500228149 上传时间:2023-07-10 格式:DOCX 页数:13 大小:14.07KB
返回 下载 相关 举报
南开大学22春《大数据开发技术》离线作业二及答案参考24_第1页
第1页 / 共13页
南开大学22春《大数据开发技术》离线作业二及答案参考24_第2页
第2页 / 共13页
南开大学22春《大数据开发技术》离线作业二及答案参考24_第3页
第3页 / 共13页
南开大学22春《大数据开发技术》离线作业二及答案参考24_第4页
第4页 / 共13页
南开大学22春《大数据开发技术》离线作业二及答案参考24_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《南开大学22春《大数据开发技术》离线作业二及答案参考24》由会员分享,可在线阅读,更多相关《南开大学22春《大数据开发技术》离线作业二及答案参考24(13页珍藏版)》请在金锄头文库上搜索。

1、南开大学22春大数据开发技术离线作业二及答案参考1. 回溯法搜索解空间树时,常用的两种剪枝函数为约束函数和限界函数。( )A.错误B.正确参考答案:B2. Hbase和传统数据库一样都是列式数据库。( )A.正确B.错误参考答案:B3. Scala函数组合器可以通过一个函数重新计算列表中所有元素,没有返回值。( )A.正确B.错误参考答案:B4. var a=10; do a+=1;while(aA.9B.10C.11D.12参考答案:B5. Scala函数组合器可以通过一个函数重新计算列表中所有元素,并且返回一个相同数目元素的新列表的方法是( )A.mapB.foreachC.flatten

2、D.flatmap参考答案:A6. Spark Streming中( )函数当被调用类型分别为(K,V)和(K,W)键值对的2个DStream时,返回类型为(K,(V,W)键值对的一个新 DStream。A.unionB.reduceC.joinD.cogroup参考答案:D7. RDD是一个可读写的数据结构。( )T.对F.错参考答案:F8. 最大效益优先是下列哪项的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案:A9. ( )是Spark的数据挖掘算法库A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案:D10. 实现合并排序利用

3、的算法是( )。A.分治策略B.动态规划法C.贪心法D.回溯法参考答案:A11. 关系数据库的关键特性包括完善的事务机制和高效的查询机制。( )A.正确B.错误参考答案:A12. 传统的数据处理流程的前提是( )。A.存储的数据是旧的B.存储的数据是实时的C.需要用户主动发出查询D.不需要用户主动发出查询参考答案:AC13. RDD的行动操作是用于触发转换操作的操作,这个时候才会真正开始进行计算。( )A.正确B.错误参考答案:A14. 算法是由若干条指令组成的有穷序列,且要满足输入、输出、确定性和有限性四条性质。( )A.错误B.正确参考答案:B15. Mllib中metrics.fMeas

4、ureByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:C16. SQL Azure体系结构层中哪层相当于网关,相当于普通Web系统的逻辑层( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:B17. 使用分治法求解不需要满足的条件是( )。A.子问题必须是一样的B.子问题不能够重复C.子问题的解可以合并D.原问题和子问题使用相同的方法解参考答案:A18. Map Task和Reduce Task均由( )启动。A.ClientB.Job TrackerC

5、.TaskD.Task Tracker参考答案:D19. 优点是性能好(高并发),灵活性高,复杂性低,数据结构灵活 提供嵌入式文档功能的数据库是( )A.列族数据库B.键值数据库C.图数据库D.文档数据库参考答案:D20. 关联分析又称为关联规则学习。( )A.对B.错参考答案:A21. MapReduce将输入文件切分成M个分片,Master将其中( )个分片分给处于空闲状态的N个Worker来处理。A.MB.NC.M-1D.N-1参考答案:A22. 可使用( ),( ),( )进行光滑。A.最大值B.箱中位数C.箱边界D.箱均值参考答案:BCD23. Strassen矩阵乘法是利用什么实现

6、的算法?( )A.分治策略B.动态规划法C.贪心法D.回溯法参考答案:A24. HBase的客户端并不依赖Master,而是通过( )来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小A.MasterB.RegionC.ZookeeperD.Chubby参考答案:C25. 回溯法是一种既带有系统性又带有跳跃性的搜索算法。( )A.错误B.正确参考答案:B26. 如果numPartitions是分区个数,那么Spark每个RDD的分区ID范围是( )A.0,numPartitionsB.0,numPartitions-1C.1,numPar

7、titions-1D.1,numPartitions参考答案:B27. Scala 集合分为可变的和不可变的集合。( )A.正确B.错误参考答案:A28. Scala列表方法中丢弃前n个元素,并返回新列表的方法是( )A.dropB.headC.filterD.init参考答案:A29. 大型图计算通常是由一个集群完成的,集群环境中执行远程数据读取会有较高的延迟。( )A.正确B.错误参考答案:A30. 递归函数意味着函数可以调用它( )A.其他函数B.主函数C.子函数D.自身参考答案:D31. Spark Streming中对DStream的任何操作都会转化成对底层RDDs的操作。( )A.

8、正确B.错误参考答案:A32. 已得到广泛应用的分布式文件系统主要包括( )。A.GFSB.MapReduceC.HbaseD.HDFS参考答案:AD33. Spark中DataFrame的( )方法是进行排序查询A.order byB.group byC.select byD.sort by参考答案:A34. Mllib中metrics.roc表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:D35. 阿里云RDS中一个实例可以创建多个数据库,在实例内数据库命名唯一,所有数据库都会共享该实例下的资源,如CPU、内存、磁盘容量等。( )A.正确B.错误参考答案:A36. Dst

9、ream输出操作中( )方法在Driver中打印出DStream中数据的前12个元素。A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案:C37. Spark DataFrame中( )方法可以返回一个Array对象A.collectB.takeC.takeAsListD.collectAsList参考答案:AB38. PairRDD中mapValues是针对键值对(Key,Value)类型的数据中的key和Value进行Map操作。( )A.正确B.错误参考答案:B39. 从分治法的一般设计模式可以看出,用它设

10、计出的程序一般是递归算法。( )A.错误B.正确参考答案:B40. Scala中集合连接时如果元素有重复的就会移除重复的元素。( )A.正确B.错误参考答案:A41. Scala函数组合器可以对集合中的元素进行分组操作,结果得到的是一个Map的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案:C42. 分布式离线分析可以实现秒级别的实时分析响应。( )A.正确B.错误参考答案:B43. Hbase中Zookeeper文件记录了( )的位置A.META.表B.-ROOT-表C.RegionD.Master参考答案:B44. Spark中DataFrame的

11、查询操作也是一个懒操作,仅仅生成一个查询计划,只有触发Action操作才会进行计算并返回查询结果。( )A.正确B.错误参考答案:A45. 以下哪个函数可以对RDD进行排序( )A.sortByB.filterC.distinctD.intersection参考答案:A46. 文件块的大小和副本个数只能由系统指定。( )A.正确B.错误参考答案:B47. 以下哪个是Scala的数据类型( )A.AnyB.NULLC.NothingD.AnyRef参考答案:ABCD48. 以下不可以使用分治法求解的是( )。A.棋盘覆盖问题B.选择问题C.归并排序D.0/1背包问题参考答案:D49. spark

12、-submit配置项中( )表示启动的executor数量A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案:A50. 分支限界法解最大团问题时,活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案:B51. Graph类中如果要根据边数据创建图,边数据需要加载为二元组,可以选择是否对边分区,应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdg

13、eED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValue,)D.GraphLoader.edgeListFile(sc,filename)参考答案:C52. 用分支限界法设计算法的第二步是( )。A.针对所给问题,定义问题的解空间(对解进行编码)B.确定易于搜索的解空间结构(按树或图组织解)C.以广度优先或以最小耗费(最大收益)优先的方式搜索解空间D.在搜索过程中用剪枝函数避免无效搜索参考答案:B53. Hbase中缓存刷新,每次刷写都生成一个新的StoreFile文件,因此,每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案:A54. UMP系通过( )来实现实现集群成员管理、元数据存储、MySQL实例管理、故障恢复、备份、迁移、扩容等功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号