南开大学21秋《大数据开发技术》复习考核试题库答案参考套卷12

上传人:re****.1 文档编号:430994871 上传时间:2023-05-07 格式:DOCX 页数:11 大小:12.83KB
返回 下载 相关 举报
南开大学21秋《大数据开发技术》复习考核试题库答案参考套卷12_第1页
第1页 / 共11页
南开大学21秋《大数据开发技术》复习考核试题库答案参考套卷12_第2页
第2页 / 共11页
南开大学21秋《大数据开发技术》复习考核试题库答案参考套卷12_第3页
第3页 / 共11页
南开大学21秋《大数据开发技术》复习考核试题库答案参考套卷12_第4页
第4页 / 共11页
南开大学21秋《大数据开发技术》复习考核试题库答案参考套卷12_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《南开大学21秋《大数据开发技术》复习考核试题库答案参考套卷12》由会员分享,可在线阅读,更多相关《南开大学21秋《大数据开发技术》复习考核试题库答案参考套卷12(11页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋大数据开发技术复习考核试题库答案参考1. Scala中数组的第一个元素索引为1。( )A.正确B.错误参考答案:B2. 备忘录方法是哪种算法的变形?( )A.分治法B.动态规划法C.贪心法D.回溯法参考答案:B3. MongoDB将数据存储为一个( )A.关系B.属性C.字段D.文档参考答案:D4. RDD的filter过滤会将返回值为true的过滤掉。( )T.对F.错参考答案:F5. 实现棋盘覆盖算法利用的算法是( )。A.分治法B.动态规划法C.贪心法D.回溯法参考答案:A6. 用户可以在Hadoop YARN上运行Spark。( )A.正确B.错误参考答案:A7. Spa

2、rk创建DataFrame对象方式有( )A.结构化数据文件B.外部数据库C.RDDD.Hive中的表参考答案:ABCD8. 数据产生方式的运营式系统阶段的数据产生方式是主动的。( )A.正确B.错误参考答案:B9. Scala函数组合器中foreach和map类似,有返回值。( )A.正确B.错误参考答案:B10. Hbase中缓存刷新,每次刷写都生成一个新的StoreFile文件,因此,每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案:A11. Mllib实现了一些常见的机器学习算法和应用程序,包括( )A.分类B.聚类C.降维D.回归参考答案:ABCD12.

3、Pig是Hadoop项目中一种数据仓库工具。( )A.正确B.错误参考答案:B13. Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply参考答案:A14. 以下算法中属于无监督学习算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案:D15. RDD的filter函数返回一个存储符合过滤条件的所有元素的新RDD。( )A.正确B.错误参考答案:A16. 程序是算法用某种程序设计语言的具体实现。( )A.错误B.正确参考答案:B17. 以下属于Hadoop的安装方式的有( )。A.单机模式B.多机模式C.分布式模

4、式D.并行模式E.伪分布式模式参考答案:ACE18. Spark中DataFrame的查询操作也是一个懒操作,仅仅生成一个查询计划,只有触发Action操作才会进行计算并返回查询结果。( )A.正确B.错误参考答案:A19. 对于不同顶点之间的信息交换,Pregel采用了( )A.远程数据读取B.共享内存C.纯消息传递模型D.共享消息参考答案:C20. 关系数据库与NoSQL数据库相比有哪些优势( )A.支持事务ACID四性B.可以支持超大规模数据存储C.以完善的关系代数理论作为基础D.具有强大的横向扩展能力参考答案:AC21. 大数据技术也能帮助政府进行支出管理,透明合理的财政支出将有利于提

5、高公信力和监督财政支出。( )A.对B.错参考答案:A22. UMP系通过( )来实现实现数据路由的基本功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:B23. 下面是贪心算法的基本要素的是( )。A.重叠子问题B.构造最优解C.贪心选择性质D.定义最优解参考答案:C24. 用分支限界法设计算法的第二步是( )。A.针对所给问题,定义问题的解空间(对解进行编码)B.确定易于搜索的解空间结构(按树或图组织解)C.以广度优先或以最小耗费(最大收益)优先的方式搜索解空间D.在搜索过程中用剪枝函数避免无效搜索参考答案:B25. Storm中如果要让每一个

6、Task都会收到所有的Tuple,应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案:B26. 分治法的基本思想时将一个规模为n的问题分解为k个规模较小的子问题,这些子问题互相独立且与原问题相同。递归地解这些子问题,然后将各个子问题的解合并得到原问题的解。( )A.错误B.正确参考答案:B27. HDFS读数据过程中( )具体实现了FileSystemA.DistributedFileSystemB.GFSSystemC.FileSystemD.HDFSSyst

7、em参考答案:A28. 关联分析又称为关联规则学习。( )A.对B.错参考答案:A29. 可视化工具包括( )。A.ExcelB.Google ChartC.GephiD.ppt参考答案:ABC30. 数据归约(Data Reduction)主要有( )。A.维度规约B.样本规约C.数据聚集D.离散化概念分层参考答案:ABCD31. Mllib中metrics.fMeasureByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:C32. SparkContext类中makeRDD方法不可将单机数据创建为分布式RDD。( )A.正确B.错误参考答案:B33.

8、在图结构中,每个元素都可以有( )前驱A.至少一个B.零个或多个C.一个D.零个参考答案:B34. 利用概率的性质计算近似值的随机算法是数值概率算法,运行时以一定的概率得到正确解的随机算法是蒙特卡罗算法。( )A.错误B.正确参考答案:B35. 关于Map端Shuffle过程中的合并与归并,说法正确的是( )。A.两个键值对和,如果合并,会得到B.合并不会改变最终结果C.两个键值对和,如果归并,会得到D.两个键值对和,如果归并,会得到参考答案:ABD36. 下列算法中通常以自底向上的方式求解最优解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案:B37. Hadoop在配置伪

9、分布式时需要修改哪几个配置文件( )。A.hbase-site.xmlB.hdfs-site.xmlC.core-site.xmlD.map-site.xmlE.mapr-site.xml参考答案:BC38. Dstream输出操作中( )方法在Driver中打印出DStream中数据的前12个元素。A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案:C39. UMP系统的哪个功能实现了负载均衡( )A.读写分离B.资源隔离C.资源调度D.可扩展参考答案:A40. Yahoo! S4和Twitter Storm开

10、发实时应用时既要关注处理逻辑,还要解决实时数据获取、传输、存储。( )A.正确B.错误参考答案:B41. 数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID.射频识别技术,传感器,交互型社交网络,移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。( )A.对B.错参考答案:A42. var a=10; do a+=1; while(a20) 共循环了( )次A.9B.10C.11D.12参考答案:B43. 以下哪个函数可以对RDD进行去重( )A.sortByB.filterC.distinctD.intersection参考答案:C44. Spark Da

11、taFrame中( )方法可以返回一个Array对象A.collectB.takeC.takeAsListD.collectAsList参考答案:AB45. Scala函数组合器中filter过滤移除使得传入的函数的返回值为true的元素。( )A.正确B.错误参考答案:B46. 以下是机器学习的常用算法的是( )A.回归算法B.聚类算法C.降维算法D.分类算法参考答案:ABCD47. RDD的行动操作通过某种函数将一个RDD转换为一个新的RDD,但是转换操作是懒操作,不会立刻执行计算。( )A.正确B.错误参考答案:B48. Scala在子类中重写超类的抽象方法时,需要使用override关键字。( )T.对F.错参考答案:F49. Spark的RDD持久化操作有( )方式A.cacheB.presistC.storageD.long参考答案:AB50. Spark中DataFrame的( )方法是进行连接查询A.whereB.joinC.limitD.apply参考答案:B

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号