南开大学21秋《大数据开发技术》复习考核试题库答案参考套卷12

资源描述

《南开大学21秋《大数据开发技术》复习考核试题库答案参考套卷12》由会员分享，可在线阅读，更多相关《南开大学21秋《大数据开发技术》复习考核试题库答案参考套卷12（11页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋大数据开发技术复习考核试题库答案参考1. Scala中数组的第一个元素索引为1。( )A.正确B.错误参考答案：B2. 备忘录方法是哪种算法的变形?( )A.分治法B.动态规划法C.贪心法D.回溯法参考答案：B3. MongoDB将数据存储为一个( )A.关系B.属性C.字段D.文档参考答案：D4. RDD的filter过滤会将返回值为true的过滤掉。( )T.对F.错参考答案：F5. 实现棋盘覆盖算法利用的算法是( )。A.分治法B.动态规划法C.贪心法D.回溯法参考答案：A6. 用户可以在Hadoop YARN上运行Spark。( )A.正确B.错误参考答案：A7. Spa

2、rk创建DataFrame对象方式有( )A.结构化数据文件B.外部数据库C.RDDD.Hive中的表参考答案：ABCD8. 数据产生方式的运营式系统阶段的数据产生方式是主动的。( )A.正确B.错误参考答案：B9. Scala函数组合器中foreach和map类似，有返回值。( )A.正确B.错误参考答案：B10. Hbase中缓存刷新，每次刷写都生成一个新的StoreFile文件，因此，每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案：A11. Mllib实现了一些常见的机器学习算法和应用程序，包括( )A.分类B.聚类C.降维D.回归参考答案：ABCD12.

3、Pig是Hadoop项目中一种数据仓库工具。( )A.正确B.错误参考答案：B13. Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply参考答案：A14. 以下算法中属于无监督学习算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案：D15. RDD的filter函数返回一个存储符合过滤条件的所有元素的新RDD。( )A.正确B.错误参考答案：A16. 程序是算法用某种程序设计语言的具体实现。( )A.错误B.正确参考答案：B17. 以下属于Hadoop的安装方式的有( )。A.单机模式B.多机模式C.分布式模

4、式D.并行模式E.伪分布式模式参考答案：ACE18. Spark中DataFrame的查询操作也是一个懒操作，仅仅生成一个查询计划，只有触发Action操作才会进行计算并返回查询结果。( )A.正确B.错误参考答案：A19. 对于不同顶点之间的信息交换，Pregel采用了( )A.远程数据读取B.共享内存C.纯消息传递模型D.共享消息参考答案：C20. 关系数据库与NoSQL数据库相比有哪些优势( )A.支持事务ACID四性B.可以支持超大规模数据存储C.以完善的关系代数理论作为基础D.具有强大的横向扩展能力参考答案：AC21. 大数据技术也能帮助政府进行支出管理，透明合理的财政支出将有利于提

5、高公信力和监督财政支出。( )A.对B.错参考答案：A22. UMP系通过( )来实现实现数据路由的基本功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案：B23. 下面是贪心算法的基本要素的是( )。A.重叠子问题B.构造最优解C.贪心选择性质D.定义最优解参考答案：C24. 用分支限界法设计算法的第二步是( )。A.针对所给问题，定义问题的解空间(对解进行编码)B.确定易于搜索的解空间结构(按树或图组织解)C.以广度优先或以最小耗费(最大收益)优先的方式搜索解空间D.在搜索过程中用剪枝函数避免无效搜索参考答案：B25. Storm中如果要让每一个

6、Task都会收到所有的Tuple，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：B26. 分治法的基本思想时将一个规模为n的问题分解为k个规模较小的子问题，这些子问题互相独立且与原问题相同。递归地解这些子问题，然后将各个子问题的解合并得到原问题的解。( )A.错误B.正确参考答案：B27. HDFS读数据过程中( )具体实现了FileSystemA.DistributedFileSystemB.GFSSystemC.FileSystemD.HDFSSyst

7、em参考答案：A28. 关联分析又称为关联规则学习。( )A.对B.错参考答案：A29. 可视化工具包括( )。A.ExcelB.Google ChartC.GephiD.ppt参考答案：ABC30. 数据归约(Data Reduction)主要有( )。A.维度规约B.样本规约C.数据聚集D.离散化概念分层参考答案：ABCD31. Mllib中metrics.fMeasureByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：C32. SparkContext类中makeRDD方法不可将单机数据创建为分布式RDD。( )A.正确B.错误参考答案：B33.

8、在图结构中，每个元素都可以有( )前驱A.至少一个B.零个或多个C.一个D.零个参考答案：B34. 利用概率的性质计算近似值的随机算法是数值概率算法，运行时以一定的概率得到正确解的随机算法是蒙特卡罗算法。( )A.错误B.正确参考答案：B35. 关于Map端Shuffle过程中的合并与归并，说法正确的是( )。A.两个键值对和，如果合并，会得到B.合并不会改变最终结果C.两个键值对和，如果归并，会得到D.两个键值对和，如果归并，会得到参考答案：ABD36. 下列算法中通常以自底向上的方式求解最优解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案：B37. Hadoop在配置伪

9、分布式时需要修改哪几个配置文件( )。A.hbase-site.xmlB.hdfs-site.xmlC.core-site.xmlD.map-site.xmlE.mapr-site.xml参考答案：BC38. Dstream输出操作中( )方法在Driver中打印出DStream中数据的前12个元素。A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案：C39. UMP系统的哪个功能实现了负载均衡( )A.读写分离B.资源隔离C.资源调度D.可扩展参考答案：A40. Yahoo! S4和Twitter Storm开

10、发实时应用时既要关注处理逻辑，还要解决实时数据获取、传输、存储。( )A.正确B.错误参考答案：B41. 数据采集，又称数据获取，是大数据生命周期的第一个环节，通过RFID.射频识别技术，传感器，交互型社交网络，移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。( )A.对B.错参考答案：A42. var a=10; do a+=1; while(a20) 共循环了( )次A.9B.10C.11D.12参考答案：B43. 以下哪个函数可以对RDD进行去重( )A.sortByB.filterC.distinctD.intersection参考答案：C44. Spark Da

11、taFrame中( )方法可以返回一个Array对象A.collectB.takeC.takeAsListD.collectAsList参考答案：AB45. Scala函数组合器中filter过滤移除使得传入的函数的返回值为true的元素。( )A.正确B.错误参考答案：B46. 以下是机器学习的常用算法的是( )A.回归算法B.聚类算法C.降维算法D.分类算法参考答案：ABCD47. RDD的行动操作通过某种函数将一个RDD转换为一个新的RDD，但是转换操作是懒操作，不会立刻执行计算。( )A.正确B.错误参考答案：B48. Scala在子类中重写超类的抽象方法时，需要使用override关键字。( )T.对F.错参考答案：F49. Spark的RDD持久化操作有( )方式A.cacheB.presistC.storageD.long参考答案：AB50. Spark中DataFrame的( )方法是进行连接查询A.whereB.joinC.limitD.apply参考答案：B

展开阅读全文