南开大学21秋《大数据开发技术》复习考核试题库答案参考套卷47

资源描述

《南开大学21秋《大数据开发技术》复习考核试题库答案参考套卷47》由会员分享，可在线阅读，更多相关《南开大学21秋《大数据开发技术》复习考核试题库答案参考套卷47（11页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋大数据开发技术复习考核试题库答案参考1. Google Chart API是哪种可视化工具( )A.信息图表B.地图工具C.时间线工具D.分析工具参考答案：A2. Spark可以通过哪些外部存储创建RDD( )A.文本文件B.目录C.压缩文件D.通配符匹配的文件参考答案：ABCD3. Spark Streming中( )函数可以使用func将源DStream中的每个元素进行聚合操作，返回一个内部所包含的RDD只有一个元素的新DStreamA.unionB.reduceC.joinD.cogroup参考答案：B4. UMP系统借助于( )来实现高效和可靠的协同工作A.MnesiaB

2、.LVSC.RabbitMQD.Zookeeper参考答案：D5. RDD的intersection方法用于求出两个RDD的共同元素。( )A.正确B.错误参考答案：A6. 数据仓库、专家系统产生于大数据发展的成熟期。( )A.正确B.错误参考答案：B7. 一个问题可用动态规划算法或贪心算法求解的关键特征是问题的( )。A.重叠子问题B.最优子结构性质C.贪心选择性质D.定义最优解参考答案：B8. Pentaho是最流行的开源商业智能软件之一。( )A.对B.错参考答案：A9. 解决0/1背包问题可以使用动态规划、回溯法和分支限界法，其中不需要排序的是动态规划，需要排序的是回溯法，分支限界法。

3、( )A.错误B.正确参考答案：B10. 用户可以在Apache Mesos上运行Spark。( )T.对F.错参考答案：T11. 决策树是( )的常用算法A.分类B.聚类C.降维D.回归参考答案：AD12. Hbase采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：A13. Spark Streming中( )函数可以对源DStream的每个元素通过函数func返回一个新的DStreamA.mapB.flatMapC.filterD.union参考答案：A14. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下

4、降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：C15. 亚马逊的云服务提供了多达几十种服务，涵盖了IaaS、PaaS、SaaS这三层。( )A.正确B.错误参考答案：A16. RDD的行动操作是用于触发转换操作的操作，这个时候才会真正开始进行计算。( )A.正确B.错误参考答案：A17. 数据归约(Data Reduction)主要有( )。A.维度规约B.样本规约C.数据聚集D.离散化概念分层参考答案：ABCD18. 流计算系统的需求有( )。A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案：ACE19. 大数据处理的关键技术主要包括：数

5、据采集和预处理、数据存储、数据计算架构、数据分析和挖掘、数据可视化展示等。( )A.对B.错参考答案：A20. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案：A21. MLBase包括( )A.MllibB.MLIC.SparkRD.GraphX参考答案：AB22. Spark SQL读取的数据源支持( )A.Hive表B.Parquent文件C.JSON数据D.关系数据库参考答案：ABCD23. 分支限界法是一种只带有系统性的搜索算法。( )A.错误B.正确参考答案：A24. 在图结构中，每个元素都可以有( )前驱A.至少一个B.零个或多个C.一个

6、D.零个参考答案：B25. 关系数据库与NoSQL数据库相比适用于哪些领域( )A.电信B.银行C.互联网企业大数据处理D.传统企业的数据分析参考答案：AB26. Spark可以从( )分布式文件系统中读取数据A.HDFSB.HbaseC.HiveD.Tachyon参考答案：ABCD27. 采用贪心算法的最优装载问题的主要计算量在于将集装箱依其重量从小到大排序，故算法的时间复杂度为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案：B28. Mllib实现了一些常见的机器学习算法和应用程序，包括( )A.分类B.聚类C.降维D.回归参考答案：ABCD29. Pair

7、RDD的( )方法，可以把两个RDD中键相同的元素组合在一起，合并为一个RDD。A.joinB.unionC.substractD.intersection参考答案：A30. 哈弗曼编码的贪心算法所需的计算时间为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案：B31. Dstream输出操作中( )方法在Driver中打印出DStream中数据的前12个元素。A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案：C32. RDD的sortBy函数包含参数numPartitions，该

8、参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size。( )T.对F.错参考答案：T33. SparkContext类中makeRDD方法不可将单机数据创建为分布式RDD。( )A.正确B.错误参考答案：B34. 分支限界法与回溯法的求解目标相同。( )A.错误B.正确参考答案：A35. spark-submit配置项中( )表示Driver程序使用的内存大小A.-driver-memory MEMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-cour

9、es NUM参考答案：A36. 用分支限界法设计算法的第二步是( )。A.针对所给问题，定义问题的解空间(对解进行编码)B.确定易于搜索的解空间结构(按树或图组织解)C.以广度优先或以最小耗费(最大收益)优先的方式搜索解空间D.在搜索过程中用剪枝函数避免无效搜索参考答案：B37. 大数据的特征是( )。A.数据体量大B.数据产生速度快C.数据种类多D.数据计算快E.数据价值高参考答案：ABCE38. Scala中高阶函数可以产生新的函数，并将新的函数作为返回值。( )T.对F.错参考答案：T39. RDD的sortBy排序默认是升序。( )T.对F.错参考答案：T40. 用户可以在Hadoop

10、 YARN上运行Spark。( )T.对F.错参考答案：T41. GraphX中( )方法可以释放顶点缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案：C42. 我们既要通过政府主导，又要发挥社会的力量，来共同推进医疗大数据的应用。( )A.对B.错参考答案：A43. 使用Amazon云环境部署Hadoop的说法中错误的是( )。A.Hadoop不仅可以运行在企业内部的集群中，也可以运行在云计算环境中B.Hadoop自带有一套脚本，用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazo

11、n EC2为Hadoop提供了存储服务参考答案：D44. SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案：A45. 从分治法的一般设计模式可以看出，用它设计出的程序一般是递归算法。( )A.错误B.正确参考答案：B46. Spark中DataFrame的查询操作也是一个懒操作，仅仅生成一个查询计划，只有触发Action操作才会进行计算并返回查询结果。( )A.正确B.错误参考答案：A47. Spark Grap

12、hX中类Graph的mask方法可以( )A.反转图中所有边的方向B.按照设定条件取出子图C.取两个图的公共顶点和边作为新图，并保持前一个图顶点与边的属性D.合并边相同的属性参考答案：C48. Mllib中metrics.recallByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：B49. Spark Streaming中时间片也可称为批处理时间间隔(batch interval)，时间片是人为地对数据进行定量的标准，作为拆分数据的依据，一个时间片的数据对应一个RDD实例。( )A.正确B.错误参考答案：A50. 美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”。( )A.对B.错参考答案：A

展开阅读全文

南开大学21秋《大数据开发技术》复习考核试题库答案参考套卷47

最新文档