南开大学21春《大数据开发技术》在线作业二满分答案_24

资源描述

《南开大学21春《大数据开发技术》在线作业二满分答案_24》由会员分享，可在线阅读，更多相关《南开大学21春《大数据开发技术》在线作业二满分答案_24（13页珍藏版）》请在金锄头文库上搜索。

1、南开大学21春大数据开发技术在线作业二满分答案1. MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法( )训练回归树A.trainClassifierB.trainRegressorC.LogisticRegressionModelD.LabeledPoint参考答案：B2. UMP系统借助于( )来实现高效和可靠的协同工作A.MnesiaB.LVSC.RabbitMQD.Zookeeper参考答案：D3. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案：A4. 请问RDD的( )操作用于将相同键的数据聚合A.joi

2、nB.zipC.combineByKeyD.collect参考答案：C5. Dstream输出操作中( )方法在Driver中打印出DStream中数据的前12个元素。A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案：C6. 快速排序算法的性能取决于划分的对称性。( )A.错误B.正确参考答案：B7. 以下哪些是数据可视化时间线工具( )A.EchartsB.TimetoastC.XtimelineD.R参考答案：BC8. 用户可以在Apache Mesos上运行Spark。( )T.对F.错参考答案：T9.

3、Map Task和Reduce Task均由( )启动。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案：D10. 大数据时代预测人类移动行为的数据来源有( )。A.志愿者定位数据B.装有导航设备的出租车轨迹数据C.手机终端定位于通讯记录D.社会网络签到数据参考答案：ABCD11. MapReduce设计的一个理念就是( )，因为移动数据需要大量的网络传输开销。A.数据向计算靠拢B.计算向数据靠拢C.计算向网络靠拢D.计算与数据并行参考答案：B12. 非结构化数据是指非纯文本类数据，没有标准格式，无法直接解析出相应的值。( )A.对B.错参考答案：A1

4、3. 图的结构通常表示为：G(V，E)，其中，E是图G中( )A.顶点B.顶点的集合C.边D.边的集合参考答案：D14. Scala列表中last返回一个列表，包含除了第一个元素之外的其他元素。( )A.正确B.错误参考答案：B15. Storm中Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作。( )A.正确B.错误参考答案：A16. UMP系统中面对多个小规模用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案：A17. NAS是一种采用直接与网络介质相连的特殊设备实现

5、数据存储的模式。( )A.对B.错参考答案：A18. Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括面向对象编程的特性。( )A.正确B.错误参考答案：B19. Spark SQL可以通过( )方法加载json文件为DataFrameA.formatB.jsonC.getD.read参考答案：AB20. 大数据技术也能帮助政府进行支出管理，透明合理的财政支出将有利于提高公信力和监督财政支出。( )A.对B.错参考答案：A21. 以下哪个是Scala的数据类型( )A.AnyB.NULLC.NothingD.AnyRef参考答案：ABCD22. S

6、cala 集合分为可变的和不可变的集合。( )T.对F.错参考答案：T23. UMP系通过( )来实现实现集群成员管理、元数据存储、MySQL实例管理、故障恢复、备份、迁移、扩容等功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案：A24. 在HBase中，更新操作会用最新的当前值去替换记录中原来的旧值，旧值被覆盖后就不会存在。( )A.正确B.错误参考答案：B25. 大数据智能感知层：主要包括( )及软硬件资源接入系统。A.数据传感体系B.网络通信体系C.传感适配体系D.智能识别体系参考答案：ABCD26. 最大效益优先是下列哪项的一种搜索方式?(

7、 )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案：A27. 以下不可以使用分治法求解的是( )。A.棋盘覆盖问题B.选择问题C.归并排序D.0/1背包问题参考答案：D28. SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案：A29. 回溯法搜索解空间树时，常用的两种剪枝函数为约束函数和限界函数。( )A.错误B.正确参考答案：B30. Spark中DataFrame的( )方法是进行分组查询A.ord

8、er byB.group byC.select byD.sort by参考答案：B31. Scala中数组的第一个元素索引为1。( )A.正确B.错误参考答案：B32. Spark SQL读取的数据源支持( )A.Hive表B.Parquent文件C.JSON数据D.关系数据库参考答案：ABCD33. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：B34. HDFS中SecondaryNameNode可减少( )重启的时间A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案：A35. 大型

9、图计算通常是由一个集群完成的，集群环境中执行远程数据读取会有较高的延迟。( )A.正确B.错误参考答案：A36. Spark Streaming中时间片也可称为批处理时间间隔(batch interval)，时间片是人为地对数据进行定量的标准，作为拆分数据的依据，一个时间片的数据对应一个RDD实例。( )A.正确B.错误参考答案：A37. UMP系通过( )来实现实现数据路由的基本功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案：B38. Spark是一个( )计算框架A.快速B.分布式C.可扩展D.容错参考答案：ABCD39. 以下哪个函数可以求

10、两个RDD的笛卡尔积( )A.unionB.substractC.intersectionD.cartesian参考答案：D40. 广度优先是什么的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案：A41. Hbase中Zookeeper提供了( )A.分布式同步B.组服务C.域名服务D.配置维护参考答案：ABCD42. 静态数据采取( )计算模式A.批量B.实时C.大数据D.动态参考答案：A43. Hbase中Region服务器的系统会周期性地把MemStore缓存里的内容刷写到磁盘的StoreFile文件中，清空缓存，并在Hlog里面写入一个标记。( )A.正确

11、B.错误参考答案：A44. Scala中元组是是一种可迭代的键值对(key/value)结构。( )A.正确B.错误参考答案：B45. GraphX中( )方法可以查询顶点个数A.numVerticesB.numEdgesC.verticesD.edges参考答案：A46. RDD的intersection方法用于求出两个RDD的共同元素。( )A.正确B.错误参考答案：A47. Scala函数组合器可以接收一个可以处理嵌套列表的函数，然后把返回结果连接起来的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案：D48. Spark持久化RDD后，在再一次需要计

12、算该RDD时将需要重新计算。( )A.正确B.错误参考答案：B49. RDD中join操作最后只返回两个RDD都存在的键的连接结果。( )A.正确B.错误参考答案：A50. Spark Streming中DStream可以通过外部数据源(Kafka，Flume，Twitter等)来获取，也可以通过现有DStream的高级操作(Transformation操作)获得。( )A.正确B.错误参考答案：A51. MapReduce将输入文件切分成M个分片，Master将其中( )个分片分给处于空闲状态的N个Worker来处理。A.MB.NC.M-1D.N-1参考答案：A52. GraphX中( )方

13、法可以释放顶点缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案：C53. 下面哪种函数是回溯法中为避免无效搜索采取的策略?( )A.递归函数B.剪枝函数C.随机数函数D.搜索函数参考答案：B54. Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply参考答案：A55. Hbase中缓存刷新，每次刷写都生成一个新的StoreFile文件，因此，每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案：A56. 早期对于流计算的研究多数是基于对传统数据库处理的流式化，即实时数据库，很少研究流计算框架。( )A.正确B.错误参考答案：A57. Graph类中如果要根据边数据创建图，边数据需要加载为二元组，可以选择是否对边分区，应该用( )方法A.Graph(vertices,edges,

展开阅读全文