南开大学21春《大数据开发技术》在线作业二满分答案_24

上传人:公**** 文档编号:486366727 上传时间:2023-07-14 格式:DOCX 页数:13 大小:14.08KB
返回 下载 相关 举报
南开大学21春《大数据开发技术》在线作业二满分答案_24_第1页
第1页 / 共13页
南开大学21春《大数据开发技术》在线作业二满分答案_24_第2页
第2页 / 共13页
南开大学21春《大数据开发技术》在线作业二满分答案_24_第3页
第3页 / 共13页
南开大学21春《大数据开发技术》在线作业二满分答案_24_第4页
第4页 / 共13页
南开大学21春《大数据开发技术》在线作业二满分答案_24_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《南开大学21春《大数据开发技术》在线作业二满分答案_24》由会员分享,可在线阅读,更多相关《南开大学21春《大数据开发技术》在线作业二满分答案_24(13页珍藏版)》请在金锄头文库上搜索。

1、南开大学21春大数据开发技术在线作业二满分答案1. MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法( )训练回归树A.trainClassifierB.trainRegressorC.LogisticRegressionModelD.LabeledPoint参考答案:B2. UMP系统借助于( )来实现高效和可靠的协同工作A.MnesiaB.LVSC.RabbitMQD.Zookeeper参考答案:D3. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案:A4. 请问RDD的( )操作用于将相同键的数据聚合A.joi

2、nB.zipC.combineByKeyD.collect参考答案:C5. Dstream输出操作中( )方法在Driver中打印出DStream中数据的前12个元素。A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案:C6. 快速排序算法的性能取决于划分的对称性。( )A.错误B.正确参考答案:B7. 以下哪些是数据可视化时间线工具( )A.EchartsB.TimetoastC.XtimelineD.R参考答案:BC8. 用户可以在Apache Mesos上运行Spark。( )T.对F.错参考答案:T9.

3、Map Task和Reduce Task均由( )启动。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案:D10. 大数据时代预测人类移动行为的数据来源有( )。A.志愿者定位数据B.装有导航设备的出租车轨迹数据C.手机终端定位于通讯记录D.社会网络签到数据参考答案:ABCD11. MapReduce设计的一个理念就是( ),因为移动数据需要大量的网络传输开销。A.数据向计算靠拢B.计算向数据靠拢C.计算向网络靠拢D.计算与数据并行参考答案:B12. 非结构化数据是指非纯文本类数据,没有标准格式,无法直接解析出相应的值。( )A.对B.错参考答案:A1

4、3. 图的结构通常表示为:G(V,E),其中,E是图G中( )A.顶点B.顶点的集合C.边D.边的集合参考答案:D14. Scala列表中last返回一个列表,包含除了第一个元素之外的其他元素。( )A.正确B.错误参考答案:B15. Storm中Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作。( )A.正确B.错误参考答案:A16. UMP系统中面对多个小规模用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案:A17. NAS是一种采用直接与网络介质相连的特殊设备实现

5、数据存储的模式。( )A.对B.错参考答案:A18. Scala是Scalable Language的简写,是一门多范式的编程语言,设计初衷是不包括面向对象编程的特性。( )A.正确B.错误参考答案:B19. Spark SQL可以通过( )方法加载json文件为DataFrameA.formatB.jsonC.getD.read参考答案:AB20. 大数据技术也能帮助政府进行支出管理,透明合理的财政支出将有利于提高公信力和监督财政支出。( )A.对B.错参考答案:A21. 以下哪个是Scala的数据类型( )A.AnyB.NULLC.NothingD.AnyRef参考答案:ABCD22. S

6、cala 集合分为可变的和不可变的集合。( )T.对F.错参考答案:T23. UMP系通过( )来实现实现集群成员管理、元数据存储、MySQL实例管理、故障恢复、备份、迁移、扩容等功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:A24. 在HBase中,更新操作会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在。( )A.正确B.错误参考答案:B25. 大数据智能感知层:主要包括( )及软硬件资源接入系统。A.数据传感体系B.网络通信体系C.传感适配体系D.智能识别体系参考答案:ABCD26. 最大效益优先是下列哪项的一种搜索方式?(

7、 )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案:A27. 以下不可以使用分治法求解的是( )。A.棋盘覆盖问题B.选择问题C.归并排序D.0/1背包问题参考答案:D28. SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:A29. 回溯法搜索解空间树时,常用的两种剪枝函数为约束函数和限界函数。( )A.错误B.正确参考答案:B30. Spark中DataFrame的( )方法是进行分组查询A.ord

8、er byB.group byC.select byD.sort by参考答案:B31. Scala中数组的第一个元素索引为1。( )A.正确B.错误参考答案:B32. Spark SQL读取的数据源支持( )A.Hive表B.Parquent文件C.JSON数据D.关系数据库参考答案:ABCD33. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案:B34. HDFS中SecondaryNameNode可减少( )重启的时间A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案:A35. 大型

9、图计算通常是由一个集群完成的,集群环境中执行远程数据读取会有较高的延迟。( )A.正确B.错误参考答案:A36. Spark Streaming中时间片也可称为批处理时间间隔(batch interval),时间片是人为地对数据进行定量的标准,作为拆分数据的依据,一个时间片的数据对应一个RDD实例。( )A.正确B.错误参考答案:A37. UMP系通过( )来实现实现数据路由的基本功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:B38. Spark是一个( )计算框架A.快速B.分布式C.可扩展D.容错参考答案:ABCD39. 以下哪个函数可以求

10、两个RDD的笛卡尔积( )A.unionB.substractC.intersectionD.cartesian参考答案:D40. 广度优先是什么的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案:A41. Hbase中Zookeeper提供了( )A.分布式同步B.组服务C.域名服务D.配置维护参考答案:ABCD42. 静态数据采取( )计算模式A.批量B.实时C.大数据D.动态参考答案:A43. Hbase中Region服务器的系统会周期性地把MemStore缓存里的内容刷写到磁盘的StoreFile文件中,清空缓存,并在Hlog里面写入一个标记。( )A.正确

11、B.错误参考答案:A44. Scala中元组是是一种可迭代的键值对(key/value)结构。( )A.正确B.错误参考答案:B45. GraphX中( )方法可以查询顶点个数A.numVerticesB.numEdgesC.verticesD.edges参考答案:A46. RDD的intersection方法用于求出两个RDD的共同元素。( )A.正确B.错误参考答案:A47. Scala函数组合器可以接收一个可以处理嵌套列表的函数,然后把返回结果连接起来的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案:D48. Spark持久化RDD后,在再一次需要计

12、算该RDD时将需要重新计算。( )A.正确B.错误参考答案:B49. RDD中join操作最后只返回两个RDD都存在的键的连接结果。( )A.正确B.错误参考答案:A50. Spark Streming中DStream可以通过外部数据源(Kafka,Flume,Twitter等)来获取,也可以通过现有DStream的高级操作(Transformation操作)获得。( )A.正确B.错误参考答案:A51. MapReduce将输入文件切分成M个分片,Master将其中( )个分片分给处于空闲状态的N个Worker来处理。A.MB.NC.M-1D.N-1参考答案:A52. GraphX中( )方

13、法可以释放顶点缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案:C53. 下面哪种函数是回溯法中为避免无效搜索采取的策略?( )A.递归函数B.剪枝函数C.随机数函数D.搜索函数参考答案:B54. Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply参考答案:A55. Hbase中缓存刷新,每次刷写都生成一个新的StoreFile文件,因此,每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案:A56. 早期对于流计算的研究多数是基于对传统数据库处理的流式化,即实时数据库,很少研究流计算框架。( )A.正确B.错误参考答案:A57. Graph类中如果要根据边数据创建图,边数据需要加载为二元组,可以选择是否对边分区,应该用( )方法A.Graph(vertices,edges,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号