南开大学21秋《大数据开发技术》平时作业2-001答案参考87

资源描述

《南开大学21秋《大数据开发技术》平时作业2-001答案参考87》由会员分享，可在线阅读，更多相关《南开大学21秋《大数据开发技术》平时作业2-001答案参考87（11页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋大数据开发技术平时作业2-001答案参考1. MspReduce中的Map和Reduce函数使用( )进行输入输出。A.key/value对B.随机数值C.其他计算结果参考答案：A2. PairRDD中mapValues是针对键值对(Key，Value)类型的数据中的key和Value进行Map操作。( )T.对F.错参考答案：F3. Spark GraphX中类Graph的reverse方法可以( )A.反转图中所有边的方向B.按照设定条件取出子图C.取两个图的公共顶点和边作为新图，并保持前一个图顶点与边的属性D.合并边相同的属性参考答案：A4. UMP系通过( )来实现实现集

2、群成员管理、元数据存储、MySQL实例管理、故障恢复、备份、迁移、扩容等功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案：A5. RDD的subtract用于用于将前一个RDD中在后一个RDD出现的元素删除。( )A.正确B.错误参考答案：A6. Graph类中如果要根据边数据创建图，边数据需要加载为二元组，可以选择是否对边分区，应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTup

3、les(rawEdges: RDD(VertexId, VertexId), defaultValue,)D.GraphLoader.edgeListFile(sc,filename)参考答案：C7. var a=10; do a+=1; while(a20) 共循环了( )次A.9B.10C.11D.12参考答案：B8. 以深度优先方式系统搜索问题解的算法称为回溯法。( )A.错误B.正确参考答案：B9. 分支限界法解旅行售货员问题时，活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案：A10. Spark可以从( )分布式文件系统中读取数据A.HDFSB.HbaseC.

4、HiveD.Tachyon参考答案：ABCD11. ( )和( )，它们把原数据变换或投影到较小的空间。A.小波变换B.中心化变换C.主成分分析D.对数变换参考答案：AC12. MLlib中用于线性回归算法的包主要有( )A.LinearRegressionWithSGDB.RidgeRegressionWithSGDC.LassoWithSGDD.LeftRegression参考答案：ABC13. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案：B14. 使用分治法求解不需

5、要满足的条件是( )。A.子问题必须是一样的B.子问题不能够重复C.子问题的解可以合并D.原问题和子问题使用相同的方法解参考答案：A15. Hbase中Zookeeper文件记录了( )的位置A.META.表B.-ROOT-表C.RegionD.Master参考答案：B16. RDD是一个可读写的数据结构。( )T.对F.错参考答案：F17. 在Storm的工作流程中，对于Supervisor说法错误的是( )。A.Supervisor会去Zookeeper集群上认领自己的TaskB.Supervisor节点首先将提交的Topology进行分片，分成一个个Task，分配给相应的NimbusC.

6、Supervisor会将Task和相关的信息提交到Zookeeper集群上D.Supervisor会通知自己的Worker进程进行Task的处理参考答案：B18. Spark Streming中( )函数可以对源DStream中的每一个元素应用func方法进行计算，如果func函数返回结果为true，则保留该元素，否则丢弃该元素，返回一个新的DstreamA.mapB.flatMapC.filterD.union参考答案：C19. HDFS在设计上采取了多种机制保证在硬件出错的环境中实现数据的完整性。( )A.正确B.错误参考答案：A20. 以下算法中属于监督学习算法的是( )A.KNN算法B

7、.逻辑回归C.随机森林D.Kmeans参考答案：ABC21. 分支限界法与回溯法的求解目标相同。( )A.错误B.正确参考答案：A22. GraphX中graph.edges可以得到( )A.顶点视图B.边视图C.顶点与边的三元组整体视图D.有向图参考答案：B23. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案：A24. Scala在子类中重写超类的抽象方法时，需要使用override关键字。( )T.对F.错参考答案：F25. UMP系统借助于( )来实现高效和可靠的协同工作A.MnesiaB.LVSC.RabbitMQD.Zookeeper参考答

8、案：D26. 图结构中如果无重复的边或者顶点到自身的边，那么称之为( )A.完全图B.有向完全图C.无向图D.简单图参考答案：D27. Spark取代Hadoop仅仅是取代MapReduce这种计算框架，Spark可以取代HDFS吗。( )T.对F.错参考答案：F28. 关于Map端Shuffle过程中的合并与归并，说法正确的是( )。A.两个键值对和，如果合并，会得到B.合并不会改变最终结果C.两个键值对和，如果归并，会得到D.两个键值对和，如果归并，会得到参考答案：ABD29. 内存级分析适用于总数据量在集群内存的最大级别以内的情况，使用内部数据库技术，适合实时业务分析需求。( )A.对B

9、.错参考答案：A30. GraphX中( )是存放着Edg对象的RDDA.RDDEdgeB.EdgeRDDC.RDD(VertexId,VD)D.VertexRDD参考答案：A31. Scala 集合分为可变的和不可变的集合。( )T.对F.错参考答案：T32. MapReduce的main函数中设置输出类型的方法有( )。A.setOutputKeyClassB.setOutputClassC.setOutputValueClassD.setKeyValueClass参考答案：AC33. 哈弗曼编码的贪心算法所需的计算时间为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n

10、)参考答案：B34. Google Chart API是哪种可视化工具( )A.信息图表B.地图工具C.时间线工具D.分析工具参考答案：A35. 图的结构通常表示为：G(V，E)，其中，E是图G中( )A.顶点B.顶点的集合C.边D.边的集合参考答案：D36. 以下哪个不是Scala的数据类型( )A.IntB.Short IntC.LongD.Any参考答案：B37. Spark对只有未曾设置存储级别的RDD才能设置存储级别，设置了存储级别的RDD不能修改其存储级别。( )A.正确B.错误参考答案：A38. RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除。(

11、 )T.对F.错参考答案：T39. 解决0/1背包问题可以使用动态规划、回溯法和分支限界法，其中不需要排序的是动态规划，需要排序的是回溯法，分支限界法。( )A.错误B.正确参考答案：B40. 文件块的大小和副本个数只能由系统指定。( )A.正确B.错误参考答案：B41. Yahoo! S4和Twitter Storm开发实时应用时既要关注处理逻辑，还要解决实时数据获取、传输、存储。( )A.正确B.错误参考答案：B42. 以下亚马逊的产品中哪个属于存储部分( )A.EC2B.EBSC.S3D.ELB参考答案：BC43. Hadoop启动所有进程的命令为( )。A.all-start.shB.

12、all-start.exeC.start-all.shD.start-all.exe参考答案：C44. 实现合并排序利用的算法是( )。A.分治策略B.动态规划法C.贪心法D.回溯法参考答案：A45. MapReduce中( )会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker 发送过来的命令并执行相应的操作。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案：D46. Scala中( )方法返回一个列表，包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last

13、参考答案：B47. 数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段?( )A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段参考答案：A48. Spark SQL可被视为一个分布式的SQL查询引擎，并且提供了一个叫做DataFrame的可编程抽象数据模型。( )A.正确B.错误参考答案：A49. spark-submit配置项中( )表示Driver程序使用的内存大小A.-driver-memory MEMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案：A50. Storm框架是实时计算系统，所以不能使用数据库。( )A.正确B.错误参考答案：B

展开阅读全文