南开大学21春《大数据开发技术》离线作业2参考答案26

资源描述

《南开大学21春《大数据开发技术》离线作业2参考答案26》由会员分享，可在线阅读，更多相关《南开大学21春《大数据开发技术》离线作业2参考答案26（11页珍藏版）》请在金锄头文库上搜索。

1、南开大学21春大数据开发技术离线作业2参考答案1. 流计算的采集阶段需要保证( )。A.实时性B.大量C.低延迟D.稳定可靠参考答案：ACD2. MLlib中用于线性回归算法的包主要有( )A.LinearRegressionWithSGDB.RidgeRegressionWithSGDC.LassoWithSGDD.LeftRegression参考答案：ABC3. 0-1背包问题的回溯算法所需的计算时间为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案：A4. 亚马逊的云服务提供了多达几十种服务，涵盖了IaaS、PaaS、SaaS这三层。( )A.正确B.错误参

2、考答案：A5. Spark可以从( )分布式文件系统中读取数据A.HDFSB.HbaseC.HiveD.Tachyon参考答案：ABCD6. Scala中( )方法返回一个列表，包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案：B7. Mllib实现了一些常见的机器学习算法和应用程序，包括( )A.分类B.聚类C.降维D.回归参考答案：ABCD8. Spark取代Hadoop仅仅是取代MapReduce这种计算框架，Spark可以取代HDFS吗。( )T.对F.错参考答案：F9. 传统数据处理流程，用户需要主动发起查询或者定时查询;流处理流程中，可以实

3、时查询。( )A.正确B.错误参考答案：A10. Spark中DataFrame的( )方法是进行排序查询A.order byB.group byC.select byD.sort by参考答案：A11. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案：A12. RDD的cartesian函数是笛卡尔积，也就是将两个集合的元素两两组合成一组。( )A.正确B.错误参考答案：A13. GraphX中( )是存放着Edg对象的RDDA.RDDEdgeB.EdgeRDDC.RDD(VertexId,VD)D.VertexRDD参考答案：A14. BigTab

4、le采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：B15. UMP系通过( )来实现实现集群成员管理、元数据存储、MySQL实例管理、故障恢复、备份、迁移、扩容等功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案：A16. 批处理系统关注( )，流处理系统关注( )。A.吞吐率，延时B.延时，吞吐率C.延时，速度D.速度，吞吐率参考答案：A17. GraphX中graph.edges可以得到( )A.顶点视图B.边视图C.顶点与边的三元组整体视图D.有向图参考答案：B18. 可视化工具包括( )。A.Exce

5、lB.Google ChartC.GephiD.ppt参考答案：ABC19. 分治法与动态规划法的不同点是：适合于用动态规划法求解的问题，经分解得到的子问题往往不是互相独立的。而用分治法求解的问题，经分解得到的子问题往往是互相独立的。( )A.错误B.正确参考答案：B20. Spark Streming中( )函数可以对源DStream的每个元素通过函数func返回一个新的DStreamA.mapB.flatMapC.filterD.union参考答案：A21. Spark创建DataFrame对象方式有( )A.结构化数据文件B.外部数据库C.RDDD.Hive中的表参考答案：ABCD22.

6、决策树是( )的常用算法A.分类B.聚类C.降维D.回归参考答案：AD23. 请问RDD的( )操作是根据键对两个RDD进行内连接A.joinB.zipC.combineByKeyD.collect参考答案：A24. Scala源代码被编译成( )字节码，所以它可以运行于JVM之上A.SparkB.ScalaC.JavaD.JDK参考答案：C25. 关于Strom中Bolt说法错误的是( )。A.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作B.Bolt是一个被动的角色，Spout是一个主动的角色C.Bolt不仅可以处理Tuple还可以创建新的TupleD.Bolt是Stre

7、ams的状态转换过程的抽象含义参考答案：C26. Scala函数组合器可以通过一个函数重新计算列表中所有元素，没有返回值。( )A.正确B.错误参考答案：B27. GraphX中( )方法可以释放边缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案：D28. PairRDD的( )方法，可以把两个RDD中键相同的元素组合在一起，合并为一个RDD。A.joinB.unionC.substractD.intersection参考答案：A29. Scala列表中last返回一个列表，包含除了第一个元素之外的其他元素。( )T.对F.错

8、参考答案：F30. Graph类中如果根据边数据创建图，数据需要转换成RDDEdgeED类型，应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValueD.GraphLoader.edgeListFile(sc,filename)参考答案：B31. 针对流数据，“量子恒道”可处理每天( )级的实时流数据A.TBB.PBC.GBD.M

9、B参考答案：A32. Storm中如果要保证相同字段的Tuple分配到同一个Task中，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：D33. GraphX中( )方法可以查询度数A.degreesB.degreeC.verticesD.edges参考答案：A34. 下列算法中通常以自底向上的方式求解最优解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案：B35. Spark中DataFrame的( )方法是进行条件查询A.whereB.

10、joinC.limitD.apply参考答案：A36. Dstream窗口操作中( )方法基于滑动窗口对(K，V)键值对类型的DStream中的值按K使用聚合函数func进行聚合操作，得到一个新的DstreamA.windowB.countByWindowC.reduceByWindowD.reduceByKeyAndWindow参考答案：D37. 算法是由若干条指令组成的有穷序列，且要满足输入、输出、确定性和有限性四条性质。( )A.错误B.正确参考答案：B38. Hadoop启动所有进程的命令为( )。A.all-start.shB.all-start.exeC.start-all.shD

11、.start-all.exe参考答案：C39. 回溯法搜索状态空间树是按照什么的顺序?( )A.中序遍历B.广度优先遍历C.深度优先遍历D.层次优先遍历参考答案：C40. 贪心选择性质是贪心算法可行的第一个基本要素，但不是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案：A41. 分治法的基本思想时将一个规模为n的问题分解为k个规模较小的子问题，这些子问题互相独立且与原问题相同。递归地解这些子问题，然后将各个子问题的解合并得到原问题的解。( )A.错误B.正确参考答案：B42. 以下哪种数据库适合于批量数据处理和即席查询( )A.MySQLB.OracleC.HbaseD.No

12、sSQL参考答案：C43. Scala中集合连接时如果元素有重复的就会移除重复的元素。( )A.正确B.错误参考答案：A44. Scala函数组合器中groupBy是对集合中的元素进行分组操作，结果得到的是一个Map。( )A.正确B.错误参考答案：A45. 算法的复杂性没有时间复杂性和空间复杂性之分。( )A.错误B.正确参考答案：A46. Scala 集合分为可变的和不可变的集合。( )A.正确B.错误参考答案：A47. Spark支持使用( )语言编写应用A.ScalaB.PythonC.JavaD.R参考答案：ABCD48. 广度优先是什么的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案：A49. MapReduce设计的一个理念就是( )，因为移动数据需要大量的网络传输开销。A.数据向计算靠拢B.计算向数据靠拢C.计算向网络靠拢D.计算与数据并行参考答案：B50. HBase的客户端并不依赖Master，而是通过( )来获得Region位置信息，大多数客户端甚至从来不和Master通信，这种设计方式使得Master负载很小A.MasterB.RegionC.ZookeeperD.Chubby参考答案：C

展开阅读全文