南开大学21春《大数据开发技术》离线作业一辅导答案44

资源描述

《南开大学21春《大数据开发技术》离线作业一辅导答案44》由会员分享，可在线阅读，更多相关《南开大学21春《大数据开发技术》离线作业一辅导答案44（11页珍藏版）》请在金锄头文库上搜索。

1、南开大学21春大数据开发技术离线作业一辅导答案1. 流计算系统的需求有( )。A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案：ACE2. Spark中运行交互式SQL查询的大规模并行查询引擎是( )A.Spark CoreB.Spark SQLC.BlinkDBD.Mllib参考答案：C3. Mllib中metrics.fMeasureByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：C4. RDD中zip操作要求两个RDD的partition数量以及元素数量都相同。( )T.对F.错参考答案：T5. MapReduce的main函数中设置输出类

2、型的方法有( )。A.setOutputKeyClassB.setOutputClassC.setOutputValueClassD.setKeyValueClass参考答案：AC6. 实现大整数的乘法是利用( )的算法。A.贪心法B.动态规划法C.分治策略D.回溯法参考答案：C7. 文件块的大小和副本个数只能由系统指定。( )A.正确B.错误参考答案：B8. Mllib实现了一些常见的机器学习算法和应用程序，包括( )A.分类B.聚类C.降维D.回归参考答案：ABCD9. 分布式离线分析可以实现秒级别的实时分析响应。( )A.正确B.错误参考答案：B10. 以下哪个函数可以求两个RDD的笛卡

3、尔积( )A.unionB.substractC.intersectionD.cartesian参考答案：D11. ( )是Spark的核心，提供底层框架及核心支持A.Spark CoreB.Spark SQLC.Spark StreamingD.Mllib参考答案：A12. spark-submit配置项中( )表示Driver程序使用的内存大小A.-driver-memory MEMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案：A13. Dstream输出操作中( )方法将DStrea

4、m中的内容按对象序列化并且以SequenceFile的格式保存A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案：D14. Scala 集合分为可变的和不可变的集合。( )A.正确B.错误参考答案：A15. 传统的数据处理流程的前提是( )。A.存储的数据是旧的B.存储的数据是实时的C.需要用户主动发出查询D.不需要用户主动发出查询参考答案：AC16. 以下哪个函数可以对RDD进行去重( )A.sortByB.filterC.distinctD.intersection参考答案：C17. Scala类通过子类化和

5、基于灵活的混合类来进行扩展，作为( )的一个可靠性解决方案A.多态B.虚函数C.派生D.多重继承参考答案：D18. 图的结构通常表示为：G(V，E)，其中，G表示( )A.图B.子图C.顶点D.边参考答案：A19. RDD中combineByKey不允许返回类型与输入数据类型不同的返回值。( )A.正确B.错误参考答案：B20. 下列算法中通常以深度优先方式系统搜索问题解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案：D21. 在HBase中，更新操作会用最新的当前值去替换记录中原来的旧值，旧值被覆盖后就不会存在。( )A.正确B.错误参考答案：B22. 回溯法是一种既带有

6、系统性又带有跳跃性的搜索算法。( )A.错误B.正确参考答案：B23. Spark创建DataFrame对象方式有( )A.结构化数据文件B.外部数据库C.RDDD.Hive中的表参考答案：ABCD24. SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案：A25. Spark对只有未曾设置存储级别的RDD才能设置存储级别，设置了存储级别的RDD不能修改其存储级别。( )A.正确B.错误参考答案：A26. Scal

7、a函数组合器可以对集合中的元素进行分组操作，结果得到的是一个Map的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案：C27. 内存级分析适用于总数据量在集群内存的最大级别以内的情况，使用内部数据库技术，适合实时业务分析需求。( )A.对B.错参考答案：A28. 对于不同顶点之间的信息交换，Pregel采用了( )A.远程数据读取B.共享内存C.纯消息传递模型D.共享消息参考答案：C29. Python是一种面向对象的解释型计算机程序设计语言。( )A.对B.错参考答案：A30. 0-1背包问题的回溯算法所需的计算时间为( )。A.O(n2n)B.O(n

8、logn)C.O(2n)D.O(n)参考答案：A31. 递归函数意味着函数可以调用它( )A.其他函数B.主函数C.子函数D.自身参考答案：D32. 关于Strom中Bolt说法错误的是( )。A.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作B.Bolt是一个被动的角色，Spout是一个主动的角色C.Bolt不仅可以处理Tuple还可以创建新的TupleD.Bolt是Streams的状态转换过程的抽象含义参考答案：C33. Mllib中metrics.recallByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：B34. PairRDD的

9、( )方法，可以把两个RDD中键相同的元素组合在一起，合并为一个RDD。A.joinB.unionC.substractD.intersection参考答案：A35. 默认情况下，Scala 使用的是可变集合。( )T.对F.错参考答案：F36. GraphX中( )方法可以查询边信息A.numVerticesB.numEdgesC.verticesD.edges参考答案：D37. Storm中如果要让所有的Tuple都发送到同一个Task中，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.Fi

10、edlsGrouping参考答案：C38. 美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”。( )A.对B.错参考答案：A39. NAS是一种采用直接与网络介质相连的特殊设备实现数据存储的模式。( )A.对B.错参考答案：A40. Scala函数组合器可以通过一个函数重新计算列表中所有元素，没有返回值。( )T.对F.错参考答案：F41. 实现棋盘覆盖算法利用的算法是( )。A.分治法B.动态规划法C.贪心法D.回溯法参考答案：A42. Scala中使用( )方法来查看两个集合的交集元素A.Set.concatB.Set.&C.Set.&D.Set.intersect参考答案：BD43.

11、 GraphX中( )是存放着Edg对象的RDDA.RDDEdgeB.EdgeRDDC.RDD(VertexId,VD)D.VertexRDD参考答案：A44. 哪些属于数据可视化的重要作用( )A.分析数据B.采集数据C.辅助理解数据D.观测跟踪数据参考答案：ACD45. Graph类中如果根据边数据创建图，数据需要转换成RDDEdgeED类型，应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges:

12、RDD(VertexId, VertexId), defaultValueD.GraphLoader.edgeListFile(sc,filename)参考答案：B46. 大型图计算通常是由一个集群完成的，集群环境中执行远程数据读取会有较高的延迟。( )A.正确B.错误参考答案：A47. 数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段?( )A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段参考答案：A48. var a=10; for(aA.10B.11C.20D.19参考答案：D49. 采用贪心算法的最优装载问题的主要计算量在于将集装箱依其重量从小到大排序，故算法的时间复杂度为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案：B50. Scala函数组合器可以接收一个可以处理嵌套列表的函数，然后把返回结果连接起来的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案：D

展开阅读全文