南开大学22春《大数据开发技术》离线作业一及答案参考87

资源描述

《南开大学22春《大数据开发技术》离线作业一及答案参考87》由会员分享，可在线阅读，更多相关《南开大学22春《大数据开发技术》离线作业一及答案参考87（13页珍藏版）》请在金锄头文库上搜索。

1、南开大学22春大数据开发技术离线作业一及答案参考1. Storm框架是实时计算系统，所以不能使用数据库。( )A.正确B.错误参考答案：B2. RDD的sortBy函数包含参数numPartitions，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size。( )T.对F.错参考答案：T3. Storm中如果要让每一个Task都会收到所有的Tuple，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping

2、参考答案：B4. 如果numPartitions是分区个数，那么Spark每个RDD的分区ID范围是( )A.0，numPartitionsB.0，numPartitions-1C.1，numPartitions-1D.1，numPartitions参考答案：B5. Hbase中( )是最核心的模块，负责维护分配给自己的Region，并响应用户的读写请求A.MasterB.SlaverC.Region服务器D.客户端参考答案：C6. Yahoo! S4和Twitter Storm开发实时应用时既要关注处理逻辑，还要解决实时数据获取、传输、存储。( )A.正确B.错误参考答案：B7. 计算一个算

3、法时间复杂度通常可以计算循环次数、基本操作的频率或计算步。( )A.错误B.正确参考答案：B8. Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是( )A.filterB.foreachC.mapD.mkString参考答案：D9. Mllib中metrics.recallByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：B10. 针对流数据，“量子恒道”可处理每天( )级的实时流数据A.TBB.PBC.GBD.MB参考答案：A11. 设计动态规划算法的主要步骤不包括根据计算最优值时得到的信息，构造最优解。( )A.错误B.正确参考答案：

4、A12. ( )是Microsoft Office的核心组件。A.SQLB.WORDC.PPTD.EXCEL参考答案：D13. Spark中DataFrame的( )方法是进行连接查询A.whereB.joinC.limitD.apply参考答案：B14. 矩阵连乘问题的算法可由动态规划设计实现。( )A.错误B.正确参考答案：B15. TF-IDF中TF指的是( )A.词频B.词在文档中出现的次数C.逆文档概率D.词在文档集中出现的概率E.词在文档集中出现的概率参考答案：AB16. NAS是一种采用直接与网络介质相连的特殊设备实现数据存储的模式。( )A.对B.错参考答案：A17. MapR

5、educe中最优的Reduce任务个数取决于集群中可用的( )的数目。A.SplitB.SlotC.MapD.Shuffle参考答案：B18. PairRDD的( )方法，可以把两个RDD中键相同的元素组合在一起，合并为一个RDD。A.joinB.unionC.substractD.intersection参考答案：A19. Hbase中缓存刷新，每次刷写都生成一个新的StoreFile文件，因此，每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案：A20. 贪心选择性质是贪心算法可行的第一个基本要素，但不是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考

6、答案：A21. Scala中数组的第一个元素索引为1。( )A.正确B.错误参考答案：B22. Spark Streming中Dstream是一种抽象的离散流。( )T.对F.错参考答案：T23. 以下哪个函数可以求两个RDD交集 ( )A.unionB.substractC.intersectionD.cartesian参考答案：C24. 下面哪种函数是回溯法中为避免无效搜索采取的策略?( )A.递归函数B.剪枝函数C.随机数函数D.搜索函数参考答案：B25. RDD的( )操作通常用来划分单词A.filterB.unionC.flatmapD.mapPartitions参考答案：C26.

7、Hbase采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：A27. 以下哪种方法可以让Spark不自定义分区也能对任何类型RDD 简单重分区( )A.resetpartitionB.repartitonC.PartitionD.coalesce参考答案：BD28. RDD是一个( )的数据结构A.可读写B.只读的C.容错的D.可进行并行操作的参考答案：BCD29. Scala中可以用( )方法来连接两个或多个列表A.:B.#:C.List.:( )D.List.concat( )参考答案：BCD30. 下列算法中通常以自底向上的方式求解最优解的是( )。

8、A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案：B31. Spark可以通过哪些外部存储创建RDD( )A.文本文件B.目录C.压缩文件D.通配符匹配的文件参考答案：ABCD32. RDD中zip操作要求两个RDD的partition数量以及元素数量都相同。( )T.对F.错参考答案：T33. 每个变量的最大值和最小值之差称为极差。( )A.对B.错参考答案：A34. Scala函数组合器可以接收一个可以处理嵌套列表的函数，然后把返回结果连接起来的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案：D35. Spark DataFrame中( )方法可

9、以返回一个ListA.collectB.takeC.takeAsListD.collectAsList参考答案：CD36. HDFS在设计上采取了多种机制保证在硬件出错的环境中实现数据的完整性。( )A.正确B.错误参考答案：A37. Scala列表中last返回一个列表，包含除了第一个元素之外的其他元素。( )A.正确B.错误参考答案：B38. 关于Strom中Bolt说法错误的是( )。A.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作B.Bolt是一个被动的角色，Spout是一个主动的角色C.Bolt不仅可以处理Tuple还可以创建新的TupleD.Bolt是Stream

10、s的状态转换过程的抽象含义参考答案：C39. Spark Streming中DStream可以通过外部数据源(Kafka，Flume，Twitter等)来获取，也可以通过现有DStream的高级操作(Transformation操作)获得。( )A.正确B.错误参考答案：A40. 使用分治法求解不需要满足的条件是( )。A.子问题必须是一样的B.子问题不能够重复C.子问题的解可以合并D.原问题和子问题使用相同的方法解参考答案：A41. Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply参考答案：A42. 用户可以在Hadoop YAR

11、N上运行Spark。( )A.正确B.错误参考答案：A43. 下列随机算法中运行时有时候成功有时候失败的是( )。A.数值概率算法B.舍伍德算法C.拉斯维加斯算法D.蒙特卡罗算法参考答案：C44. MapReduce设计的一个理念就是( )，因为移动数据需要大量的网络传输开销。A.数据向计算靠拢B.计算向数据靠拢C.计算向网络靠拢D.计算与数据并行参考答案：B45. Scala 集合分为可变的和不可变的集合。( )A.正确B.错误参考答案：A46. Graph类中如果根据边数据创建图，数据需要转换成RDDEdgeED类型，应该用( )方法A.Graph(vertices,edges, defa

12、ultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValueD.GraphLoader.edgeListFile(sc,filename)参考答案：B47. SQL Azure体系结构层中哪层是存储节点集群，相当于普通Web系统的数据库层( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案：C48. MLl

13、ib中进行数据标准化的方式有( )A.NormalizerB.StandardC.StandardScaleerD.MinMaxScaler参考答案：ACD49. spark-submit配置项中( )表示启动的executor数量A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案：A50. Mllib中metrics.fMeasureByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：C51. 回溯法搜索状态空间树是按照什么的顺序?( )A.中序遍历B.广度优先遍历C.深度优先遍历D.层次优先遍历参考答案：C52. Spark Streming中( )函数当被调用类型分别为(K，V)和(K，W)键值对的2个DStream时，返回类型为(K，(V，W)键值对的一个新 DStream。A.unionB.reduceC.joinD.cogroup

展开阅读全文