《南开大学21秋《大数据开发技术》离线作业2答案第28期》由会员分享,可在线阅读,更多相关《南开大学21秋《大数据开发技术》离线作业2答案第28期(11页珍藏版)》请在金锄头文库上搜索。
1、南开大学21秋大数据开发技术离线作业2-001答案1. Scala函数组合器可以通过一个函数重新计算列表中所有元素,并且返回一个相同数目元素的新列表的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案:A2. Scala中( )方法返回一个列表,包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案:B3. 流计算是针对流数据的实时计算,可以应用在( )场景中A.广告投放B.气候模拟预测C.机器翻译D.推荐系统参考答案:ABCD4. 设计动态规划算法的主要步骤不包括根据计算最优值时得到的信息,构造最优解。( )A.错误B.正
2、确参考答案:A5. 贪心选择性质是贪心算法可行的第一个基本要素,也是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案:B6. SQL Azure体系结构层中哪层相当于网关,相当于普通Web系统的逻辑层( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:B7. Dstream输出操作中( )方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoo
3、pFiles参考答案:D8. RDD的filter函数返回一个存储符合过滤条件的所有元素的新RDD。( )A.正确B.错误参考答案:A9. 分支限界法解最大团问题时,活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案:B10. HDFS的命名空间包含( )A.节点B.目录C.文件D.块参考答案:BCD11. 下面是贪心算法的基本要素的是( )。A.重叠子问题B.构造最优解C.贪心选择性质D.定义最优解参考答案:C12. Graph类中如果根据边数据创建图,数据需要转换成RDDEdgeED类型,应该用( )方法A.Graph(vertices,edges, defaultVe
4、rtexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValueD.GraphLoader.edgeListFile(sc,filename)参考答案:B13. Storm中如果要让每一个Task都会收到所有的Tuple,应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案:B14. UM
5、P系统中面对分库分表用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案:C15. Spark对只有未曾设置存储级别的RDD才能设置存储级别,设置了存储级别的RDD不能修改其存储级别。( )A.正确B.错误参考答案:A16. GraphX中( )是存放着Edg对象的RDDA.RDDEdgeB.EdgeRDDC.RDD(VertexId,VD)D.VertexRDD参考答案:A17. var a=10; do a+=1;while(aA.9B.10C.11D.12参考答案:B18. MLl
6、ib中进行数据标准化的方式有( )A.NormalizerB.StandardC.StandardScaleerD.MinMaxScaler参考答案:ACD19. Yahoo! S4和Twitter Storm开发实时应用时既要关注处理逻辑,还要解决实时数据获取、传输、存储。( )A.正确B.错误参考答案:B20. RDD的map操作不会改变RDD的分区数目。( )A.正确B.错误参考答案:A21. 很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是( )数据。技术人员可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息。A.动态B.存量C.实时D.静态参
7、考答案:D22. MLlib中用于线性回归算法的包主要有( )A.LinearRegressionWithSGDB.RidgeRegressionWithSGDC.LassoWithSGDD.LeftRegression参考答案:ABC23. Scala中创建一个方法时经常用void表示该方法无返回值。( )T.对F.错参考答案:F24. NoSQL数据库与关系数据库相比适用于哪些领域( )A.电信B.银行C.互联网企业大数据处理D.传统企业的数据分析参考答案:CD25. RDD的flatMap操作是将函数应用于RDD之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的RDD。
8、( )A.正确B.错误参考答案:A26. SQL Azure体系结构层中哪层是硬件和操作系统( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:D27. Spark GraphX中类Graph的joinVertices方法可以( )A.收集邻居顶点的顶点Id和顶点属性B.收集邻居顶点的顶点IdC.向指定顶点发送信息并聚合信息D.将顶点信息更新到图中参考答案:D28. PairRDD中mapValues是针对键值对(Key,Value)类型的数据中的key和Value进行Map操作。( )A.正
9、确B.错误参考答案:B29. GraphX中graph.edges可以得到( )A.顶点视图B.边视图C.顶点与边的三元组整体视图D.有向图参考答案:B30. Pig是Hadoop项目中一种数据仓库工具。( )A.正确B.错误参考答案:B31. 以下哪种方法可以让Spark不自定义分区也能对任何类型RDD 简单重分区( )A.resetpartitionB.repartitonC.PartitionD.coalesce参考答案:BD32. 以下哪个方法可以创建RDD( )A.parallelizeB.makeRDDC.textFileD.loadFile参考答案:ABC33. 0-1背包问题的
10、回溯算法所需的计算时间为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案:A34. RDD的intersection方法用于求出两个RDD的共同元素。( )A.正确B.错误参考答案:A35. 在Storm的工作流程中,对于Supervisor说法错误的是( )。A.Supervisor会去Zookeeper集群上认领自己的TaskB.Supervisor节点首先将提交的Topology进行分片,分成一个个Task,分配给相应的NimbusC.Supervisor会将Task和相关的信息提交到Zookeeper集群上D.Supervisor会通知自己的Worker进
11、程进行Task的处理参考答案:B36. 问题的最优子结构性质是该问题不可用动态规划算法或贪心算法求解的关键特征。( )A.错误B.正确参考答案:A37. Spark支持使用( )语言编写应用A.ScalaB.PythonC.JavaD.R参考答案:ABCD38. Storm框架是实时计算系统,所以不能使用数据库。( )A.正确B.错误参考答案:B39. 大数据的特征是( )。A.数据体量大B.数据产生速度快C.数据种类多D.数据计算快E.数据价值高参考答案:ABCE40. 以下属于Hadoop的安装方式的有( )。A.单机模式B.多机模式C.分布式模式D.并行模式E.伪分布式模式参考答案:AC
12、E41. Spark Streaming中时间片也可称为批处理时间间隔(batch interval),时间片是人为地对数据进行定量的标准,作为拆分数据的依据,一个时间片的数据对应一个RDD实例。( )A.正确B.错误参考答案:A42. MapReduce中( )会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker,同时接收JobTracker 发送过来的命令并执行相应的操作。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案:D43. 下面哪种函数是回溯法中为避免无效搜索采取的策略?( )A.递归函数B.剪枝函数C.
13、随机数函数D.搜索函数参考答案:B44. PairRDD中( )函数可以合并具有相同键的值A.mapValuesB.groupByC.groupByKeyD.reduceByKey参考答案:A45. Scala函数组合器中foreach和map类似,有返回值。( )A.正确B.错误参考答案:B46. 用户可以在Hadoop YARN上运行Spark。( )A.正确B.错误参考答案:A47. UMP系统借助于( )来实现高效和可靠的协同工作A.MnesiaB.LVSC.RabbitMQD.Zookeeper参考答案:D48. Spark Streming中( )函数可以对源DStream中的每一个元素应用func方法进行计算,如果func函数返回结果为true,则保留该元素,否则丢弃该元素,返回一个新的DstreamA.mapB.flatMapC.filterD.union参考答案:C49. RDD的sortBy函数包含参数numPartitions,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。( )T.对F.错参考答案:T50. RDD中j