南开大学21春《大数据开发技术》在线作业二满分答案_52

资源描述

《南开大学21春《大数据开发技术》在线作业二满分答案_52》由会员分享，可在线阅读，更多相关《南开大学21春《大数据开发技术》在线作业二满分答案_52（13页珍藏版）》请在金锄头文库上搜索。

1、南开大学21春大数据开发技术在线作业二满分答案1. 分支限界法与回溯法的求解目标相同。( )A.错误B.正确参考答案：A2. RDD的union函数会将两个RDD元素合并成一个并且去处重复元素。( )A.正确B.错误参考答案：B3. 下列哪一种算法不是随机化算法?( )A.蒙特卡罗算法B.拉斯维加斯算法C.动态规划算法D.舍伍德算法参考答案：C4. 舍伍德算法总能求得问题的一个解。( )A.错误B.正确参考答案：B5. Scala中( )方法返回一个列表，包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案：B6. Spark中DataFrame的( )方

2、法是进行条件查询A.whereB.joinC.limitD.apply参考答案：A7. MapReduce中( )会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker 发送过来的命令并执行相应的操作。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案：D8. Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式，它需要收集超过100TB的数据，并且是高速实时数据流; 或者是从小数据开始，但数据每年增长速率至少为60%。( )A.对B.错参考答案：B9. 以下哪个

3、不是Scala的数据类型( )A.IntB.Short IntC.LongD.Any参考答案：B10. NoSQL数据库与关系数据库相比适用于哪些领域( )A.电信B.银行C.互联网企业大数据处理D.传统企业的数据分析参考答案：CD11. 感知式系统的广泛使用人类社会数据量第三次大的飞跃最终导致了大数据的产生。( )A.正确B.错误参考答案：A12. Storm中如果要让每一个Task都会收到所有的Tuple，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案

4、：B13. Scala 集合分为可变的和不可变的集合。( )T.对F.错参考答案：T14. 拉斯维加斯算法找到的解不一定是正确解。( )A.错误B.正确参考答案：A15. 我们既要通过政府主导，又要发挥社会的力量，来共同推进医疗大数据的应用。( )A.对B.错参考答案：A16. 按照数据量的大小，可将数据分析分为内存级数据分析、Bl级数据分析和海量级数据分析。( )A.对B.错参考答案：A17. GraphX中graph.edges可以得到( )A.顶点视图B.边视图C.顶点与边的三元组整体视图D.有向图参考答案：B18. SQL Azure体系结构层中哪层是存储节点集群，相当于普通Web系统

5、的数据库层( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案：C19. Spark SQL读取的数据源支持( )A.Hive表B.Parquent文件C.JSON数据D.关系数据库参考答案：ABCD20. HDFS读数据过程中( )具体实现了FileSystemA.DistributedFileSystemB.GFSSystemC.FileSystemD.HDFSSystem参考答案：A21. GraphX中( )是存放着Edg对象的RDDA.RDDEdgeB.EdgeRDDC.RDD(Ver

6、texId,VD)D.VertexRDD参考答案：A22. Scala中如果函数中的每个参数在函数中最多只出现一次，则可以使用占位符( )代替参数。A.井号B.下划线C.斜杠D.逗号参考答案：B23. 下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画?( )A.ggplot2B.networkC.ggmapsD.animation参考答案：D24. 数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段?( )A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段参考答案：A25. Spark中DataFrame的( )方法是进行连接查询A.whereB.joinC.lim

7、itD.apply参考答案：B26. NAS是一种采用直接与网络介质相连的特殊设备实现数据存储的模式。( )A.对B.错参考答案：A27. spark-submit配置项中( )表示启动的executor数量A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案：A28. UMP系统中面对多个小规模用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案：A

8、29. RDD的( )操作通常用来划分单词A.filterB.unionC.flatmapD.mapPartitions参考答案：C30. Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括面向对象编程的特性。( )T.对F.错参考答案：F31. 算法的复杂性没有时间复杂性和空间复杂性之分。( )A.错误B.正确参考答案：A32. PairRDD中( )函数可以合并具有相同键的值A.mapValuesB.groupByC.groupByKeyD.reduceByKey参考答案：A33. 贪心选择性质是贪心算法可行的第一个基本要素，也是贪心算法与动态规

9、划算法的主要区别。( )A.错误B.正确参考答案：B34. Mllib中线性会馆算法中的参数numIterations表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：A35. Mllib中线性会馆算法中的参数reParam表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：D36. GraphX中( )方法可以查询顶点个数A.numVerticesB.numEdgesC.verticesD.edges参考答案：A37. UMP系统借

10、助于( )来实现高效和可靠的协同工作A.MnesiaB.LVSC.RabbitMQD.Zookeeper参考答案：D38. RDD的map操作不会改变RDD的分区数目。( )A.正确B.错误参考答案：A39. 大数据的特征是( )。A.数据体量大B.数据产生速度快C.数据种类多D.数据计算快E.数据价值高参考答案：ABCE40. 每个变量的最大值和最小值之差称为极差。( )A.对B.错参考答案：A41. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案：A42. 请问RDD的( )操作用于将相同键的数据聚合A.joinB.zipC.combineByKe

11、yD.collect参考答案：C43. 关系数据库与NoSQL数据库相比有哪些优势( )A.支持事务ACID四性B.可以支持超大规模数据存储C.以完善的关系代数理论作为基础D.具有强大的横向扩展能力参考答案：AC44. Spark Streming中( )函数可以对源DStream中的每一个元素应用func方法进行计算，如果func函数返回结果为true，则保留该元素，否则丢弃该元素，返回一个新的DstreamA.mapB.flatMapC.filterD.union参考答案：C45. 从分治法的一般设计模式可以看出，用它设计出的程序一般是递归算法。( )A.错误B.正确参考答案：B46. 早

12、期对于流计算的研究多数是基于对传统数据库处理的流式化，即实时数据库，很少研究流计算框架。( )A.正确B.错误参考答案：A47. 图的结构通常表示为：G(V，E)，其中，E是图G中( )A.顶点B.顶点的集合C.边D.边的集合参考答案：D48. 以下哪个函数可以求两个RDD的笛卡尔积( )A.unionB.substractC.intersectionD.cartesian参考答案：D49. 以下属于Hadoop的安装方式的有( )。A.单机模式B.多机模式C.分布式模式D.并行模式E.伪分布式模式参考答案：ACE50. 流计算系统的需求有( )。A.实时性B.廉价C.高性能D.高带宽E.分布

13、式参考答案：ACE51. 在集成期间，当一个数据库的属性与另一个数据库的属性匹配时，必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。( )A.对B.错参考答案：A52. Scala函数组合器可以通过一个函数重新计算列表中所有元素，并且返回一个相同数目元素的新列表的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案：A53. Spark Streming中( )函数可以对源DStream的每个元素通过函数func返回一个新的DStreamA.mapB.flatMapC.filterD.union参考答案：A54. 以下哪种方法可以让Spark不自定义分区也能对任何类型RDD 简单重分区( )A.resetpartitionB.repartitonC.PartitionD.coalesce参考答案：BD55. 数据采集，又称数据获取，是大数据生命周期的第一个环节，通过RFID.射频识别

展开阅读全文