南开大学21春《大数据开发技术》在线作业一满分答案28

上传人:s9****2 文档编号:473356013 上传时间:2024-02-11 格式:DOCX 页数:13 大小:14.26KB
返回 下载 相关 举报
南开大学21春《大数据开发技术》在线作业一满分答案28_第1页
第1页 / 共13页
南开大学21春《大数据开发技术》在线作业一满分答案28_第2页
第2页 / 共13页
南开大学21春《大数据开发技术》在线作业一满分答案28_第3页
第3页 / 共13页
南开大学21春《大数据开发技术》在线作业一满分答案28_第4页
第4页 / 共13页
南开大学21春《大数据开发技术》在线作业一满分答案28_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《南开大学21春《大数据开发技术》在线作业一满分答案28》由会员分享,可在线阅读,更多相关《南开大学21春《大数据开发技术》在线作业一满分答案28(13页珍藏版)》请在金锄头文库上搜索。

1、南开大学21春大数据开发技术在线作业一满分答案1. UMP系统中面对分库分表用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案:C2. Scala列表中last返回列表最后一个元素。( )A.正确B.错误参考答案:A3. 计算一个算法时间复杂度通常可以计算循环次数、基本操作的频率或计算步。( )A.错误B.正确参考答案:B4. 数据产生方式的运营式系统阶段的数据产生方式是主动的。( )A.正确B.错误参考答案:B5. var a=10; for(aA.10B.11C.20D.19参考答

2、案:D6. NAS是一种采用直接与网络介质相连的特殊设备实现数据存储的模式。( )A.对B.错参考答案:A7. 在集成期间,当一个数据库的属性与另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。( )A.对B.错参考答案:A8. Mllib实现了一些常见的机器学习算法和应用程序,包括( )A.分类B.聚类C.降维D.回归参考答案:ABCD9. Spark可以从( )分布式文件系统中读取数据A.HDFSB.HbaseC.HiveD.Tachyon参考答案:ABCD10. 实现合并排序利用的算法是( )。A.分治策略B.动态规划法C.贪心法

3、D.回溯法参考答案:A11. 最大效益优先是下列哪项的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案:A12. 下列算法中不能解决0/1背包问题的是( )。A.贪心法B.动态规划C.回溯法D.分支限界法参考答案:A13. 关于Map端Shuffle过程中的合并与归并,说法正确的是( )。A.两个键值对和,如果合并,会得到B.合并不会改变最终结果C.两个键值对和,如果归并,会得到D.两个键值对和,如果归并,会得到参考答案:ABD14. Dstream窗口操作中( )方法基于滑动窗口对源DStream中的元素进行聚合操作,得到一个新的DstreamA.windowB.

4、countByWindowC.reduceByWindowD.reduceByKeyAndWindow参考答案:C15. 分支限界法是一种只带有系统性的搜索算法。( )A.错误B.正确参考答案:A16. 下列算法中通常以自底向上的方式求解最优解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案:B17. Spark持久化RDD后,在再一次需要计算该RDD时将需要重新计算。( )A.正确B.错误参考答案:B18. 图结构中如果任意两个顶点之间都存在边,那么称之为( )A.完全图B.有向完全图C.无向图D.简单图参考答案:A19. 以下算法中属于监督学习算法的是( )A.KNN算法

5、B.逻辑回归C.随机森林D.Kmeans参考答案:ABC20. 如果numPartitions是分区个数,那么Spark每个RDD的分区ID范围是( )A.0,numPartitionsB.0,numPartitions-1C.1,numPartitions-1D.1,numPartitions参考答案:B21. Scala中高阶函数可以产生新的函数,并将新的函数作为返回值。( )T.对F.错参考答案:T22. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案:A23. Spark Streming中DStream可以通过外部数据源(Kafka,Flum

6、e,Twitter等)来获取,也可以通过现有DStream的高级操作(Transformation操作)获得。( )A.正确B.错误参考答案:A24. Spark中DataFrame的查询操作也是一个懒操作,仅仅生成一个查询计划,只有触发Action操作才会进行计算并返回查询结果。( )A.正确B.错误参考答案:A25. ( )可以解决图计算问题A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案:C26. 采用贪心算法的最优装载问题的主要计算量在于将集装箱依其重量从小到大排序,故算法的时间复杂度为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n

7、)参考答案:B27. Spark中DataFrame的( )方法是进行连接查询A.whereB.joinC.limitD.apply参考答案:B28. Storm框架是实时计算系统,所以不能使用数据库。( )A.正确B.错误参考答案:B29. 矩阵连乘问题的算法可由动态规划设计实现。( )A.错误B.正确参考答案:B30. MLlib中用于线性回归算法的包主要有( )A.LinearRegressionWithSGDB.RidgeRegressionWithSGDC.LassoWithSGDD.LeftRegression参考答案:ABC31. Scala列表方法中丢弃前n个元素,并返回新列表

8、的方法是( )A.dropB.headC.filterD.init参考答案:A32. 下面是贪心算法的基本要素的是( )。A.重叠子问题B.构造最优解C.贪心选择性质D.定义最优解参考答案:C33. Dstream输出操作中( )方法在Driver中打印出DStream中数据的前12个元素。A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案:C34. 很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是( )数据。技术人员可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息。A

9、.动态B.存量C.实时D.静态参考答案:D35. GraphX中( )方法可以释放顶点缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案:C36. 分支限界法主要有队列式(FIFO)分支限界法和优先队列式分支限界法。( )A.错误B.正确参考答案:B37. 在Storm的工作流程中,对于Supervisor说法错误的是( )。A.Supervisor会去Zookeeper集群上认领自己的TaskB.Supervisor节点首先将提交的Topology进行分片,分成一个个Task,分配给相应的NimbusC.Supervisor会

10、将Task和相关的信息提交到Zookeeper集群上D.Supervisor会通知自己的Worker进程进行Task的处理参考答案:B38. HDFS在设计上采取了多种机制保证在硬件出错的环境中实现数据的完整性。( )A.正确B.错误参考答案:A39. TF-IDF中TF指的是( )A.词频B.词在文档中出现的次数C.逆文档概率D.词在文档集中出现的概率E.词在文档集中出现的概率参考答案:AB40. 以下算法中属于分类算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案:ABC41. Hbase中Region服务器的系统会周期性地把MemStore缓存里的内容刷写到磁盘

11、的StoreFile文件中,清空缓存,并在Hlog里面写入一个标记。( )A.正确B.错误参考答案:A42. Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流; 或者是从小数据开始,但数据每年增长速率至少为60%。( )A.对B.错参考答案:B43. 关于分布式并行编程,以下说法错误的是( )。A.“摩尔定律”,CPU性能大约每隔12个月翻一番B.“摩尔定律”逐渐失效后,人们开始借助于分布式并行编程来提高程序性能C.分布式程序运行在大规模计算机集群上,可以并行执行大规模数据处理任务,从而获得海量的计算能力D.

12、谷歌公司最先提出了分布式并行编程模型MapReduce参考答案:A44. SQL Azure体系结构层中哪层相当于网关,相当于普通Web系统的逻辑层( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:B45. 利用概率的性质计算近似值的随机算法是数值概率算法,运行时以一定的概率得到正确解的随机算法是蒙特卡罗算法。( )A.错误B.正确参考答案:B46. Map Task和Reduce Task均由( )启动。A.ClientB.Job TrackerC.TaskD.Task Tracker参考

13、答案:D47. RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除。( )T.对F.错参考答案:T48. Scala函数组合器可以通过一个函数重新计算列表中所有元素,没有返回值。( )A.正确B.错误参考答案:B49. HBase的客户端并不依赖Master,而是通过( )来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小A.MasterB.RegionC.ZookeeperD.Chubby参考答案:C50. Mllib中线性会馆算法中的参数numIterations表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案:A51. PairRDD可以通过( )获得仅包含键的RDDA.keyB.keysC.valueD.values参考答案:B52. Scala函数组合器中groupBy是对集合中的元素进行分组操作,结果得到的是一个Map。( )A.正确B.错误参考答案:A53. Scala中创建一

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号