南开大学21春《大数据开发技术》在线作业二满分答案_19

上传人:壹****1 文档编号:456286336 上传时间:2024-01-14 格式:DOCX 页数:13 大小:13.89KB
返回 下载 相关 举报
南开大学21春《大数据开发技术》在线作业二满分答案_19_第1页
第1页 / 共13页
南开大学21春《大数据开发技术》在线作业二满分答案_19_第2页
第2页 / 共13页
南开大学21春《大数据开发技术》在线作业二满分答案_19_第3页
第3页 / 共13页
南开大学21春《大数据开发技术》在线作业二满分答案_19_第4页
第4页 / 共13页
南开大学21春《大数据开发技术》在线作业二满分答案_19_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《南开大学21春《大数据开发技术》在线作业二满分答案_19》由会员分享,可在线阅读,更多相关《南开大学21春《大数据开发技术》在线作业二满分答案_19(13页珍藏版)》请在金锄头文库上搜索。

1、南开大学21春大数据开发技术在线作业二满分答案1. Spark中DataFrame的( )方法是进行连接查询A.whereB.joinC.limitD.apply参考答案:B2. RDD的flatMap操作是将函数应用于RDD之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的RDD。( )A.正确B.错误参考答案:A3. 算法的复杂性没有时间复杂性和空间复杂性之分。( )A.错误B.正确参考答案:A4. 程序是算法用某种程序设计语言的具体实现。( )A.错误B.正确参考答案:B5. Hbase和传统数据库一样都是列式数据库。( )A.正确B.错误参考答案:B6. RDD是一个

2、可读写的数据结构。( )T.对F.错参考答案:F7. Scala中重写一个非抽象方法必须使用( )修饰符。A.extendsB.overrideC.extendD.overrides参考答案:B8. Scala是一种纯面向对象的语言,每个值都是对象。( )T.对F.错参考答案:T9. Scala函数组合器可以通过一个函数重新计算列表中所有元素,没有返回值。( )T.对F.错参考答案:F10. UMP系通过( )来实现实现数据路由的基本功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:B11. 图(Graph)是一种复杂的非线性结构。( )T.对F.

3、错参考答案:T12. 传统的数据处理流程的前提是( )。A.存储的数据是旧的B.存储的数据是实时的C.需要用户主动发出查询D.不需要用户主动发出查询参考答案:AC13. MLBase包括( )A.MllibB.MLIC.SparkRD.GraphX参考答案:AB14. 下列算法中通常以自底向上的方式求解最优解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案:B15. Scala函数组合器可以对集合中的元素进行分组操作,结果得到的是一个Map的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案:C16. RDD的mapPartitions操

4、作会导致Partitions数量的变化。( )A.正确B.错误参考答案:B17. MapReduce中最优的Reduce任务个数取决于集群中可用的( )的数目。A.SplitB.SlotC.MapD.Shuffle参考答案:B18. 按照数据量的大小,可将数据分析分为内存级数据分析、Bl级数据分析和海量级数据分析。( )A.对B.错参考答案:A19. 以下亚马逊的产品中哪个属于存储部分( )A.EC2B.EBSC.S3D.ELB参考答案:BC20. 下列随机算法中运行时有时候成功有时候失败的是( )。A.数值概率算法B.舍伍德算法C.拉斯维加斯算法D.蒙特卡罗算法参考答案:C21. Scala

5、类通过子类化和基于灵活的混合类来进行扩展,作为( )的一个可靠性解决方案A.多态B.虚函数C.派生D.多重继承参考答案:D22. PairRDD中mapValues是针对键值对(Key,Value)类型的数据中的key和Value进行Map操作。( )T.对F.错参考答案:F23. GraphX中( )方法可以释放顶点缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案:C24. 关联分析又称为关联规则学习。( )A.对B.错参考答案:A25. 以下哪些是数据可视化时间线工具( )A.EchartsB.TimetoastC.Xti

6、melineD.R参考答案:BC26. 用户可以在Hadoop YARN上运行Spark。( )T.对F.错参考答案:T27. RDD的sortBy排序默认是升序。( )T.对F.错参考答案:T28. Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流; 或者是从小数据开始,但数据每年增长速率至少为60%。( )A.对B.错参考答案:B29. MapReduce的main函数中设置输出类型的方法有( )。A.setOutputKeyClassB.setOutputClassC.setOutputValueCla

7、ssD.setKeyValueClass参考答案:AC30. 分治法的基本思想时将一个规模为n的问题分解为k个规模较小的子问题,这些子问题互相独立且与原问题相同。递归地解这些子问题,然后将各个子问题的解合并得到原问题的解。( )A.错误B.正确参考答案:B31. 以下哪种方法可以让Spark不自定义分区也能对任何类型RDD 简单重分区( )A.resetpartitionB.repartitonC.PartitionD.coalesce参考答案:BD32. Scala 使用( )关键字来继承一个类A.extendsB.overrideC.extendD.overrides参考答案:A33. 采

8、用贪心算法的最优装载问题的主要计算量在于将集装箱依其重量从小到大排序,故算法的时间复杂度为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案:B34. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案:B35. Scala中如果函数无返回值,则函数返回类型为( )A.NULLB.VoidC.NothingD.Unit参考答案:D36. UMP系统的哪个功能实现了负载均衡( )A.读写分离B.资源隔离C.资源调度D.可扩展参考答案:A37. Scala中创建一个方法时经常用void表示该方法无返回值。( )T.对F

9、.错参考答案:F38. Scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案:A39. 使用Amazon云环境部署Hadoop的说法中错误的是( )。A.Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中B.Hadoop自带有一套脚本,用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务参考答案:D40. Dstream输出操作中( )方法将DStream中的内容按对象序列化并且以Seq

10、uenceFile的格式保存A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案:D41. Scala列表方法中输出符号指定条件的所有元素的方法是( )A.dropB.headC.filterD.init参考答案:C42. Spark中运行交互式SQL查询的大规模并行查询引擎是( )A.Spark CoreB.Spark SQLC.BlinkDBD.Mllib参考答案:C43. 用户可以在Hadoop YARN上运行Spark。( )A.正确B.错误参考答案:A44. UMP系统中面对多个小规模用户如何进行资源调度

11、( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案:A45. HDFS中当一些数据节点不可用时,会导致一些数据块的副本数量( )冗余因子A.大于B.小于C.等于D.大于等于参考答案:B46. Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply参考答案:A47. Hbase中缓存刷新,每次刷写都生成一个新的StoreFile文件,因此,每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案:A48. 关系数据库与NoSQL数据

12、库相比有哪些优势( )A.支持事务ACID四性B.可以支持超大规模数据存储C.以完善的关系代数理论作为基础D.具有强大的横向扩展能力参考答案:AC49. 拉斯维加斯算法找到的解不一定是正确解。( )A.错误B.正确参考答案:A50. HDFS中SecondaryNameNode可减少( )重启的时间A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案:A51. Hbase中Zookeeper提供了( )A.分布式同步B.组服务C.域名服务D.配置维护参考答案:ABCD52. 大数据的特征是( )。A.数据体量大B.数据产生速度快C.数据种类多D.

13、数据计算快E.数据价值高参考答案:ABCE53. Spark DataFrame中( )方法可以返回一个ListA.collectB.takeC.takeAsListD.collectAsList参考答案:CD54. 大数据计算处理方法主要分为两种方法,即批处理方法和流处理方法。( )A.正确B.错误参考答案:A55. 分支限界法主要有队列式(FIFO)分支限界法和优先队列式分支限界法。( )A.错误B.正确参考答案:B56. HDFS在设计上采取了多种机制保证在硬件出错的环境中实现数据的完整性。( )A.正确B.错误参考答案:A57. Spark Streming中( )函数可以使用func将源DStream中的每个元素进行聚合操作,返回一个内部所包含的RDD只有一个元素的新DStreamA.unionB.reduceC.joinD.cogroup参考答案:B58. MapReduce将输入文件切

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号