南开大学21秋《大数据开发技术》平时作业1答案参考78

上传人:住在****她 文档编号:275587384 上传时间:2022-04-11 格式:DOCX 页数:11 大小:12.34KB
返回 下载 相关 举报
南开大学21秋《大数据开发技术》平时作业1答案参考78_第1页
第1页 / 共11页
南开大学21秋《大数据开发技术》平时作业1答案参考78_第2页
第2页 / 共11页
南开大学21秋《大数据开发技术》平时作业1答案参考78_第3页
第3页 / 共11页
南开大学21秋《大数据开发技术》平时作业1答案参考78_第4页
第4页 / 共11页
南开大学21秋《大数据开发技术》平时作业1答案参考78_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《南开大学21秋《大数据开发技术》平时作业1答案参考78》由会员分享,可在线阅读,更多相关《南开大学21秋《大数据开发技术》平时作业1答案参考78(11页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋大数据开发技术平时作业1答案参考1. 哈弗曼编码的贪心算法所需的计算时间为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案:B2. Spark Streming中( )函数当被调用类型分别为(K,V)和(K,W)键值对的2个DStream时,返回类型为(K,(V,W)键值对的一个新 DStream。A.unionB.reduceC.joinD.cogroup参考答案:D3. Spark Streming中( )函数可以对源DStream的每个元素通过函数func返回一个新的DStreamA.mapB.flatMapC.filterD.union参考答

2、案:A4. 图的结构通常表示为:G(V,E),其中,G表示( )A.图B.子图C.顶点D.边参考答案:A5. Spark SQL可被视为一个分布式的SQL查询引擎,并且提供了一个叫做DataFrame的可编程抽象数据模型。( )A.正确B.错误参考答案:A6. RDD的( )操作通常用来划分单词A.filterB.unionC.flatmapD.mapPartitions参考答案:C7. 分支限界法与回溯法的求解目标相同。( )A.错误B.正确参考答案:A8. UMP系统的哪个功能实现了负载均衡( )A.读写分离B.资源隔离C.资源调度D.可扩展参考答案:A9. RDD的行动操作是用于触发转换

3、操作的操作,这个时候才会真正开始进行计算。( )A.正确B.错误参考答案:A10. Scala中可以用( )方法来连接两个或多个列表A.:B.#:C.List.:( )D.List.concat( )参考答案:BCD11. 优点是性能好(高并发),灵活性高,复杂性低,数据结构灵活 提供嵌入式文档功能的数据库是( )A.列族数据库B.键值数据库C.图数据库D.文档数据库参考答案:D12. Spark中DataFrame的( )方法是进行排序查询A.order byB.group byC.select byD.sort by参考答案:A13. 静态数据采取( )计算模式A.批量B.实时C.大数据D

4、.动态参考答案:A14. Spark Streming中Dstream是一种抽象的离散流。( )T.对F.错参考答案:T15. RDD中combineByKey不允许返回类型与输入数据类型不同的返回值。( )A.正确B.错误参考答案:B16. 关于Strom中Bolt说法错误的是( )。A.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作B.Bolt是一个被动的角色,Spout是一个主动的角色C.Bolt不仅可以处理Tuple还可以创建新的TupleD.Bolt是Streams的状态转换过程的抽象含义参考答案:C17. 图的结构通常表示为:G(V,E),其中,E是图G中( )A.

5、顶点B.顶点的集合C.边D.边的集合参考答案:D18. Python是一种面向对象的解释型计算机程序设计语言。( )A.对B.错参考答案:A19. 下列算法中通常以深度优先方式系统搜索问题解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案:D20. RDD是一个可读写的数据结构。( )A.正确B.错误参考答案:B21. Scala通过( )来定义变量A.valB.valC.defineD.def参考答案:A22. 数据仓库、专家系统产生于大数据发展的成熟期。( )A.正确B.错误参考答案:B23. MLlib中用于线性回归算法的包主要有( )A.LinearRegressio

6、nWithSGDB.RidgeRegressionWithSGDC.LassoWithSGDD.LeftRegression参考答案:ABC24. 文件块的大小和副本个数只能由系统指定。( )A.正确B.错误参考答案:B25. 使用Amazon云环境部署Hadoop的说法中错误的是( )。A.Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中B.Hadoop自带有一套脚本,用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务参考答案:D26. Spark SQL可以通过( )方法加载json文件

7、为DataFrameA.formatB.jsonC.getD.read参考答案:AB27. 以下哪个方法可以创建RDD( )A.parallelizeB.makeRDDC.textFileD.loadFile参考答案:ABC28. Spark创建DataFrame对象方式有( )A.结构化数据文件B.外部数据库C.RDDD.Hive中的表参考答案:ABCD29. PairRDD中groupBy(func)func返回key,传入的RDD的各个元素根据这个key进行分组。( )A.正确B.错误参考答案:A30. Spark持久化RDD后,在再一次需要计算该RDD时将需要重新计算。( )A.正确B

8、.错误参考答案:B31. RDD是一个可读写的数据结构。( )T.对F.错参考答案:F32. Scala 集合分为可变的和不可变的集合。( )A.正确B.错误参考答案:A33. HDFS中客户端在读取到数据后,会采用( )对数据块进行校验,以确定正确性A.md5B.哈希桶C.sha1D.奇偶校验参考答案:AC34. Spark可以从( )分布式文件系统中读取数据A.HDFSB.HbaseC.HiveD.Tachyon参考答案:ABCD35. MLlib中Normalizer是一个转换器,它可以将多行向量输入转化为统一的形式。( )T.对F.错参考答案:T36. Scala 集合分为可变的和不可

9、变的集合。( )T.对F.错参考答案:T37. 以下算法中属于无监督学习算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案:D38. 以下算法中属于分类算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案:ABC39. 默认情况下,Scala 使用的是可变集合。( )T.对F.错参考答案:F40. Hbase中缓存刷新,每次刷写都生成一个新的StoreFile文件,因此,每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案:A41. Scala函数组合器中groupBy是对集合中的元素进行分组操作,结果得到的是一个Map

10、。( )A.正确B.错误参考答案:A42. 流计算系统的需求有( )。A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案:ACE43. 在集成期间,当一个数据库的属性与另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。( )A.对B.错参考答案:A44. 大数据处理的关键技术主要包括:数据采集和预处理、数据存储、数据计算架构、数据分析和挖掘、数据可视化展示等。( )A.对B.错参考答案:A45. Hadoop启动所有进程的命令为( )。A.all-start.shB.all-start.exeC.start-all.shD.start-all.exe参考答案:C46. 关系数据库的关键特性包括完善的事务机制和高效的查询机制。( )A.正确B.错误参考答案:A47. 以下哪个是Scala的数据类型( )A.AnyB.NULLC.NothingD.AnyRef参考答案:ABCD48. 拉斯维加斯算法找到的解不一定是正确解。( )A.错误B.正确参考答案:A49. 可视化工具包括( )。A.ExcelB.Google ChartC.GephiD.ppt参考答案:ABC50. Spark取代Hadoop仅仅是取代MapReduce这种计算框架,Spark可以取代HDFS吗。( )T.对F.错参考答案:F

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号