南开大学21秋《大数据开发技术》平时作业1答案参考78

资源描述

《南开大学21秋《大数据开发技术》平时作业1答案参考78》由会员分享，可在线阅读，更多相关《南开大学21秋《大数据开发技术》平时作业1答案参考78（11页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋大数据开发技术平时作业1答案参考1. 哈弗曼编码的贪心算法所需的计算时间为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案：B2. Spark Streming中( )函数当被调用类型分别为(K，V)和(K，W)键值对的2个DStream时，返回类型为(K，(V，W)键值对的一个新 DStream。A.unionB.reduceC.joinD.cogroup参考答案：D3. Spark Streming中( )函数可以对源DStream的每个元素通过函数func返回一个新的DStreamA.mapB.flatMapC.filterD.union参考答

2、案：A4. 图的结构通常表示为：G(V，E)，其中，G表示( )A.图B.子图C.顶点D.边参考答案：A5. Spark SQL可被视为一个分布式的SQL查询引擎，并且提供了一个叫做DataFrame的可编程抽象数据模型。( )A.正确B.错误参考答案：A6. RDD的( )操作通常用来划分单词A.filterB.unionC.flatmapD.mapPartitions参考答案：C7. 分支限界法与回溯法的求解目标相同。( )A.错误B.正确参考答案：A8. UMP系统的哪个功能实现了负载均衡( )A.读写分离B.资源隔离C.资源调度D.可扩展参考答案：A9. RDD的行动操作是用于触发转换

3、操作的操作，这个时候才会真正开始进行计算。( )A.正确B.错误参考答案：A10. Scala中可以用( )方法来连接两个或多个列表A.:B.#:C.List.:( )D.List.concat( )参考答案：BCD11. 优点是性能好(高并发)，灵活性高，复杂性低，数据结构灵活提供嵌入式文档功能的数据库是( )A.列族数据库B.键值数据库C.图数据库D.文档数据库参考答案：D12. Spark中DataFrame的( )方法是进行排序查询A.order byB.group byC.select byD.sort by参考答案：A13. 静态数据采取( )计算模式A.批量B.实时C.大数据D

4、.动态参考答案：A14. Spark Streming中Dstream是一种抽象的离散流。( )T.对F.错参考答案：T15. RDD中combineByKey不允许返回类型与输入数据类型不同的返回值。( )A.正确B.错误参考答案：B16. 关于Strom中Bolt说法错误的是( )。A.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作B.Bolt是一个被动的角色，Spout是一个主动的角色C.Bolt不仅可以处理Tuple还可以创建新的TupleD.Bolt是Streams的状态转换过程的抽象含义参考答案：C17. 图的结构通常表示为：G(V，E)，其中，E是图G中( )A.

5、顶点B.顶点的集合C.边D.边的集合参考答案：D18. Python是一种面向对象的解释型计算机程序设计语言。( )A.对B.错参考答案：A19. 下列算法中通常以深度优先方式系统搜索问题解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案：D20. RDD是一个可读写的数据结构。( )A.正确B.错误参考答案：B21. Scala通过( )来定义变量A.valB.valC.defineD.def参考答案：A22. 数据仓库、专家系统产生于大数据发展的成熟期。( )A.正确B.错误参考答案：B23. MLlib中用于线性回归算法的包主要有( )A.LinearRegressio

6、nWithSGDB.RidgeRegressionWithSGDC.LassoWithSGDD.LeftRegression参考答案：ABC24. 文件块的大小和副本个数只能由系统指定。( )A.正确B.错误参考答案：B25. 使用Amazon云环境部署Hadoop的说法中错误的是( )。A.Hadoop不仅可以运行在企业内部的集群中，也可以运行在云计算环境中B.Hadoop自带有一套脚本，用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务参考答案：D26. Spark SQL可以通过( )方法加载json文件

7、为DataFrameA.formatB.jsonC.getD.read参考答案：AB27. 以下哪个方法可以创建RDD( )A.parallelizeB.makeRDDC.textFileD.loadFile参考答案：ABC28. Spark创建DataFrame对象方式有( )A.结构化数据文件B.外部数据库C.RDDD.Hive中的表参考答案：ABCD29. PairRDD中groupBy(func)func返回key，传入的RDD的各个元素根据这个key进行分组。( )A.正确B.错误参考答案：A30. Spark持久化RDD后，在再一次需要计算该RDD时将需要重新计算。( )A.正确B

8、.错误参考答案：B31. RDD是一个可读写的数据结构。( )T.对F.错参考答案：F32. Scala 集合分为可变的和不可变的集合。( )A.正确B.错误参考答案：A33. HDFS中客户端在读取到数据后，会采用( )对数据块进行校验，以确定正确性A.md5B.哈希桶C.sha1D.奇偶校验参考答案：AC34. Spark可以从( )分布式文件系统中读取数据A.HDFSB.HbaseC.HiveD.Tachyon参考答案：ABCD35. MLlib中Normalizer是一个转换器，它可以将多行向量输入转化为统一的形式。( )T.对F.错参考答案：T36. Scala 集合分为可变的和不可

9、变的集合。( )T.对F.错参考答案：T37. 以下算法中属于无监督学习算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案：D38. 以下算法中属于分类算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案：ABC39. 默认情况下，Scala 使用的是可变集合。( )T.对F.错参考答案：F40. Hbase中缓存刷新，每次刷写都生成一个新的StoreFile文件，因此，每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案：A41. Scala函数组合器中groupBy是对集合中的元素进行分组操作，结果得到的是一个Map

10、。( )A.正确B.错误参考答案：A42. 流计算系统的需求有( )。A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案：ACE43. 在集成期间，当一个数据库的属性与另一个数据库的属性匹配时，必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。( )A.对B.错参考答案：A44. 大数据处理的关键技术主要包括：数据采集和预处理、数据存储、数据计算架构、数据分析和挖掘、数据可视化展示等。( )A.对B.错参考答案：A45. Hadoop启动所有进程的命令为( )。A.all-start.shB.all-start.exeC.start-all.shD.start-all.exe参考答案：C46. 关系数据库的关键特性包括完善的事务机制和高效的查询机制。( )A.正确B.错误参考答案：A47. 以下哪个是Scala的数据类型( )A.AnyB.NULLC.NothingD.AnyRef参考答案：ABCD48. 拉斯维加斯算法找到的解不一定是正确解。( )A.错误B.正确参考答案：A49. 可视化工具包括( )。A.ExcelB.Google ChartC.GephiD.ppt参考答案：ABC50. Spark取代Hadoop仅仅是取代MapReduce这种计算框架，Spark可以取代HDFS吗。( )T.对F.错参考答案：F

展开阅读全文

南开大学21秋《大数据开发技术》平时作业1答案参考78

最新文档