南开大学21春《大数据开发技术》离线作业2参考答案17

资源描述

《南开大学21春《大数据开发技术》离线作业2参考答案17》由会员分享，可在线阅读，更多相关《南开大学21春《大数据开发技术》离线作业2参考答案17（11页珍藏版）》请在金锄头文库上搜索。

1、南开大学21春大数据开发技术离线作业2参考答案1. 算法是由若干条指令组成的有穷序列，且要满足输入、输出、确定性和有限性四条性质。( )A.错误B.正确参考答案：B2. Hadoop启动所有进程的命令为( )。A.all-start.shB.all-start.exeC.start-all.shD.start-all.exe参考答案：C3. Scala中可以用( )方法来连接两个或多个列表A.:B.#:C.List.:( )D.List.concat( )参考答案：BCD4. GraphX中( )方法可以释放顶点缓存A.cacheB.presistC.unpersistVerticesD.ed

2、ges.unpersist参考答案：C5. TF-IDF中TF指的是( )A.词频B.词在文档中出现的次数C.逆文档概率D.词在文档集中出现的概率E.词在文档集中出现的概率参考答案：AB6. Python是一种面向对象的解释型计算机程序设计语言。( )A.对B.错参考答案：A7. Scala中( )方法返回一个列表，包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案：B8. Spark Streaming中时间片也可称为批处理时间间隔(batch interval)，时间片是人为地对数据进行定量的标准，作为拆分数据的依据，一个时间片的数据对应一个RDD实

3、例。( )A.正确B.错误参考答案：A9. MLBase包括( )A.MllibB.MLIC.SparkRD.GraphX参考答案：AB10. Scala中创建一个方法时经常用void表示该方法无返回值。( )T.对F.错参考答案：F11. 大数据的特征是( )。A.数据体量大B.数据产生速度快C.数据种类多D.数据计算快E.数据价值高参考答案：ABCE12. Scala函数组合器中groupBy是对集合中的元素进行分组操作，结果得到的是一个Map。( )A.正确B.错误参考答案：A13. Spark创建DataFrame对象方式有( )A.结构化数据文件B.外部数据库C.RDDD.Hive中

4、的表参考答案：ABCD14. 决策树是( )的常用算法A.分类B.聚类C.降维D.回归参考答案：AD15. 贪心算法的基本要素是贪心选择质和最优子结构性质。( )A.错误B.正确参考答案：B16. Mllib中线性会馆算法中的参数reParam表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：D17. 下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画?( )A.ggplot2B.networkC.ggmapsD.animation参考答案：D18. RDD的行动操作通过某种函数将一个RDD转换为一

5、个新的RDD，但是转换操作是懒操作，不会立刻执行计算。( )A.正确B.错误参考答案：B19. Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括面向对象编程的特性。( )T.对F.错参考答案：F20. UMP系通过( )来实现实现在不停机的情况下动态扩容、缩容和迁移A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案：C21. Pig是Hadoop项目中一种数据仓库工具。( )A.正确B.错误参考答案：B22. 以下哪种数据库适合于批量数据处理和即席查询( )A.MySQLB.OracleC.HbaseD.No

6、sSQL参考答案：C23. RDD的intersection方法用于求出两个RDD的共同元素。( )A.正确B.错误参考答案：A24. PairRDD中( )函数可以合并具有相同键的值A.mapValuesB.groupByC.groupByKeyD.reduceByKey参考答案：A25. 关系数据库的关键特性包括完善的事务机制和高效的查询机制。( )A.正确B.错误参考答案：A26. 图结构中如果任意两个顶点之间都存在有向边，那么称之为( )A.完全图B.有向完全图C.无向图D.简单图参考答案：B27. SQL Azure体系结构层中哪层是硬件和操作系统( )A.Client LayerB

7、.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案：D28. 大数据处理的关键技术主要包括：数据采集和预处理、数据存储、数据计算架构、数据分析和挖掘、数据可视化展示等。( )A.对B.错参考答案：A29. Spark是一个( )计算框架A.快速B.分布式C.可扩展D.容错参考答案：ABCD30. UMP系统中面对多个小规模用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案：A31. spark-submit配置项中( )

8、表示executor内存大小A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案：B32. Scala列表中last返回列表最后一个元素。( )A.正确B.错误参考答案：A33. 以下哪个不是Scala的数据类型( )A.IntB.Short IntC.LongD.Any参考答案：B34. PairRDD中( )函数可以进行分组A.mapValuesB.groupByC.groupByKeyD.reduceByKey参考答案：BC35. 分支限界法解最大团问

9、题时，活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案：B36. 在Storm的工作流程中，对于Supervisor说法错误的是( )。A.Supervisor会去Zookeeper集群上认领自己的TaskB.Supervisor节点首先将提交的Topology进行分片，分成一个个Task，分配给相应的NimbusC.Supervisor会将Task和相关的信息提交到Zookeeper集群上D.Supervisor会通知自己的Worker进程进行Task的处理参考答案：B37. RDD的filter过滤会将返回值为true的过滤掉。( )T.对F.错参考答案：F38. 对

10、于不同顶点之间的信息交换，Pregel采用了( )A.远程数据读取B.共享内存C.纯消息传递模型D.共享消息参考答案：C39. 1秒定律体现了大数据的哪个特征( )。A.数据量大B.数据产生速度快C.数据存储快D.数据计算快参考答案：B40. 解决0/1背包问题可以使用动态规划、回溯法和分支限界法，其中不需要排序的是动态规划，需要排序的是回溯法，分支限界法。( )A.错误B.正确参考答案：B41. Scala函数组合器中filter过滤移除使得传入的函数的返回值为true的元素。( )A.正确B.错误参考答案：B42. 应用于分布式数据存储与管理数据在地理上分布于多个数据中心的应用程序的数据库

11、是哪种( )A.列族数据库B.键值数据库C.图数据库D.文档数据库参考答案：A43. 关联分析又称为关联规则学习。( )A.对B.错参考答案：A44. 实现合并排序利用的算法是( )。A.分治策略B.动态规划法C.贪心法D.回溯法参考答案：A45. 流计算的采集阶段需要保证( )。A.实时性B.大量C.低延迟D.稳定可靠参考答案：ACD46. Scala在子类中重写超类的抽象方法时，需要使用override关键字。( )T.对F.错参考答案：F47. 亚马逊的云服务提供了多达几十种服务，涵盖了IaaS、PaaS、SaaS这三层。( )A.正确B.错误参考答案：A48. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：B49. 在现有大数据的存储中，结构化数据仅有20%，其余80%则在存在于物联网、电子商务、社交网络等领域的半结构化数据和非结构化数据。( )A.对B.错参考答案：A50. 计算一个算法时间复杂度通常可以计算循环次数、基本操作的频率或计算步。( )A.错误B.正确参考答案：B

展开阅读全文