南开大学21秋《大数据开发技术》在线作业二答案参考28

资源描述

《南开大学21秋《大数据开发技术》在线作业二答案参考28》由会员分享，可在线阅读，更多相关《南开大学21秋《大数据开发技术》在线作业二答案参考28（13页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋大数据开发技术在线作业二答案参考1. 程序是算法用某种程序设计语言的具体实现。( )A.错误B.正确参考答案：B2. GraphX中( )方法可以查询顶点个数A.numVerticesB.numEdgesC.verticesD.edges参考答案：A3. 实现合并排序利用的算法是( )。A.分治策略B.动态规划法C.贪心法D.回溯法参考答案：A4. 图的结构通常表示为：G(V，E)，其中，G表示( )A.图B.子图C.顶点D.边参考答案：A5. NoSQL数据库与关系数据库相比适用于哪些领域( )A.电信B.银行C.互联网企业大数据处理D.传统企业的数据分析参考答案：CD6. 流

2、计算系统的需求有( )。A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案：ACE7. Spark中DataFrame的( )方法是进行排序查询A.order byB.group byC.select byD.sort by参考答案：A8. Scala列表中last返回一个列表，包含除了第一个元素之外的其他元素。( )A.正确B.错误参考答案：B9. 图结构中如果任意两个顶点之间都存在有向边，那么称之为( )A.完全图B.有向完全图C.无向图D.简单图参考答案：B10. Spark SQL读取的数据源支持( )A.Hive表B.Parquent文件C.JSON数据D.关系数据库参考答案：

3、ABCD11. Scala 集合分为可变的和不可变的集合。( )A.正确B.错误参考答案：A12. 利用概率的性质计算近似值的随机算法是数值概率算法，运行时以一定的概率得到正确解的随机算法是蒙特卡罗算法。( )A.错误B.正确参考答案：B13. 数据采集，又称数据获取，是大数据生命周期的第一个环节，通过RFID.射频识别技术，传感器，交互型社交网络，移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。( )A.对B.错参考答案：A14. 下列随机算法中运行时有时候成功有时候失败的是( )。A.数值概率算法B.舍伍德算法C.拉斯维加斯算法D.蒙特卡罗算法参考答案：C15. 每个

4、变量的最大值和最小值之差称为极差。( )A.对B.错参考答案：A16. 分治法与动态规划法的不同点是：适合于用动态规划法求解的问题，经分解得到的子问题往往不是互相独立的。而用分治法求解的问题，经分解得到的子问题往往是互相独立的。( )A.错误B.正确参考答案：B17. RDD的union函数会将两个RDD元素合并成一个并且去处重复元素。( )A.正确B.错误参考答案：B18. 任何可用计算机求解的问题所需的时间都与其规模无关。( )A.错误B.正确参考答案：A19. Spark DataFrame中( )方法可以返回一个Array对象A.collectB.takeC.takeAsListD.c

5、ollectAsList参考答案：AB20. Hbase中Zookeeper提供了( )A.分布式同步B.组服务C.域名服务D.配置维护参考答案：ABCD21. Scala类通过子类化和基于灵活的混合类来进行扩展，作为( )的一个可靠性解决方案A.多态B.虚函数C.派生D.多重继承参考答案：D22. 流计算的采集阶段需要保证( )。A.实时性B.大量C.低延迟D.稳定可靠参考答案：ACD23. Scala 集合分为可变的和不可变的集合。( )T.对F.错参考答案：T24. Spark Streming中( )函数可以对源DStream中的每一个元素应用func方法进行计算，如果func函数返回

6、结果为true，则保留该元素，否则丢弃该元素，返回一个新的DstreamA.mapB.flatMapC.filterD.union参考答案：C25. 以下算法中属于分类算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案：ABC26. Hive提供了大数据批处理计算功能。( )A.正确B.错误参考答案：B27. 回溯法解旅行售货员问题时的解空间树是( )。A.子集树B.排列树C.深度优先生成树D.广度优先生成树参考答案：A28. Scala函数组合器可以接收一个可以处理嵌套列表的函数，然后把返回结果连接起来的方法是( )A.mapB.foreachC.flattenD.

7、flatmap参考答案：D29. MLlib中Normalizer是一个转换器，它可以将多行向量输入转化为统一的形式。( )T.对F.错参考答案：T30. Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括面向对象编程的特性。( )T.对F.错参考答案：F31. Spark DataFrame中( )方法可以返回一个ListA.collectB.takeC.takeAsListD.collectAsList参考答案：CD32. Google Chart API是哪种可视化工具( )A.信息图表B.地图工具C.时间线工具D.分析工具参考答案：A33.

8、数据归约(Data Reduction)主要有( )。A.维度规约B.样本规约C.数据聚集D.离散化概念分层参考答案：ABCD34. 用户可以在Apache Mesos上运行Spark。( )T.对F.错参考答案：T35. 以下算法中属于监督学习算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案：ABC36. Spark中DataFrame的查询操作也是一个懒操作，仅仅生成一个查询计划，只有触发Action操作才会进行计算并返回查询结果。( )A.正确B.错误参考答案：A37. 大数据决策逐渐成为一种新的决策方式，大数据应用有力促进了信息技术与各行业的深度融合，大数据

9、开发大大推动了新技术和新应用的不断涌现。( )A.正确B.错误参考答案：A38. Scala是一种纯面向对象的语言，每个值都是对象。( )T.对F.错参考答案：T39. Scala在子类中重写超类的抽象方法时，需要使用override关键字。( )T.对F.错参考答案：F40. HBase的客户端并不依赖Master，而是通过( )来获得Region位置信息，大多数客户端甚至从来不和Master通信，这种设计方式使得Master负载很小A.MasterB.RegionC.ZookeeperD.Chubby参考答案：C41. Mllib中线性会馆算法中的参数reParam表示( )A.要运行的迭

10、代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：D42. Hbase中( )是最核心的模块，负责维护分配给自己的Region，并响应用户的读写请求A.MasterB.SlaverC.Region服务器D.客户端参考答案：C43. Spark中DataFrame的( )方法是进行分组查询A.order byB.group byC.select byD.sort by参考答案：B44. 静态数据采取( )计算模式A.批量B.实时C.大数据D.动态参考答案：A45. 关系数据库与NoSQL数据库相比有哪些优势( )A.支持事务ACID四性B

11、.可以支持超大规模数据存储C.以完善的关系代数理论作为基础D.具有强大的横向扩展能力参考答案：AC46. 以下哪个函数可以对RDD进行去重( )A.sortByB.filterC.distinctD.intersection参考答案：C47. 在HBase中，更新操作会用最新的当前值去替换记录中原来的旧值，旧值被覆盖后就不会存在。( )A.正确B.错误参考答案：B48. 下列算法中不能解决0/1背包问题的是( )。A.贪心法B.动态规划C.回溯法D.分支限界法参考答案：A49. var a=10; do a+=1; while(a20) 共循环了( )次A.9B.10C.11D.12参考答案：

12、B50. Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式，它需要收集超过100TB的数据，并且是高速实时数据流; 或者是从小数据开始，但数据每年增长速率至少为60%。( )A.对B.错参考答案：B51. 以下哪个函数可以求两个RDD差集 ( )A.unionB.substractC.intersectionD.cartesian参考答案：B52. Spark Streming中( )函数可以使用func将源DStream中的每个元素进行聚合操作，返回一个内部所包含的RDD只有一个元素的新DStreamA.unionB.reduceC.joinD.cogroup

13、参考答案：B53. 关系数据库与NoSQL数据库相比适用于哪些领域( )A.电信B.银行C.互联网企业大数据处理D.传统企业的数据分析参考答案：AB54. 回溯法是一种既带有系统性又带有跳跃性的搜索算法。( )A.错误B.正确参考答案：B55. 聚类分析(Cluster analysis)简称聚类(Clustering)，是把数据对象划分成子集(类)的过程，每个子集称为一个簇(Cluster)。( )A.对B.错参考答案：A56. 以下属于Hadoop的安装方式的有( )。A.单机模式B.多机模式C.分布式模式D.并行模式E.伪分布式模式参考答案：ACE57. Hbase采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：A58. 下面是贪心算法的基本要素的是( )。A.重叠子问题B.构造最优解C.贪心选择性质D.定义最

展开阅读全文