南开大学21春《大数据开发技术》在线作业二满分答案71

资源描述

《南开大学21春《大数据开发技术》在线作业二满分答案71》由会员分享，可在线阅读，更多相关《南开大学21春《大数据开发技术》在线作业二满分答案71（13页珍藏版）》请在金锄头文库上搜索。

1、南开大学21春大数据开发技术在线作业二满分答案1. NoSQL数据库与关系数据库相比适用于哪些领域( )A.电信B.银行C.互联网企业大数据处理D.传统企业的数据分析参考答案：CD2. 从分治法的一般设计模式可以看出，用它设计出的程序一般是递归算法。( )A.错误B.正确参考答案：B3. Scala中创建一个方法时经常用void表示该方法无返回值。( )T.对F.错参考答案：F4. Spark中运行交互式SQL查询的大规模并行查询引擎是( )A.Spark CoreB.Spark SQLC.BlinkDBD.Mllib参考答案：C5. Graph类中如果要根据边数据创建图，边数据需要加载为二元

2、组，可以选择是否对边分区，应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValue,)D.GraphLoader.edgeListFile(sc,filename)参考答案：C6. UMP系通过( )来实现实现集群成员管理、元数据存储、MySQL实例管理、故障恢复、备份、迁移、扩容等功能A.Controller服务器B.Proxy

3、服务器C.愚公系统D.Agent服务器参考答案：A7. Hadoop在配置伪分布式时需要修改哪几个配置文件( )。A.hbase-site.xmlB.hdfs-site.xmlC.core-site.xmlD.map-site.xmlE.mapr-site.xml参考答案：BC8. Spark DataFrame中( )方法可以返回一个Array对象A.collectB.takeC.takeAsListD.collectAsList参考答案：AB9. 以下哪个方法可以创建RDD( )A.parallelizeB.makeRDDC.textFileD.loadFile参考答案：ABC10. 下列

4、算法中通常以自底向上的方式求解最优解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案：B11. 批处理系统关注( )，流处理系统关注( )。A.吞吐率，延时B.延时，吞吐率C.延时，速度D.速度，吞吐率参考答案：A12. MapReduce中( )会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker 发送过来的命令并执行相应的操作。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案：D13. ( )和( )，它们把原数据变换或投影到较小的空间。A.小波变换B.中心化变换C

5、.主成分分析D.对数变换参考答案：AC14. 请问RDD的( )操作用于将相同键的数据聚合A.joinB.zipC.combineByKeyD.collect参考答案：C15. 我们既要通过政府主导，又要发挥社会的力量，来共同推进医疗大数据的应用。( )A.对B.错参考答案：A16. Spark Streming中( )函数可以对源DStream中的每一个元素应用func方法进行计算，如果func函数返回结果为true，则保留该元素，否则丢弃该元素，返回一个新的DstreamA.mapB.flatMapC.filterD.union参考答案：C17. 矩阵连乘问题的算法可由动态规划设计实现。(

6、 )A.错误B.正确参考答案：B18. Spark SQL读取的数据源支持( )A.Hive表B.Parquent文件C.JSON数据D.关系数据库参考答案：ABCD19. 用户可以在Apache Mesos上运行Spark。( )T.对F.错参考答案：T20. 大数据决策逐渐成为一种新的决策方式，大数据应用有力促进了信息技术与各行业的深度融合，大数据开发大大推动了新技术和新应用的不断涌现。( )A.正确B.错误参考答案：A21. Scala源代码被编译成( )字节码，所以它可以运行于JVM之上A.SparkB.ScalaC.JavaD.JDK参考答案：C22. Scala 列表与数组非常相似

7、，列表的所有元素可具有不同的类型。( )T.对F.错参考答案：F23. Spark取代Hadoop仅仅是取代MapReduce这种计算框架，Spark可以取代HDFS吗。( )T.对F.错参考答案：F24. 算法的复杂性没有时间复杂性和空间复杂性之分。( )A.错误B.正确参考答案：A25. Scala函数组合器可以通过一个函数重新计算列表中所有元素，没有返回值。( )A.正确B.错误参考答案：B26. MLlib中Normalizer是一个转换器，它可以将多行向量输入转化为统一的形式。( )T.对F.错参考答案：T27. Scala中元组是是一种可迭代的键值对(key/value)结构。(

8、)A.正确B.错误参考答案：B28. Pentaho是最流行的开源商业智能软件之一。( )A.对B.错参考答案：A29. UMP系统的哪个功能实现了负载均衡( )A.读写分离B.资源隔离C.资源调度D.可扩展参考答案：A30. spark-submit配置项中( )表示启动的executor数量A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案：A31. MLBase包括( )A.MllibB.MLIC.SparkRD.GraphX参考答案：AB32. S

9、cala是一种纯面向对象的语言，每个值都是对象。( )T.对F.错参考答案：T33. MongoDB将数据存储为一个( )A.关系B.属性C.字段D.文档参考答案：D34. Mllib中metrics.fMeasureByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：C35. Spark是一个( )计算框架A.快速B.分布式C.可扩展D.容错参考答案：ABCD36. spark-submit配置项中( )表示Driver程序使用的内存大小A.-driver-memory MEMB.-executor-memory MEMC.-total-executor-

10、cores NUMD.-executor-coures NUM参考答案：A37. Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply参考答案：A38. Map Task和Reduce Task均由( )启动。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案：D39. SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答

11、案：A40. GraphX中( )方法可以释放顶点缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案：C41. 下列算法中通常以深度优先方式系统搜索问题解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案：D42. 哈弗曼编码的贪心算法所需的计算时间为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案：B43. Spark Streming中( )函数当被调用类型分别为(K，V)和(K，W)键值对的2个DStream时，返回类型为(K，(V，W)键值对的一个新 DStream。A.un

12、ionB.reduceC.joinD.cogroup参考答案：D44. PairRDD中mapValues是针对键值对(Key，Value)类型的数据中的key和Value进行Map操作。( )T.对F.错参考答案：F45. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：C46. Scala中如果函数中的每个参数在函数中最多只出现一次，则可以使用占位符( )代替参数。A.井号B.下划线C.斜杠D.逗号参考答案：B47. ( )可以解决图计算问题A.Spark

13、CoreB.BlinkDBC.GraphXD.Mllib参考答案：C48. RDD的sortBy函数包含参数numPartitions，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size。( )T.对F.错参考答案：T49. 数据采集，又称数据获取，是大数据生命周期的第一个环节，通过RFID.射频识别技术，传感器，交互型社交网络，移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。( )A.对B.错参考答案：A50. Spark中DataFrame的( )方法是进行排序查询A.order byB.group byC.select byD.sort by参考答案：A51. 快速排序算法的性能取决于划分的对称性。( )A.错误B.正确参考答案：B52. Hbase中缓存刷新，每次刷写都生成一个新的StoreFile文件，因此，每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案：A53. 传统的数据处理流

展开阅读全文