南开大学21春《大数据开发技术》在线作业二满分答案71

上传人:鲁** 文档编号:489515180 上传时间:2023-11-13 格式:DOCX 页数:13 大小:14.32KB
返回 下载 相关 举报
南开大学21春《大数据开发技术》在线作业二满分答案71_第1页
第1页 / 共13页
南开大学21春《大数据开发技术》在线作业二满分答案71_第2页
第2页 / 共13页
南开大学21春《大数据开发技术》在线作业二满分答案71_第3页
第3页 / 共13页
南开大学21春《大数据开发技术》在线作业二满分答案71_第4页
第4页 / 共13页
南开大学21春《大数据开发技术》在线作业二满分答案71_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《南开大学21春《大数据开发技术》在线作业二满分答案71》由会员分享,可在线阅读,更多相关《南开大学21春《大数据开发技术》在线作业二满分答案71(13页珍藏版)》请在金锄头文库上搜索。

1、南开大学21春大数据开发技术在线作业二满分答案1. NoSQL数据库与关系数据库相比适用于哪些领域( )A.电信B.银行C.互联网企业大数据处理D.传统企业的数据分析参考答案:CD2. 从分治法的一般设计模式可以看出,用它设计出的程序一般是递归算法。( )A.错误B.正确参考答案:B3. Scala中创建一个方法时经常用void表示该方法无返回值。( )T.对F.错参考答案:F4. Spark中运行交互式SQL查询的大规模并行查询引擎是( )A.Spark CoreB.Spark SQLC.BlinkDBD.Mllib参考答案:C5. Graph类中如果要根据边数据创建图,边数据需要加载为二元

2、组,可以选择是否对边分区,应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValue,)D.GraphLoader.edgeListFile(sc,filename)参考答案:C6. UMP系通过( )来实现实现集群成员管理、元数据存储、MySQL实例管理、故障恢复、备份、迁移、扩容等功能A.Controller服务器B.Proxy

3、服务器C.愚公系统D.Agent服务器参考答案:A7. Hadoop在配置伪分布式时需要修改哪几个配置文件( )。A.hbase-site.xmlB.hdfs-site.xmlC.core-site.xmlD.map-site.xmlE.mapr-site.xml参考答案:BC8. Spark DataFrame中( )方法可以返回一个Array对象A.collectB.takeC.takeAsListD.collectAsList参考答案:AB9. 以下哪个方法可以创建RDD( )A.parallelizeB.makeRDDC.textFileD.loadFile参考答案:ABC10. 下列

4、算法中通常以自底向上的方式求解最优解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案:B11. 批处理系统关注( ),流处理系统关注( )。A.吞吐率,延时B.延时,吞吐率C.延时,速度D.速度,吞吐率参考答案:A12. MapReduce中( )会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker,同时接收JobTracker 发送过来的命令并执行相应的操作。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案:D13. ( )和( ),它们把原数据变换或投影到较小的空间。A.小波变换B.中心化变换C

5、.主成分分析D.对数变换参考答案:AC14. 请问RDD的( )操作用于将相同键的数据聚合A.joinB.zipC.combineByKeyD.collect参考答案:C15. 我们既要通过政府主导,又要发挥社会的力量,来共同推进医疗大数据的应用。( )A.对B.错参考答案:A16. Spark Streming中( )函数可以对源DStream中的每一个元素应用func方法进行计算,如果func函数返回结果为true,则保留该元素,否则丢弃该元素,返回一个新的DstreamA.mapB.flatMapC.filterD.union参考答案:C17. 矩阵连乘问题的算法可由动态规划设计实现。(

6、 )A.错误B.正确参考答案:B18. Spark SQL读取的数据源支持( )A.Hive表B.Parquent文件C.JSON数据D.关系数据库参考答案:ABCD19. 用户可以在Apache Mesos上运行Spark。( )T.对F.错参考答案:T20. 大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的不断涌现。( )A.正确B.错误参考答案:A21. Scala源代码被编译成( )字节码,所以它可以运行于JVM之上A.SparkB.ScalaC.JavaD.JDK参考答案:C22. Scala 列表与数组非常相似

7、,列表的所有元素可具有不同的类型。( )T.对F.错参考答案:F23. Spark取代Hadoop仅仅是取代MapReduce这种计算框架,Spark可以取代HDFS吗。( )T.对F.错参考答案:F24. 算法的复杂性没有时间复杂性和空间复杂性之分。( )A.错误B.正确参考答案:A25. Scala函数组合器可以通过一个函数重新计算列表中所有元素,没有返回值。( )A.正确B.错误参考答案:B26. MLlib中Normalizer是一个转换器,它可以将多行向量输入转化为统一的形式。( )T.对F.错参考答案:T27. Scala中元组是是一种可迭代的键值对(key/value)结构。(

8、)A.正确B.错误参考答案:B28. Pentaho是最流行的开源商业智能软件之一。( )A.对B.错参考答案:A29. UMP系统的哪个功能实现了负载均衡( )A.读写分离B.资源隔离C.资源调度D.可扩展参考答案:A30. spark-submit配置项中( )表示启动的executor数量A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案:A31. MLBase包括( )A.MllibB.MLIC.SparkRD.GraphX参考答案:AB32. S

9、cala是一种纯面向对象的语言,每个值都是对象。( )T.对F.错参考答案:T33. MongoDB将数据存储为一个( )A.关系B.属性C.字段D.文档参考答案:D34. Mllib中metrics.fMeasureByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:C35. Spark是一个( )计算框架A.快速B.分布式C.可扩展D.容错参考答案:ABCD36. spark-submit配置项中( )表示Driver程序使用的内存大小A.-driver-memory MEMB.-executor-memory MEMC.-total-executor-

10、cores NUMD.-executor-coures NUM参考答案:A37. Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply参考答案:A38. Map Task和Reduce Task均由( )启动。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案:D39. SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答

11、案:A40. GraphX中( )方法可以释放顶点缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案:C41. 下列算法中通常以深度优先方式系统搜索问题解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案:D42. 哈弗曼编码的贪心算法所需的计算时间为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案:B43. Spark Streming中( )函数当被调用类型分别为(K,V)和(K,W)键值对的2个DStream时,返回类型为(K,(V,W)键值对的一个新 DStream。A.un

12、ionB.reduceC.joinD.cogroup参考答案:D44. PairRDD中mapValues是针对键值对(Key,Value)类型的数据中的key和Value进行Map操作。( )T.对F.错参考答案:F45. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案:C46. Scala中如果函数中的每个参数在函数中最多只出现一次,则可以使用占位符( )代替参数。A.井号B.下划线C.斜杠D.逗号参考答案:B47. ( )可以解决图计算问题A.Spark

13、CoreB.BlinkDBC.GraphXD.Mllib参考答案:C48. RDD的sortBy函数包含参数numPartitions,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。( )T.对F.错参考答案:T49. 数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID.射频识别技术,传感器,交互型社交网络,移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。( )A.对B.错参考答案:A50. Spark中DataFrame的( )方法是进行排序查询A.order byB.group byC.select byD.sort by参考答案:A51. 快速排序算法的性能取决于划分的对称性。( )A.错误B.正确参考答案:B52. Hbase中缓存刷新,每次刷写都生成一个新的StoreFile文件,因此,每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案:A53. 传统的数据处理流

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号