南开大学21春《大数据开发技术》在线作业一满分答案39

资源描述

《南开大学21春《大数据开发技术》在线作业一满分答案39》由会员分享，可在线阅读，更多相关《南开大学21春《大数据开发技术》在线作业一满分答案39（13页珍藏版）》请在金锄头文库上搜索。

1、南开大学21春大数据开发技术在线作业一满分答案1. 递归函数意味着函数可以调用它( )A.其他函数B.主函数C.子函数D.自身参考答案：D2. ( )可以解决图计算问题A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案：C3. RDD的map操作不会改变RDD的分区数目。( )A.正确B.错误参考答案：A4. GraphX中( )是存放着Edg对象的RDDA.RDDEdgeB.EdgeRDDC.RDD(VertexId,VD)D.VertexRDD参考答案：A5. RDD是一个可读写的数据结构。( )T.对F.错参考答案：F6. RDD的union函数会将两个RD

2、D元素合并成一个并且去处重复元素。( )A.正确B.错误参考答案：B7. Spark的RDD持久化操作有( )方式A.cacheB.presistC.storageD.long参考答案：AB8. Spark SQL可以通过( )方法加载json文件为DataFrameA.formatB.jsonC.getD.read参考答案：AB9. 一个问题可用动态规划算法或贪心算法求解的关键特征是问题的( )。A.重叠子问题B.最优子结构性质C.贪心选择性质D.定义最优解参考答案：B10. 任何可用计算机求解的问题所需的时间都与其规模无关。( )A.错误B.正确参考答案：A11. 程序是算法用某种程序设计

3、语言的具体实现。( )A.错误B.正确参考答案：B12. MongoDB将数据存储为一个( )A.关系B.属性C.字段D.文档参考答案：D13. 用户可以在Hadoop YARN上运行Spark。( )A.正确B.错误参考答案：A14. DataFrame是一个分布式的Row对象的数据集合。( )A.正确B.错误参考答案：A15. Spark中DataFrame的( )方法是查询指定字段的数据信息A.selectB.selectExprC.colD.apply参考答案：ABCD16. Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply

4、参考答案：A17. GraphX中( )方法可以释放顶点缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案：C18. Mllib中metrics.roc表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：D19. Scala 集合分为可变的和不可变的集合。( )A.正确B.错误参考答案：A20. Graph类中如果要根据边数据创建图，边数据需要加载为二元组，可以选择是否对边分区，应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(R

5、DDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValue,)D.GraphLoader.edgeListFile(sc,filename)参考答案：C21. SparkContext类中makeRDD方法不可将单机数据创建为分布式RDD。( )A.正确B.错误参考答案：B22. RDD是一个( )的数据结构A.可读写B.只读的C.容错的D.可进行并行操作的参考答案：BCD23. RDD的cartesian函数是笛卡尔积，也就是将两个集合的元素两两组合成一组。( )A

6、.正确B.错误参考答案：A24. Hbase中( )是最核心的模块，负责维护分配给自己的Region，并响应用户的读写请求A.MasterB.SlaverC.Region服务器D.客户端参考答案：C25. 大数据的特征是( )。A.数据体量大B.数据产生速度快C.数据种类多D.数据计算快E.数据价值高参考答案：ABCE26. Spark取代Hadoop仅仅是取代MapReduce这种计算框架，Spark可以取代HDFS吗。( )T.对F.错参考答案：F27. 0-1背包问题的回溯算法所需的计算时间为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案：A28. 很多企

7、业为了支持决策分析而构建的数据仓库系统，其中存放的大量历史数据就是( )数据。技术人员可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息。A.动态B.存量C.实时D.静态参考答案：D29. spark-submit配置项中( )表示executor内存大小A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案：B30. Spark Streming中DStream可以通过外部数据源(Kafka，Flume，Twitter等)来获取，也可以通过

8、现有DStream的高级操作(Transformation操作)获得。( )A.正确B.错误参考答案：A31. GraphX中( )方法可以查询顶点个数A.numVerticesB.numEdgesC.verticesD.edges参考答案：A32. Scala中如果函数无返回值，则函数返回类型为( )A.NULLB.VoidC.NothingD.Unit参考答案：D33. 数据产生方式的运营式系统阶段的数据产生方式是主动的。( )A.正确B.错误参考答案：B34. 以下算法中属于无监督学习算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案：D35. SQL Azur

9、e体系结构层中哪层相当于网关，相当于普通Web系统的逻辑层( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案：B36. Hadoop在配置伪分布式时需要修改哪几个配置文件( )。A.hbase-site.xmlB.hdfs-site.xmlC.core-site.xmlD.map-site.xmlE.mapr-site.xml参考答案：BC37. 最长公共子序列算法利用的算法是( )。A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案：B38. spark-submit配置项中( )表示

10、启动的executor数量A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案：A39. 以下算法中属于分类算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案：ABC40. 大型图计算通常是由一个集群完成的，集群环境中执行远程数据读取会有较高的延迟。( )A.正确B.错误参考答案：A41. RDD的map操作不会改变RDD的分区数目。( )T.对F.错参考答案：T42. 下列Scala代码应输出( )：var a=0;var b=0

11、var sum=0;for(a-1 until 3; b-1 until 3) sum+=a+b;println(sum);A.36B.35C.11D.12参考答案：D43. Storm中如果要让所有的Tuple都发送到同一个Task中，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：C44. Spark创建DataFrame对象方式有( )A.结构化数据文件B.外部数据库C.RDDD.Hive中的表参考答案：ABCD45. 美国奥巴马政府宣布投资2亿美元启

12、动“大数据研发计划”。( )A.对B.错参考答案：A46. 回溯法搜索状态空间树是按照什么的顺序?( )A.中序遍历B.广度优先遍历C.深度优先遍历D.层次优先遍历参考答案：C47. Scala中( )方法返回一个列表，包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案：B48. 在图结构中，每个元素都可以有( )前驱A.至少一个B.零个或多个C.一个D.零个参考答案：B49. 数据归约(Data Reduction)主要有( )。A.维度规约B.样本规约C.数据聚集D.离散化概念分层参考答案：ABCD50. PairRDD的( )方法，可以把两个RDD

13、中键相同的元素组合在一起，合并为一个RDD。A.joinB.unionC.substractD.intersection参考答案：A51. 实现合并排序利用的算法是( )。A.分治策略B.动态规划法C.贪心法D.回溯法参考答案：A52. 贪心选择性质是贪心算法可行的第一个基本要素，也是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案：B53. Scala列表中last返回列表最后一个元素。( )A.正确B.错误参考答案：A54. Scala列表中last返回一个列表，包含除了第一个元素之外的其他元素。( )A.正确B.错误参考答案：B55. 图的结构通常表示为：G(V，E)，其中，G表示( )A.图B.子图C.顶点D.边参考答案：A56. Spark SQL读取的数据源支持( )A.Hive表B.Parquent文件C.JSON数据D.关系数据库参考答案：ABC

展开阅读全文