南开大学22春《大数据开发技术》离线作业一及答案参考97

资源描述

《南开大学22春《大数据开发技术》离线作业一及答案参考97》由会员分享，可在线阅读，更多相关《南开大学22春《大数据开发技术》离线作业一及答案参考97（13页珍藏版）》请在金锄头文库上搜索。

1、南开大学22春大数据开发技术离线作业一及答案参考1. Scala中( )方法返回一个列表，包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案：B2. 算法的复杂性没有时间复杂性和空间复杂性之分。( )A.错误B.正确参考答案：A3. Spark DataFrame中( )方法可以返回一个ListA.collectB.takeC.takeAsListD.collectAsList参考答案：CD4. UMP系统中面对多个小规模用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机

2、分配MySQL实例参考答案：A5. Spark中DataFrame的( )方法是进行排序查询A.order byB.group byC.select byD.sort by参考答案：A6. 以深度优先方式系统搜索问题解的算法称为回溯法。( )A.错误B.正确参考答案：B7. 美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”。( )A.对B.错参考答案：A8. Spark Streming中( )函数可以对源DStream中的每一个元素应用func方法进行计算，如果func函数返回结果为true，则保留该元素，否则丢弃该元素，返回一个新的DstreamA.mapB.flatMapC.filt

3、erD.union参考答案：C9. 关联分析又称为关联规则学习。( )A.对B.错参考答案：A10. Scala通过( )来定义变量A.valB.valC.defineD.def参考答案：A11. 广度优先是什么的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案：A12. 流计算的采集阶段需要保证( )。A.实时性B.大量C.低延迟D.稳定可靠参考答案：ACD13. Graph类中如果根据边数据创建图，数据需要转换成RDDEdgeED类型，应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEd

4、ges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValueD.GraphLoader.edgeListFile(sc,filename)参考答案：B14. 图(Graph)是一种复杂的非线性结构。( )T.对F.错参考答案：T15. 数据仓库、专家系统产生于大数据发展的成熟期。( )A.正确B.错误参考答案：B16. 以下哪个函数可以求两个RDD差集 ( )A.unionB.substractC.intersectionD.cartesian参考答案：B17

5、. PairRDD中mapValues是针对键值对(Key，Value)类型的数据中的key和Value进行Map操作。( )T.对F.错参考答案：F18. 下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画?( )A.ggplot2B.networkC.ggmapsD.animation参考答案：D19. 在集成期间，当一个数据库的属性与另一个数据库的属性匹配时，必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。( )A.对B.错参考答案：A20. PairRDD中groupBy(func)func返回key，传入的RDD的各个元素根据这个key

6、进行分组。( )A.正确B.错误参考答案：A21. 设计动态规划算法的主要步骤有5步。( )A.错误B.正确参考答案：A22. Scala函数组合器中filter过滤移除使得传入的函数的返回值为true的元素。( )A.正确B.错误参考答案：B23. 对于不同顶点之间的信息交换，Pregel采用了( )A.远程数据读取B.共享内存C.纯消息传递模型D.共享消息参考答案：C24. 键值对RDD由一组组的键值对组成，这些RDD被称为PairRDD。( )A.正确B.错误参考答案：A25. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNodeB.SecondaryN

7、ameNodeC.DataNodeD.Block参考答案：B26. 最长公共子序列算法利用的算法是( )。A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案：B27. RDD的map操作不会改变RDD的分区数目。( )T.对F.错参考答案：T28. 数据采集，又称数据获取，是大数据生命周期的第一个环节，通过RFID.射频识别技术，传感器，交互型社交网络，移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。( )A.对B.错参考答案：A29. Spark中DataFrame的( )方法是进行连接查询A.whereB.joinC.limitD.apply参考答案：B30.

8、文件块的大小和副本个数只能由系统指定。( )A.正确B.错误参考答案：B31. 实现大整数的乘法是利用( )的算法。A.贪心法B.动态规划法C.分治策略D.回溯法参考答案：C32. var a=10; do a+=1;while(aA.9B.10C.11D.12参考答案：B33. 关系数据库与NoSQL数据库相比有哪些优势( )A.支持事务ACID四性B.可以支持超大规模数据存储C.以完善的关系代数理论作为基础D.具有强大的横向扩展能力参考答案：AC34. 递归函数意味着函数可以调用它( )A.其他函数B.主函数C.子函数D.自身参考答案：D35. Spark可以从( )分布式文件系统中读取数

9、据A.HDFSB.HbaseC.HiveD.Tachyon参考答案：ABCD36. Scala中重写一个非抽象方法必须使用( )修饰符。A.extendsB.overrideC.extendD.overrides参考答案：B37. Spark可以通过哪些外部存储创建RDD( )A.文本文件B.目录C.压缩文件D.通配符匹配的文件参考答案：ABCD38. Dstream窗口操作中( )方法基于滑动窗口对(K，V)键值对类型的DStream中的值按K使用聚合函数func进行聚合操作，得到一个新的DstreamA.windowB.countByWindowC.reduceByWindowD.redu

10、ceByKeyAndWindow参考答案：D39. RDD的行动操作通过某种函数将一个RDD转换为一个新的RDD，但是转换操作是懒操作，不会立刻执行计算。( )A.正确B.错误参考答案：B40. Spark Streming中对DStream的任何操作都会转化成对底层RDDs的操作。( )A.正确B.错误参考答案：A41. 分支限界法解最大团问题时，活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案：B42. 批处理系统关注( )，流处理系统关注( )。A.吞吐率，延时B.延时，吞吐率C.延时，速度D.速度，吞吐率参考答案：A43. Spark的RDD持久化操作有( )方式

11、A.cacheB.presistC.storageD.long参考答案：AB44. RDD的filter过滤会将返回值为true的过滤掉。( )T.对F.错参考答案：F45. RDD的cartesian函数是笛卡尔积，也就是将两个集合的元素两两组合成一组。( )A.正确B.错误参考答案：A46. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：B47. HBase的客户端并不依赖Master，而是通过( )来获得Region位置信息，大多数客户端甚至从来不和Master通信，这种设计方式使得Master负载很小A.MasterB.Regi

12、onC.ZookeeperD.Chubby参考答案：C48. Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是( )A.filterB.foreachC.mapD.mkString参考答案：D49. 很多企业为了支持决策分析而构建的数据仓库系统，其中存放的大量历史数据就是( )数据。技术人员可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息。A.动态B.存量C.实时D.静态参考答案：D50. 关于分布式并行编程，以下说法错误的是( )。A.“摩尔定律”，CPU性能大约每隔12个月翻一番B.“摩尔定律”逐渐失效后，人们开始借助于分布式并行编程来提高程序性能C.

13、分布式程序运行在大规模计算机集群上，可以并行执行大规模数据处理任务，从而获得海量的计算能力D.谷歌公司最先提出了分布式并行编程模型MapReduce参考答案：A51. 回溯法搜索解空间树时，常用的两种剪枝函数为约束函数和限界函数。( )A.错误B.正确参考答案：B52. Hbase中Zookeeper提供了( )A.分布式同步B.组服务C.域名服务D.配置维护参考答案：ABCD53. Spark SQL可被视为一个分布式的SQL查询引擎，并且提供了一个叫做DataFrame的可编程抽象数据模型。( )A.正确B.错误参考答案：A54. 关于Map端Shuffle过程中的合并与归并，说法正确的是( )。A.两个键值对和，如果合并，会得到B.合并不会改变最终结果C.两个键值对和，如果归并，会得到D.两个键值对和，如果归并，会得到参考答案：ABD55. RDD中combineByKey不允许返回类型与输入数据类型不同的返回值。( )A.正确B.错误参考答案：B

展开阅读全文