南开大学22春《大数据开发技术》离线作业一及答案参考97

上传人:鲁** 文档编号:488151733 上传时间:2023-05-19 格式:DOCX 页数:13 大小:14.03KB
返回 下载 相关 举报
南开大学22春《大数据开发技术》离线作业一及答案参考97_第1页
第1页 / 共13页
南开大学22春《大数据开发技术》离线作业一及答案参考97_第2页
第2页 / 共13页
南开大学22春《大数据开发技术》离线作业一及答案参考97_第3页
第3页 / 共13页
南开大学22春《大数据开发技术》离线作业一及答案参考97_第4页
第4页 / 共13页
南开大学22春《大数据开发技术》离线作业一及答案参考97_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《南开大学22春《大数据开发技术》离线作业一及答案参考97》由会员分享,可在线阅读,更多相关《南开大学22春《大数据开发技术》离线作业一及答案参考97(13页珍藏版)》请在金锄头文库上搜索。

1、南开大学22春大数据开发技术离线作业一及答案参考1. Scala中( )方法返回一个列表,包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案:B2. 算法的复杂性没有时间复杂性和空间复杂性之分。( )A.错误B.正确参考答案:A3. Spark DataFrame中( )方法可以返回一个ListA.collectB.takeC.takeAsListD.collectAsList参考答案:CD4. UMP系统中面对多个小规模用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机

2、分配MySQL实例参考答案:A5. Spark中DataFrame的( )方法是进行排序查询A.order byB.group byC.select byD.sort by参考答案:A6. 以深度优先方式系统搜索问题解的算法称为回溯法。( )A.错误B.正确参考答案:B7. 美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”。( )A.对B.错参考答案:A8. Spark Streming中( )函数可以对源DStream中的每一个元素应用func方法进行计算,如果func函数返回结果为true,则保留该元素,否则丢弃该元素,返回一个新的DstreamA.mapB.flatMapC.filt

3、erD.union参考答案:C9. 关联分析又称为关联规则学习。( )A.对B.错参考答案:A10. Scala通过( )来定义变量A.valB.valC.defineD.def参考答案:A11. 广度优先是什么的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案:A12. 流计算的采集阶段需要保证( )。A.实时性B.大量C.低延迟D.稳定可靠参考答案:ACD13. Graph类中如果根据边数据创建图,数据需要转换成RDDEdgeED类型,应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEd

4、ges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValueD.GraphLoader.edgeListFile(sc,filename)参考答案:B14. 图(Graph)是一种复杂的非线性结构。( )T.对F.错参考答案:T15. 数据仓库、专家系统产生于大数据发展的成熟期。( )A.正确B.错误参考答案:B16. 以下哪个函数可以求两个RDD差集 ( )A.unionB.substractC.intersectionD.cartesian参考答案:B17

5、. PairRDD中mapValues是针对键值对(Key,Value)类型的数据中的key和Value进行Map操作。( )T.对F.错参考答案:F18. 下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画?( )A.ggplot2B.networkC.ggmapsD.animation参考答案:D19. 在集成期间,当一个数据库的属性与另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。( )A.对B.错参考答案:A20. PairRDD中groupBy(func)func返回key,传入的RDD的各个元素根据这个key

6、进行分组。( )A.正确B.错误参考答案:A21. 设计动态规划算法的主要步骤有5步。( )A.错误B.正确参考答案:A22. Scala函数组合器中filter过滤移除使得传入的函数的返回值为true的元素。( )A.正确B.错误参考答案:B23. 对于不同顶点之间的信息交换,Pregel采用了( )A.远程数据读取B.共享内存C.纯消息传递模型D.共享消息参考答案:C24. 键值对RDD由一组组的键值对组成,这些RDD被称为PairRDD。( )A.正确B.错误参考答案:A25. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNodeB.SecondaryN

7、ameNodeC.DataNodeD.Block参考答案:B26. 最长公共子序列算法利用的算法是( )。A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案:B27. RDD的map操作不会改变RDD的分区数目。( )T.对F.错参考答案:T28. 数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID.射频识别技术,传感器,交互型社交网络,移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。( )A.对B.错参考答案:A29. Spark中DataFrame的( )方法是进行连接查询A.whereB.joinC.limitD.apply参考答案:B30.

8、文件块的大小和副本个数只能由系统指定。( )A.正确B.错误参考答案:B31. 实现大整数的乘法是利用( )的算法。A.贪心法B.动态规划法C.分治策略D.回溯法参考答案:C32. var a=10; do a+=1;while(aA.9B.10C.11D.12参考答案:B33. 关系数据库与NoSQL数据库相比有哪些优势( )A.支持事务ACID四性B.可以支持超大规模数据存储C.以完善的关系代数理论作为基础D.具有强大的横向扩展能力参考答案:AC34. 递归函数意味着函数可以调用它( )A.其他函数B.主函数C.子函数D.自身参考答案:D35. Spark可以从( )分布式文件系统中读取数

9、据A.HDFSB.HbaseC.HiveD.Tachyon参考答案:ABCD36. Scala中重写一个非抽象方法必须使用( )修饰符。A.extendsB.overrideC.extendD.overrides参考答案:B37. Spark可以通过哪些外部存储创建RDD( )A.文本文件B.目录C.压缩文件D.通配符匹配的文件参考答案:ABCD38. Dstream窗口操作中( )方法基于滑动窗口对(K,V)键值对类型的DStream中的值按K使用聚合函数func进行聚合操作,得到一个新的DstreamA.windowB.countByWindowC.reduceByWindowD.redu

10、ceByKeyAndWindow参考答案:D39. RDD的行动操作通过某种函数将一个RDD转换为一个新的RDD,但是转换操作是懒操作,不会立刻执行计算。( )A.正确B.错误参考答案:B40. Spark Streming中对DStream的任何操作都会转化成对底层RDDs的操作。( )A.正确B.错误参考答案:A41. 分支限界法解最大团问题时,活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案:B42. 批处理系统关注( ),流处理系统关注( )。A.吞吐率,延时B.延时,吞吐率C.延时,速度D.速度,吞吐率参考答案:A43. Spark的RDD持久化操作有( )方式

11、A.cacheB.presistC.storageD.long参考答案:AB44. RDD的filter过滤会将返回值为true的过滤掉。( )T.对F.错参考答案:F45. RDD的cartesian函数是笛卡尔积,也就是将两个集合的元素两两组合成一组。( )A.正确B.错误参考答案:A46. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案:B47. HBase的客户端并不依赖Master,而是通过( )来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小A.MasterB.Regi

12、onC.ZookeeperD.Chubby参考答案:C48. Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是( )A.filterB.foreachC.mapD.mkString参考答案:D49. 很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是( )数据。技术人员可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息。A.动态B.存量C.实时D.静态参考答案:D50. 关于分布式并行编程,以下说法错误的是( )。A.“摩尔定律”,CPU性能大约每隔12个月翻一番B.“摩尔定律”逐渐失效后,人们开始借助于分布式并行编程来提高程序性能C.

13、分布式程序运行在大规模计算机集群上,可以并行执行大规模数据处理任务,从而获得海量的计算能力D.谷歌公司最先提出了分布式并行编程模型MapReduce参考答案:A51. 回溯法搜索解空间树时,常用的两种剪枝函数为约束函数和限界函数。( )A.错误B.正确参考答案:B52. Hbase中Zookeeper提供了( )A.分布式同步B.组服务C.域名服务D.配置维护参考答案:ABCD53. Spark SQL可被视为一个分布式的SQL查询引擎,并且提供了一个叫做DataFrame的可编程抽象数据模型。( )A.正确B.错误参考答案:A54. 关于Map端Shuffle过程中的合并与归并,说法正确的是( )。A.两个键值对和,如果合并,会得到B.合并不会改变最终结果C.两个键值对和,如果归并,会得到D.两个键值对和,如果归并,会得到参考答案:ABD55. RDD中combineByKey不允许返回类型与输入数据类型不同的返回值。( )A.正确B.错误参考答案:B

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号