南开大学22春《大数据开发技术》补考试题库答案参考49

上传人:桔**** 文档编号:475828411 上传时间:2024-01-03 格式:DOCX 页数:11 大小:13.41KB
返回 下载 相关 举报
南开大学22春《大数据开发技术》补考试题库答案参考49_第1页
第1页 / 共11页
南开大学22春《大数据开发技术》补考试题库答案参考49_第2页
第2页 / 共11页
南开大学22春《大数据开发技术》补考试题库答案参考49_第3页
第3页 / 共11页
南开大学22春《大数据开发技术》补考试题库答案参考49_第4页
第4页 / 共11页
南开大学22春《大数据开发技术》补考试题库答案参考49_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《南开大学22春《大数据开发技术》补考试题库答案参考49》由会员分享,可在线阅读,更多相关《南开大学22春《大数据开发技术》补考试题库答案参考49(11页珍藏版)》请在金锄头文库上搜索。

1、南开大学22春大数据开发技术补考试题库答案参考1. Spark Streaming中时间片也可称为批处理时间间隔(batch interval),时间片是人为地对数据进行定量的标准,作为拆分数据的依据,一个时间片的数据对应一个RDD实例。( )A.正确B.错误参考答案:A2. UMP系通过( )来实现实现在不停机的情况下动态扩容、缩容和迁移A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:C3. SQL Azure体系结构层中哪层是硬件和操作系统( )A.Client LayerB.Services LayerC.Platform. LayerD.In

2、frastructure Layer参考答案:D4. 以下是机器学习的常用算法的是( )A.回归算法B.聚类算法C.降维算法D.分类算法参考答案:ABCD5. UMP系统借助于( )来实现高效和可靠的协同工作A.MnesiaB.LVSC.RabbitMQD.Zookeeper参考答案:D6. 大数据时代预测人类移动行为的数据来源有( )。A.志愿者定位数据B.装有导航设备的出租车轨迹数据C.手机终端定位于通讯记录D.社会网络签到数据参考答案:ABCD7. Spark SQL可以通过( )方法加载json文件为DataFrameA.formatB.jsonC.getD.read参考答案:AB8.

3、 Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply参考答案:A9. Scala函数组合器中foreach和map类似,有返回值。( )A.正确B.错误参考答案:B10. Scala源代码被编译成( )字节码,所以它可以运行于JVM之上A.SparkB.ScalaC.JavaD.JDK参考答案:C11. 分支限界法与回溯法的求解目标相同。( )A.错误B.正确参考答案:A12. 大数据计算处理方法主要分为两种方法,即批处理方法和流处理方法。( )A.正确B.错误参考答案:A13. 关系数据库与NoSQL数据库相比有哪些优势( )A.支

4、持事务ACID四性B.可以支持超大规模数据存储C.以完善的关系代数理论作为基础D.具有强大的横向扩展能力参考答案:AC14. Spark中DataFrame的( )方法是查询指定字段的数据信息A.selectB.selectExprC.colD.apply参考答案:ABCD15. Scala列表中last返回一个列表,包含除了第一个元素之外的其他元素。( )A.正确B.错误参考答案:B16. 很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是( )数据。技术人员可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息。A.动态B.存量C.实时D.静态参考答案:

5、D17. 数据归约(Data Reduction)主要有( )。A.维度规约B.样本规约C.数据聚集D.离散化概念分层参考答案:ABCD18. 以下不可以使用分治法求解的是( )。A.棋盘覆盖问题B.选择问题C.归并排序D.0/1背包问题参考答案:D19. 交通数据的来源包括车辆GPS数据,人类移动的GPS位置信息或者单位站点记录,和监视设备的视频图像技术记录。( )A.对B.错参考答案:A20. Spark中运行交互式SQL查询的大规模并行查询引擎是( )A.Spark CoreB.Spark SQLC.BlinkDBD.Mllib参考答案:C21. Hbase采用( )作为底层数据存储A.

6、HDFSB.GFSC.HbaseD.传统文件系统参考答案:A22. 针对流数据,“量子恒道”可处理每天( )级的实时流数据A.TBB.PBC.GBD.MB参考答案:A23. 分治法的基本思想时将一个规模为n的问题分解为k个规模较小的子问题,这些子问题互相独立且与原问题相同。递归地解这些子问题,然后将各个子问题的解合并得到原问题的解。( )A.错误B.正确参考答案:B24. Dstream输出操作中( )方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoop

7、Files参考答案:D25. 传统的数据处理流程的前提是( )。A.存储的数据是旧的B.存储的数据是实时的C.需要用户主动发出查询D.不需要用户主动发出查询参考答案:AC26. MLBase包括( )A.MllibB.MLIC.SparkRD.GraphX参考答案:AB27. SQL Azure体系结构层中哪层是存储节点集群,相当于普通Web系统的数据库层( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:C28. Scala类通过子类化和基于灵活的混合类来进行扩展,作为( )的一个可靠性解决

8、方案A.多态B.虚函数C.派生D.多重继承参考答案:D29. 0-1背包问题的回溯算法所需的计算时间为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案:A30. Mllib中metrics.recallByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:B31. MspReduce中的Map和Reduce函数使用( )进行输入输出。A.key/value对B.随机数值C.其他计算结果参考答案:A32. 下列属于传统统计学展示方法的是( )。A.柱状图B.饼状图C.曲线图D.网络图参考答案:ABC33. DataFrame是一个分

9、布式的Row对象的数据集合。( )A.正确B.错误参考答案:A34. Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流; 或者是从小数据开始,但数据每年增长速率至少为60%。( )A.对B.错参考答案:B35. 一个问题可用动态规划算法或贪心算法求解的关键特征是问题的( )。A.重叠子问题B.最优子结构性质C.贪心选择性质D.定义最优解参考答案:B36. Python是一种面向对象的解释型计算机程序设计语言。( )A.对B.错参考答案:A37. GraphX中( )是存放着Edg对象的RDDA.RDDEdge

10、B.EdgeRDDC.RDD(VertexId,VD)D.VertexRDD参考答案:A38. Spark SQL读取的数据源支持( )A.Hive表B.Parquent文件C.JSON数据D.关系数据库参考答案:ABCD39. Graph类中如果要根据边数据创建图,边数据需要加载为二元组,可以选择是否对边分区,应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, Vert

11、exId), defaultValue,)D.GraphLoader.edgeListFile(sc,filename)参考答案:C40. Scala列表中last返回一个列表,包含除了第一个元素之外的其他元素。( )T.对F.错参考答案:F41. 关于分布式并行编程,以下说法错误的是( )。A.“摩尔定律”,CPU性能大约每隔12个月翻一番B.“摩尔定律”逐渐失效后,人们开始借助于分布式并行编程来提高程序性能C.分布式程序运行在大规模计算机集群上,可以并行执行大规模数据处理任务,从而获得海量的计算能力D.谷歌公司最先提出了分布式并行编程模型MapReduce参考答案:A42. Scala中(

12、 )方法返回一个列表,包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案:B43. Scala函数组合器可以接收一个可以处理嵌套列表的函数,然后把返回结果连接起来的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案:D44. Scala中重写一个非抽象方法必须使用( )修饰符。A.extendsB.overrideC.extendD.overrides参考答案:B45. 回溯法解旅行售货员问题时的解空间树是( )。A.子集树B.排列树C.深度优先生成树D.广度优先生成树参考答案:A46. 大型图计算通常是由一个集群完成的

13、,集群环境中执行远程数据读取会有较高的延迟。( )A.正确B.错误参考答案:A47. PairRDD可以通过( )获得仅包含键的RDDA.keyB.keysC.valueD.values参考答案:B48. GraphX中( )方法可以查询边信息A.numVerticesB.numEdgesC.verticesD.edges参考答案:D49. Scala函数组合器可以通过一个函数重新计算列表中所有元素,并且返回一个相同数目元素的新列表的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案:A50. GraphX中( )方法可以释放顶点缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案:C

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号