南开大学21秋《大数据开发技术》平时作业二参考答案90

上传人:工**** 文档编号:456376216 上传时间:2024-03-12 格式:DOCX 页数:13 大小:14.18KB
返回 下载 相关 举报
南开大学21秋《大数据开发技术》平时作业二参考答案90_第1页
第1页 / 共13页
南开大学21秋《大数据开发技术》平时作业二参考答案90_第2页
第2页 / 共13页
南开大学21秋《大数据开发技术》平时作业二参考答案90_第3页
第3页 / 共13页
南开大学21秋《大数据开发技术》平时作业二参考答案90_第4页
第4页 / 共13页
南开大学21秋《大数据开发技术》平时作业二参考答案90_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《南开大学21秋《大数据开发技术》平时作业二参考答案90》由会员分享,可在线阅读,更多相关《南开大学21秋《大数据开发技术》平时作业二参考答案90(13页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋大数据开发技术平时作业二参考答案1. 分支限界法主要有队列式(FIFO)分支限界法和优先队列式分支限界法。( )A.错误B.正确参考答案:B2. Scala中( )方法返回一个列表,包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案:B3. 以下哪个函数可以求两个RDD的笛卡尔积( )A.unionB.substractC.intersectionD.cartesian参考答案:D4. 以下哪个不是Scala的数据类型( )A.IntB.Short IntC.LongD.Any参考答案:B5. 大数据时代预测人类移动行为的数据来源有( )。

2、A.志愿者定位数据B.装有导航设备的出租车轨迹数据C.手机终端定位于通讯记录D.社会网络签到数据参考答案:ABCD6. Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流; 或者是从小数据开始,但数据每年增长速率至少为60%。( )A.对B.错参考答案:B7. ( )可以解决图计算问题A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案:C8. Spark GraphX中类Graph的mask方法可以( )A.反转图中所有边的方向B.按照设定条件取出子图C.取两个图的公共顶点和边作为

3、新图,并保持前一个图顶点与边的属性D.合并边相同的属性参考答案:C9. 在现有大数据的存储中,结构化数据仅有20%,其余80%则在存在于物联网、电子商务、社交网络等领域的半结构化数据和非结构化数据。( )A.对B.错参考答案:A10. 贪心选择性质是贪心算法可行的第一个基本要素,也是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案:B11. Scala中元组是是一种可迭代的键值对(key/value)结构。( )A.正确B.错误参考答案:B12. 设计动态规划算法的主要步骤不包括根据计算最优值时得到的信息,构造最优解。( )A.错误B.正确参考答案:A13. RDD的行动操作通

4、过某种函数将一个RDD转换为一个新的RDD,但是转换操作是懒操作,不会立刻执行计算。( )A.正确B.错误参考答案:B14. Pentaho是最流行的开源商业智能软件之一。( )A.对B.错参考答案:A15. 键值对RDD由一组组的键值对组成,这些RDD被称为PairRDD。( )A.正确B.错误参考答案:A16. Hadoop启动所有进程的命令为( )。A.all-start.shB.all-start.exeC.start-all.shD.start-all.exe参考答案:C17. Spark DataFrame中( )方法可以返回一个Array对象A.collectB.takeC.ta

5、keAsListD.collectAsList参考答案:AB18. GraphX中( )是存放着Edg对象的RDDA.RDDEdgeB.EdgeRDDC.RDD(VertexId,VD)D.VertexRDD参考答案:A19. 云数据库不可以满足大企业的海量数据存储需求。( )A.正确B.错误参考答案:B20. RDD中combineByKey不允许返回类型与输入数据类型不同的返回值。( )A.正确B.错误参考答案:B21. spark-submit配置项中( )表示executor内存大小A.-num-executors NUMB.-executor-memory MEMC.-total-e

6、xecutor-cores NUMD.-executor-coures NUM参考答案:B22. RDD的flatMap操作是将函数应用于RDD之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的RDD。( )A.正确B.错误参考答案:A23. 数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID.射频识别技术,传感器,交互型社交网络,移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。( )A.对B.错参考答案:A24. 数据归约(Data Reduction)主要有( )。A.维度规约B.样本规约C.数据聚集D.离散化概念分层参考答案:ABC

7、D25. 静态数据采取( )计算模式A.批量B.实时C.大数据D.动态参考答案:A26. 下列算法中不能解决0/1背包问题的是( )。A.贪心法B.动态规划C.回溯法D.分支限界法参考答案:A27. Storm框架是实时计算系统,所以不能使用数据库。( )A.正确B.错误参考答案:B28. Spark只有键值对类型的RDD才能设置分区方式。( )A.正确B.错误参考答案:A29. Spark中DataFrame的查询操作也是一个懒操作,仅仅生成一个查询计划,只有触发Action操作才会进行计算并返回查询结果。( )A.正确B.错误参考答案:A30. Spark可以从( )分布式文件系统中读取数

8、据A.HDFSB.HbaseC.HiveD.Tachyon参考答案:ABCD31. Spark可以通过哪些外部存储创建RDD( )A.文本文件B.目录C.压缩文件D.通配符匹配的文件参考答案:ABCD32. RDD的map操作不会改变RDD的分区数目。( )A.正确B.错误参考答案:A33. Map Task和Reduce Task均由( )启动。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案:D34. PairRDD可以通过( )获得仅包含键的RDDA.keyB.keysC.valueD.values参考答案:B35. RDD是一个( )的数据结构

9、A.可读写B.只读的C.容错的D.可进行并行操作的参考答案:BCD36. 下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画?( )A.ggplot2B.networkC.ggmapsD.animation参考答案:D37. Scala是Scalable Language的简写,是一门多范式的编程语言,设计初衷是不包括面向对象编程的特性。( )T.对F.错参考答案:F38. Graph类中如果要根据边数据创建图,边数据需要加载为二元组,可以选择是否对边分区,应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.from

10、Edges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValue,)D.GraphLoader.edgeListFile(sc,filename)参考答案:C39. Scala通过( )来定义变量A.valB.valC.defineD.def参考答案:A40. MLlib中Normalizer是一个转换器,它可以将多行向量输入转化为统一的形式。( )T.对F.错参考答案:T41. 设计动态规划算法的主要步骤有5步。( )A.错误B.正确参考答案:A42. Ds

11、tream输出操作中( )方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案:D43. 1秒定律体现了大数据的哪个特征( )。A.数据量大B.数据产生速度快C.数据存储快D.数据计算快参考答案:B44. ( )是Spark的核心,提供底层框架及核心支持A.Spark CoreB.Spark SQLC.Spark StreamingD.Mllib参考答案:A45. 分治法与动态规划法的不同点是:适合于用动态规划法求解的问题,经分解得到的

12、子问题往往不是互相独立的。而用分治法求解的问题,经分解得到的子问题往往是互相独立的。( )A.错误B.正确参考答案:B46. 以下算法中属于监督学习算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案:ABC47. 在Storm的工作流程中,对于Supervisor说法错误的是( )。A.Supervisor会去Zookeeper集群上认领自己的TaskB.Supervisor节点首先将提交的Topology进行分片,分成一个个Task,分配给相应的NimbusC.Supervisor会将Task和相关的信息提交到Zookeeper集群上D.Supervisor会通知自

13、己的Worker进程进行Task的处理参考答案:B48. 流计算的采集阶段需要保证( )。A.实时性B.大量C.低延迟D.稳定可靠参考答案:ACD49. 应用于分布式数据存储与管理数据在地理上分布于多个数据中心的应用程序的数据库是哪种( )A.列族数据库B.键值数据库C.图数据库D.文档数据库参考答案:A50. 数据仓库、专家系统产生于大数据发展的成熟期。( )A.正确B.错误参考答案:B51. RDD的行动操作是用于触发转换操作的操作,这个时候才会真正开始进行计算。( )A.正确B.错误参考答案:A52. 图的结构通常表示为:G(V,E),其中,G表示( )A.图B.子图C.顶点D.边参考答案:A53. Spark Streming中对DStream的任何操作都会转化成对底层RDDs的操作。( )A.正确B.错误参考答案:A54. 阿里云RDS中一个实例可以创建多个数据库,在实例内数据库命名唯一,所有数据库都会共享该实例下的资源,如CPU、内存、磁盘容量等。( )A.正确B.错误参考答案:A55. Graph

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号