南开大学21春《大数据开发技术》离线作业2参考答案27

上传人:鲁** 文档编号:510052985 上传时间:2023-08-14 格式:DOCX 页数:11 大小:12.96KB
返回 下载 相关 举报
南开大学21春《大数据开发技术》离线作业2参考答案27_第1页
第1页 / 共11页
南开大学21春《大数据开发技术》离线作业2参考答案27_第2页
第2页 / 共11页
南开大学21春《大数据开发技术》离线作业2参考答案27_第3页
第3页 / 共11页
南开大学21春《大数据开发技术》离线作业2参考答案27_第4页
第4页 / 共11页
南开大学21春《大数据开发技术》离线作业2参考答案27_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《南开大学21春《大数据开发技术》离线作业2参考答案27》由会员分享,可在线阅读,更多相关《南开大学21春《大数据开发技术》离线作业2参考答案27(11页珍藏版)》请在金锄头文库上搜索。

1、南开大学21春大数据开发技术离线作业2参考答案1. RDD的flatMap操作是将函数应用于RDD之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的RDD。( )A.正确B.错误参考答案:A2. HDFS在设计上采取了多种机制保证在硬件出错的环境中实现数据的完整性。( )A.正确B.错误参考答案:A3. Scala类通过子类化和基于灵活的混合类来进行扩展,作为( )的一个可靠性解决方案A.多态B.虚函数C.派生D.多重继承参考答案:D4. 1秒定律体现了大数据的哪个特征( )。A.数据量大B.数据产生速度快C.数据存储快D.数据计算快参考答案:B5. 数据产生方式变革中数据产

2、生方式是被动的主要是来自哪个阶段?( )A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段参考答案:A6. Spark中DataFrame的( )方法是进行排序查询A.order byB.group byC.select byD.sort by参考答案:A7. 用分支限界法设计算法的第二步是( )。A.针对所给问题,定义问题的解空间(对解进行编码)B.确定易于搜索的解空间结构(按树或图组织解)C.以广度优先或以最小耗费(最大收益)优先的方式搜索解空间D.在搜索过程中用剪枝函数避免无效搜索参考答案:B8. 大数据的特征是( )。A.数据体量大B.数据产生速度快C.数据种类多D.数据计算快E

3、.数据价值高参考答案:ABCE9. RDD的map操作不会改变RDD的分区数目。( )A.正确B.错误参考答案:A10. 流计算系统的需求有( )。A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案:ACE11. Pig是Hadoop项目中一种数据仓库工具。( )A.正确B.错误参考答案:B12. RDD的filter过滤会将返回值为true的过滤掉。( )T.对F.错参考答案:F13. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案:C14. Scala

4、列表中last返回列表最后一个元素。( )A.正确B.错误参考答案:A15. Spark的RDD持久化操作有( )方式A.cacheB.presistC.storageD.long参考答案:AB16. 问题的最优子结构性质是该问题不可用动态规划算法或贪心算法求解的关键特征。( )A.错误B.正确参考答案:A17. RDD的mapPartitions操作会导致Partitions数量的变化。( )A.正确B.错误参考答案:B18. PairRDD的( )方法,可以把两个RDD中键相同的元素组合在一起,合并为一个RDD。A.joinB.unionC.substractD.intersection参

5、考答案:A19. Scala中元组是是一种可迭代的键值对(key/value)结构。( )A.正确B.错误参考答案:B20. MLBase包括( )A.MllibB.MLIC.SparkRD.GraphX参考答案:AB21. Spark持久化RDD后,在再一次需要计算该RDD时将需要重新计算。( )A.正确B.错误参考答案:B22. 下列算法中不能解决0/1背包问题的是( )。A.贪心法B.动态规划C.回溯法D.分支限界法参考答案:A23. 可视化工具包括( )。A.ExcelB.Google ChartC.GephiD.ppt参考答案:ABC24. 优点是性能好(高并发),灵活性高,复杂性低

6、,数据结构灵活 提供嵌入式文档功能的数据库是( )A.列族数据库B.键值数据库C.图数据库D.文档数据库参考答案:D25. 图的结构通常表示为:G(V,E),其中,G表示( )A.图B.子图C.顶点D.边参考答案:A26. TF-IDF中TF指的是( )A.词频B.词在文档中出现的次数C.逆文档概率D.词在文档集中出现的概率E.词在文档集中出现的概率参考答案:AB27. Scala中如果函数中的每个参数在函数中最多只出现一次,则可以使用占位符( )代替参数。A.井号B.下划线C.斜杠D.逗号参考答案:B28. RDD中combineByKey不允许返回类型与输入数据类型不同的返回值。( )A.

7、正确B.错误参考答案:B29. RDD中join操作最后只返回两个RDD都存在的键的连接结果。( )A.正确B.错误参考答案:A30. 以下哪个方法可以创建RDD( )A.parallelizeB.makeRDDC.textFileD.loadFile参考答案:ABC31. 以下算法中属于无监督学习算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案:D32. 流计算的采集阶段需要保证( )。A.实时性B.大量C.低延迟D.稳定可靠参考答案:ACD33. Scala中创建一个方法时经常用void表示该方法无返回值。( )T.对F.错参考答案:F34. Scala函数组合

8、器可以对集合中的元素进行分组操作,结果得到的是一个Map的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案:C35. Scala函数组合器中flatmap结合了map和flatten的功能,接收一个可以处理嵌套列表的函数,然后把返回结果连接起来。( )A.正确B.错误参考答案:A36. Hadoop在配置伪分布式时需要修改哪几个配置文件( )。A.hbase-site.xmlB.hdfs-site.xmlC.core-site.xmlD.map-site.xmlE.mapr-site.xml参考答案:BC37. 以下哪个函数可以对RDD进行去重( )A.

9、sortByB.filterC.distinctD.intersection参考答案:C38. 计算一个算法时间复杂度通常可以计算循环次数、基本操作的频率或计算步。( )A.错误B.正确参考答案:B39. PairRDD中groupBy(func)func返回key,传入的RDD的各个元素根据这个key进行分组。( )A.正确B.错误参考答案:A40. 关于分布式并行编程,以下说法错误的是( )。A.“摩尔定律”,CPU性能大约每隔12个月翻一番B.“摩尔定律”逐渐失效后,人们开始借助于分布式并行编程来提高程序性能C.分布式程序运行在大规模计算机集群上,可以并行执行大规模数据处理任务,从而获得

10、海量的计算能力D.谷歌公司最先提出了分布式并行编程模型MapReduce参考答案:A41. SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:A42. Mllib中metrics.fMeasureByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:C43. 算法是由若干条指令组成的有穷序列,且要满足输入、输出、确定性和有限性四条性质。( )A.错误B.正确参考答案:B44. 对

11、于不同顶点之间的信息交换,Pregel采用了( )A.远程数据读取B.共享内存C.纯消息传递模型D.共享消息参考答案:C45. Scala中如果函数无返回值,则函数返回类型为( )A.NULLB.VoidC.NothingD.Unit参考答案:D46. MapReduce将输入文件切分成M个分片,Master将其中( )个分片分给处于空闲状态的N个Worker来处理。A.MB.NC.M-1D.N-1参考答案:A47. Scala中集合连接时如果元素有重复的就会移除重复的元素。( )A.正确B.错误参考答案:A48. Spark Streming中( )函数可以使用func将源DStream中的每个元素进行聚合操作,返回一个内部所包含的RDD只有一个元素的新DStreamA.unionB.reduceC.joinD.cogroup参考答案:B49. 从分治法的一般设计模式可以看出,用它设计出的程序一般是递归算法。( )A.错误B.正确参考答案:B50. MapReduce的main函数中设置输出类型的方法有( )。A.setOutputKeyClassB.setOutputClassC.setOutputValueClassD.setKeyValueClass参考答案:AC

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号