南开大学21春《大数据开发技术》在线作业一满分答案65

上传人:鲁** 文档编号:466755618 上传时间:2023-10-12 格式:DOCX 页数:13 大小:13.95KB
返回 下载 相关 举报
南开大学21春《大数据开发技术》在线作业一满分答案65_第1页
第1页 / 共13页
南开大学21春《大数据开发技术》在线作业一满分答案65_第2页
第2页 / 共13页
南开大学21春《大数据开发技术》在线作业一满分答案65_第3页
第3页 / 共13页
南开大学21春《大数据开发技术》在线作业一满分答案65_第4页
第4页 / 共13页
南开大学21春《大数据开发技术》在线作业一满分答案65_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《南开大学21春《大数据开发技术》在线作业一满分答案65》由会员分享,可在线阅读,更多相关《南开大学21春《大数据开发技术》在线作业一满分答案65(13页珍藏版)》请在金锄头文库上搜索。

1、南开大学21春大数据开发技术在线作业一满分答案1. RDD的filter过滤会将返回值为true的过滤掉。( )T.对F.错参考答案:F2. Scala列表中last返回一个列表,包含除了第一个元素之外的其他元素。( )T.对F.错参考答案:F3. HBase的客户端并不依赖Master,而是通过( )来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小A.MasterB.RegionC.ZookeeperD.Chubby参考答案:C4. HDFS在设计上采取了多种机制保证在硬件出错的环境中实现数据的完整性。( )A.正确B.错误参考答案:

2、A5. ( )和( ),它们把原数据变换或投影到较小的空间。A.小波变换B.中心化变换C.主成分分析D.对数变换参考答案:AC6. Spark Streming中对DStream的任何操作都会转化成对底层RDDs的操作。( )A.正确B.错误参考答案:A7. RDD中join操作最后只返回两个RDD都存在的键的连接结果。( )A.正确B.错误参考答案:A8. UMP系统的哪个功能实现了负载均衡( )A.读写分离B.资源隔离C.资源调度D.可扩展参考答案:A9. Hadoop启动所有进程的命令为( )。A.all-start.shB.all-start.exeC.start-all.shD.st

3、art-all.exe参考答案:C10. Spark Streming中Dstream是一种抽象的离散流。( )T.对F.错参考答案:T11. 美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”。( )A.对B.错参考答案:A12. Scala列表方法中丢弃前n个元素,并返回新列表的方法是( )A.dropB.headC.filterD.init参考答案:A13. 算法是由若干条指令组成的有穷序列,且要满足输入、输出、确定性和有限性四条性质。( )A.错误B.正确参考答案:B14. 在图结构中,每个元素都可以有( )前驱A.至少一个B.零个或多个C.一个D.零个参考答案:B15. 贪心选择性

4、质是贪心算法可行的第一个基本要素,但不是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案:A16. 文件块的大小和副本个数只能由系统指定。( )A.正确B.错误参考答案:B17. 已得到广泛应用的分布式文件系统主要包括( )。A.GFSB.MapReduceC.HbaseD.HDFS参考答案:AD18. 传统数据处理流程,用户需要主动发起查询或者定时查询;流处理流程中,可以实时查询。( )A.正确B.错误参考答案:A19. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和rid

5、ge的正规化参数参考答案:C20. 采用贪心算法的最优装载问题的主要计算量在于将集装箱依其重量从小到大排序,故算法的时间复杂度为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案:B21. PairRDD可以通过( )获得仅包含键的RDDA.keyB.keysC.valueD.values参考答案:B22. 批处理系统关注( ),流处理系统关注( )。A.吞吐率,延时B.延时,吞吐率C.延时,速度D.速度,吞吐率参考答案:A23. Mllib中线性会馆算法中的参数reParam表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.L

6、asso和ridge的正规化参数参考答案:D24. 问题的最优子结构性质是该问题不可用动态规划算法或贪心算法求解的关键特征。( )A.错误B.正确参考答案:A25. 关联分析又称为关联规则学习。( )A.对B.错参考答案:A26. 下面哪种函数是回溯法中为避免无效搜索采取的策略?( )A.递归函数B.剪枝函数C.随机数函数D.搜索函数参考答案:B27. 哈弗曼编码的贪心算法所需的计算时间为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案:B28. 舍伍德算法总能求得问题的一个解。( )A.错误B.正确参考答案:B29. 亚马逊的云服务提供了多达几十种服务,涵盖了I

7、aaS、PaaS、SaaS这三层。( )A.正确B.错误参考答案:A30. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案:A31. Hbase中Region服务器的系统会周期性地把MemStore缓存里的内容刷写到磁盘的StoreFile文件中,清空缓存,并在Hlog里面写入一个标记。( )A.正确B.错误参考答案:A32. 一个问题可用动态规划算法或贪心算法求解的关键特征是问题的( )。A.重叠子问题B.最优子结构性质C.贪心选择性质D.定义最优解参考答案:B33. Scala函数组合器中flatmap结合了map和flatten的功能,接收一个可

8、以处理嵌套列表的函数,然后把返回结果连接起来。( )A.正确B.错误参考答案:A34. RDD的行动操作是用于触发转换操作的操作,这个时候才会真正开始进行计算。( )A.正确B.错误参考答案:A35. 数据归约(Data Reduction)主要有( )。A.维度规约B.样本规约C.数据聚集D.离散化概念分层参考答案:ABCD36. Scala中可以用( )方法来连接两个或多个列表A.:B.#:C.List.:( )D.List.concat( )参考答案:BCD37. 1秒定律体现了大数据的哪个特征( )。A.数据量大B.数据产生速度快C.数据存储快D.数据计算快参考答案:B38. Spar

9、k SQL读取的数据源支持( )A.Hive表B.Parquent文件C.JSON数据D.关系数据库参考答案:ABCD39. MLlib中Normalizer是一个转换器,它可以将多行向量输入转化为统一的形式。( )T.对F.错参考答案:T40. MLBase包括( )A.MllibB.MLIC.SparkRD.GraphX参考答案:AB41. 关于分布式并行编程,以下说法错误的是( )。A.“摩尔定律”,CPU性能大约每隔12个月翻一番B.“摩尔定律”逐渐失效后,人们开始借助于分布式并行编程来提高程序性能C.分布式程序运行在大规模计算机集群上,可以并行执行大规模数据处理任务,从而获得海量的计

10、算能力D.谷歌公司最先提出了分布式并行编程模型MapReduce参考答案:A42. 云数据库不可以满足大企业的海量数据存储需求。( )A.正确B.错误参考答案:B43. Scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案:A44. MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法( )训练回归树A.trainClassifierB.trainRegressorC.LogisticRegressionModelD.LabeledPoint参考答案:B

11、45. 使用Amazon云环境部署Hadoop的说法中错误的是( )。A.Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中B.Hadoop自带有一套脚本,用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务参考答案:D46. ( )可以解决图计算问题A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案:C47. TF-IDF中TF指的是( )A.词频B.词在文档中出现的次数C.逆文档概率D.词在文档集中出现的概率E.词在文档集中出现的概率参考答案:AB48. 非结构

12、化数据是指非纯文本类数据,没有标准格式,无法直接解析出相应的值。( )A.对B.错参考答案:A49. RDD的filter函数返回一个存储符合过滤条件的所有元素的新RDD。( )A.正确B.错误参考答案:A50. RDD的mapPartitions操作会导致Partitions数量的变化。( )A.正确B.错误参考答案:B51. 大数据技术也能帮助政府进行支出管理,透明合理的财政支出将有利于提高公信力和监督财政支出。( )A.对B.错参考答案:A52. 算法的复杂性没有时间复杂性和空间复杂性之分。( )A.错误B.正确参考答案:A53. 下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来

13、做成动画?( )A.ggplot2B.networkC.ggmapsD.animation参考答案:D54. 以下属于Hadoop的安装方式的有( )。A.单机模式B.多机模式C.分布式模式D.并行模式E.伪分布式模式参考答案:ACE55. Storm中如果要让所有的Tuple都发送到同一个Task中,应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案:C56. Scala 集合分为可变的和不可变的集合。( )T.对F.错参考答案:T57. UMP系统中面对多个小规模用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案:A58. MLlib中用于线性回归算法的包主要

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号