南开大学22春《大数据开发技术》综合作业二答案参考42

上传人:cn****1 文档编号:500674461 上传时间:2023-12-01 格式:DOCX 页数:13 大小:14.05KB
返回 下载 相关 举报
南开大学22春《大数据开发技术》综合作业二答案参考42_第1页
第1页 / 共13页
南开大学22春《大数据开发技术》综合作业二答案参考42_第2页
第2页 / 共13页
南开大学22春《大数据开发技术》综合作业二答案参考42_第3页
第3页 / 共13页
南开大学22春《大数据开发技术》综合作业二答案参考42_第4页
第4页 / 共13页
南开大学22春《大数据开发技术》综合作业二答案参考42_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《南开大学22春《大数据开发技术》综合作业二答案参考42》由会员分享,可在线阅读,更多相关《南开大学22春《大数据开发技术》综合作业二答案参考42(13页珍藏版)》请在金锄头文库上搜索。

1、南开大学22春大数据开发技术综合作业二答案参考1. RDD中join操作最后只返回两个RDD都存在的键的连接结果。( )A.正确B.错误参考答案:A2. PairRDD中mapValues是针对键值对(Key,Value)类型的数据中的key和Value进行Map操作。( )A.正确B.错误参考答案:B3. Scala函数组合器可以对集合中的元素进行分组操作,结果得到的是一个Map的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案:C4. Spark GraphX中类Graph的mask方法可以( )A.反转图中所有边的方向B.按照设定条件取出子图C.取

2、两个图的公共顶点和边作为新图,并保持前一个图顶点与边的属性D.合并边相同的属性参考答案:C5. 数据归约(Data Reduction)主要有( )。A.维度规约B.样本规约C.数据聚集D.离散化概念分层参考答案:ABCD6. SQL Azure体系结构层中哪层是硬件和操作系统( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:D7. SQL Azure体系结构层中哪层相当于网关,相当于普通Web系统的逻辑层( )A.Client LayerB.Services LayerC.Platform

3、. LayerD.Infrastructure Layer参考答案:B8. 关系数据库与NoSQL数据库相比有哪些优势( )A.支持事务ACID四性B.可以支持超大规模数据存储C.以完善的关系代数理论作为基础D.具有强大的横向扩展能力参考答案:AC9. Scala中集合连接时如果元素有重复的就会移除重复的元素。( )A.正确B.错误参考答案:A10. RDD中的collect 函数是一个行动操作,把RDD 所有元素转换成数组并返回到Driver 端,适用于大数据处理后的返回。( )T.对F.错参考答案:F11. 贪心选择性质是贪心算法可行的第一个基本要素,但不是贪心算法与动态规划算法的主要区别

4、。( )A.错误B.正确参考答案:A12. RDD的cartesian函数是笛卡尔积,也就是将两个集合的元素两两组合成一组。( )A.正确B.错误参考答案:A13. 在HBase中,更新操作会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在。( )A.正确B.错误参考答案:B14. RDD的intersection方法用于求出两个RDD的共同元素。( )A.正确B.错误参考答案:A15. Scala在子类中重写超类的抽象方法时,需要使用override关键字。( )T.对F.错参考答案:F16. HDFS的命名空间包含( )A.节点B.目录C.文件D.块参考答案:BCD17. Pa

5、irRDD中mapValues是针对键值对(Key,Value)类型的数据中的key和Value进行Map操作。( )T.对F.错参考答案:F18. 大数据处理的关键技术主要包括:数据采集和预处理、数据存储、数据计算架构、数据分析和挖掘、数据可视化展示等。( )A.对B.错参考答案:A19. 动态规划算法的基本思想是将待求解问题分解成若干子问题,先求解子问题,然后从这些子问题的解得到原问题的解。( )A.错误B.正确参考答案:B20. 使用Amazon云环境部署Hadoop的说法中错误的是( )。A.Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中B.Hadoop自带有一套

6、脚本,用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务参考答案:D21. 大数据时代预测人类移动行为的数据来源有( )。A.志愿者定位数据B.装有导航设备的出租车轨迹数据C.手机终端定位于通讯记录D.社会网络签到数据参考答案:ABCD22. Spark对只有未曾设置存储级别的RDD才能设置存储级别,设置了存储级别的RDD不能修改其存储级别。( )A.正确B.错误参考答案:A23. MLlib中用于线性回归算法的包主要有( )A.LinearRegressionWithSGDB.RidgeRegressionW

7、ithSGDC.LassoWithSGDD.LeftRegression参考答案:ABC24. 以下是机器学习的常用算法的是( )A.回归算法B.聚类算法C.降维算法D.分类算法参考答案:ABCD25. 以下算法中属于监督学习算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案:ABC26. 用户可以在Hadoop YARN上运行Spark。( )T.对F.错参考答案:T27. ( )是Spark的核心,提供底层框架及核心支持A.Spark CoreB.Spark SQLC.Spark StreamingD.Mllib参考答案:A28. spark-submit配置项中

8、( )表示Driver程序使用的内存大小A.-driver-memory MEMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案:A29. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案:B30. spark-submit配置项中( )表示executor内存大小A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures N

9、UM参考答案:B31. SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:A32. Hbase中Zookeeper文件记录了( )的位置A.META.表B.-ROOT-表C.RegionD.Master参考答案:B33. Dstream窗口操作中( )方法基于滑动窗口对源DStream中的元素进行聚合操作,得到一个新的DstreamA.windowB.countByWindowC.reduceByWindowD.

10、reduceByKeyAndWindow参考答案:C34. 交通数据的来源包括车辆GPS数据,人类移动的GPS位置信息或者单位站点记录,和监视设备的视频图像技术记录。( )A.对B.错参考答案:A35. GraphX中( )方法可以释放顶点缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案:C36. Scala列表中last返回一个列表,包含除了第一个元素之外的其他元素。( )T.对F.错参考答案:F37. Spark Streming中Dstream是一种抽象的离散流。( )T.对F.错参考答案:T38. MapReduce设

11、计的一个理念就是( ),因为移动数据需要大量的网络传输开销。A.数据向计算靠拢B.计算向数据靠拢C.计算向网络靠拢D.计算与数据并行参考答案:B39. Spark Streming中( )函数可以合并两个DStream,生成一个包含两个DStream中所有元素的新DStream对象A.mapB.flatMapC.filterD.union参考答案:D40. 键值对RDD由一组组的键值对组成,这些RDD被称为PairRDD。( )A.正确B.错误参考答案:A41. Spark DataFrame中( )方法可以返回一个ListA.collectB.takeC.takeAsListD.collec

12、tAsList参考答案:CD42. 很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是( )数据。技术人员可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息。A.动态B.存量C.实时D.静态参考答案:D43. Dstream输出操作中( )方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案:D44. 回溯法搜索解空间树时,常用的两种剪枝函数为约束函数和限界函数。( )A.错误B.正确参考答案:B

13、45. RDD的map操作不会改变RDD的分区数目。( )T.对F.错参考答案:T46. Spark取代Hadoop仅仅是取代MapReduce这种计算框架,Spark可以取代HDFS吗。( )T.对F.错参考答案:F47. var a=10; do a+=1; while(a20) 共循环了( )次A.9B.10C.11D.12参考答案:B48. 在现有大数据的存储中,结构化数据仅有20%,其余80%则在存在于物联网、电子商务、社交网络等领域的半结构化数据和非结构化数据。( )A.对B.错参考答案:A49. Scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案:A50. Spark SQL可被视为一个分布式的SQL查询引擎,并且提供了一个叫做DataFrame的可编程抽象数据模型。( )A.正确B.错误参考答案:A51. MapReduce中最优的Reduce任务个数取决于集群中可用的( )的数目。A.SplitB.SlotC.MapD.Shuffle参考答案:B52. 问题的最优子结构性质是该问题不

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号