南开大学21春《大数据开发技术》离线作业1辅导答案62

资源描述

《南开大学21春《大数据开发技术》离线作业1辅导答案62》由会员分享，可在线阅读，更多相关《南开大学21春《大数据开发技术》离线作业1辅导答案62（11页珍藏版）》请在金锄头文库上搜索。

1、南开大学21春大数据开发技术离线作业1辅导答案1. Scala中( )方法返回一个列表，包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案：B2. 非结构化数据是指非纯文本类数据，没有标准格式，无法直接解析出相应的值。( )A.对B.错参考答案：A3. Hadoop在配置伪分布式时需要修改哪几个配置文件( )。A.hbase-site.xmlB.hdfs-site.xmlC.core-site.xmlD.map-site.xmlE.mapr-site.xml参考答案：BC4. 大型图计算通常是由一个集群完成的，集群环境中执行远程数据读取会有较高的延迟。(

2、 )A.正确B.错误参考答案：A5. 默认情况下，Scala 使用的是可变集合。( )T.对F.错参考答案：F6. 递归函数意味着函数可以调用它( )A.其他函数B.主函数C.子函数D.自身参考答案：D7. 交通数据的来源包括车辆GPS数据，人类移动的GPS位置信息或者单位站点记录，和监视设备的视频图像技术记录。( )A.对B.错参考答案：A8. HDFS中当一些数据节点不可用时，会导致一些数据块的副本数量( )冗余因子A.大于B.小于C.等于D.大于等于参考答案：B9. 以下不可以使用分治法求解的是( )。A.棋盘覆盖问题B.选择问题C.归并排序D.0/1背包问题参考答案：D10. Scal

3、a函数组合器可以接收一个可以处理嵌套列表的函数，然后把返回结果连接起来的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案：D11. MapReduce的main函数中设置输出类型的方法有( )。A.setOutputKeyClassB.setOutputClassC.setOutputValueClassD.setKeyValueClass参考答案：AC12. 1秒定律体现了大数据的哪个特征( )。A.数据量大B.数据产生速度快C.数据存储快D.数据计算快参考答案：B13. 以深度优先方式系统搜索问题解的算法称为回溯法。( )A.错误B.正确参考答案：B14

4、. 传感器工作模式类别包括( )。A.基于位置B.基于活动C.基于设备参考答案：ABC15. Scala列表中last返回列表最后一个元素。( )A.正确B.错误参考答案：A16. Hive提供了大数据批处理计算功能。( )A.正确B.错误参考答案：B17. Spark中DataFrame的( )方法是进行连接查询A.whereB.joinC.limitD.apply参考答案：B18. Spark SQL可以通过( )方法加载json文件为DataFrameA.formatB.jsonC.getD.read参考答案：AB19. 用户可以在Hadoop YARN上运行Spark。( )T.对F.

5、错参考答案：T20. 文件块的大小和副本个数只能由系统指定。( )A.正确B.错误参考答案：B21. 下面是贪心算法的基本要素的是( )。A.重叠子问题B.构造最优解C.贪心选择性质D.定义最优解参考答案：C22. HDFS读数据过程中( )具体实现了FileSystemA.DistributedFileSystemB.GFSSystemC.FileSystemD.HDFSSystem参考答案：A23. 图结构中如果任意两个顶点之间都存在边，那么称之为( )A.完全图B.有向完全图C.无向图D.简单图参考答案：A24. GraphX中( )是存放着Edg对象的RDDA.RDDEdgeB.Edg

6、eRDDC.RDD(VertexId,VD)D.VertexRDD参考答案：A25. 舍伍德算法总能求得问题的一个解。( )A.错误B.正确参考答案：B26. 请问RDD的( )操作用于将相同键的数据聚合A.joinB.zipC.combineByKeyD.collect参考答案：C27. 以下哪个函数可以求两个RDD差集 ( )A.unionB.substractC.intersectionD.cartesian参考答案：B28. 可视化工具包括( )。A.ExcelB.Google ChartC.GephiD.ppt参考答案：ABC29. SQL Azure体系结构层中哪层相当于网关，相当

7、于普通Web系统的逻辑层( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案：B30. RDD的map操作不会改变RDD的分区数目。( )A.正确B.错误参考答案：A31. 以下哪个方法可以创建RDD( )A.parallelizeB.makeRDDC.textFileD.loadFile参考答案：ABC32. 内存级分析适用于总数据量在集群内存的最大级别以内的情况，使用内部数据库技术，适合实时业务分析需求。( )A.对B.错参考答案：A33. 算法的复杂性没有时间复杂性和空间复杂性之分。( )

8、A.错误B.正确参考答案：A34. 最长公共子序列算法利用的算法是( )。A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案：B35. 算法是由若干条指令组成的有穷序列，且要满足输入、输出、确定性和有限性四条性质。( )A.错误B.正确参考答案：B36. Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式，它需要收集超过100TB的数据，并且是高速实时数据流; 或者是从小数据开始，但数据每年增长速率至少为60%。( )A.对B.错参考答案：B37. 很多企业为了支持决策分析而构建的数据仓库系统，其中存放的大量历史数据就是( )数据。技术人员可以利用数据挖掘和

9、OLAP分析工具从静态数据中找到对企业有价值的信息。A.动态B.存量C.实时D.静态参考答案：D38. Spark Streming中( )函数可以对源DStream中的每一个元素应用func方法进行计算，如果func函数返回结果为true，则保留该元素，否则丢弃该元素，返回一个新的DstreamA.mapB.flatMapC.filterD.union参考答案：C39. Spark DataFrame中( )方法可以返回一个Array对象A.collectB.takeC.takeAsListD.collectAsList参考答案：AB40. 广度优先是什么的一种搜索方式?( )A.分支界限法

10、B.动态规划法C.贪心法D.回溯法参考答案：A41. MLlib中进行数据标准化的方式有( )A.NormalizerB.StandardC.StandardScaleerD.MinMaxScaler参考答案：ACD42. PairRDD中( )函数可以合并具有相同键的值A.mapValuesB.groupByC.groupByKeyD.reduceByKey参考答案：A43. 早期对于流计算的研究多数是基于对传统数据库处理的流式化，即实时数据库，很少研究流计算框架。( )A.正确B.错误参考答案：A44. MLlib中用于线性回归算法的包主要有( )A.LinearRegressionWit

11、hSGDB.RidgeRegressionWithSGDC.LassoWithSGDD.LeftRegression参考答案：ABC45. 数据采集，又称数据获取，是大数据生命周期的第一个环节，通过RFID.射频识别技术，传感器，交互型社交网络，移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。( )A.对B.错参考答案：A46. Mllib中metrics.roc表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：D47. 键值对RDD由一组组的键值对组成，这些RDD被称为PairRDD。( )A.正确B.错误参考答案：A48. Scala函数组合器中filter过滤移除使得传入的函数的返回值为true的元素。( )A.正确B.错误参考答案：B49. 用户可以在Hadoop YARN上运行Spark。( )A.正确B.错误参考答案：A50. 关联分析又称为关联规则学习。( )A.对B.错参考答案：A

展开阅读全文