南开大学21秋《大数据开发技术》在线作业二答案参考84

上传人:新** 文档编号:470515477 上传时间:2023-04-10 格式:DOCX 页数:13 大小:14.01KB
返回 下载 相关 举报
南开大学21秋《大数据开发技术》在线作业二答案参考84_第1页
第1页 / 共13页
南开大学21秋《大数据开发技术》在线作业二答案参考84_第2页
第2页 / 共13页
南开大学21秋《大数据开发技术》在线作业二答案参考84_第3页
第3页 / 共13页
南开大学21秋《大数据开发技术》在线作业二答案参考84_第4页
第4页 / 共13页
南开大学21秋《大数据开发技术》在线作业二答案参考84_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《南开大学21秋《大数据开发技术》在线作业二答案参考84》由会员分享,可在线阅读,更多相关《南开大学21秋《大数据开发技术》在线作业二答案参考84(13页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋大数据开发技术在线作业二答案参考1. 可使用( ),( ),( )进行光滑。A.最大值B.箱中位数C.箱边界D.箱均值参考答案:BCD2. Spark创建DataFrame对象方式有( )A.结构化数据文件B.外部数据库C.RDDD.Hive中的表参考答案:ABCD3. MapReduce中( )会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker,同时接收JobTracker 发送过来的命令并执行相应的操作。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案:D4. Hive提供了大数据批处理计算功能。

2、( )A.正确B.错误参考答案:B5. 在HBase中,更新操作会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在。( )A.正确B.错误参考答案:B6. 我们既要通过政府主导,又要发挥社会的力量,来共同推进医疗大数据的应用。( )A.对B.错参考答案:A7. 快速排序算法的性能取决于划分的对称性。( )A.错误B.正确参考答案:B8. 以下哪个函数可以求两个RDD的笛卡尔积( )A.unionB.substractC.intersectionD.cartesian参考答案:D9. 用户可以在Hadoop YARN上运行Spark。( )A.正确B.错误参考答案:A10. UMP系

3、通过( )来实现实现在不停机的情况下动态扩容、缩容和迁移A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:C11. Spark Streming中( )函数当被调用类型分别为(K,V)和(K,W)键值对的2个DStream时,返回类型为(K,(V,W)键值对的一个新 DStream。A.unionB.reduceC.joinD.cogroup参考答案:D12. Spark Streming中( )函数可以对源DStream中的每一个元素应用func方法进行计算,如果func函数返回结果为true,则保留该元素,否则丢弃该元素,返回一个新的Dstream

4、A.mapB.flatMapC.filterD.union参考答案:C13. SQL Azure体系结构层中哪层相当于网关,相当于普通Web系统的逻辑层( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:B14. 在现有大数据的存储中,结构化数据仅有20%,其余80%则在存在于物联网、电子商务、社交网络等领域的半结构化数据和非结构化数据。( )A.对B.错参考答案:A15. 以下属于Hadoop的安装方式的有( )。A.单机模式B.多机模式C.分布式模式D.并行模式E.伪分布式模式参考答案:A

5、CE16. GraphX中( )方法可以释放顶点缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案:C17. RDD的mapPartitions操作会导致Partitions数量的变化。( )A.正确B.错误参考答案:B18. 对于不同顶点之间的信息交换,Pregel采用了( )A.远程数据读取B.共享内存C.纯消息传递模型D.共享消息参考答案:C19. Hbase采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案:A20. MapReduce中Client会跟踪任务的执行进度、资源使用量等信

6、息。( )A.正确B.错误参考答案:B21. MapReduce中最优的Reduce任务个数取决于集群中可用的( )的数目。A.SplitB.SlotC.MapD.Shuffle参考答案:B22. RDD的intersection方法用于求出两个RDD的共同元素。( )A.正确B.错误参考答案:A23. 传统数据处理流程,用户需要主动发起查询或者定时查询;流处理流程中,可以实时查询。( )A.正确B.错误参考答案:A24. Scala函数组合器中groupBy是对集合中的元素进行分组操作,结果得到的是一个Map。( )A.正确B.错误参考答案:A25. Scala函数组合器可以通过一个函数重新

7、计算列表中所有元素,没有返回值。( )T.对F.错参考答案:F26. Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是( )A.filterB.foreachC.mapD.mkString参考答案:D27. Mllib中metrics.recallByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:B28. SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:A

8、29. 用户可以在Hadoop YARN上运行Spark。( )T.对F.错参考答案:T30. Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply参考答案:A31. SparkContext类中makeRDD方法不可将单机数据创建为分布式RDD。( )A.正确B.错误参考答案:B32. 大数据处理的关键技术主要包括:数据采集和预处理、数据存储、数据计算架构、数据分析和挖掘、数据可视化展示等。( )A.对B.错参考答案:A33. 交通数据的来源包括车辆GPS数据,人类移动的GPS位置信息或者单位站点记录,和监视设备的视频图像技术记录。(

9、 )A.对B.错参考答案:A34. RDD中的collect 函数是一个行动操作,把RDD 所有元素转换成数组并返回到Driver 端,适用于大数据处理后的返回。( )T.对F.错参考答案:F35. 以下算法中属于无监督学习算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案:D36. 下列算法中通常以自底向上的方式求解最优解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案:B37. 可视化工具包括( )。A.ExcelB.Google ChartC.GephiD.ppt参考答案:ABC38. Mllib中metrics.roc表示( )指标A.准确度

10、B.召回率C.F值D.ROC曲线参考答案:D39. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案:C40. MspReduce中的Map和Reduce函数使用( )进行输入输出。A.key/value对B.随机数值C.其他计算结果参考答案:A41. 以下哪些是数据可视化时间线工具( )A.EchartsB.TimetoastC.XtimelineD.R参考答案:BC42. GraphX中graph.edges可以得到( )A.顶点视图B.边视图C.顶点与边的三

11、元组整体视图D.有向图参考答案:B43. NoSQL数据库与关系数据库相比适用于哪些领域( )A.电信B.银行C.互联网企业大数据处理D.传统企业的数据分析参考答案:CD44. 下面哪种函数是回溯法中为避免无效搜索采取的策略?( )A.递归函数B.剪枝函数C.随机数函数D.搜索函数参考答案:B45. RDD是一个可读写的数据结构。( )T.对F.错参考答案:F46. 分治法的基本思想时将一个规模为n的问题分解为k个规模较小的子问题,这些子问题互相独立且与原问题相同。递归地解这些子问题,然后将各个子问题的解合并得到原问题的解。( )A.错误B.正确参考答案:B47. MongoDB将数据存储为一

12、个( )A.关系B.属性C.字段D.文档参考答案:D48. Scala列表中last返回一个列表,包含除了第一个元素之外的其他元素。( )A.正确B.错误参考答案:B49. PairRDD中( )函数可以合并具有相同键的值A.mapValuesB.groupByC.groupByKeyD.reduceByKey参考答案:A50. Scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案:A51. 问题的最优子结构性质是该问题不可用动态规划算法或贪心算法求解的关键特征。( )A.错误B.正确

13、参考答案:A52. Spark中DataFrame的( )方法是进行排序查询A.order byB.group byC.select byD.sort by参考答案:A53. 回溯法解旅行售货员问题时的解空间树是( )。A.子集树B.排列树C.深度优先生成树D.广度优先生成树参考答案:A54. Dstream输出操作中( )方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案:D55. 分支限界法解旅行售货员问题时,活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案:A56. 非结构化数据是指非纯文本类数据,没有标准格式,无法直接解析出相应的值。( )A.对B.错参考答案:A57. Scala 集合分为可变的和不可变的集合。( )T.对

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号