南开大学21春《大数据开发技术》离线作业1辅导答案88

资源描述

《南开大学21春《大数据开发技术》离线作业1辅导答案88》由会员分享，可在线阅读，更多相关《南开大学21春《大数据开发技术》离线作业1辅导答案88（11页珍藏版）》请在金锄头文库上搜索。

1、南开大学21春大数据开发技术离线作业1辅导答案1. Spark中DataFrame的( )方法是进行排序查询A.order byB.group byC.select byD.sort by参考答案：A2. 动态规划算法的基本思想是将待求解问题分解成若干子问题，先求解子问题，然后从这些子问题的解得到原问题的解。( )A.错误B.正确参考答案：B3. ( )可以解决图计算问题A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案：C4. 决策树是( )的常用算法A.分类B.聚类C.降维D.回归参考答案：AD5. Spark只有键值对类型的RDD才能设置分区方式。( )A.

2、正确B.错误参考答案：A6. Spark Streming中( )函数可以合并两个DStream，生成一个包含两个DStream中所有元素的新DStream对象A.mapB.flatMapC.filterD.union参考答案：D7. Storm中如果要保证相同字段的Tuple分配到同一个Task中，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：D8. RDD的( )操作通常用来划分单词A.filterB.unionC.flatmapD.mapPartit

3、ions参考答案：C9. Spark创建DataFrame对象方式有( )A.结构化数据文件B.外部数据库C.RDDD.Hive中的表参考答案：ABCD10. MLBase包括( )A.MllibB.MLIC.SparkRD.GraphX参考答案：AB11. 流计算系统的需求有( )。A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案：ACE12. Storm中如果要让所有的Tuple都发送到同一个Task中，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考

4、答案：C13. 下列随机算法中运行时有时候成功有时候失败的是( )。A.数值概率算法B.舍伍德算法C.拉斯维加斯算法D.蒙特卡罗算法参考答案：C14. RDD的行动操作是用于触发转换操作的操作，这个时候才会真正开始进行计算。( )A.正确B.错误参考答案：A15. Hbase中Zookeeper文件记录了( )的位置A.META.表B.-ROOT-表C.RegionD.Master参考答案：B16. Scala在子类中重写超类的抽象方法时，需要使用override关键字。( )T.对F.错参考答案：F17. Scala列表中last返回列表最后一个元素。( )A.正确B.错误参考答案：A18.

5、 Scala中创建一个方法时经常用void表示该方法无返回值。( )T.对F.错参考答案：F19. Scala中高阶函数可以产生新的函数，并将新的函数作为返回值。( )T.对F.错参考答案：T20. 图的结构通常表示为：G(V，E)，其中，E是图G中( )A.顶点B.顶点的集合C.边D.边的集合参考答案：D21. ( )是Microsoft Office的核心组件。A.SQLB.WORDC.PPTD.EXCEL参考答案：D22. Scala列表中last返回一个列表，包含除了第一个元素之外的其他元素。( )T.对F.错参考答案：F23. 分支限界法解最大团问题时，活结点表的组织形式是( )。A

6、.最小堆B.最大堆C.栈D.数组参考答案：B24. 0-1背包问题的回溯算法所需的计算时间为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案：A25. 交通数据的来源包括车辆GPS数据，人类移动的GPS位置信息或者单位站点记录，和监视设备的视频图像技术记录。( )A.对B.错参考答案：A26. RDD的union函数会将两个RDD元素合并成一个并且去处重复元素。( )A.正确B.错误参考答案：B27. RDD的subtract用于用于将前一个RDD中在后一个RDD出现的元素删除。( )A.正确B.错误参考答案：A28. PairRDD可以通过( )获得仅包含键的R

7、DDA.keyB.keysC.valueD.values参考答案：B29. 每个变量的最大值和最小值之差称为极差。( )A.对B.错参考答案：A30. var a=10; for(aA.10B.11C.20D.19参考答案：D31. Spark是一个( )计算框架A.快速B.分布式C.可扩展D.容错参考答案：ABCD32. 使用Amazon云环境部署Hadoop的说法中错误的是( )。A.Hadoop不仅可以运行在企业内部的集群中，也可以运行在云计算环境中B.Hadoop自带有一套脚本，用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为

8、Hadoop提供了存储服务参考答案：D33. Spark持久化RDD后，在再一次需要计算该RDD时将需要重新计算。( )A.正确B.错误参考答案：B34. Spark SQL可被视为一个分布式的SQL查询引擎，并且提供了一个叫做DataFrame的可编程抽象数据模型。( )A.正确B.错误参考答案：A35. 居民通过健康云平台中的数据，了解健康情况，防患于未然; 医疗机构通过对远程监控系统中的数据分析，缩短住院时间，提高家庭护理比例和门诊医生预约量。( )A.对B.错参考答案：A36. Spark SQL可以通过( )方法加载json文件为DataFrameA.formatB.jsonC.ge

9、tD.read参考答案：AB37. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案：A38. Spark可以从( )分布式文件系统中读取数据A.HDFSB.HbaseC.HiveD.Tachyon参考答案：ABCD39. 矩阵连乘问题的算法可由动态规划设计实现。( )A.错误B.正确参考答案：B40. Scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案：A41. 以下哪个函数可以求两个RDD的笛卡尔积( )A.unionB.substract

10、C.intersectionD.cartesian参考答案：D42. 美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”。( )A.对B.错参考答案：A43. 最大效益优先是下列哪项的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案：A44. Strassen矩阵乘法是利用什么实现的算法?( )A.分治策略B.动态规划法C.贪心法D.回溯法参考答案：A45. 在集成期间，当一个数据库的属性与另一个数据库的属性匹配时，必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。( )A.对B.错参考答案：A46. Scala函数组合器可以接收一

11、个可以处理嵌套列表的函数，然后把返回结果连接起来的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案：D47. 流计算是针对流数据的实时计算，可以应用在( )场景中A.广告投放B.气候模拟预测C.机器翻译D.推荐系统参考答案：ABCD48. 采用贪心算法的最优装载问题的主要计算量在于将集装箱依其重量从小到大排序，故算法的时间复杂度为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案：B49. 按照数据量的大小，可将数据分析分为内存级数据分析、Bl级数据分析和海量级数据分析。( )A.对B.错参考答案：A50. Spark GraphX中类Graph的joinVertices方法可以( )A.收集邻居顶点的顶点Id和顶点属性B.收集邻居顶点的顶点IdC.向指定顶点发送信息并聚合信息D.将顶点信息更新到图中参考答案：D

展开阅读全文