南开大学21春《大数据开发技术》离线作业2参考答案91

资源描述

《南开大学21春《大数据开发技术》离线作业2参考答案91》由会员分享，可在线阅读，更多相关《南开大学21春《大数据开发技术》离线作业2参考答案91（11页珍藏版）》请在金锄头文库上搜索。

1、南开大学21春大数据开发技术离线作业2参考答案1. Spark中DataFrame的查询操作也是一个懒操作，仅仅生成一个查询计划，只有触发Action操作才会进行计算并返回查询结果。( )A.正确B.错误参考答案：A2. MapReduce设计的一个理念就是( )，因为移动数据需要大量的网络传输开销。A.数据向计算靠拢B.计算向数据靠拢C.计算向网络靠拢D.计算与数据并行参考答案：B3. Hbase中Zookeeper文件记录了( )的位置A.META.表B.-ROOT-表C.RegionD.Master参考答案：B4. 0-1背包问题的回溯算法所需的计算时间为( )。A.O(n2n)B.O(

2、nlogn)C.O(2n)D.O(n)参考答案：A5. 实现大整数的乘法是利用( )的算法。A.贪心法B.动态规划法C.分治策略D.回溯法参考答案：C6. 以下哪个函数可以对两个RDD进行合并( )A.unionB.substractC.intersectionD.cartesian参考答案：A7. Hbase中Region服务器的系统会周期性地把MemStore缓存里的内容刷写到磁盘的StoreFile文件中，清空缓存，并在Hlog里面写入一个标记。( )A.正确B.错误参考答案：A8. Hbase中缓存刷新，每次刷写都生成一个新的StoreFile文件，因此，每个Store包含多个Stor

3、eFile文件。( )A.正确B.错误参考答案：A9. 下列哪一种算法不是随机化算法?( )A.蒙特卡罗算法B.拉斯维加斯算法C.动态规划算法D.舍伍德算法参考答案：C10. 图(Graph)是一种复杂的非线性结构。( )T.对F.错参考答案：T11. 阿里云RDS中一个实例可以创建多个数据库，在实例内数据库命名唯一，所有数据库都会共享该实例下的资源，如CPU、内存、磁盘容量等。( )A.正确B.错误参考答案：A12. Spark中DataFrame的( )方法是进行分组查询A.order byB.group byC.select byD.sort by参考答案：B13. Spark是一个(

4、)计算框架A.快速B.分布式C.可扩展D.容错参考答案：ABCD14. 以下哪个函数可以求两个RDD交集 ( )A.unionB.substractC.intersectionD.cartesian参考答案：C15. Scala列表中last返回列表最后一个元素。( )A.正确B.错误参考答案：A16. Pentaho是最流行的开源商业智能软件之一。( )A.对B.错参考答案：A17. Scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案：A18. 关于Strom中Bolt说法错误的是

5、( )。A.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作B.Bolt是一个被动的角色，Spout是一个主动的角色C.Bolt不仅可以处理Tuple还可以创建新的TupleD.Bolt是Streams的状态转换过程的抽象含义参考答案：C19. Spark可以通过哪些外部存储创建RDD( )A.文本文件B.目录C.压缩文件D.通配符匹配的文件参考答案：ABCD20. 程序是算法用某种程序设计语言的具体实现。( )A.错误B.正确参考答案：B21. 设计动态规划算法的主要步骤不包括根据计算最优值时得到的信息，构造最优解。( )A.错误B.正确参考答案：A22. Scala列表方法中

6、使用分隔符将列表所有元素作为字符串显示的方法是( )A.filterB.foreachC.mapD.mkString参考答案：D23. 流计算系统的需求有( )。A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案：ACE24. UMP系统借助于( )来实现高效和可靠的协同工作A.MnesiaB.LVSC.RabbitMQD.Zookeeper参考答案：D25. 回溯法搜索状态空间树是按照什么的顺序?( )A.中序遍历B.广度优先遍历C.深度优先遍历D.层次优先遍历参考答案：C26. 舍伍德算法总能求得问题的一个解。( )A.错误B.正确参考答案：B27. Spark GraphX中类Gr

7、aph的mask方法可以( )A.反转图中所有边的方向B.按照设定条件取出子图C.取两个图的公共顶点和边作为新图，并保持前一个图顶点与边的属性D.合并边相同的属性参考答案：C28. RDD的union函数会将两个RDD元素合并成一个并且去处重复元素。( )A.正确B.错误参考答案：B29. 以下哪个函数可以求两个RDD差集 ( )A.unionB.substractC.intersectionD.cartesian参考答案：B30. 计算一个算法时间复杂度通常可以计算循环次数、基本操作的频率或计算步。( )A.错误B.正确参考答案：B31. 用户可以在Apache Mesos上运行Spark。

8、( )T.对F.错参考答案：T32. 交通数据的来源包括车辆GPS数据，人类移动的GPS位置信息或者单位站点记录，和监视设备的视频图像技术记录。( )A.对B.错参考答案：A33. 下列算法中通常以自底向上的方式求解最优解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案：B34. 请问RDD的( )操作是根据键对两个RDD进行内连接A.joinB.zipC.combineByKeyD.collect参考答案：A35. RDD中的collect 函数是一个行动操作，把RDD 所有元素转换成数组并返回到Driver 端，适用于大数据处理后的返回。( )T.对F.错参考答案：F36

9、. Scala中重写一个非抽象方法必须使用( )修饰符。A.extendsB.overrideC.extendD.overrides参考答案：B37. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案：A38. 静态数据采取( )计算模式A.批量B.实时C.大数据D.动态参考答案：A39. MapReduce的main函数中设置输出类型的方法有( )。A.setOutputKeyClassB.setOutputClassC.setOutputValueClassD.setKeyValueClass参考答案：AC40. 居民通过健康云平台中的数据，了解健康

10、情况，防患于未然; 医疗机构通过对远程监控系统中的数据分析，缩短住院时间，提高家庭护理比例和门诊医生预约量。( )A.对B.错参考答案：A41. Scala中合并两个数组的方法是( )A.lineB.addC.appendD.concat参考答案：D42. 关系数据库与NoSQL数据库相比适用于哪些领域( )A.电信B.银行C.互联网企业大数据处理D.传统企业的数据分析参考答案：AB43. Spark SQL读取的数据源支持( )A.Hive表B.Parquent文件C.JSON数据D.关系数据库参考答案：ABCD44. 大型图计算通常是由一个集群完成的，集群环境中执行远程数据读取会有较高的延

11、迟。( )A.正确B.错误参考答案：A45. Spark只有键值对类型的RDD才能设置分区方式。( )A.正确B.错误参考答案：A46. RDD的subtract用于用于将前一个RDD中在后一个RDD出现的元素删除。( )A.正确B.错误参考答案：A47. SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案：A48. Mllib中线性会馆算法中的参数numIterations表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：A49. 分布式离线分析可以实现秒级别的实时分析响应。( )A.正确B.错误参考答案：B50. 应用于分布式数据存储与管理数据在地理上分布于多个数据中心的应用程序的数据库是哪种( )A.列族数据库B.键值数据库C.图数据库D.文档数据库参考答案：A

展开阅读全文

南开大学21春《大数据开发技术》离线作业2参考答案91

最新文档