南开大学22春《大数据开发技术》综合作业一答案参考39

资源描述

《南开大学22春《大数据开发技术》综合作业一答案参考39》由会员分享，可在线阅读，更多相关《南开大学22春《大数据开发技术》综合作业一答案参考39（13页珍藏版）》请在金锄头文库上搜索。

1、南开大学22春大数据开发技术综合作业一答案参考1. Python是一种面向对象的解释型计算机程序设计语言。( )A.对B.错参考答案：A2. Spark DataFrame中( )方法可以返回一个ListA.collectB.takeC.takeAsListD.collectAsList参考答案：CD3. Map Task和Reduce Task均由( )启动。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案：D4. 递归函数意味着函数可以调用它( )A.其他函数B.主函数C.子函数D.自身参考答案：D5. MapReduce的main函数中设置输出类

2、型的方法有( )。A.setOutputKeyClassB.setOutputClassC.setOutputValueClassD.setKeyValueClass参考答案：AC6. Scala中( )方法返回一个列表，包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案：B7. 用分支限界法设计算法的第二步是( )。A.针对所给问题，定义问题的解空间(对解进行编码)B.确定易于搜索的解空间结构(按树或图组织解)C.以广度优先或以最小耗费(最大收益)优先的方式搜索解空间D.在搜索过程中用剪枝函数避免无效搜索参考答案：B8. Mllib实现了一些常见的机器

3、学习算法和应用程序，包括( )A.分类B.聚类C.降维D.回归参考答案：ABCD9. Scala函数组合器可以对集合中的元素进行分组操作，结果得到的是一个Map的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案：C10. 我们既要通过政府主导，又要发挥社会的力量，来共同推进医疗大数据的应用。( )A.对B.错参考答案：A11. 实现棋盘覆盖算法利用的算法是( )。A.分治法B.动态规划法C.贪心法D.回溯法参考答案：A12. Spark GraphX中类Graph的mask方法可以( )A.反转图中所有边的方向B.按照设定条件取出子图C.取两个图的公共顶

4、点和边作为新图，并保持前一个图顶点与边的属性D.合并边相同的属性参考答案：C13. Mllib中线性会馆算法中的参数numIterations表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：A14. PairRDD的( )方法，可以把两个RDD中键相同的元素组合在一起，合并为一个RDD。A.joinB.unionC.substractD.intersection参考答案：A15. 静态数据采取( )计算模式A.批量B.实时C.大数据D.动态参考答案：A16. RDD的sortBy函数包含参数numPartiti

5、ons，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size。( )T.对F.错参考答案：T17. 利用概率的性质计算近似值的随机算法是数值概率算法，运行时以一定的概率得到正确解的随机算法是蒙特卡罗算法。( )A.错误B.正确参考答案：B18. Google Chart API是哪种可视化工具( )A.信息图表B.地图工具C.时间线工具D.分析工具参考答案：A19. GraphX中( )方法可以释放顶点缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案：C20

6、. Storm中如果要保证相同字段的Tuple分配到同一个Task中，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：D21. 以下哪个函数可以求两个RDD交集 ( )A.unionB.substractC.intersectionD.cartesian参考答案：C22. SQL Azure体系结构层中哪层是硬件和操作系统( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure La

7、yer参考答案：D23. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：B24. PairRDD中( )函数可以进行分组A.mapValuesB.groupByC.groupByKeyD.reduceByKey参考答案：BC25. 大型图计算通常是由一个集群完成的，集群环境中执行远程数据读取会有较高的延迟。( )A.正确B.错误参考答案：A26. Hbase中缓存刷新，每次刷写都生成一个新的StoreFile文件，因此，每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案：A27. TF-IDF中TF指的是( )

8、A.词频B.词在文档中出现的次数C.逆文档概率D.词在文档集中出现的概率E.词在文档集中出现的概率参考答案：AB28. Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数。( )T.对F.错参考答案：F29. Spark只有键值对类型的RDD才能设置分区方式。( )A.正确B.错误参考答案：A30. RDD是一个可读写的数据结构。( )A.正确B.错误参考答案：B31. 图的结构通常表示为：G(V，E)，其中，E是图G中( )A.顶点B.顶点的集合C.边D.边的集合参考答案：D32. 对于不同顶点之间的信息交换，Pregel采用了( )A.远程数据读取B.共享内存C.纯消息传

9、递模型D.共享消息参考答案：C33. 设计动态规划算法的主要步骤不包括根据计算最优值时得到的信息，构造最优解。( )A.错误B.正确参考答案：A34. 大数据计算处理方法主要分为两种方法，即批处理方法和流处理方法。( )A.正确B.错误参考答案：A35. MLBase包括( )A.MllibB.MLIC.SparkRD.GraphX参考答案：AB36. 从分治法的一般设计模式可以看出，用它设计出的程序一般是递归算法。( )A.错误B.正确参考答案：B37. Scala中使用( )方法来查看两个集合的交集元素A.Set.concatB.Set.&C.Set.&D.Set.intersect参考答

10、案：BD38. Spark Streming中Dstream是一种抽象的离散流。( )T.对F.错参考答案：T39. 很多企业为了支持决策分析而构建的数据仓库系统，其中存放的大量历史数据就是( )数据。技术人员可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息。A.动态B.存量C.实时D.静态参考答案：D40. 回溯法搜索状态空间树是按照什么的顺序?( )A.中序遍历B.广度优先遍历C.深度优先遍历D.层次优先遍历参考答案：C41. HDFS中的NameNode的EditLog用于维护文件系统树以及文件树中所有的文件和文件夹的元数据。( )A.正确B.错误参考答案：B42.

11、1秒定律体现了大数据的哪个特征( )。A.数据量大B.数据产生速度快C.数据存储快D.数据计算快参考答案：B43. 图(Graph)是一种复杂的非线性结构。( )T.对F.错参考答案：T44. MapReduce中( )会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker 发送过来的命令并执行相应的操作。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案：D45. 大数据智能感知层：主要包括( )及软硬件资源接入系统。A.数据传感体系B.网络通信体系C.传感适配体系D.智能识别体系参考答案

12、：ABCD46. 下面哪种函数是回溯法中为避免无效搜索采取的策略?( )A.递归函数B.剪枝函数C.随机数函数D.搜索函数参考答案：B47. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：C48. 最大效益优先是下列哪项的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案：A49. Spark支持使用( )语言编写应用A.ScalaB.PythonC.JavaD.R参考答案：ABCD50. 贪心选择性质是贪心算法可行的第一个基本要素，

13、也是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案：B51. Hbase中( )是最核心的模块，负责维护分配给自己的Region，并响应用户的读写请求A.MasterB.SlaverC.Region服务器D.客户端参考答案：C52. 大数据处理的关键技术主要包括：数据采集和预处理、数据存储、数据计算架构、数据分析和挖掘、数据可视化展示等。( )A.对B.错参考答案：A53. 图的结构通常表示为：G(V，E)，其中，G表示( )A.图B.子图C.顶点D.边参考答案：A54. 流计算的采集阶段需要保证( )。A.实时性B.大量C.低延迟D.稳定可靠参考答案：ACD55. PairRDD中groupBy(func)func返回key，传入的RDD的各个元素根据这个key进行分组。( )A.正确B.错误参考答案：A56. Yahoo! S4和Twitter Storm开发实时应用时既要关注处理逻辑，还要解决实时数据获取、传

展开阅读全文

南开大学22春《大数据开发技术》综合作业一答案参考39

最新文档