南开大学22春《大数据开发技术》综合作业一答案参考71

资源描述

《南开大学22春《大数据开发技术》综合作业一答案参考71》由会员分享，可在线阅读，更多相关《南开大学22春《大数据开发技术》综合作业一答案参考71（13页珍藏版）》请在金锄头文库上搜索。

1、南开大学22春大数据开发技术综合作业一答案参考1. Pig是Hadoop项目中一种数据仓库工具。( )A.正确B.错误参考答案：B2. 默认情况下，Scala 使用的是可变集合。( )T.对F.错参考答案：F3. 决策树是( )的常用算法A.分类B.聚类C.降维D.回归参考答案：AD4. 在现有大数据的存储中，结构化数据仅有20%，其余80%则在存在于物联网、电子商务、社交网络等领域的半结构化数据和非结构化数据。( )A.对B.错参考答案：A5. ( )是Microsoft Office的核心组件。A.SQLB.WORDC.PPTD.EXCEL参考答案：D6. GraphX中( )方法可以查询

2、边信息A.numVerticesB.numEdgesC.verticesD.edges参考答案：D7. SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案：A8. Scala列表方法中丢弃前n个元素，并返回新列表的方法是( )A.dropB.headC.filterD.init参考答案：A9. 下列随机算法中运行时有时候成功有时候失败的是( )。A.数值概率算法B.舍伍德算法C.拉斯维加斯算法D.蒙特卡罗算法参考答

3、案：C10. 关联分析又称为关联规则学习。( )A.对B.错参考答案：A11. Hbase和传统数据库一样都是列式数据库。( )A.正确B.错误参考答案：B12. 大数据决策逐渐成为一种新的决策方式，大数据应用有力促进了信息技术与各行业的深度融合，大数据开发大大推动了新技术和新应用的不断涌现。( )A.正确B.错误参考答案：A13. Python是一种面向对象的解释型计算机程序设计语言。( )A.对B.错参考答案：A14. UMP系统的哪个功能实现了负载均衡( )A.读写分离B.资源隔离C.资源调度D.可扩展参考答案：A15. 贪心算法的基本要素是贪心选择质和最优子结构性质。( )A.错误B.

4、正确参考答案：B16. 可使用( )，( )，( )进行光滑。A.最大值B.箱中位数C.箱边界D.箱均值参考答案：BCD17. MapReduce中( )会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker 发送过来的命令并执行相应的操作。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案：D18. HDFS在设计上采取了多种机制保证在硬件出错的环境中实现数据的完整性。( )A.正确B.错误参考答案：A19. Spark DataFrame中( )方法可以返回一个ListA.collect

5、B.takeC.takeAsListD.collectAsList参考答案：CD20. Mllib中metrics.fMeasureByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：C21. Spark GraphX中类Graph的mask方法可以( )A.反转图中所有边的方向B.按照设定条件取出子图C.取两个图的公共顶点和边作为新图，并保持前一个图顶点与边的属性D.合并边相同的属性参考答案：C22. Spark对只有未曾设置存储级别的RDD才能设置存储级别，设置了存储级别的RDD不能修改其存储级别。( )A.正确B.错误参考答案：A23. 贪心选择性质是

6、贪心算法可行的第一个基本要素，但不是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案：A24. 流计算系统的需求有( )。A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案：ACE25. 大数据的特征是( )。A.数据体量大B.数据产生速度快C.数据种类多D.数据计算快E.数据价值高参考答案：ABCE26. Scala函数组合器中filter过滤移除使得传入的函数的返回值为true的元素。( )A.正确B.错误参考答案：B27. 以下哪些是数据可视化时间线工具( )A.EchartsB.TimetoastC.XtimelineD.R参考答案：BC28. 以下哪个函数可以求

7、两个RDD差集 ( )A.unionB.substractC.intersectionD.cartesian参考答案：B29. Scala中使用( )方法来查看两个集合的交集元素A.Set.concatB.Set.&C.Set.&D.Set.intersect参考答案：BD30. 下列Scala代码应输出( )：var a=0;var b=0var sum=0;for(a-1 until 3; b-1 until 3) sum+=a+b;println(sum);A.36B.35C.11D.12参考答案：D31. 利用概率的性质计算近似值的随机算法是数值概率算法，运行时以一定的概率得到正确解的

8、随机算法是蒙特卡罗算法。( )A.错误B.正确参考答案：B32. 备忘录方法是哪种算法的变形?( )A.分治法B.动态规划法C.贪心法D.回溯法参考答案：B33. 数据产生方式的运营式系统阶段的数据产生方式是主动的。( )A.正确B.错误参考答案：B34. 图结构中如果无重复的边或者顶点到自身的边，那么称之为( )A.完全图B.有向完全图C.无向图D.简单图参考答案：D35. Spark Streaming中时间片也可称为批处理时间间隔(batch interval)，时间片是人为地对数据进行定量的标准，作为拆分数据的依据，一个时间片的数据对应一个RDD实例。( )A.正确B.错误参考答案：A

9、36. 关于Map端Shuffle过程中的合并与归并，说法正确的是( )。A.两个键值对和，如果合并，会得到B.合并不会改变最终结果C.两个键值对和，如果归并，会得到D.两个键值对和，如果归并，会得到参考答案：ABD37. MapReduce中最优的Reduce任务个数取决于集群中可用的( )的数目。A.SplitB.SlotC.MapD.Shuffle参考答案：B38. RDD的mapPartitions操作会导致Partitions数量的变化。( )A.正确B.错误参考答案：B39. 快速排序算法的性能取决于划分的对称性。( )A.错误B.正确参考答案：B40. RDD的sortBy函数包

10、含参数numPartitions，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size。( )T.对F.错参考答案：T41. MLlib中进行数据标准化的方式有( )A.NormalizerB.StandardC.StandardScaleerD.MinMaxScaler参考答案：ACD42. PairRDD中( )函数可以进行分组A.mapValuesB.groupByC.groupByKeyD.reduceByKey参考答案：BC43. 优点是性能好(高并发)，灵活性高，复杂性低，数据结构灵活提供嵌入式文档功能的数据库

11、是( )A.列族数据库B.键值数据库C.图数据库D.文档数据库参考答案：D44. Scala 使用( )关键字来继承一个类A.extendsB.overrideC.extendD.overrides参考答案：A45. 哈弗曼编码的贪心算法所需的计算时间为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案：B46. SparkContext类中makeRDD方法不可将单机数据创建为分布式RDD。( )A.正确B.错误参考答案：B47. Scala函数组合器可以接收一个可以处理嵌套列表的函数，然后把返回结果连接起来的方法是( )A.mapB.foreachC.flatt

12、enD.flatmap参考答案：D48. 针对流数据，“量子恒道”可处理每天( )级的实时流数据A.TBB.PBC.GBD.MB参考答案：A49. PairRDD中mapValues是针对键值对(Key，Value)类型的数据中的key和Value进行Map操作。( )T.对F.错参考答案：F50. 矩阵连乘问题的算法可由动态规划设计实现。( )A.错误B.正确参考答案：B51. NoSQL数据库与关系数据库相比适用于哪些领域( )A.电信B.银行C.互联网企业大数据处理D.传统企业的数据分析参考答案：CD52. UMP系通过( )来实现实现在不停机的情况下动态扩容、缩容和迁移A.Contro

13、ller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案：C53. HDFS的命名空间包含( )A.节点B.目录C.文件D.块参考答案：BCD54. ( )是Spark的数据挖掘算法库A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案：D55. 用分支限界法设计算法的第二步是( )。A.针对所给问题，定义问题的解空间(对解进行编码)B.确定易于搜索的解空间结构(按树或图组织解)C.以广度优先或以最小耗费(最大收益)优先的方式搜索解空间D.在搜索过程中用剪枝函数避免无效搜索参考答案：B56. Scala类通过子类化和基于灵活的混合类来进行扩展，作为( )的一个可靠性解决方案A.多态B.虚函数C.派生D.多重继承参考答案：D57. 批处理系统关注( )，流处理系统关注( )。A.吞吐率，延时B.延时，吞吐率C.延时，速度D.速度，吞吐率

展开阅读全文