南开大学22春《大数据开发技术》综合作业一答案参考39

上传人:鲁** 文档编号:489232861 上传时间:2024-01-08 格式:DOCX 页数:13 大小:14.20KB
返回 下载 相关 举报
南开大学22春《大数据开发技术》综合作业一答案参考39_第1页
第1页 / 共13页
南开大学22春《大数据开发技术》综合作业一答案参考39_第2页
第2页 / 共13页
南开大学22春《大数据开发技术》综合作业一答案参考39_第3页
第3页 / 共13页
南开大学22春《大数据开发技术》综合作业一答案参考39_第4页
第4页 / 共13页
南开大学22春《大数据开发技术》综合作业一答案参考39_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《南开大学22春《大数据开发技术》综合作业一答案参考39》由会员分享,可在线阅读,更多相关《南开大学22春《大数据开发技术》综合作业一答案参考39(13页珍藏版)》请在金锄头文库上搜索。

1、南开大学22春大数据开发技术综合作业一答案参考1. Python是一种面向对象的解释型计算机程序设计语言。( )A.对B.错参考答案:A2. Spark DataFrame中( )方法可以返回一个ListA.collectB.takeC.takeAsListD.collectAsList参考答案:CD3. Map Task和Reduce Task均由( )启动。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案:D4. 递归函数意味着函数可以调用它( )A.其他函数B.主函数C.子函数D.自身参考答案:D5. MapReduce的main函数中设置输出类

2、型的方法有( )。A.setOutputKeyClassB.setOutputClassC.setOutputValueClassD.setKeyValueClass参考答案:AC6. Scala中( )方法返回一个列表,包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案:B7. 用分支限界法设计算法的第二步是( )。A.针对所给问题,定义问题的解空间(对解进行编码)B.确定易于搜索的解空间结构(按树或图组织解)C.以广度优先或以最小耗费(最大收益)优先的方式搜索解空间D.在搜索过程中用剪枝函数避免无效搜索参考答案:B8. Mllib实现了一些常见的机器

3、学习算法和应用程序,包括( )A.分类B.聚类C.降维D.回归参考答案:ABCD9. Scala函数组合器可以对集合中的元素进行分组操作,结果得到的是一个Map的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案:C10. 我们既要通过政府主导,又要发挥社会的力量,来共同推进医疗大数据的应用。( )A.对B.错参考答案:A11. 实现棋盘覆盖算法利用的算法是( )。A.分治法B.动态规划法C.贪心法D.回溯法参考答案:A12. Spark GraphX中类Graph的mask方法可以( )A.反转图中所有边的方向B.按照设定条件取出子图C.取两个图的公共顶

4、点和边作为新图,并保持前一个图顶点与边的属性D.合并边相同的属性参考答案:C13. Mllib中线性会馆算法中的参数numIterations表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案:A14. PairRDD的( )方法,可以把两个RDD中键相同的元素组合在一起,合并为一个RDD。A.joinB.unionC.substractD.intersection参考答案:A15. 静态数据采取( )计算模式A.批量B.实时C.大数据D.动态参考答案:A16. RDD的sortBy函数包含参数numPartiti

5、ons,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。( )T.对F.错参考答案:T17. 利用概率的性质计算近似值的随机算法是数值概率算法,运行时以一定的概率得到正确解的随机算法是蒙特卡罗算法。( )A.错误B.正确参考答案:B18. Google Chart API是哪种可视化工具( )A.信息图表B.地图工具C.时间线工具D.分析工具参考答案:A19. GraphX中( )方法可以释放顶点缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案:C20

6、. Storm中如果要保证相同字段的Tuple分配到同一个Task中,应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案:D21. 以下哪个函数可以求两个RDD交集 ( )A.unionB.substractC.intersectionD.cartesian参考答案:C22. SQL Azure体系结构层中哪层是硬件和操作系统( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure La

7、yer参考答案:D23. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案:B24. PairRDD中( )函数可以进行分组A.mapValuesB.groupByC.groupByKeyD.reduceByKey参考答案:BC25. 大型图计算通常是由一个集群完成的,集群环境中执行远程数据读取会有较高的延迟。( )A.正确B.错误参考答案:A26. Hbase中缓存刷新,每次刷写都生成一个新的StoreFile文件,因此,每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案:A27. TF-IDF中TF指的是( )

8、A.词频B.词在文档中出现的次数C.逆文档概率D.词在文档集中出现的概率E.词在文档集中出现的概率参考答案:AB28. Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数。( )T.对F.错参考答案:F29. Spark只有键值对类型的RDD才能设置分区方式。( )A.正确B.错误参考答案:A30. RDD是一个可读写的数据结构。( )A.正确B.错误参考答案:B31. 图的结构通常表示为:G(V,E),其中,E是图G中( )A.顶点B.顶点的集合C.边D.边的集合参考答案:D32. 对于不同顶点之间的信息交换,Pregel采用了( )A.远程数据读取B.共享内存C.纯消息传

9、递模型D.共享消息参考答案:C33. 设计动态规划算法的主要步骤不包括根据计算最优值时得到的信息,构造最优解。( )A.错误B.正确参考答案:A34. 大数据计算处理方法主要分为两种方法,即批处理方法和流处理方法。( )A.正确B.错误参考答案:A35. MLBase包括( )A.MllibB.MLIC.SparkRD.GraphX参考答案:AB36. 从分治法的一般设计模式可以看出,用它设计出的程序一般是递归算法。( )A.错误B.正确参考答案:B37. Scala中使用( )方法来查看两个集合的交集元素A.Set.concatB.Set.&C.Set.&D.Set.intersect参考答

10、案:BD38. Spark Streming中Dstream是一种抽象的离散流。( )T.对F.错参考答案:T39. 很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是( )数据。技术人员可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息。A.动态B.存量C.实时D.静态参考答案:D40. 回溯法搜索状态空间树是按照什么的顺序?( )A.中序遍历B.广度优先遍历C.深度优先遍历D.层次优先遍历参考答案:C41. HDFS中的NameNode的EditLog用于维护文件系统树以及文件树中所有的文件和文件夹的元数据。( )A.正确B.错误参考答案:B42.

11、1秒定律体现了大数据的哪个特征( )。A.数据量大B.数据产生速度快C.数据存储快D.数据计算快参考答案:B43. 图(Graph)是一种复杂的非线性结构。( )T.对F.错参考答案:T44. MapReduce中( )会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker,同时接收JobTracker 发送过来的命令并执行相应的操作。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案:D45. 大数据智能感知层:主要包括( )及软硬件资源接入系统。A.数据传感体系B.网络通信体系C.传感适配体系D.智能识别体系参考答案

12、:ABCD46. 下面哪种函数是回溯法中为避免无效搜索采取的策略?( )A.递归函数B.剪枝函数C.随机数函数D.搜索函数参考答案:B47. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案:C48. 最大效益优先是下列哪项的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案:A49. Spark支持使用( )语言编写应用A.ScalaB.PythonC.JavaD.R参考答案:ABCD50. 贪心选择性质是贪心算法可行的第一个基本要素,

13、也是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案:B51. Hbase中( )是最核心的模块,负责维护分配给自己的Region,并响应用户的读写请求A.MasterB.SlaverC.Region服务器D.客户端参考答案:C52. 大数据处理的关键技术主要包括:数据采集和预处理、数据存储、数据计算架构、数据分析和挖掘、数据可视化展示等。( )A.对B.错参考答案:A53. 图的结构通常表示为:G(V,E),其中,G表示( )A.图B.子图C.顶点D.边参考答案:A54. 流计算的采集阶段需要保证( )。A.实时性B.大量C.低延迟D.稳定可靠参考答案:ACD55. PairRDD中groupBy(func)func返回key,传入的RDD的各个元素根据这个key进行分组。( )A.正确B.错误参考答案:A56. Yahoo! S4和Twitter Storm开发实时应用时既要关注处理逻辑,还要解决实时数据获取、传

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号