南开大学21秋《大数据开发技术》在线作业三答案参考96

资源描述

《南开大学21秋《大数据开发技术》在线作业三答案参考96》由会员分享，可在线阅读，更多相关《南开大学21秋《大数据开发技术》在线作业三答案参考96（13页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋大数据开发技术在线作业三答案参考1. GraphX中( )方法可以查询边信息A.numVerticesB.numEdgesC.verticesD.edges参考答案：D2. 回溯法是一种既带有系统性又带有跳跃性的搜索算法。( )A.错误B.正确参考答案：B3. Hbase采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：A4. 使用分治法求解不需要满足的条件是( )。A.子问题必须是一样的B.子问题不能够重复C.子问题的解可以合并D.原问题和子问题使用相同的方法解参考答案：A5. 解决0/1背包问题可以使用动态规划、回溯法和分支限界法，其中不

2、需要排序的是动态规划，需要排序的是回溯法，分支限界法。( )A.错误B.正确参考答案：B6. 以下哪个函数可以求两个RDD的笛卡尔积( )A.unionB.substractC.intersectionD.cartesian参考答案：D7. 贪心选择性质是贪心算法可行的第一个基本要素，但不是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案：A8. HDFS中SecondaryNameNode可减少( )重启的时间A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案：A9. Storm中如果要让所有的Tuple都发送到同一个Task

3、中，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：C10. Hbase中缓存刷新，每次刷写都生成一个新的StoreFile文件，因此，每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案：A11. PairRDD可以通过( )获得仅包含键的RDDA.keyB.keysC.valueD.values参考答案：B12. 文件块的大小和副本个数只能由系统指定。( )A.正确B.错误参考答案：B13. 以下算法中属于监督学习算法的是( )A

4、.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案：ABC14. 问题的最优子结构性质是该问题不可用动态规划算法或贪心算法求解的关键特征。( )A.错误B.正确参考答案：A15. HDFS的命名空间包含( )A.节点B.目录C.文件D.块参考答案：BCD16. RDD的intersection方法用于求出两个RDD的共同元素。( )A.正确B.错误参考答案：A17. 批处理系统关注( )，流处理系统关注( )。A.吞吐率，延时B.延时，吞吐率C.延时，速度D.速度，吞吐率参考答案：A18. 实现合并排序利用的算法是( )。A.分治策略B.动态规划法C.贪心法D.回溯法参考答案：A19

5、. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案：B20. Scala列表方法中将函数应用到列表的所有元素的方法是( )A.filterB.foreachC.mapD.mkString参考答案：B21. RDD的行动操作通过某种函数将一个RDD转换为一个新的RDD，但是转换操作是懒操作，不会立刻执行计算。( )A.正确B.错误参考答案：B22. Spark中DataFrame的( )方法是查询指定字段的数据信息A.selectB.selectExprC.colD.apply

6、参考答案：ABCD23. MapReduce中( )会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker 发送过来的命令并执行相应的操作。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案：D24. MapReduce的main函数中设置输出类型的方法有( )。A.setOutputKeyClassB.setOutputClassC.setOutputValueClassD.setKeyValueClass参考答案：AC25. 大型图计算通常是由一个集群完成的，集群环境中执行远程数据读取会

7、有较高的延迟。( )A.正确B.错误参考答案：A26. 采用贪心算法的最优装载问题的主要计算量在于将集装箱依其重量从小到大排序，故算法的时间复杂度为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案：B27. Spark GraphX中类Graph的mask方法可以( )A.反转图中所有边的方向B.按照设定条件取出子图C.取两个图的公共顶点和边作为新图，并保持前一个图顶点与边的属性D.合并边相同的属性参考答案：C28. 交通数据的来源包括车辆GPS数据，人类移动的GPS位置信息或者单位站点记录，和监视设备的视频图像技术记录。( )A.对B.错参考答案：A29. 以下

8、哪个是Scala的数据类型( )A.AnyB.NULLC.NothingD.AnyRef参考答案：ABCD30. MapReduce中Client会跟踪任务的执行进度、资源使用量等信息。( )A.正确B.错误参考答案：B31. Storm中如果要让每一个Task都会收到所有的Tuple，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：B32. Spark Streming中( )函数可以对源DStream的每个元素通过函数func返回一个新的DStreamA

9、.mapB.flatMapC.filterD.union参考答案：A33. 大数据决策逐渐成为一种新的决策方式，大数据应用有力促进了信息技术与各行业的深度融合，大数据开发大大推动了新技术和新应用的不断涌现。( )A.正确B.错误参考答案：A34. Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply参考答案：A35. 下列算法中通常以自底向上的方式求解最优解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案：B36. 下面是贪心算法的基本要素的是( )。A.重叠子问题B.构造最优解C.贪心选择性质D.定义最优解参考答案：

10、C37. 在现有大数据的存储中，结构化数据仅有20%，其余80%则在存在于物联网、电子商务、社交网络等领域的半结构化数据和非结构化数据。( )A.对B.错参考答案：A38. spark-submit配置项中( )表示Driver程序使用的内存大小A.-driver-memory MEMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案：A39. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案：A40. Dstream窗口操作中( )方法基于滑动窗口对源D

11、Stream中的元素进行聚合操作，得到一个新的DstreamA.windowB.countByWindowC.reduceByWindowD.reduceByKeyAndWindow参考答案：C41. 如果numPartitions是分区个数，那么Spark每个RDD的分区ID范围是( )A.0，numPartitionsB.0，numPartitions-1C.1，numPartitions-1D.1，numPartitions参考答案：B42. 分治法与动态规划法的不同点是：适合于用动态规划法求解的问题，经分解得到的子问题往往不是互相独立的。而用分治法求解的问题，经分解得到的子问题往往是互

12、相独立的。( )A.错误B.正确参考答案：B43. 数据产生方式的运营式系统阶段的数据产生方式是主动的。( )A.正确B.错误参考答案：B44. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：B45. Python是一种面向对象的解释型计算机程序设计语言。( )A.对B.错参考答案：A46. Mllib中线性会馆算法中的参数reParam表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：D47. Scala列表中last返回一个列表，包含除了第一个元素之外

13、的其他元素。( )T.对F.错参考答案：F48. 我们既要通过政府主导，又要发挥社会的力量，来共同推进医疗大数据的应用。( )A.对B.错参考答案：A49. Scala函数组合器中foreach和map类似，有返回值。( )A.正确B.错误参考答案：B50. 针对流数据，“量子恒道”可处理每天( )级的实时流数据A.TBB.PBC.GBD.MB参考答案：A51. SQL Azure体系结构层中哪层是硬件和操作系统( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案：D52. 以下哪种数据库适合于批量数据处理和即席查询( )A.MySQLB.OracleC.HbaseD.NosSQL参考答案：C53. RDD的行动操作是用于触发转换操作的操作，这个时候才会真正开始进行计算。( )A.正确B.错误参考答案：A54. ( )是Spark的数据挖掘算法库A.Spark CoreB.BlinkDB

展开阅读全文