南开大学21秋《大数据开发技术》在线作业一答案参考9

资源描述

《南开大学21秋《大数据开发技术》在线作业一答案参考9》由会员分享，可在线阅读，更多相关《南开大学21秋《大数据开发技术》在线作业一答案参考9（13页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋大数据开发技术在线作业一答案参考1. DataFrame是一个分布式的Row对象的数据集合。( )A.正确B.错误参考答案：A2. 采用贪心算法的最优装载问题的主要计算量在于将集装箱依其重量从小到大排序，故算法的时间复杂度为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案：B3. Dstream窗口操作中( )方法基于滑动窗口对源DStream中的元素进行聚合操作，得到一个新的DstreamA.windowB.countByWindowC.reduceByWindowD.reduceByKeyAndWindow参考答案：C4. Scala中高阶函数经

2、常将只需要执行多次的函数定义为匿名函数作为参数。( )T.对F.错参考答案：F5. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案：B6. 决策树是( )的常用算法A.分类B.聚类C.降维D.回归参考答案：AD7. 以下哪个函数可以对RDD进行去重( )A.sortByB.filterC.distinctD.intersection参考答案：C8. 计算一个算法时间复杂度通常可以计算循环次数、基本操作的频率或计算步。( )A.错误B.正确参考答案：B9. Scala中数组的第

3、一个元素索引为1。( )A.正确B.错误参考答案：B10. 非结构化数据是指非纯文本类数据，没有标准格式，无法直接解析出相应的值。( )A.对B.错参考答案：A11. RDD中join操作最后只返回两个RDD都存在的键的连接结果。( )A.正确B.错误参考答案：A12. RDD的sortBy排序默认是升序。( )T.对F.错参考答案：T13. Map Task和Reduce Task均由( )启动。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案：D14. 对于不同顶点之间的信息交换，Pregel采用了( )A.远程数据读取B.共享内存C.纯消息传递模

4、型D.共享消息参考答案：C15. HDFS在设计上采取了多种机制保证在硬件出错的环境中实现数据的完整性。( )A.正确B.错误参考答案：A16. Spark取代Hadoop仅仅是取代MapReduce这种计算框架，Spark可以取代HDFS吗。( )T.对F.错参考答案：F17. UMP系统借助于( )来实现高效和可靠的协同工作A.MnesiaB.LVSC.RabbitMQD.Zookeeper参考答案：D18. 数据产生方式的运营式系统阶段的数据产生方式是主动的。( )A.正确B.错误参考答案：B19. Spark可以通过哪些外部存储创建RDD( )A.文本文件B.目录C.压缩文件D.通配符

5、匹配的文件参考答案：ABCD20. 关系数据库与NoSQL数据库相比适用于哪些领域( )A.电信B.银行C.互联网企业大数据处理D.传统企业的数据分析参考答案：AB21. 流计算是针对流数据的实时计算，可以应用在( )场景中A.广告投放B.气候模拟预测C.机器翻译D.推荐系统参考答案：ABCD22. Spark SQL读取的数据源支持( )A.Hive表B.Parquent文件C.JSON数据D.关系数据库参考答案：ABCD23. 分支限界法解最大团问题时，活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案：B24. 分治法与动态规划法的不同点是：适合于用动态规划法求解的问

6、题，经分解得到的子问题往往不是互相独立的。而用分治法求解的问题，经分解得到的子问题往往是互相独立的。( )A.错误B.正确参考答案：B25. 在现有大数据的存储中，结构化数据仅有20%，其余80%则在存在于物联网、电子商务、社交网络等领域的半结构化数据和非结构化数据。( )A.对B.错参考答案：A26. Hbase中缓存刷新，每次刷写都生成一个新的StoreFile文件，因此，每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案：A27. 请问RDD的( )操作是根据键对两个RDD进行内连接A.joinB.zipC.combineByKeyD.collect参考答案：A

7、28. Scala中( )方法返回一个列表，包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案：B29. RDD的( )操作通常用来划分单词A.filterB.unionC.flatmapD.mapPartitions参考答案：C30. PairRDD中mapValues是针对键值对(Key，Value)类型的数据中的key和Value进行Map操作。( )A.正确B.错误参考答案：B31. NAS是一种采用直接与网络介质相连的特殊设备实现数据存储的模式。( )A.对B.错参考答案：A32. UMP系统中面对分库分表用户如何进行资源调度( )A.可以共享

8、同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案：C33. 贪心选择性质是贪心算法可行的第一个基本要素，但不是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案：A34. Strassen矩阵乘法是利用什么实现的算法?( )A.分治策略B.动态规划法C.贪心法D.回溯法参考答案：A35. 下列随机算法中运行时有时候成功有时候失败的是( )。A.数值概率算法B.舍伍德算法C.拉斯维加斯算法D.蒙特卡罗算法参考答案：C36. Spark持久化RDD后，在再一次需要计算该RDD时将需要重新计算。( )A.正确B.

9、错误参考答案：B37. RDD的行动操作通过某种函数将一个RDD转换为一个新的RDD，但是转换操作是懒操作，不会立刻执行计算。( )A.正确B.错误参考答案：B38. 关于分布式并行编程，以下说法错误的是( )。A.“摩尔定律”，CPU性能大约每隔12个月翻一番B.“摩尔定律”逐渐失效后，人们开始借助于分布式并行编程来提高程序性能C.分布式程序运行在大规模计算机集群上，可以并行执行大规模数据处理任务，从而获得海量的计算能力D.谷歌公司最先提出了分布式并行编程模型MapReduce参考答案：A39. Scala源代码被编译成( )字节码，所以它可以运行于JVM之上A.SparkB.ScalaC.

10、JavaD.JDK参考答案：C40. 静态数据采取( )计算模式A.批量B.实时C.大数据D.动态参考答案：A41. var a=10; do a+=1;while(aA.9B.10C.11D.12参考答案：B42. RDD的subtract用于用于将前一个RDD中在后一个RDD出现的元素删除。( )A.正确B.错误参考答案：A43. Scala列表中last返回一个列表，包含除了第一个元素之外的其他元素。( )T.对F.错参考答案：F44. SQL Azure体系结构层中哪层是存储节点集群，相当于普通Web系统的数据库层( )A.Client LayerB.Services LayerC.P

11、latform. LayerD.Infrastructure Layer参考答案：C45. 早期对于流计算的研究多数是基于对传统数据库处理的流式化，即实时数据库，很少研究流计算框架。( )A.正确B.错误参考答案：A46. 交通数据的来源包括车辆GPS数据，人类移动的GPS位置信息或者单位站点记录，和监视设备的视频图像技术记录。( )A.对B.错参考答案：A47. 以下算法中属于分类算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案：ABC48. 备忘录方法是哪种算法的变形?( )A.分治法B.动态规划法C.贪心法D.回溯法参考答案：B49. Mllib中线性会馆算法

12、中的参数reParam表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：D50. 下列属于传统统计学展示方法的是( )。A.柱状图B.饼状图C.曲线图D.网络图参考答案：ABC51. 大数据技术也能帮助政府进行支出管理，透明合理的财政支出将有利于提高公信力和监督财政支出。( )A.对B.错参考答案：A52. 贪心算法的基本要素是贪心选择质和最优子结构性质。( )A.错误B.正确参考答案：B53. Scala 使用( )关键字来继承一个类A.extendsB.overrideC.extendD.overrides参

13、考答案：A54. PairRDD中groupBy(func)func返回key，传入的RDD的各个元素根据这个key进行分组。( )A.正确B.错误参考答案：A55. Storm中如果要让所有的Tuple都发送到同一个Task中，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：C56. RDD中zip操作要求两个RDD的partition数量以及元素数量都相同。( )T.对F.错参考答案：T57. Spark Streming中对DStream的任何操作都会转化成对底层RDDs的操作。( )A.正确B.错误参考答案：A58. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：B59. 以下哪个函数可以求两个RDD的笛卡

展开阅读全文