南开大学21春《大数据开发技术》在线作业三满分答案60

资源描述

《南开大学21春《大数据开发技术》在线作业三满分答案60》由会员分享，可在线阅读，更多相关《南开大学21春《大数据开发技术》在线作业三满分答案60（13页珍藏版）》请在金锄头文库上搜索。

1、南开大学21春大数据开发技术在线作业三满分答案1. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：B2. 关系数据库与NoSQL数据库相比适用于哪些领域( )A.电信B.银行C.互联网企业大数据处理D.传统企业的数据分析参考答案：AB3. Storm框架是实时计算系统，所以不能使用数据库。( )A.正确B.错误参考答案：B4. 解决0/1背包问题可以使用动态规划、回溯法和分支限界法，其中不需要排序的是动态规划，需要排序的是回溯法，分支限界法。( )A.错误B.正确参考答案：B5. 传统数据处理流程，用户需要主动发起查询或者定时查询;流处

2、理流程中，可以实时查询。( )A.正确B.错误参考答案：A6. 数据采集，又称数据获取，是大数据生命周期的第一个环节，通过RFID.射频识别技术，传感器，交互型社交网络，移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。( )A.对B.错参考答案：A7. Spark可以通过哪些外部存储创建RDD( )A.文本文件B.目录C.压缩文件D.通配符匹配的文件参考答案：ABCD8. 在现有大数据的存储中，结构化数据仅有20%，其余80%则在存在于物联网、电子商务、社交网络等领域的半结构化数据和非结构化数据。( )A.对B.错参考答案：A9. MLlib 中可以调用mllib.tre

3、e.DecisionTree 类中的静态方法( )训练回归树A.trainClassifierB.trainRegressorC.LogisticRegressionModelD.LabeledPoint参考答案：B10. 下列算法中通常以自底向上的方式求解最优解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案：B11. 广度优先是什么的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案：A12. MapReduce中最优的Reduce任务个数取决于集群中可用的( )的数目。A.SplitB.SlotC.MapD.Shuffle参考答案：B13. S

4、cala函数组合器可以接收一个可以处理嵌套列表的函数，然后把返回结果连接起来的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案：D14. spark-submit配置项中( )表示启动的executor数量A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案：A15. 大数据处理的关键技术主要包括：数据采集和预处理、数据存储、数据计算架构、数据分析和挖掘、数据可视化展示等。( )A.对B.错参考答案：A16. 云数据库不可

5、以满足大企业的海量数据存储需求。( )A.正确B.错误参考答案：B17. 交通数据的来源包括车辆GPS数据，人类移动的GPS位置信息或者单位站点记录，和监视设备的视频图像技术记录。( )A.对B.错参考答案：A18. RDD的行动操作通过某种函数将一个RDD转换为一个新的RDD，但是转换操作是懒操作，不会立刻执行计算。( )A.正确B.错误参考答案：B19. 按照数据量的大小，可将数据分析分为内存级数据分析、Bl级数据分析和海量级数据分析。( )A.对B.错参考答案：A20. GraphX中( )方法可以查询顶点个数A.numVerticesB.numEdgesC.verticesD.edge

6、s参考答案：A21. 以下哪个函数可以求两个RDD交集 ( )A.unionB.substractC.intersectionD.cartesian参考答案：C22. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案：A23. 分支限界法与回溯法的求解目标相同。( )A.错误B.正确参考答案：A24. 下面是贪心算法的基本要素的是( )。A.重叠子问题B.构造最优解C.贪心选择性质D.定义最优解参考答案：C25. 分治法的基本思想时将一个规模为n的问题分解为k个规模较小的子问题，这些子问题互相独立且与原问题相同。递归地解这些子问题，然后将各个子问题的解合

7、并得到原问题的解。( )A.错误B.正确参考答案：B26. RDD的flatMap操作是将函数应用于RDD之中的每一个元素，将返回的迭代器(数组、列表等)中的所有元素构成新的RDD。( )A.正确B.错误参考答案：A27. 使用Amazon云环境部署Hadoop的说法中错误的是( )。A.Hadoop不仅可以运行在企业内部的集群中，也可以运行在云计算环境中B.Hadoop自带有一套脚本，用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务参考答案：D28. 哈弗曼编码的贪心算法所需的计算时间为( )。A.O(n2

8、n)B.O(nlogn)C.O(2n)D.O(n)参考答案：B29. 贪心选择性质是贪心算法可行的第一个基本要素，也是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案：B30. SQL Azure体系结构层中哪层是存储节点集群，相当于普通Web系统的数据库层( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案：C31. RDD的cartesian函数是笛卡尔积，也就是将两个集合的元素两两组合成一组。( )A.正确B.错误参考答案：A32. Scala中创建一个方法时经常用void

9、表示该方法无返回值。( )T.对F.错参考答案：F33. 数据归约(Data Reduction)主要有( )。A.维度规约B.样本规约C.数据聚集D.离散化概念分层参考答案：ABCD34. 递归函数意味着函数可以调用它( )A.其他函数B.主函数C.子函数D.自身参考答案：D35. 大数据技术也能帮助政府进行支出管理，透明合理的财政支出将有利于提高公信力和监督财政支出。( )A.对B.错参考答案：A36. Scala中使用( )方法来查看两个集合的交集元素A.Set.concatB.Set.&C.Set.&D.Set.intersect参考答案：BD37. Spark取代Hadoop仅仅是取

10、代MapReduce这种计算框架，Spark可以取代HDFS吗。( )T.对F.错参考答案：F38. Dstream窗口操作中( )方法基于滑动窗口对(K，V)键值对类型的DStream中的值按K使用聚合函数func进行聚合操作，得到一个新的DstreamA.windowB.countByWindowC.reduceByWindowD.reduceByKeyAndWindow参考答案：D39. Scala中集合连接时如果元素有重复的就会移除重复的元素。( )A.正确B.错误参考答案：A40. 关系数据库与NoSQL数据库相比有哪些优势( )A.支持事务ACID四性B.可以支持超大规模数据存储C

11、.以完善的关系代数理论作为基础D.具有强大的横向扩展能力参考答案：AC41. Spark SQL读取的数据源支持( )A.Hive表B.Parquent文件C.JSON数据D.关系数据库参考答案：ABCD42. var a=10; do a+=1;while(aA.9B.10C.11D.12参考答案：B43. Mllib中线性会馆算法中的参数reParam表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：D44. Scala函数组合器中filter过滤移除使得传入的函数的返回值为true的元素。( )A.正确B.

12、错误参考答案：B45. Hbase采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：A46. Storm中如果要让所有的Tuple都发送到同一个Task中，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：C47. ( )是Spark的数据挖掘算法库A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案：D48. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNod

13、eB.SecondaryNameNodeC.DataNodeD.Block参考答案：B49. 分支限界法解旅行售货员问题时，活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案：A50. Scala在子类中重写超类的抽象方法时，需要使用override关键字。( )T.对F.错参考答案：F51. HDFS中SecondaryNameNode可减少( )重启的时间A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案：A52. Hadoop启动所有进程的命令为( )。A.all-start.shB.all-start.exeC.start-all.shD.start-all.exe参考答案：C53. 实现棋盘覆盖算法利用的算法是( )。A.分治法B.动态规划法C.贪心法D.回溯法参考答案：A54. ( )是Spark的核心，提供底层框架及核心支持A.Spark CoreB.Spark SQLC.Spark StreamingD.Mllib参考

展开阅读全文

南开大学21春《大数据开发技术》在线作业三满分答案60

最新文档