南开大学21秋《大数据开发技术》在线作业一答案参考73

资源描述

《南开大学21秋《大数据开发技术》在线作业一答案参考73》由会员分享，可在线阅读，更多相关《南开大学21秋《大数据开发技术》在线作业一答案参考73（13页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋大数据开发技术在线作业一答案参考1. spark-submit配置项中( )表示executor内存大小A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案：B2. MspReduce中的Map和Reduce函数使用( )进行输入输出。A.key/value对B.随机数值C.其他计算结果参考答案：A3. 问题的最优子结构性质是该问题不可用动态规划算法或贪心算法求解的关键特征。( )A.错误B.正确参考答案：A4. Spark可以从( )分布式文

2、件系统中读取数据A.HDFSB.HbaseC.HiveD.Tachyon参考答案：ABCD5. RDD的filter过滤会将返回值为true的过滤掉。( )T.对F.错参考答案：F6. Scala类通过子类化和基于灵活的混合类来进行扩展，作为( )的一个可靠性解决方案A.多态B.虚函数C.派生D.多重继承参考答案：D7. MapReduce将输入文件切分成M个分片，Master将其中( )个分片分给处于空闲状态的N个Worker来处理。A.MB.NC.M-1D.N-1参考答案：A8. HBase的客户端并不依赖Master，而是通过( )来获得Region位置信息，大多数客户端甚至从来不和Ma

3、ster通信，这种设计方式使得Master负载很小A.MasterB.RegionC.ZookeeperD.Chubby参考答案：C9. HDFS中SecondaryNameNode可减少( )重启的时间A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案：A10. 交通数据的来源包括车辆GPS数据，人类移动的GPS位置信息或者单位站点记录，和监视设备的视频图像技术记录。( )A.对B.错参考答案：A11. 以下亚马逊的产品中哪个属于存储部分( )A.EC2B.EBSC.S3D.ELB参考答案：BC12. RDD的map操作不会改变RDD的分区数

4、目。( )T.对F.错参考答案：T13. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案：B14. NAS是一种采用直接与网络介质相连的特殊设备实现数据存储的模式。( )A.对B.错参考答案：A15. 动态规划算法的基本思想是将待求解问题分解成若干子问题，先求解子问题，然后从这些子问题的解得到原问题的解。( )A.错误B.正确参考答案：B16. SparkContext类中makeRDD方法不可将单机数据创建为分布式RDD。( )A.正确B.错误参考答案：B17. Scala

5、列表方法中使用分隔符将列表所有元素作为字符串显示的方法是( )A.filterB.foreachC.mapD.mkString参考答案：D18. Scala函数组合器可以接收一个可以处理嵌套列表的函数，然后把返回结果连接起来的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案：D19. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：C20. 下面是贪心算法的基本要素的是( )。A.重叠子问题B.构造最优解C.贪心选择性质D.定

6、义最优解参考答案：C21. Spark Streming中( )函数可以对源DStream的每个元素通过函数func返回一个新的DStreamA.mapB.flatMapC.filterD.union参考答案：A22. Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括面向对象编程的特性。( )A.正确B.错误参考答案：B23. 哪些属于数据可视化的重要作用( )A.分析数据B.采集数据C.辅助理解数据D.观测跟踪数据参考答案：ACD24. 大型图计算通常是由一个集群完成的，集群环境中执行远程数据读取会有较高的延迟。( )A.正确B.错误参考答案：A

7、25. 对于不同顶点之间的信息交换，Pregel采用了( )A.远程数据读取B.共享内存C.纯消息传递模型D.共享消息参考答案：C26. Mllib中线性会馆算法中的参数reParam表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：D27. 决策树是( )的常用算法A.分类B.聚类C.降维D.回归参考答案：AD28. RDD的map操作不会改变RDD的分区数目。( )A.正确B.错误参考答案：A29. 设计动态规划算法的主要步骤不包括根据计算最优值时得到的信息，构造最优解。( )A.错误B.正确参考答案：A30

8、. Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数。( )T.对F.错参考答案：F31. 以下算法中属于无监督学习算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案：D32. Pig是Hadoop项目中一种数据仓库工具。( )A.正确B.错误参考答案：B33. Spark Streaming中时间片也可称为批处理时间间隔(batch interval)，时间片是人为地对数据进行定量的标准，作为拆分数据的依据，一个时间片的数据对应一个RDD实例。( )A.正确B.错误参考答案：A34. Spark取代Hadoop仅仅是取代MapReduce这种计算

9、框架，Spark可以取代HDFS吗。( )T.对F.错参考答案：F35. 关系数据库与NoSQL数据库相比适用于哪些领域( )A.电信B.银行C.互联网企业大数据处理D.传统企业的数据分析参考答案：AB36. 关系数据库与NoSQL数据库相比有哪些优势( )A.支持事务ACID四性B.可以支持超大规模数据存储C.以完善的关系代数理论作为基础D.具有强大的横向扩展能力参考答案：AC37. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：B38. Hadoop启动所有进程的命令为( )。A.all-start.shB.all-start.ex

10、eC.start-all.shD.start-all.exe参考答案：C39. spark-submit配置项中( )表示启动的executor数量A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案：A40. Dstream输出操作中( )方法在Driver中打印出DStream中数据的前12个元素。A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案：C41. ( )可以解决

11、图计算问题A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案：C42. HDFS中的NameNode的EditLog用于维护文件系统树以及文件树中所有的文件和文件夹的元数据。( )A.正确B.错误参考答案：B43. Scala函数组合器可以通过一个函数重新计算列表中所有元素，没有返回值。( )T.对F.错参考答案：F44. var a=10; do a+=1; while(a20) 共循环了( )次A.9B.10C.11D.12参考答案：B45. HDFS在设计上采取了多种机制保证在硬件出错的环境中实现数据的完整性。( )A.正确B.错误参考答案：A46. 大数据

12、计算处理方法主要分为两种方法，即批处理方法和流处理方法。( )A.正确B.错误参考答案：A47. 以下哪个函数可以求两个RDD交集 ( )A.unionB.substractC.intersectionD.cartesian参考答案：C48. RDD的union函数会将两个RDD元素合并成一个并且去处重复元素。( )A.正确B.错误参考答案：B49. 采用贪心算法的最优装载问题的主要计算量在于将集装箱依其重量从小到大排序，故算法的时间复杂度为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案：B50. 以下算法中属于分类算法的是( )A.KNN算法B.逻辑回归C.随

13、机森林D.Kmeans参考答案：ABC51. 静态数据采取( )计算模式A.批量B.实时C.大数据D.动态参考答案：A52. 大数据智能感知层：主要包括( )及软硬件资源接入系统。A.数据传感体系B.网络通信体系C.传感适配体系D.智能识别体系参考答案：ABCD53. Spark支持使用( )语言编写应用A.ScalaB.PythonC.JavaD.R参考答案：ABCD54. 优点是性能好(高并发)，灵活性高，复杂性低，数据结构灵活提供嵌入式文档功能的数据库是( )A.列族数据库B.键值数据库C.图数据库D.文档数据库参考答案：D55. 很多企业为了支持决策分析而构建的数据仓库系统，其中存放的大量历史数据就是( )数据。技术人员可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息。A.动态B.存量C.实时D.静态参考答案：D56. 关于Map端Shuffle过程中的合并与归并，说法正确的是( )。A.两个键值对和，如

展开阅读全文