南开大学22春《大数据开发技术》综合作业一答案参考3

资源描述

《南开大学22春《大数据开发技术》综合作业一答案参考3》由会员分享，可在线阅读，更多相关《南开大学22春《大数据开发技术》综合作业一答案参考3（13页珍藏版）》请在金锄头文库上搜索。

1、南开大学22春大数据开发技术综合作业一答案参考1. 以下是机器学习的常用算法的是( )A.回归算法B.聚类算法C.降维算法D.分类算法参考答案：ABCD2. 1秒定律体现了大数据的哪个特征( )。A.数据量大B.数据产生速度快C.数据存储快D.数据计算快参考答案：B3. 流计算是针对流数据的实时计算，可以应用在( )场景中A.广告投放B.气候模拟预测C.机器翻译D.推荐系统参考答案：ABCD4. Spark中运行交互式SQL查询的大规模并行查询引擎是( )A.Spark CoreB.Spark SQLC.BlinkDBD.Mllib参考答案：C5. 可使用( )，( )，( )进行光滑。A.最

2、大值B.箱中位数C.箱边界D.箱均值参考答案：BCD6. 动态规划算法的基本思想是将待求解问题分解成若干子问题，先求解子问题，然后从这些子问题的解得到原问题的解。( )A.错误B.正确参考答案：B7. Scala 使用( )关键字来继承一个类A.extendsB.overrideC.extendD.overrides参考答案：A8. 请问RDD的( )操作用于将相同键的数据聚合A.joinB.zipC.combineByKeyD.collect参考答案：C9. MLlib中进行数据标准化的方式有( )A.NormalizerB.StandardC.StandardScaleerD.MinMax

3、Scaler参考答案：ACD10. Storm框架是实时计算系统，所以不能使用数据库。( )A.正确B.错误参考答案：B11. Scala中如果函数无返回值，则函数返回类型为( )A.NULLB.VoidC.NothingD.Unit参考答案：D12. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：C13. Spark SQL可以通过( )方法加载json文件为DataFrameA.formatB.jsonC.getD.read参考答案：AB14. 使用Ama

4、zon云环境部署Hadoop的说法中错误的是( )。A.Hadoop不仅可以运行在企业内部的集群中，也可以运行在云计算环境中B.Hadoop自带有一套脚本，用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务参考答案：D15. 大数据决策逐渐成为一种新的决策方式，大数据应用有力促进了信息技术与各行业的深度融合，大数据开发大大推动了新技术和新应用的不断涌现。( )A.正确B.错误参考答案：A16. Spark的RDD持久化操作有( )方式A.cacheB.presistC.storageD.long参考答案：AB1

5、7. Storm中如果要保证相同字段的Tuple分配到同一个Task中，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：D18. 图结构中如果无重复的边或者顶点到自身的边，那么称之为( )A.完全图B.有向完全图C.无向图D.简单图参考答案：D19. 下面哪种函数是回溯法中为避免无效搜索采取的策略?( )A.递归函数B.剪枝函数C.随机数函数D.搜索函数参考答案：B20. MLlib中用于线性回归算法的包主要有( )A.LinearRegressionWit

6、hSGDB.RidgeRegressionWithSGDC.LassoWithSGDD.LeftRegression参考答案：ABC21. 很多企业为了支持决策分析而构建的数据仓库系统，其中存放的大量历史数据就是( )数据。技术人员可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息。A.动态B.存量C.实时D.静态参考答案：D22. Scala中如果函数中的每个参数在函数中最多只出现一次，则可以使用占位符( )代替参数。A.井号B.下划线C.斜杠D.逗号参考答案：B23. 在Storm的工作流程中，对于Supervisor说法错误的是( )。A.Supervisor会去Zoo

7、keeper集群上认领自己的TaskB.Supervisor节点首先将提交的Topology进行分片，分成一个个Task，分配给相应的NimbusC.Supervisor会将Task和相关的信息提交到Zookeeper集群上D.Supervisor会通知自己的Worker进程进行Task的处理参考答案：B24. Spark中DataFrame的( )方法是进行连接查询A.whereB.joinC.limitD.apply参考答案：B25. Spark Streming中对DStream的任何操作都会转化成对底层RDDs的操作。( )A.正确B.错误参考答案：A26. 备忘录方法是哪种算法的变形

8、?( )A.分治法B.动态规划法C.贪心法D.回溯法参考答案：B27. 图结构中如果任意两个顶点之间都存在边，那么称之为( )A.完全图B.有向完全图C.无向图D.简单图参考答案：A28. MspReduce中的Map和Reduce函数使用( )进行输入输出。A.key/value对B.随机数值C.其他计算结果参考答案：A29. RDD中的collect 函数是一个行动操作，把RDD 所有元素转换成数组并返回到Driver 端，适用于大数据处理后的返回。( )T.对F.错参考答案：F30. 按照数据量的大小，可将数据分析分为内存级数据分析、Bl级数据分析和海量级数据分析。( )A.对B.错参考

9、答案：A31. 大数据计算处理方法主要分为两种方法，即批处理方法和流处理方法。( )A.正确B.错误参考答案：A32. HBase的客户端并不依赖Master，而是通过( )来获得Region位置信息，大多数客户端甚至从来不和Master通信，这种设计方式使得Master负载很小A.MasterB.RegionC.ZookeeperD.Chubby参考答案：C33. 解决0/1背包问题可以使用动态规划、回溯法和分支限界法，其中不需要排序的是动态规划，需要排序的是回溯法，分支限界法。( )A.错误B.正确参考答案：B34. 静态数据采取( )计算模式A.批量B.实时C.大数据D.动态参考答案：A

10、35. 问题的最优子结构性质是该问题不可用动态规划算法或贪心算法求解的关键特征。( )A.错误B.正确参考答案：A36. spark-submit配置项中( )表示executor内存大小A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案：B37. 针对流数据，“量子恒道”可处理每天( )级的实时流数据A.TBB.PBC.GBD.MB参考答案：A38. Spark Streming中Dstream是一种抽象的离散流。( )T.对F.错参考答案：T39. S

11、cala中数组的第一个元素索引为1。( )A.正确B.错误参考答案：B40. 交通数据的来源包括车辆GPS数据，人类移动的GPS位置信息或者单位站点记录，和监视设备的视频图像技术记录。( )A.对B.错参考答案：A41. GraphX中( )是存放着Edg对象的RDDA.RDDEdgeB.EdgeRDDC.RDD(VertexId,VD)D.VertexRDD参考答案：A42. 早期对于流计算的研究多数是基于对传统数据库处理的流式化，即实时数据库，很少研究流计算框架。( )A.正确B.错误参考答案：A43. MapReduce的main函数中设置输出类型的方法有( )。A.setOutputK

12、eyClassB.setOutputClassC.setOutputValueClassD.setKeyValueClass参考答案：AC44. RDD中zip操作要求两个RDD的partition数量以及元素数量都相同。( )T.对F.错参考答案：T45. Spark只有键值对类型的RDD才能设置分区方式。( )A.正确B.错误参考答案：A46. 回溯法搜索解空间树时，常用的两种剪枝函数为约束函数和限界函数。( )A.错误B.正确参考答案：B47. 贪心选择性质是贪心算法可行的第一个基本要素，也是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案：B48. Scala中高阶函数

13、经常将只需要执行多次的函数定义为匿名函数作为参数。( )T.对F.错参考答案：F49. Storm中如果要让每一个Task都会收到所有的Tuple，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：B50. Hadoop启动所有进程的命令为( )。A.all-start.shB.all-start.exeC.start-all.shD.start-all.exe参考答案：C51. 决策树是( )的常用算法A.分类B.聚类C.降维D.回归参考答案：AD52. 关于Strom中Bolt说法错误的是( )。A.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作B.Bolt是一个被动的角色，Spout是一个主动的角色C.Bolt不仅可以处理Tuple还可以创建新的TupleD.Bolt是Streams的状态转换过程的抽象含义参考答案：C53. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题

展开阅读全文