南开大学21秋《大数据开发技术》综合测试题库答案参考65

资源描述

《南开大学21秋《大数据开发技术》综合测试题库答案参考65》由会员分享，可在线阅读，更多相关《南开大学21秋《大数据开发技术》综合测试题库答案参考65（13页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋大数据开发技术综合测试题库答案参考1. 下列属于传统统计学展示方法的是( )。A.柱状图B.饼状图C.曲线图D.网络图参考答案：ABC2. 以下算法中属于无监督学习算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案：D3. 以下哪个函数可以对两个RDD进行合并( )A.unionB.substractC.intersectionD.cartesian参考答案：A4. 针对流数据，“量子恒道”可处理每天( )级的实时流数据A.TBB.PBC.GBD.MB参考答案：A5. Pentaho是最流行的开源商业智能软件之一。( )A.对B.错参考答案：A6. 分支

2、限界法主要有队列式(FIFO)分支限界法和优先队列式分支限界法。( )A.错误B.正确参考答案：B7. Mllib中metrics.roc表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案：D8. 分治法的基本思想时将一个规模为n的问题分解为k个规模较小的子问题，这些子问题互相独立且与原问题相同。递归地解这些子问题，然后将各个子问题的解合并得到原问题的解。( )A.错误B.正确参考答案：B9. Scala函数组合器中foreach和map类似，有返回值。( )A.正确B.错误参考答案：B10. 下面是贪心算法的基本要素的是( )。A.重叠子问题B.构造最优解C.贪心选择性质D.定

3、义最优解参考答案：C11. PairRDD中mapValues是针对键值对(Key，Value)类型的数据中的key和Value进行Map操作。( )T.对F.错参考答案：F12. 利用概率的性质计算近似值的随机算法是数值概率算法，运行时以一定的概率得到正确解的随机算法是蒙特卡罗算法。( )A.错误B.正确参考答案：B13. SQL Azure体系结构层中哪层是硬件和操作系统( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案：D14. Spark可以通过哪些外部存储创建RDD( )A.文本文件

4、B.目录C.压缩文件D.通配符匹配的文件参考答案：ABCD15. HDFS读数据过程中( )具体实现了FileSystemA.DistributedFileSystemB.GFSSystemC.FileSystemD.HDFSSystem参考答案：A16. 拉斯维加斯算法找到的解不一定是正确解。( )A.错误B.正确参考答案：A17. 算法是由若干条指令组成的有穷序列，且要满足输入、输出、确定性和有限性四条性质。( )A.错误B.正确参考答案：B18. 每个变量的最大值和最小值之差称为极差。( )A.对B.错参考答案：A19. Storm中如果要让每一个Task都会收到所有的Tuple，应该采

5、用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：B20. 静态数据采取( )计算模式A.批量B.实时C.大数据D.动态参考答案：A21. MLBase包括( )A.MllibB.MLIC.SparkRD.GraphX参考答案：AB22. RDD的map操作不会改变RDD的分区数目。( )A.正确B.错误参考答案：A23. Mllib中线性会馆算法中的参数reParam表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso

6、和ridge的正规化参数参考答案：D24. Spark可以从( )分布式文件系统中读取数据A.HDFSB.HbaseC.HiveD.Tachyon参考答案：ABCD25. 可使用( )，( )，( )进行光滑。A.最大值B.箱中位数C.箱边界D.箱均值参考答案：BCD26. Scala函数组合器中filter过滤移除使得传入的函数的返回值为true的元素。( )A.正确B.错误参考答案：B27. 图结构中如果无重复的边或者顶点到自身的边，那么称之为( )A.完全图B.有向完全图C.无向图D.简单图参考答案：D28. Spark SQL读取的数据源支持( )A.Hive表B.Parquent文件

7、C.JSON数据D.关系数据库参考答案：ABCD29. RDD的subtract用于用于将前一个RDD中在后一个RDD出现的元素删除。( )A.正确B.错误参考答案：A30. 决策树是( )的常用算法A.分类B.聚类C.降维D.回归参考答案：AD31. Scala函数组合器可以接收一个可以处理嵌套列表的函数，然后把返回结果连接起来的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案：D32. Scala中( )方法返回一个列表，包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案：B33. 分布式离线分析可以实现秒级别的实

8、时分析响应。( )A.正确B.错误参考答案：B34. 流计算的采集阶段需要保证( )。A.实时性B.大量C.低延迟D.稳定可靠参考答案：ACD35. 以下属于Hadoop的安装方式的有( )。A.单机模式B.多机模式C.分布式模式D.并行模式E.伪分布式模式参考答案：ACE36. 广度优先是什么的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案：A37. Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括面向对象编程的特性。( )T.对F.错参考答案：F38. Spark中DataFrame的( )方法是进行条件查询A.w

9、hereB.joinC.limitD.apply参考答案：A39. 回溯法解旅行售货员问题时的解空间树是( )。A.子集树B.排列树C.深度优先生成树D.广度优先生成树参考答案：A40. UMP系统中面对分库分表用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案：C41. Spark中DataFrame的( )方法是查询指定字段的数据信息A.selectB.selectExprC.colD.apply参考答案：ABCD42. Scala中创建一个方法时经常用void表示该方法无返回值。

10、( )T.对F.错参考答案：F43. UMP系通过( )来实现实现数据路由的基本功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案：B44. 数据采集，又称数据获取，是大数据生命周期的第一个环节，通过RFID.射频识别技术，传感器，交互型社交网络，移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。( )A.对B.错参考答案：A45. 舍伍德算法总能求得问题的一个解。( )A.错误B.正确参考答案：B46. spark-submit配置项中( )表示启动的executor数量A.-num-executors NUMB.-execut

11、or-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案：A47. 数据产生方式的运营式系统阶段的数据产生方式是主动的。( )A.正确B.错误参考答案：B48. 数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段?( )A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段参考答案：A49. DataFrame是一个分布式的Row对象的数据集合。( )A.正确B.错误参考答案：A50. HDFS中当一些数据节点不可用时，会导致一些数据块的副本数量( )冗余因子A.大于B.小于C.等于D.大于等于参考答案：B51

12、. Scala列表方法中丢弃前n个元素，并返回新列表的方法是( )A.dropB.headC.filterD.init参考答案：A52. GraphX中( )方法可以释放边缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案：D53. 以下哪个函数可以求两个RDD的笛卡尔积( )A.unionB.substractC.intersectionD.cartesian参考答案：D54. 在Storm的工作流程中，对于Supervisor说法错误的是( )。A.Supervisor会去Zookeeper集群上认领自己的TaskB.Sup

13、ervisor节点首先将提交的Topology进行分片，分成一个个Task，分配给相应的NimbusC.Supervisor会将Task和相关的信息提交到Zookeeper集群上D.Supervisor会通知自己的Worker进程进行Task的处理参考答案：B55. 在现有大数据的存储中，结构化数据仅有20%，其余80%则在存在于物联网、电子商务、社交网络等领域的半结构化数据和非结构化数据。( )A.对B.错参考答案：A56. 大数据时代预测人类移动行为的数据来源有( )。A.志愿者定位数据B.装有导航设备的出租车轨迹数据C.手机终端定位于通讯记录D.社会网络签到数据参考答案：ABCD57. 问题的最优子结构性质是该问题不可用动态规划算法或贪心算法求解的关键特征。( )A.错误B.正确参考答案：A58. Spark支持使用( )语言编写应用A.ScalaB.

展开阅读全文