南开大学21秋《大数据开发技术》在线作业二满分答案91

上传人:壹****1 文档编号:460977395 上传时间:2022-09-13 格式:DOCX 页数:13 大小:13.75KB
返回 下载 相关 举报
南开大学21秋《大数据开发技术》在线作业二满分答案91_第1页
第1页 / 共13页
南开大学21秋《大数据开发技术》在线作业二满分答案91_第2页
第2页 / 共13页
南开大学21秋《大数据开发技术》在线作业二满分答案91_第3页
第3页 / 共13页
南开大学21秋《大数据开发技术》在线作业二满分答案91_第4页
第4页 / 共13页
南开大学21秋《大数据开发技术》在线作业二满分答案91_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《南开大学21秋《大数据开发技术》在线作业二满分答案91》由会员分享,可在线阅读,更多相关《南开大学21秋《大数据开发技术》在线作业二满分答案91(13页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋大数据开发技术在线作业二满分答案1. RDD的subtract用于用于将前一个RDD中在后一个RDD出现的元素删除。( )A.正确B.错误参考答案:A2. Storm中Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作。( )A.正确B.错误参考答案:A3. 使用回溯法进行状态空间树裁剪分支时一般有两个标准:约束条件和目标函数的界,N皇后问题和0/1背包问题正好是两种不同的类型,其中同时使用约束条件和目标函数的界进行裁剪的是0/1背包问题,只使用约束条件进行裁剪的是N皇后问题。( )A.错误B.正确参考答案:B4. Hbase和传统数据库一样都是列式数据库。( )A.

2、正确B.错误参考答案:B5. 使用Amazon云环境部署Hadoop的说法中错误的是( )。A.Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中B.Hadoop自带有一套脚本,用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务参考答案:D6. 在图结构中,每个元素都可以有( )前驱A.至少一个B.零个或多个C.一个D.零个参考答案:B7. Scala中元组是是一种可迭代的键值对(key/value)结构。( )A.正确B.错误参考答案:B8. 大数据计算处理方法主要分为两种方法,即批处理方法

3、和流处理方法。( )A.正确B.错误参考答案:A9. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案:B10. 从分治法的一般设计模式可以看出,用它设计出的程序一般是递归算法。( )A.错误B.正确参考答案:B11. 计算一个算法时间复杂度通常可以计算循环次数、基本操作的频率或计算步。( )A.错误B.正确参考答案:B12. RDD中join操作最后只返回两个RDD都存在的键的连接结果。( )A.正确B.错误参考答案:A13. Scala中合并两个数组的方法是( )A.lin

4、eB.addC.appendD.concat参考答案:D14. 感知式系统的广泛使用 人类社会数据量第三次大的飞跃最终导致了大数据的产生。( )A.正确B.错误参考答案:A15. Spark创建DataFrame对象方式有( )A.结构化数据文件B.外部数据库C.RDDD.Hive中的表参考答案:ABCD16. 大数据时代预测人类移动行为的数据来源有( )。A.志愿者定位数据B.装有导航设备的出租车轨迹数据C.手机终端定位于通讯记录D.社会网络签到数据参考答案:ABCD17. 云数据库不可以满足大企业的海量数据存储需求。( )A.正确B.错误参考答案:B18. Scala中高阶函数可以产生新的

5、函数,并将新的函数作为返回值。( )T.对F.错参考答案:T19. 图的结构通常表示为:G(V,E),其中,E是图G中( )A.顶点B.顶点的集合C.边D.边的集合参考答案:D20. ( )和( ),它们把原数据变换或投影到较小的空间。A.小波变换B.中心化变换C.主成分分析D.对数变换参考答案:AC21. PairRDD可以通过( )获得仅包含键的RDDA.keyB.keysC.valueD.values参考答案:B22. HDFS中SecondaryNameNode可减少( )重启的时间A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案:A

6、23. GraphX中( )是存放着Edg对象的RDDA.RDDEdgeB.EdgeRDDC.RDD(VertexId,VD)D.VertexRDD参考答案:A24. NoSQL数据库与关系数据库相比适用于哪些领域( )A.电信B.银行C.互联网企业大数据处理D.传统企业的数据分析参考答案:CD25. 以下属于Hadoop的安装方式的有( )。A.单机模式B.多机模式C.分布式模式D.并行模式E.伪分布式模式参考答案:ACE26. GraphX中( )方法可以查询顶点个数A.numVerticesB.numEdgesC.verticesD.edges参考答案:A27. ( )是Microsof

7、t Office的核心组件。A.SQLB.WORDC.PPTD.EXCEL参考答案:D28. 内存级分析适用于总数据量在集群内存的最大级别以内的情况,使用内部数据库技术,适合实时业务分析需求。( )A.对B.错参考答案:A29. 采用贪心算法的最优装载问题的主要计算量在于将集装箱依其重量从小到大排序,故算法的时间复杂度为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案:B30. 很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是( )数据。技术人员可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息。A.动态B.存量C.实时D

8、.静态参考答案:D31. 图的结构通常表示为:G(V,E),其中,G表示( )A.图B.子图C.顶点D.边参考答案:A32. 最大效益优先是下列哪项的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案:A33. Map Task和Reduce Task均由( )启动。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案:D34. Scala函数组合器中groupBy是对集合中的元素进行分组操作,结果得到的是一个Map。( )A.正确B.错误参考答案:A35. MLlib中进行数据标准化的方式有( )A.NormalizerB.St

9、andardC.StandardScaleerD.MinMaxScaler参考答案:ACD36. 流计算系统的需求有( )。A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案:ACE37. 程序是算法用某种程序设计语言的具体实现。( )A.错误B.正确参考答案:B38. Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply参考答案:A39. 以下哪个函数可以求两个RDD差集 ( )A.unionB.substractC.intersectionD.cartesian参考答案:B40. Scala中可以用( )方法来连接两个或多个列

10、表A.:B.#:C.List.:( )D.List.concat( )参考答案:BCD41. MLlib中用于线性回归算法的包主要有( )A.LinearRegressionWithSGDB.RidgeRegressionWithSGDC.LassoWithSGDD.LeftRegression参考答案:ABC42. 文件块的大小和副本个数只能由系统指定。( )A.正确B.错误参考答案:B43. MapReduce中最优的Reduce任务个数取决于集群中可用的( )的数目。A.SplitB.SlotC.MapD.Shuffle参考答案:B44. 实现大整数的乘法是利用( )的算法。A.贪心法B

11、.动态规划法C.分治策略D.回溯法参考答案:C45. Pentaho是最流行的开源商业智能软件之一。( )A.对B.错参考答案:A46. RDD的sortBy排序默认是升序。( )T.对F.错参考答案:T47. Scala函数组合器可以通过一个函数重新计算列表中所有元素,并且返回一个相同数目元素的新列表的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案:A48. 分支限界法解最大团问题时,活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案:B49. 可视化工具包括( )。A.ExcelB.Google ChartC.GephiD.ppt参

12、考答案:ABC50. SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:A51. MongoDB将数据存储为一个( )A.关系B.属性C.字段D.文档参考答案:D52. 下列算法中通常以自底向上的方式求解最优解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案:B53. 分支限界法与回溯法的求解目标相同。( )A.错误B.正确参考答案:A54. PairRDD中( )函数可以进行分组A.mapVa

13、luesB.groupByC.groupByKeyD.reduceByKey参考答案:BC55. 早期对于流计算的研究多数是基于对传统数据库处理的流式化,即实时数据库,很少研究流计算框架。( )A.正确B.错误参考答案:A56. GraphX中( )方法可以释放边缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案:D57. 分支限界法是一种只带有系统性的搜索算法。( )A.错误B.正确参考答案:A58. spark-submit配置项中( )表示executor内存大小A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案:B

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号