南开大学22春《大数据开发技术》综合作业二答案参考15

上传人:壹****1 文档编号:505320054 上传时间:2022-07-19 格式:DOCX 页数:13 大小:13.74KB
返回 下载 相关 举报
南开大学22春《大数据开发技术》综合作业二答案参考15_第1页
第1页 / 共13页
南开大学22春《大数据开发技术》综合作业二答案参考15_第2页
第2页 / 共13页
南开大学22春《大数据开发技术》综合作业二答案参考15_第3页
第3页 / 共13页
南开大学22春《大数据开发技术》综合作业二答案参考15_第4页
第4页 / 共13页
南开大学22春《大数据开发技术》综合作业二答案参考15_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《南开大学22春《大数据开发技术》综合作业二答案参考15》由会员分享,可在线阅读,更多相关《南开大学22春《大数据开发技术》综合作业二答案参考15(13页珍藏版)》请在金锄头文库上搜索。

1、南开大学22春大数据开发技术综合作业二答案参考1. Scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案:A2. Pentaho是最流行的开源商业智能软件之一。( )A.对B.错参考答案:A3. 分支限界法解旅行售货员问题时,活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案:A4. UMP系统中面对分库分表用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案

2、:C5. 每个变量的最大值和最小值之差称为极差。( )A.对B.错参考答案:A6. Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流; 或者是从小数据开始,但数据每年增长速率至少为60%。( )A.对B.错参考答案:B7. 回溯法搜索解空间树时,常用的两种剪枝函数为约束函数和限界函数。( )A.错误B.正确参考答案:B8. Scala列表中last返回一个列表,包含除了第一个元素之外的其他元素。( )A.正确B.错误参考答案:B9. 递归函数意味着函数可以调用它( )A.其他函数B.主函数C.子函数D.自身参

3、考答案:D10. 下面是贪心算法的基本要素的是( )。A.重叠子问题B.构造最优解C.贪心选择性质D.定义最优解参考答案:C11. 传感器工作模式类别包括( )。A.基于位置B.基于活动C.基于设备参考答案:ABC12. 美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”。( )A.对B.错参考答案:A13. 以下哪个函数可以对RDD进行排序( )A.sortByB.filterC.distinctD.intersection参考答案:A14. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案:A15. 关系数据库与NoSQL数据库相比适用于哪些领域(

4、 )A.电信B.银行C.互联网企业大数据处理D.传统企业的数据分析参考答案:AB16. 以下算法中属于分类算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案:ABC17. Spark的RDD持久化操作有( )方式A.cacheB.presistC.storageD.long参考答案:AB18. 关系数据库的关键特性包括完善的事务机制和高效的查询机制。( )A.正确B.错误参考答案:A19. MongoDB将数据存储为一个( )A.关系B.属性C.字段D.文档参考答案:D20. 静态数据采取( )计算模式A.批量B.实时C.大数据D.动态参考答案:A21. 回溯法搜索状

5、态空间树是按照什么的顺序?( )A.中序遍历B.广度优先遍历C.深度优先遍历D.层次优先遍历参考答案:C22. MspReduce中的Map和Reduce函数使用( )进行输入输出。A.key/value对B.随机数值C.其他计算结果参考答案:A23. 使用回溯法进行状态空间树裁剪分支时一般有两个标准:约束条件和目标函数的界,N皇后问题和0/1背包问题正好是两种不同的类型,其中同时使用约束条件和目标函数的界进行裁剪的是0/1背包问题,只使用约束条件进行裁剪的是N皇后问题。( )A.错误B.正确参考答案:B24. var a=10; do a+=1;while(aA.9B.10C.11D.12参

6、考答案:B25. 可使用( ),( ),( )进行光滑。A.最大值B.箱中位数C.箱边界D.箱均值参考答案:BCD26. MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法( )训练回归树A.trainClassifierB.trainRegressorC.LogisticRegressionModelD.LabeledPoint参考答案:B27. PairRDD中( )函数可以进行分组A.mapValuesB.groupByC.groupByKeyD.reduceByKey参考答案:BC28. 请问RDD的( )操作用于将相同键的数据聚合A.joinB.zi

7、pC.combineByKeyD.collect参考答案:C29. PairRDD可以通过( )获得仅包含键的RDDA.keyB.keysC.valueD.values参考答案:B30. 早期对于流计算的研究多数是基于对传统数据库处理的流式化,即实时数据库,很少研究流计算框架。( )A.正确B.错误参考答案:A31. Spark取代Hadoop仅仅是取代MapReduce这种计算框架,Spark可以取代HDFS吗。( )T.对F.错参考答案:F32. ( )和( ),它们把原数据变换或投影到较小的空间。A.小波变换B.中心化变换C.主成分分析D.对数变换参考答案:AC33. 从分治法的一般设计

8、模式可以看出,用它设计出的程序一般是递归算法。( )A.错误B.正确参考答案:B34. Spark持久化RDD后,在再一次需要计算该RDD时将需要重新计算。( )A.正确B.错误参考答案:B35. RDD的cartesian函数是笛卡尔积,也就是将两个集合的元素两两组合成一组。( )A.正确B.错误参考答案:A36. 利用概率的性质计算近似值的随机算法是数值概率算法,运行时以一定的概率得到正确解的随机算法是蒙特卡罗算法。( )A.错误B.正确参考答案:B37. 键值对RDD由一组组的键值对组成,这些RDD被称为PairRDD。( )A.正确B.错误参考答案:A38. 流计算系统的需求有( )。

9、A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案:ACE39. Spark中DataFrame的( )方法是进行连接查询A.whereB.joinC.limitD.apply参考答案:B40. GraphX中( )方法可以查询边信息A.numVerticesB.numEdgesC.verticesD.edges参考答案:D41. Scala函数组合器可以接收一个可以处理嵌套列表的函数,然后把返回结果连接起来的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案:D42. 优点是性能好(高并发),灵活性高,复杂性低,数据结构灵活 提供嵌入式文档功能的数据库

10、是( )A.列族数据库B.键值数据库C.图数据库D.文档数据库参考答案:D43. Scala通过( )来定义变量A.valB.valC.defineD.def参考答案:A44. DataFrame是一个分布式的Row对象的数据集合。( )A.正确B.错误参考答案:A45. 以下是机器学习的常用算法的是( )A.回归算法B.聚类算法C.降维算法D.分类算法参考答案:ABCD46. RDD的( )操作通常用来划分单词A.filterB.unionC.flatmapD.mapPartitions参考答案:C47. Scala中可以用( )方法来连接两个或多个列表A.:B.#:C.List.:( )D

11、.List.concat( )参考答案:BCD48. Scala中创建一个方法时经常用void表示该方法无返回值。( )T.对F.错参考答案:F49. Graph类中如果根据边数据创建图,数据需要转换成RDDEdgeED类型,应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValueD.GraphLoader.edgeListFil

12、e(sc,filename)参考答案:B50. MLlib中进行数据标准化的方式有( )A.NormalizerB.StandardC.StandardScaleerD.MinMaxScaler参考答案:ACD51. Hadoop启动所有进程的命令为( )。A.all-start.shB.all-start.exeC.start-all.shD.start-all.exe参考答案:C52. MLBase包括( )A.MllibB.MLIC.SparkRD.GraphX参考答案:AB53. 流计算的采集阶段需要保证( )。A.实时性B.大量C.低延迟D.稳定可靠参考答案:ACD54. Spark

13、 Streming中( )函数可以对源DStream的每个元素通过函数func返回一个新的DStreamA.mapB.flatMapC.filterD.union参考答案:A55. RDD中combineByKey不允许返回类型与输入数据类型不同的返回值。( )A.正确B.错误参考答案:B56. 分支限界法解最大团问题时,活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案:B57. Scala是Scalable Language的简写,是一门多范式的编程语言,设计初衷是不包括面向对象编程的特性。( )T.对F.错参考答案:F58. GraphX中( )是存放着Edg对象的RDDA.RDDEdgeB.EdgeRDDC.RDD(VertexId,VD)D.VertexRDD参考答案:A

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号