南开大学22春《大数据开发技术》离线作业一及答案参考50

上传人:工**** 文档编号:433257075 上传时间:2022-12-13 格式:DOCX 页数:13 大小:14.40KB
返回 下载 相关 举报
南开大学22春《大数据开发技术》离线作业一及答案参考50_第1页
第1页 / 共13页
南开大学22春《大数据开发技术》离线作业一及答案参考50_第2页
第2页 / 共13页
南开大学22春《大数据开发技术》离线作业一及答案参考50_第3页
第3页 / 共13页
南开大学22春《大数据开发技术》离线作业一及答案参考50_第4页
第4页 / 共13页
南开大学22春《大数据开发技术》离线作业一及答案参考50_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《南开大学22春《大数据开发技术》离线作业一及答案参考50》由会员分享,可在线阅读,更多相关《南开大学22春《大数据开发技术》离线作业一及答案参考50(13页珍藏版)》请在金锄头文库上搜索。

1、南开大学22春大数据开发技术离线作业一及答案参考1. MapReduce的main函数中设置输出类型的方法有( )。A.setOutputKeyClassB.setOutputClassC.setOutputValueClassD.setKeyValueClass参考答案:AC2. HBase的客户端并不依赖Master,而是通过( )来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小A.MasterB.RegionC.ZookeeperD.Chubby参考答案:C3. UMP系通过( )来实现实现数据路由的基本功能A.Controlle

2、r服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:B4. Scala 列表与数组非常相似,列表的所有元素可具有不同的类型。( )T.对F.错参考答案:F5. 1秒定律体现了大数据的哪个特征( )。A.数据量大B.数据产生速度快C.数据存储快D.数据计算快参考答案:B6. Scala中可以用( )方法来连接两个或多个列表A.:B.#:C.List.:( )D.List.concat( )参考答案:BCD7. 实现合并排序利用的算法是( )。A.分治策略B.动态规划法C.贪心法D.回溯法参考答案:A8. Spark对只有未曾设置存储级别的RDD才能设置存储级别,设置了存储级别的

3、RDD不能修改其存储级别。( )A.正确B.错误参考答案:A9. 拉斯维加斯算法找到的解不一定是正确解。( )A.错误B.正确参考答案:A10. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案:B11. Scala列表方法中将函数应用到列表的所有元素的方法是( )A.filterB.foreachC.mapD.mkString参考答案:B12. UMP系统中面对分库分表用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独

4、立的MySQL实例D.随机分配MySQL实例参考答案:C13. 关于Map端Shuffle过程中的合并与归并,说法正确的是( )。A.两个键值对和,如果合并,会得到B.合并不会改变最终结果C.两个键值对和,如果归并,会得到D.两个键值对和,如果归并,会得到参考答案:ABD14. Scala是一种纯面向对象的语言,每个值都是对象。( )T.对F.错参考答案:T15. 数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段?( )A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段参考答案:A16. ( )和( ),它们把原数据变换或投影到较小的空间。A.小波变换B.中心化变换C.主成分分析

5、D.对数变换参考答案:AC17. 分布式离线分析可以实现秒级别的实时分析响应。( )A.正确B.错误参考答案:B18. 大数据技术也能帮助政府进行支出管理,透明合理的财政支出将有利于提高公信力和监督财政支出。( )A.对B.错参考答案:A19. 分治法的基本思想时将一个规模为n的问题分解为k个规模较小的子问题,这些子问题互相独立且与原问题相同。递归地解这些子问题,然后将各个子问题的解合并得到原问题的解。( )A.错误B.正确参考答案:B20. Spark中DataFrame的( )方法是查询指定字段的数据信息A.selectB.selectExprC.colD.apply参考答案:ABCD21

6、. 阿里云RDS中一个实例可以创建多个数据库,在实例内数据库命名唯一,所有数据库都会共享该实例下的资源,如CPU、内存、磁盘容量等。( )A.正确B.错误参考答案:A22. Dstream输出操作中( )方法在Driver中打印出DStream中数据的前12个元素。A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案:C23. 大数据计算处理方法主要分为两种方法,即批处理方法和流处理方法。( )A.正确B.错误参考答案:A24. 回溯法搜索解空间树时,常用的两种剪枝函数为约束函数和限界函数。( )A.错误B.正确参

7、考答案:B25. 流计算的采集阶段需要保证( )。A.实时性B.大量C.低延迟D.稳定可靠参考答案:ACD26. 贪心选择性质是贪心算法可行的第一个基本要素,也是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案:B27. PairRDD的( )方法,可以把两个RDD中键相同的元素组合在一起,合并为一个RDD。A.joinB.unionC.substractD.intersection参考答案:A28. 分支限界法解旅行售货员问题时,活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案:A29. spark-submit配置项中( )表示启动的executor数

8、量A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案:A30. GraphX中( )方法可以查询顶点个数A.numVerticesB.numEdgesC.verticesD.edges参考答案:A31. 程序是算法用某种程序设计语言的具体实现。( )A.错误B.正确参考答案:B32. 可使用( ),( ),( )进行光滑。A.最大值B.箱中位数C.箱边界D.箱均值参考答案:BCD33. 递归函数意味着函数可以调用它( )A.其他函数B.主函数C.子函数D.

9、自身参考答案:D34. 实现棋盘覆盖算法利用的算法是( )。A.分治法B.动态规划法C.贪心法D.回溯法参考答案:A35. Scala函数组合器可以通过一个函数重新计算列表中所有元素,没有返回值。( )A.正确B.错误参考答案:B36. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案:A37. Spark Streming中对DStream的任何操作都会转化成对底层RDDs的操作。( )A.正确B.错误参考答案:A38. Mllib中metrics.recallByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:B3

10、9. Scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案:A40. 在现有大数据的存储中,结构化数据仅有20%,其余80%则在存在于物联网、电子商务、社交网络等领域的半结构化数据和非结构化数据。( )A.对B.错参考答案:A41. Scala函数组合器可以通过一个函数重新计算列表中所有元素,并且返回一个相同数目元素的新列表的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案:A42. 很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数

11、据就是( )数据。技术人员可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息。A.动态B.存量C.实时D.静态参考答案:D43. Graph类中如果根据边数据创建图,数据需要转换成RDDEdgeED类型,应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValueD.GraphLoader.edgeListFile(

12、sc,filename)参考答案:B44. TF-IDF中TF指的是( )A.词频B.词在文档中出现的次数C.逆文档概率D.词在文档集中出现的概率E.词在文档集中出现的概率参考答案:AB45. Hadoop在配置伪分布式时需要修改哪几个配置文件( )。A.hbase-site.xmlB.hdfs-site.xmlC.core-site.xmlD.map-site.xmlE.mapr-site.xml参考答案:BC46. 以下算法中属于无监督学习算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案:D47. 大数据时代预测人类移动行为的数据来源有( )。A.志愿者定位数据

13、B.装有导航设备的出租车轨迹数据C.手机终端定位于通讯记录D.社会网络签到数据参考答案:ABCD48. 以下哪个函数可以对RDD进行去重( )A.sortByB.filterC.distinctD.intersection参考答案:C49. 可视化工具包括( )。A.ExcelB.Google ChartC.GephiD.ppt参考答案:ABC50. 以下亚马逊的产品中哪个属于存储部分( )A.EC2B.EBSC.S3D.ELB参考答案:BC51. Mllib中线性会馆算法中的参数reParam表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案:D52. var a=10; for(aA.10B.11C.20D.19参考答案:D53. 算法是由若干条指令组成的有穷序列,且要满足输入、输出、确定性和有限性四条性质。( )A.错误B.正确参考答案:B54. Scala中高阶

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号