南开大学21春《大数据开发技术》在线作业三满分答案27

上传人:人*** 文档编号:470567764 上传时间:2023-12-03 格式:DOCX 页数:13 大小:14.28KB
返回 下载 相关 举报
南开大学21春《大数据开发技术》在线作业三满分答案27_第1页
第1页 / 共13页
南开大学21春《大数据开发技术》在线作业三满分答案27_第2页
第2页 / 共13页
南开大学21春《大数据开发技术》在线作业三满分答案27_第3页
第3页 / 共13页
南开大学21春《大数据开发技术》在线作业三满分答案27_第4页
第4页 / 共13页
南开大学21春《大数据开发技术》在线作业三满分答案27_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《南开大学21春《大数据开发技术》在线作业三满分答案27》由会员分享,可在线阅读,更多相关《南开大学21春《大数据开发技术》在线作业三满分答案27(13页珍藏版)》请在金锄头文库上搜索。

1、南开大学21春大数据开发技术在线作业三满分答案1. Google Chart API是哪种可视化工具( )A.信息图表B.地图工具C.时间线工具D.分析工具参考答案:A2. UMP系统中面对分库分表用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案:C3. SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案

2、:A4. Scala中如果函数无返回值,则函数返回类型为( )A.NULLB.VoidC.NothingD.Unit参考答案:D5. 用户可以在Hadoop YARN上运行Spark。( )T.对F.错参考答案:T6. 大数据时代预测人类移动行为的数据来源有( )。A.志愿者定位数据B.装有导航设备的出租车轨迹数据C.手机终端定位于通讯记录D.社会网络签到数据参考答案:ABCD7. PairRDD中mapValues是针对键值对(Key,Value)类型的数据中的key和Value进行Map操作。( )T.对F.错参考答案:F8. Scala列表中last返回一个列表,包含除了第一个元素之外的

3、其他元素。( )T.对F.错参考答案:F9. 图的结构通常表示为:G(V,E),其中,G表示( )A.图B.子图C.顶点D.边参考答案:A10. 数据集成(Data Integration)是将多个数据源中的数据合并存放到一个一致的数据存储中,数据源可以包含多个数据库、数据立方体或一般文件。( )A.对B.错参考答案:A11. ( )可以解决图计算问题A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案:C12. 以下属于Hadoop的安装方式的有( )。A.单机模式B.多机模式C.分布式模式D.并行模式E.伪分布式模式参考答案:ACE13. Spark SQL可被

4、视为一个分布式的SQL查询引擎,并且提供了一个叫做DataFrame的可编程抽象数据模型。( )A.正确B.错误参考答案:A14. Scala列表方法中输出符号指定条件的所有元素的方法是( )A.dropB.headC.filterD.init参考答案:C15. MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法( )训练回归树A.trainClassifierB.trainRegressorC.LogisticRegressionModelD.LabeledPoint参考答案:B16. RDD是一个可读写的数据结构。( )T.对F.错参考答案:F17. 下列

5、Scala代码应输出( ):var a=0;var b=0var sum=0;for(a-1 until 3; b-1 until 3) sum+=a+b;println(sum);A.36B.35C.11D.12参考答案:D18. UMP系通过( )来实现实现集群成员管理、元数据存储、MySQL实例管理、故障恢复、备份、迁移、扩容等功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:A19. 1秒定律体现了大数据的哪个特征( )。A.数据量大B.数据产生速度快C.数据存储快D.数据计算快参考答案:B20. 美国奥巴马政府宣布投资2亿美元启动“大数据

6、研发计划”。( )A.对B.错参考答案:A21. 传统的数据处理流程的前提是( )。A.存储的数据是旧的B.存储的数据是实时的C.需要用户主动发出查询D.不需要用户主动发出查询参考答案:AC22. MapReduce设计的一个理念就是( ),因为移动数据需要大量的网络传输开销。A.数据向计算靠拢B.计算向数据靠拢C.计算向网络靠拢D.计算与数据并行参考答案:B23. 舍伍德算法总能求得问题的一个解。( )A.错误B.正确参考答案:B24. 可使用( ),( ),( )进行光滑。A.最大值B.箱中位数C.箱边界D.箱均值参考答案:BCD25. PairRDD中groupBy(func)func返

7、回key,传入的RDD的各个元素根据这个key进行分组。( )A.正确B.错误参考答案:A26. Hbase采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案:A27. Yahoo! S4和Twitter Storm开发实时应用时既要关注处理逻辑,还要解决实时数据获取、传输、存储。( )A.正确B.错误参考答案:B28. 回溯法是一种既带有系统性又带有跳跃性的搜索算法。( )A.错误B.正确参考答案:B29. MLlib中Normalizer是一个转换器,它可以将多行向量输入转化为统一的形式。( )T.对F.错参考答案:T30. Graph类中如果要根据边数

8、据创建图,边数据需要加载为二元组,可以选择是否对边分区,应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValue,)D.GraphLoader.edgeListFile(sc,filename)参考答案:C31. 应用于分布式数据存储与管理数据在地理上分布于多个数据中心的应用程序的数据库是哪种( )A.列族数据库B.键值数据库C.

9、图数据库D.文档数据库参考答案:A32. HDFS在设计上采取了多种机制保证在硬件出错的环境中实现数据的完整性。( )A.正确B.错误参考答案:A33. 实现合并排序利用的算法是( )。A.分治策略B.动态规划法C.贪心法D.回溯法参考答案:A34. Spark创建DataFrame对象方式有( )A.结构化数据文件B.外部数据库C.RDDD.Hive中的表参考答案:ABCD35. MapReduce中最优的Reduce任务个数取决于集群中可用的( )的数目。A.SplitB.SlotC.MapD.Shuffle参考答案:B36. ( )可解决HDFS中名称节点运行期间EditLog不断变大的

10、问题A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案:B37. spark-submit配置项中( )表示executor内存大小A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案:B38. 居民通过健康云平台中的数据,了解健康情况,防患于未然; 医疗机构通过对远程监控系统中的数据分析,缩短住院时间,提高家庭护理比例和门诊医生预约量。( )A.对B.错参考答案:A39. 感知式系统的广泛使用 人类社会数据

11、量第三次大的飞跃最终导致了大数据的产生。( )A.正确B.错误参考答案:A40. 下列算法中通常以自底向上的方式求解最优解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案:B41. 贪心选择性质是贪心算法可行的第一个基本要素,也是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案:B42. 以下是机器学习的常用算法的是( )A.回归算法B.聚类算法C.降维算法D.分类算法参考答案:ABCD43. GraphX中graph.edges可以得到( )A.顶点视图B.边视图C.顶点与边的三元组整体视图D.有向图参考答案:B44. 我们既要通过政府主导,又要发挥社会的力

12、量,来共同推进医疗大数据的应用。( )A.对B.错参考答案:A45. Scala是一种纯面向对象的语言,每个值都是对象。( )T.对F.错参考答案:T46. RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除。( )T.对F.错参考答案:T47. Storm框架是实时计算系统,所以不能使用数据库。( )A.正确B.错误参考答案:B48. 分布式离线分析可以实现秒级别的实时分析响应。( )A.正确B.错误参考答案:B49. Scala函数组合器可以对集合中的元素进行分组操作,结果得到的是一个Map的方法是( )A.filterB.flattenC.groubyD.f

13、latmap参考答案:C50. Mllib中metrics.roc表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:D51. HDFS中当一些数据节点不可用时,会导致一些数据块的副本数量( )冗余因子A.大于B.小于C.等于D.大于等于参考答案:B52. 在现有大数据的存储中,结构化数据仅有20%,其余80%则在存在于物联网、电子商务、社交网络等领域的半结构化数据和非结构化数据。( )A.对B.错参考答案:A53. Spark GraphX中类Graph的mask方法可以( )A.反转图中所有边的方向B.按照设定条件取出子图C.取两个图的公共顶点和边作为新图,并保持前一个图顶点与边的属性D.合并边相同的属性参考答案:C54. Spark是一个( )计算框架A.快速B.分布式C.可扩展D.容错参考答案:ABCD55. Dstream输出操作中( )方法在Driver中打印出DStream中数据的前12个元素。A.printB.saveAsTextFiles

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号