南开20秋学期(1709、1803、1809、1903、1909、2003、2009 )《大数据开发技术(二)》在线作业答案

上传人:you7****5932 文档编号:148815120 上传时间:2020-10-23 格式:DOCX 页数:11 大小:14.83KB
返回 下载 相关 举报
南开20秋学期(1709、1803、1809、1903、1909、2003、2009 )《大数据开发技术(二)》在线作业答案_第1页
第1页 / 共11页
南开20秋学期(1709、1803、1809、1903、1909、2003、2009 )《大数据开发技术(二)》在线作业答案_第2页
第2页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《南开20秋学期(1709、1803、1809、1903、1909、2003、2009 )《大数据开发技术(二)》在线作业答案》由会员分享,可在线阅读,更多相关《南开20秋学期(1709、1803、1809、1903、1909、2003、2009 )《大数据开发技术(二)》在线作业答案(11页珍藏版)》请在金锄头文库上搜索。

1、20秋学期(1709、1803、1809、1903、1909、2003、2009 )大数据开发技术(二)在线作业试卷总分:100 得分:100一、单选题 (共 25 道试题,共 50 分)1.()是AMPLab发布的一个R开发包,使得R摆脱单机运行的命运,可以作为Spark的Job运行在集群上A.SparkRB.BlinkDBC.GraphXD.Mllib答案:A2.图的结构通常表示为:G(V,E),其中,V是图G中()A.顶点B.顶点的集合C.边D.边的集合答案:B3.Dstream输出操作中()方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存A.printB

2、.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles答案:D4.()是Spark的核心,提供底层框架及核心支持A.Spark CoreB.Spark SQLC.Spark StreamingD.Mllib答案:A5.Spark中的每个RDD一般情况下是由()个分区组成的A.0B.1C.多D.无数答案:C6.RDD的()操作通常用来划分单词A.filterB.unionC.flatmapD.mapPartitions答案:C7.图结构中如果任意两个顶点之间都存在边,那么称之为()A.完全图B.有向完全图C.无向图D.简单图答案:A8.Spa

3、rk GraphX中类Graph的aggregateMessages方法可以()A.收集邻居顶点的顶点Id和顶点属性B.收集邻居顶点的顶点IdC.向指定顶点发送信息并聚合信息D.将顶点信息更新到图中答案:C9.Spark中DataFrame的()方法是进行连接查询A.whereB.joinC.limitD.apply答案:B10.以下哪个不是Scala的数据类型()A.AnyRefB.AnythingC.NULLD.Nothing答案:B11.GraphX中()方法可以释放边缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist答案:D12

4、.()是Spark的数据挖掘算法库A.Spark CoreB.BlinkDBC.GraphXD.Mllib答案:D13.在图结构中,每个元素都可以有()后继A.至少一个B.零个或多个C.一个D.零个答案:B14.以下哪个方法可以从外部存储中创建RDD()A.parallelizeB.makeRDDC.textFileD.loadFile答案:C15.Graph类中如果要根据分开存放的顶点数据和边数据创建图,应该用()方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Gr

5、aph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValue,)D.GraphLoader.edgeListFile(sc,filename)答案:A16.Spark GraphX中类Graph的joinVertices方法可以()A.收集邻居顶点的顶点Id和顶点属性B.收集邻居顶点的顶点IdC.向指定顶点发送信息并聚合信息D.将顶点信息更新到图中答案:D17.Scala列表方法中返回所有元素,除了最后一个的方法是()A.dropB.headC.filterD.init答案:D18.以下哪个函数可以对RDD进行排序()A.

6、sortByB.filterC.distinctD.intersection答案:A19.递归函数意味着函数可以调用它()A.其他函数B.主函数C.子函数D.自身答案:D20.Spark Streming中()函数可以通过对源DStream的每RDD应用RDD-to-RDD函数返回一个新的DStream,这可以用来在DStream做任意RDD操作。A.transformB.reduceC.joinD.cogroup答案:A21.如果numPartitions是分区个数,那么Spark每个RDD的分区ID范围是()A.0,numPartitionsB.0,numPartitions-1C.1,n

7、umPartitions-1D.1,numPartitions答案:B22.图结构中如果任意两个顶点之间都存在有向边,那么称之为()A.完全图B.有向完全图C.无向图D.简单图答案:B23.GraphX中VertexRDDVD继承自()A.EdgeRDDB.RDDEdgeC.VertexRDDVDD.RDD(VertexId,VD)答案:D24.Scala列表方法中通过给定的方法将所有元素重新计算的方法是()A.filterB.foreachC.mapD.mkString答案:C25.图结构中如果无重复的边或者顶点到自身的边,那么称之为()A.完全图B.有向完全图C.无向图D.简单图答案:D二

8、、多选题 (共 10 道试题,共 20 分)26.以下哪个方法可以从集合中创建RDD()A.parallelizeB.makeRDDC.textFileD.loadFile答案:AB27.Scala支持()A.匿名函数B.高阶函数C.函数嵌套D.柯里化答案:ABCD28.MapReudce不适合()任务A.大数据计算B.迭代C.交互式D.离线分析答案:BC29.Spark DataFrame中()方法可以获取若干行数据A.firstB.headC.takeD.collect答案:ABCD30.MLBase包括()A.MllibB.MLIC.SparkRD.GraphX答案:AB31.Spark

9、中的RDD的说法正确的是()A.弹性分布式数据集B.是Spark中最基本的数据抽象C.代表一个可变的集合D.代表的集合里面的元素可并行计算答案:ABD32.Spark Streaming能够处理来自()的数据A.KafkaB.FlumeC.TwitterD.ZeroMQ答案:ABCD33.Spark DataFrame中()方法可以获取所有数据A.collectB.takeC.takeAsListD.collectAsList答案:AD34.Scala中使用() 方法来连接两个集合A.appendB.+C.concatD.Set.+()答案:BD35.Spark Streaming支持实时流式

10、数据,包括()A.Web服务器日志文件B.社交网络数据C.实时交易数据D.类似Kafka的信息数据答案:ABCD三、判断题 (共 15 道试题,共 30 分)36.Spark Streming中DStream代表着一系列的持续的RDDs答案:正确37.RDD的sortBy函数包含参数numPartitions,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。答案:正确38.MLlib中Normalizer是一个转换器,它可以将多行向量输入转化为统一的形式。答案:正确39.MLlib由一些通用的学习算法和工具组成,包括分

11、类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。答案:正确40.RDD的filter过滤会将返回值为true的过滤掉答案:错误41.用户可以在Hadoop YARN上运行Spark答案:正确42.Scala中创建一个方法时经常用void表示该方法无返回值答案:错误43.Scala Set(集合)是没有重复的对象集合,所有的元素都是唯一的答案:正确44.PairRDD中reduceByKey的功能是合并具有相同键的值,作用域是KeyValue 类型的键值对,并且是只对每个Key 的Value 进行处理答案:正确45.RDD的flatMap操作是将函数应用于RDD 之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的RDD 。答案:正确46.RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除答案:正确47.Spark Streaming中时间片也可称为批处理时间间隔(batch interval),时间片是人为地对数据进行定量的标准,作为拆分数据的依据,一个时间片的数据对应一个RDD 实例。答案:正确48.Spark在同一个应用中不能同时使用Spark SQL和Mllib答案:错误49.Scala中允许集成多个父类答案:错误50.Dstream提供了sort方法答案:错误

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 理学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号