大数据基础－金锄头文库

资源描述

《大数据基础》由会员分享，可在线阅读，更多相关《大数据基础（17页珍藏版）》请在金锄头文库上搜索。

1、大数据基础-题库带答案1、通过互联网，查找和了解大数据的产生过程。答案：2、通过互联网，查找和了解大数据的应用场景（领域）。答案：3、通过互联网，查找和了解大数据研究的意义。答案：4、通过互联网查找hadoop集群的组成,根据上课的讲解绘制Hadoop 生态系统的思维导图或者关系图，并简要说明 Hadoop 生态系统中每一部分的功能。答案：5、什么是虚拟机，它的作用是什么？答案：6、简述启动和关闭Hadoop集群的方法。答案：7、简述 HDFS 中 NameNode 和 DataNode 的作用。答案：8、下面哪个命令可以用于创建HDFS目录/hdfstest/testA、hdfs dfs

2、-mkdir /hdfstest/testB、hdfs dfs -get /hdfstest/testC、hdfs dfs -cat /hdfstest/testD、hdfs dfs -rmdir /hdfstest/test答案： A9、下列哪个命令可以下载HDFS文件/hdfstest/test.txtA、hdfs dfs -put /hdfstest/test.txtB、hdfs dfs -get /hdfstest/test.txtC、hdfs dfs -download /hdfstest/test.txtD、hdfs dfs -move /hdfstest/test.txt 答案：

3、 B10、删除HDFS上的文件使用的命令是hadoop fs -delete文件名答案：错误11、复制HDFS 上的文件可以使用命令hdfs dfs -cp答案：正确12、在HDFS 上查看文件内容使用命令hdfs dfs -cat答案：正确13、简述配置windows下Hadoop环境的基本步骤。答案：14、MapReduce是Hadoop最核心的组件之一。答案：正确15、MapReduce是一种分布式计算模型。答案：正确16、MapReduce应用程序一定要用Java来编写。答案：错误17、MapReduce是一种编程模型，用于处理大规模数据集的并行运算。答案：正确18、MapReduce

4、执行计算任务的时候，没个任务的执行过程都被划分为（）阶段A、MapB、ReduceC、ResultD、KeyValue答案： AB 19、MapReduce的工作过程包括（）A、分片、格式化数据源B、执行 Map TaskC、执行Shuffle过程D、执行 Reduce TaskE、写入文件答案： ABCDE20、查看当前节点的ZooKeeper角色的命令是A、zkServer.sh statusB、zkServer.sh startC、zkServer.sh stopD、zkServer.sh format答案： A21、ZooKeeper默认的两种角色是（）A、LeaderB、Follow

5、erC、ObserverD、Master答案： AB22、无论客户端连接的是哪个Zookeeper服务器，其看到的服务端数据模型都是一致的。答案：正确23、Znode有两种节点，分别是永久节点和临时节点。答案：正确24、Zookeeper引入Wat ch机制实现分布式的通知功能。答案：正确25、Zookeeper的Java API操作中，set Da ta方法用于更新数据。答案：正确 26、Zookeeper的JavaAPI操作中，getData方法可以查询数据。答案：正确27、Zookeeper的Shell操作中使用delete命令删除节点时，要删除的节点存在子节点的话也可以删除

6、该节点。答案：错误28、Zookeeper的Shell操作中，删除节点的方法是用rm命令。答案：错误29、在Zookeeper的Shel l操作中，查看节点可以用ls pa th wa tch或get pathwa tch或 ls2 path wa tch方法。答案：正确30、在Zookeeper的Shell操作中，rmr path命令可以递归删除节点。答案：正确31、Hive是建立在Hadoop文件系统上的一个数据仓库。答案：正确32、Hive系统架构的组成主要包括（）A、用户接口B、跨语言服务C、底层驱动引擎D、元数据存储系统答案： ABCD33、Hive中所有的数据都存储在（）中。A、H

7、BaseB、MysqlC、YarnD、HDFS答案： D34、Hive的安装模式有（）A、内嵌模式B、本地模式C、远程模式D、网格模式答案： ABC35、Hive是一个独立的数据仓库工具，因此在启动前无需启动任何服务。答案：错误36、Hive和M ysql都有St ring数据类型。答案：错误解析：Hive有St ring数据类型，Mysql没有。37、Hive支持Map键值对的复杂数据类型。答案：正确38、Hive中显示数据库用的命令是show databases；答案：正确39、Hive中切换数据库用的命令是USE+数据库名。答案：正确40、Hive中的桶为表提供了额外的结构,H

8、ive在处理某些查询时利用这个结构，能够有效地提高查询效率。答案：正确41、在Flume系统种，在一个Agent中，同一个source可以有多个channel。答案：正确42、在Flume系统中，在一个Agent中，同一个sink可以有多个channel。答案：错误43、在整个数据传输的过程中，Flume将流动的数据封装到一个event （事件）中，它是Flume内部数据传输的基本单元。答案：正确44、Flume的核心是把数据从数据源通过Source收集过来，再将收集的数据通过Channel汇集到指定的Sinko答案：正确45、Flume的负载均衡接收器处理器支持使用轮询、随机

9、机制进行流量分配。答案：正确46、Flume Agent是一个JVM进程，它承载着数据从外部源流向下一个目标的三个核心组件是 Source、Channel 和 Sink。答案：正确47、一、目前有一个集群，集群中有三台计算机，分别是 hadoop01、hadoop02、 hadoop03，都已经装好了 Linux操作系统，三台计算机需要完成以下，请按照以下步骤完成操作（操作步骤写出命令，并截图；不具备环境的同学简述操作步骤）：1.SSH 远程登录功能配置（1）安装并开启 SSH 服务（2）创建CRT工具连接三台服务器，这里也可以使用其他的连接工具，如xshell, 基本原理都一样2.

10、三台机器免密登录（1）三台机器执行以下命令，生成公钥与私钥2）拷贝公钥到同一台主机（这里都拷贝到 hadoop01）3）复制第一台机器的认证到其他机器3. 安装 JDK上传jdk到/export/software路径下去，并解压（1）安装 lrzsz2）上传 jdk3）解压并重命名4. 配置 JDK 环境变量5. JDK 环境验证6. 解压安装 Hadoop上传 hadoop-2.7.4 .t ar.gz 包到/expor t/so ft ware 目录下，并解压7. 配置Hadoop系统环境变量8. Hadoop 环境验证答案： 48、二、请完成以下HDFS Shell的相关操作，写出操作命

11、令。1. 查看hdfs命令：2. 查看相应命令的使用方法：3. 创建文件夹：4. 查看hdfs文件（夹）列表：5. 上传文件到hdfs：6. 查看文件内容7. 下载hdfs上的文件：8. 删除hdfs上的文件：9. 复制hdfs上的文件：10. 剪切hdfs 上的文件：11. 显示目录中所有文件的大小12. 创建一个0字节的空文件答案： 49、三、请在Hadoop集群中完成以下Zookeep的操作，写出相应的命令:1. 显示所有操作命令2. 查看当前 Zookeeper 中所包含的内容3. 查看当前节点数据4. 创建节点创建序列化永久节点创建临时节点创建永久节点5. 获取节点6. 修改节点7.

12、监听节点8. 删除节点普通删除的命令递归删除的命令答案：50、当前大数据技术的基础是由()首先提出的。A、微软B、百度C、谷歌D、阿里巴巴答案： C51、大数据的起源是()A、金融B、电信C、互联网D、公共管理答案： C52、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是()。A、数据管理人员B、数据分析员C、研究科学家D、软件开发工程师答案： C53、()反映数据的精细化程度,越细化的数据,价值越高。A、规模B、活性C、关联度D、颗粒度答案： D54、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地

13、点。这体现了大数据分析理念中的()。A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追究效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据答案： B55、下列关于大数据的说法中,错误的是()。A、大数据具有体量大、结构单一、时效性强的特征B、处理大数据需采用新型计算架构和智能算法等新技术C、大数据的应用注重相关分析而不是因果分析D、大数据的应用注重因果分析而不是相关分析E、大数据的目的在于发现新的知识与洞察并进行科学决策答案： AD56、大数据的价值体现在()A、大数据给思维方式带来了冲击B、大数据为政策制定提供科学论据C、大

14、数据助力智慧城市提升公共服务水平D、大数据实现了精准营销E、大数据的发力点在于预测答案： ABCDE57、当前大数据技术的基础包括()A、分布式文件系统B、分布式并行计算C、关系型数据库D、分布式数据库答案： ABD58、Hadoop是Java开发的，所以MapReduce只支持Java语言编写。答案：错误解析：hadoop是用R语言开发的,MapReduce是一个框架,可以理解是一种思想，可以使用其他语言开发。59、Hadoop支持数据的随机读写。答案：错误解析：lucene是支持随机读写的，而hdfs只支持随机读。但是HBase可以来补救。HBase提供随机读写，来解决Hadoop不能处理的问题。HBase自底层设计开始即聚焦于各种可伸缩性问题:表可以很“高”,有数十亿个数据行;也可以很“宽”，有数百万个列;水平分区并在上千个普通商用机节点上自动复制。表的模式是物理存储的直接反映，使系统有可能提高高效的数据结构的序列化、存储和检索。60、配置JDK环境变量时，需要对下列哪个文件进行修改（）A、hadoop-env.shB、core-site.xml

展开阅读全文

大数据基础

最新文档