大数据技术原理与应用林子雨版课后习题答案

资源描述

《大数据技术原理与应用林子雨版课后习题答案》由会员分享，可在线阅读，更多相关《大数据技术原理与应用林子雨版课后习题答案（56页珍藏版）》请在金锄头文库上搜索。

1、第一章第一章 1.试述信息技术发展史上的 3 次信息化浪潮及具体内容。信息化浪潮发生时间标志解决问题代表公司第一次浪潮1980 年前后个人计算机信息处理Intel、AMD、IBM 、苹果、微软、联想、戴尔、惠普等第二次浪潮1995 年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度、腾讯等第三次浪潮2010 年前后物理网、云计算和大数据信息爆炸将涌现出一批新的市场标杆企业 2. 试述数据产生方式经历的几个阶段答：运营式系统阶段，用户原创内容阶段，感知式系统阶段。 3.试述大数据的 4 个基本特征答：数据量大、数据类型繁多、处理速度快和价值密度低。 4.试述大数据时代的“数

2、据爆炸”的特性答：大数据时代的“数据爆炸”的特性是，人类社会产生的数据一致都以每年 50%的速度增长，也就是说，每两年增加一倍。 5.数据研究经历了哪 4 个阶段？答：人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。 6.试述大数据对思维方式的重要影响答：大数据时代对思维方式的重要影响是三种思维的转变：全样而非抽样，效率而非精确，相关而非因果。 7.大数据决策与传统的基于数据仓库的决策有什么区别答：数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力，能结合历史数据和实时数据实现查询分析和自动规则触发，从而提供对战略决策和战术决策。大数

3、据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。 8.举例说明大数据的基本应用答：领域大数据的应用金融行业大数据在高频交易、社区情绪分析和信贷风险分析三大金融创新领域发挥重要作用。汽车行业利用大数据和物联网技术的五人驾驶汽车，在不远的未来将走进我们的日常生活互联网行业借助于大数据技术，可以分析客户行为，进行商品推荐和有针对性广告投放个人生活大数据还可以应用于个人生活，利用与每个人相关联的“个人大数据”，分析个人生活行为习惯，为其提供更加周全的个性化服务。 9.举例说明大数据的关键技术答：批处理计算，流计算，图计算，查询分析计算 10. 大数据产业包含哪些关键技

4、术。答：IT 基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。 11. 定义并解释以下术语：云计算、物联网答：云计算：云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力，用户只需要在具备网络接入条件的地方，就可以随时随地获得所需的各种 IT 资源。物联网是物物相连的互联网，是互联网的延伸，它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起，形成人与物、物与物相连，实现信息化和远程管理控制。 12. 详细阐述大数据、云计算和物联网三者之间的区别与联系。大数据、云计算和物联网的区别大数据、云计算和物联网的联系

5、大数据侧重于海量数据的存储、处理与分析，海量数据中发现价值，服务于生产和生活；云计算本质上皆在整合和优化各种 IT 资源并通过网络已服务的方法，廉价地提供给用户；物联网的发展目标是实现呜呜向量，应用创新是物联网的核心从整体来看，大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算，大数据分析的很多技术都来自于云计算，云计算的分布式存储和管理系统提供了海量数据的存储和管理能力，没有这些云计算技术作为支撑，大数据分析就无从谈起。物联网的传感器源源不断的产生大量数据，构成了大数据的重要数据来源，物联网需要借助于云计算和大数据技术，实现物联网大数据的存储、分析

6、和处理。第二章第二章 1. 试述 hadoop 和谷歌的 mapreduce、gfs 等技术之间的关系答：Hadoop 的核心是分布式文件系统 HDFS 和 MapReduce，HDFS 是谷歌文件系统 GFS 的开源实现，MapReduces 是针对谷歌 MapReduce 的开源实现。 2. 试述 Hadoop 具有哪些特性。答：高可靠性，高效性，高可扩展性，高容错性，成本低，运行在 Linux 平台，支持多种编程语言 3. 试述 Hadoop 在各个领域的应用情况。答：2007 年，雅虎在 Sunnyvale 总部建立了 M45一个包含了 4000 个处理器和 1.5PB

7、容量的 Hadooop 集群系统； Facebook 主要将 Hadoop 平台用于日志处理，推荐系统和数据仓库等方面；百度主要使用 Hadoop 于日志的存储和统计、网页数据的分析和挖掘、商业分析、在线数据反馈、网页聚类等。 4. 试述 Hadoop 的项目结构以及每个部分的具体功能。答： PigPigChukwaChukwaHiveHiveHBaseHBase MapReduceMapReduceHDFSHDFSZookeeperZookeeper CommonCommonAvroAvro Commeon 是为 Hadoop 其他子项目提供支持的常用工具，主要包括文件系统、 RPC

8、和串行化库 Avro 是为 Hadoop 的子项目，用于数据序列化的系统，提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持续性数据的文件集、远程调用的功能和简单的动态语言集成功能。 HDFS 是 Hadoop 项目的两个核心之一，它是针对谷歌文件系统的开源实现。 HBase 是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库，一般采用 HDFS 作为其底层数据存储。 MapReduce 是针对谷歌 MapReduce 的开源实现，用于大规模数据集的并行运算。 Zoookepper 是针对谷歌 Chubby 的一个开源实现，是高效和可靠的协同工作系统，提供分布式

9、锁之类的基本服务，用于构建分布式应用，减轻分布式应用程序所承担的协调任务。 Hive 是一个基于 Hadoop 的数据仓库工具，可以用于对 Hadoop 文件中的数据集进行数据整理、特殊查询和分布存储。 Pig 是一种数据流语言和运行环境，适合于使用 Hadoop 和 MapReducce 平台上查询大型半结构化数据集。 Sqoop 可以改进数据的互操作性，主要用来在 H 大哦哦哦配合关系数据库之间交换数据。 Chukwa 是一个开源的、用于监控大型分布式系统的数据收集系统，可以将各种类型的数据收集成适合 Hadoop 处理的文件，并保存在 HDFS 中供 Hadoop 进行各种

10、MapReduce 操作。第三章第三章 1试述分布式文件系统设计的需求。设计需求含义HDFS 的实现情况透明性具备访问透明性、位置透明性、性能、和伸缩透明性只能提供一定程度的访问透明性，完全支持位置透明性、性能和伸缩透明性并发控制客户端对于文件的读写不应该影响其他客户端对同一个文件的读写机制非常简单，任何时候都只允许有一个程序写入某个文件文件复制一个文件可以拥有不同位置的多个副本 HDFS 采用了多副本机制硬件和操作系统的异构性可以在不同的操作系统和计算机上实现同样的客户端和服务端程序采用 Java 语言开发，具有很好的跨平台能力可伸缩性支持节

11、点的动态加入或退出建立在大规模廉价机器上的分布式文件系统集群，具有很好的伸缩性容错保证文件服务在客户端或者服务端出现问题的时候能正常使用具有多副本机制和故障自动检测、恢复机制安全保证系统的安全性安全性较弱 2分布式文件系统是如何实现较高水平扩展的？分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类，一类叫“主节点”(Master Node)或者也被称为“名称结点” (NameNode)，另一类叫“从节点”（Slave Node）或者也被称为“数据节点” (DataNode) 3试述 HDFS 中的块和普通文件系统中的块的区别。答：在传统的文件

12、系统中，为了提高磁盘读写效率，一般以数据块为单位，恶如不是以字节为单位。 HDFS 中的块，默认一个块大小为 64MB，而 HDFS 中的文件会被拆分成多个块，每个块作为独立的单元进行存储。HDFS 在块的大小的设计上明显要大于普通文件系统。 4试述 HDFS 中的名称节点和数据节点的具体功能。答：名称节点负责管理分布式文件系统系统的命名空间，记录分布式文件系统中的每个文件中各个块所在的数据节点的位置信息；数据节点是分布式文件系统 HDFS 的工作节点，负责数据的存储和读取，会根据客户端或者是名称节点的调度来进行数据的存储和检索，并向名称节点定期发送自己所存储的块的列表。 ha

13、doop fs -ls 显示指定的文件的详细信息 hadoop fs -cat 将指定的文件的内容输出到标准输出 hadoop fs -mkdir 创建指定的文件夹 hadoop fs -get -ignorecrc -crc 复制指定的文件到本地文件系统指定的文件或文件夹。-ignorecrc 选项复制 CRC 校验失败的文件。使用-crc 选项复制文件以及 CRC 信息。 hadoop fs -put 从本地文件系统中复制指定的单个或多个源文件到指定的目标文件系统中。也支持从标准输入(stdin)中读取输入写入目标文件系统。 hadoop fs -rmr 删除指定的文件夹及其的所有文

14、件第四章第四章 1. 试述在 Hadoop 体系架构中 HBase 与其他组成部分的相互关系。答： HBase 利用 Hadoop MapReduce 来处理 HBase 中的海量数据，实现高性能计算；利用 Zookeeper 作为协同服务，实现稳定服务和失败恢复；使用 HDFS 作为高可靠的底层存储，利用廉价集群提供海量数据存储能力; Sqoop 为 HBase 的底层数据导入功能，Pig 和 Hive 为 HBase 提供了高层语言支持， HBase 是 BigTable 的开源实现。 2. 请阐述 HBase 和 BigTable 的底层技术的对应关系答：项目 BigTable

15、HBase 文件存储系统 GFSHDFS 海量数据处理 MapReduceHadoop MapReduce 协同服务管理 ChubbyZookeeper 3. 请阐述 HBase 和传统关系数据库的区别答：区别传统关系数据库 HBase 数据类型关系模型数据模型数据操作插入、删除、更新、查询、多表连接插入、查询、删除、清空，无法实现表与表之间关联存储模式基于行模式存储，元组或行会被连续地存储在磁盘也中基于列存储，每个列族都由几个文件保存，不同列族的文件是分离的数据索引针对不同列构建复杂的多个索引只有一个行键索引数据维护用最新的当前值去替换记录中原来的旧值更

16、新操作不会删除数据旧的版本，而是生成一个新的版本可伸缩性很难实现横向扩展，纵向扩展的空间也比较有限轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩 4. HBase 有哪些类型的访问接口？答：HBase 提供了 Native Java API , HBase Shell , Thrift Gateway , REST GateWay , Pig , Hive 等访问接口。 5. 请以实例说明 HBase 数据模型。答：列限定符列族 Info NameMajorEmail 201505001Luo MinMathL 201505002Liu JunM 201505003Xie YouM 6. 分别解释 HBase 中行键、列键和时间戳的概念 (1)行键是唯一的，在一个表里只出现一次，否则就是在更新同一行，行键可以是任意的字节数组。 (2)列族需要在创建表的时候就定义好，数量也不宜过多。列族名必须由可打印字符组成，创建表的时候不需要定义好列。

展开阅读全文

大数据技术原理与应用 林子雨版 课后习题答案

大数据技术原理与应用林子雨版课后习题答案