大数据技术原理与应用 林子雨版 课后习题答案

上传人:xh****66 文档编号:56548785 上传时间:2018-10-13 格式:DOC 页数:56 大小:1.19MB
返回 下载 相关 举报
大数据技术原理与应用 林子雨版 课后习题答案_第1页
第1页 / 共56页
大数据技术原理与应用 林子雨版 课后习题答案_第2页
第2页 / 共56页
大数据技术原理与应用 林子雨版 课后习题答案_第3页
第3页 / 共56页
大数据技术原理与应用 林子雨版 课后习题答案_第4页
第4页 / 共56页
大数据技术原理与应用 林子雨版 课后习题答案_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《大数据技术原理与应用 林子雨版 课后习题答案》由会员分享,可在线阅读,更多相关《大数据技术原理与应用 林子雨版 课后习题答案(56页珍藏版)》请在金锄头文库上搜索。

1、第一章第一章 1.试述信息技术发展史上的 3 次信息化浪潮及具体内容。 信息化浪潮发生时间标志解决问题代表公司 第一次浪潮1980 年前后个人计算机信息处理Intel、AMD、IBM 、苹果、微软、联 想、戴尔、惠普等 第二次浪潮1995 年前后互联网信息传输雅虎、谷歌、阿里 巴巴、百度、腾讯 等 第三次浪潮2010 年前后物理网、云计 算和大数据 信息爆炸将涌现出一批新的 市场标杆企业 2. 试述数据产生方式经历的几个阶段 答: 运营式系统阶段,用户原创内容阶段,感知式系统阶段。 3.试述大数据的 4 个基本特征 答:数据量大、数据类型繁多、处理速度快和价值密度低。 4.试述大数据时代的“数

2、据爆炸”的特性 答:大数据时代的“数据爆炸”的特性是,人类社会产生的数据一致都以每年 50%的速度增长,也就是说,每两年增加一倍。 5.数据研究经历了哪 4 个阶段? 答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范 式。 6.试述大数据对思维方式的重要影响 答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效 率而非精确,相关而非因果。 7.大数据决策与传统的基于数据仓库的决策有什么区别 答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和 加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提 供对战略决策和战术决策。 大数

3、据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。 8.举例说明大数据的基本应用 答: 领域大数据的应用 金融行业大数据在高频交易、社区情绪分析和信贷风险分析三大金融 创新领域发挥重要作用。 汽车行业利用大数据和物联网技术的五人驾驶汽车,在不远的未来将 走进我们的日常生活 互联网行业借助于大数据技术,可以分析客户行为,进行商品推荐和有 针对性广告投放 个人生活大数据还可以应用于个人生活,利用与每个人相关联的“个 人大数据”,分析个人生活行为习惯,为其提供更加周全的 个性化服务。 9.举例说明大数据的关键技术 答:批处理计算,流计算,图计算,查询分析计算 10. 大数据产业包含哪些关键技

4、术。 答:IT 基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据 应用层。 11. 定义并解释以下术语:云计算、物联网 答: 云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机 能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各 种 IT 资源。 物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网 等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形 成人与物、物与物相连,实现信息化和远程管理控制。 12. 详细阐述大数据、云计算和物联网三者之间的区别与联系。 大数据、云计算和物联网的区别大数据、云计算和物联网的联系

5、大数据侧重于海量数据的存储、处理 与分析,海量数据中发现价值,服务 于生产和生活;云计算本质上皆在整 合和优化各种 IT 资源并通过网络已服 务的方法,廉价地提供给用户;物联 网的发展目标是实现呜呜向量,应用 创新是物联网的核心 从整体来看,大数据、云计算和物联 网这三者是相辅相成的。大数据根植 于云计算,大数据分析的很多技术都 来自于云计算,云计算的分布式存储 和管理系统提供了海量数据的存储和 管理能力,没有这些云计算技术作为 支撑,大数据分析就无从谈起。物联 网的传感器源源不断的产生大量数据, 构成了大数据的重要数据来源,物联 网需要借助于云计算和大数据技术, 实现物联网大数据的存储、分析

6、和处 理。 第二章第二章 1. 试述 hadoop 和谷歌的 mapreduce、gfs 等技术之间的关系 答:Hadoop 的核心是分布式文件系统 HDFS 和 MapReduce,HDFS 是谷歌文件 系统 GFS 的开源实现,MapReduces 是针对谷歌 MapReduce 的开源实现。 2. 试述 Hadoop 具有哪些特性。 答:高可靠性,高效性,高可扩展性,高容错性,成本低,运行在 Linux 平台, 支持多种编程语言 3. 试述 Hadoop 在各个领域的应用情况。 答:2007 年,雅虎在 Sunnyvale 总部建立了 M45一个包含了 4000 个处理器 和 1.5PB

7、 容量的 Hadooop 集群系统; Facebook 主要将 Hadoop 平台用于日志处理,推荐系统和数据仓库等方面; 百度主要使用 Hadoop 于日志的存储和统计、网页数据的分析和挖掘、商业分析、 在线数据反馈、网页聚类等。 4. 试述 Hadoop 的项目结构以及每个部分的具体功能。 答: PigPigChukwaChukwaHiveHiveHBaseHBase MapReduceMapReduceHDFSHDFSZookeeperZookeeper CommonCommonAvroAvro Commeon 是为 Hadoop 其他子项目提供支持的常用工具,主要包括文件系统、 RPC

8、 和串行化库 Avro 是为 Hadoop 的子项目,用于数据序列化的系统,提供了丰富的数据结构 类型、快速可压缩的二进制数据格式、存储持续性数据的文件集、远程调用的 功能和简单的动态语言集成功能。 HDFS 是 Hadoop 项目的两个核心之一,它是针对谷歌文件系统的开源实现。 HBase 是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库, 一般采用 HDFS 作为其底层数据存储。 MapReduce 是针对谷歌 MapReduce 的开源实现,用于大规模数据集的并行运算。 Zoookepper 是针对谷歌 Chubby 的一个开源实现,是高效和可靠的协同工作系 统,提供分布式

9、锁之类的基本服务,用于构建分布式应用,减轻分布式应用程 序所承担的协调任务。 Hive 是一个基于 Hadoop 的数据仓库工具,可以用于对 Hadoop 文件中的数据集 进行数据整理、特殊查询和分布存储。 Pig 是一种数据流语言和运行环境,适合于使用 Hadoop 和 MapReducce 平台上 查询大型半结构化数据集。 Sqoop 可以改进数据的互操作性,主要用来在 H 大哦哦哦配合关系数据库之间 交换数据。 Chukwa 是一个开源的、用于监控大型分布式系统的数据收集系统,可以将各种 类型的数据收集成适合 Hadoop 处理的文件,并保存在 HDFS 中供 Hadoop 进行各 种

10、MapReduce 操作。 第三章第三章 1试述分布式文件系统设计的需求。 设计需求含义HDFS 的实现情况 透明性具备访问透明性、位置 透明性、性能、和伸缩 透明性 只能提供一定程度的访 问透明性,完全支持位 置透明性、性能和伸缩 透明性 并发控制客户端对于文件的读写 不应该影响其他客户端 对同一个文件的读写 机制非常简单,任何时 候都只允许有一个程序 写入某个文件 文件复制一个文件可以拥有不同 位置的多个副本 HDFS 采用了多副本机制 硬件和操作系统的异构 性 可以在不同的操作系统 和计算机上实现同样的 客户端和服务端程序 采用 Java 语言开发,具 有很好的跨平台能力 可伸缩性支持节

11、点的动态加入或 退出 建立在大规模廉价机器 上的分布式文件系统集 群,具有很好的伸缩性 容错保证文件服务在客户端 或者服务端出现问题的 时候能正常使用 具有多副本机制和故障 自动检测、恢复机制 安全保证系统的安全性安全性较弱 2分布式文件系统是如何实现较高水平扩展的? 分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点 分为两类,一类叫“主节点”(Master Node)或者也被称为“名称结点” (NameNode),另一类叫“从节点”(Slave Node)或者也被称为“数据节点” (DataNode) 3试述 HDFS 中的块和普通文件系统中的块的区别。 答:在传统的文件

12、系统中,为了提高磁盘读写效率,一般以数据块为单位,恶 如不是以字节为单位。 HDFS 中的块,默认一个块大小为 64MB,而 HDFS 中的文件会被拆分成多个 块,每个块作为独立的单元进行存储。HDFS 在块的大小的设计上明显要大于普 通文件系统。 4试述 HDFS 中的名称节点和数据节点的具体功能。 答:名称节点负责管理分布式文件系统系统的命名空间,记录分布式文件系统 中的每个文件中各个块所在的数据节点的位置信息; 数据节点是分布式文件系统 HDFS 的工作节点,负责数据的存储和读取,会 根据客户端或者是名称节点的调度来进行数据的存储和检索,并向名称节点定 期发送自己所存储的块的列表。 ha

13、doop fs -ls 显示指定的文件的详细信息 hadoop fs -cat 将指定的文件的内容输出到标准输出 hadoop fs -mkdir 创建指定的文件夹 hadoop fs -get -ignorecrc -crc 复制指定的文 件到本地文件系统指定的文件或文件夹。-ignorecrc 选项复制 CRC 校验失败的文件。使用-crc 选项复制文件以及 CRC 信息。 hadoop fs -put 从本地文件系统中复制指定的单 个或多个源文件到指定的目标文件系统中。也支持从标准输入(stdin)中 读取输入写入目标文件系统。 hadoop fs -rmr 删除指定的文件夹及其的所有文

14、件 第四章第四章 1. 试述在 Hadoop 体系架构中 HBase 与其他组成部分的相互关系。 答: HBase 利用 Hadoop MapReduce 来处理 HBase 中的海量数据,实现高 性能计算;利用 Zookeeper 作为协同服务,实现稳定服务和失败恢复;使用 HDFS 作为高可靠的底层存储,利用廉价集群提供海量数据存储能力; Sqoop 为 HBase 的底层数据导入功能,Pig 和 Hive 为 HBase 提供了高层语言支持, HBase 是 BigTable 的开源实现。 2. 请阐述 HBase 和 BigTable 的底层技术的对应关系 答: 项目 BigTable

15、HBase 文件存储系统 GFSHDFS 海量数据处理 MapReduceHadoop MapReduce 协同服务管理 ChubbyZookeeper 3. 请阐述 HBase 和传统关系数据库的区别 答: 区别传统关系数据库 HBase 数据类型关系模型数据模型 数据操作插入、删除、更新、查 询、多表连接 插入、查询、删除、清 空,无法实现表与表之 间关联 存储模式基于行模式存储,元组 或行会被连续地存储在 磁盘也中 基于列存储,每个列族 都由几个文件保存,不 同列族的文件是分离的 数据索引针对不同列构建复杂的 多个索引 只有一个行键索引 数据维护用最新的当前值去替换 记录中原来的旧值 更

16、新操作不会删除数据 旧的版本,而是生成一 个新的版本 可伸缩性很难实现横向扩展,纵 向扩展的空间也比较有 限 轻易地通过在集群中增 加或者减少硬件数量来 实现性能的伸缩 4. HBase 有哪些类型的访问接口? 答:HBase 提供了 Native Java API , HBase Shell , Thrift Gateway , REST GateWay , Pig , Hive 等访问接口。 5. 请以实例说明 HBase 数据模型。 答: 列限定符 列族 Info NameMajorEmail 201505001Luo MinMathL 201505002Liu JunM 201505003Xie YouM 6. 分别解释 HBase 中行键、列键和时间戳的概念 (1)行键是唯一的,在一个表里只出现一次,否则就是在更新同一行,行键可以 是任意的字节数组。 (2)列族需要在创建表的时候就定义好,数量也不宜过多。列族名必须由可打印 字符组成,创建表的时候不需要定义好列。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号