大数据处理技术简介

资源描述

《大数据处理技术简介》由会员分享，可在线阅读，更多相关《大数据处理技术简介（52页珍藏版）》请在金锄头文库上搜索。

1、大数据处理技术简介大数据处理技术简介三、大数据开源软件HadoopHadoopHadoopHadoop简介二、大数据处理实现技术一、大数据背景目录1. Hadoop 简介2. 实例演示1. 定义2. 数据的来源1. 分布式储存系统（GFS / HDFS）2. 分布式计算模型（MapReduce）一、大数据背景一、大数据背景我们正处在信息爆炸的年代我们正处在信息爆炸的年代2000年数字数据只占全球数据量的1/42007年所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据，其余93%全是数字数据（二进制数据）Google 单日数据处理量超过 24 PBFacebook 单日照片更新

2、量超过 1千万张淘宝网单日数据产生量超过 5万 GB大数据背景定义大大数据定义数据定义“大数据”是指一个数据集（Datasets），它的尺寸大到已经无法由传统的数据库软件去采集、储存、管理和分析。大数据背景定义数据的分类数据的分类l l结构化数据：结构化数据：行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。例如：二维表l l半结构化数据：半结构化数据：自描述，数据结构和内容混杂在一起的数据。例如： XML、HTML等。l l非结构化数据：非结构化数据：除去以上两种类型例如：音视频、图片等。大数据背景定义20002000年以后非结构化数据占绝大部分年以后非结构化数据占绝大部

3、分大数据背景数据的来源从非结构化数据到结构化数据从非结构化数据到结构化数据非非非非结结结结构化数构化数构化数构化数据据据据行行行行业业业业技技技技术术术术结结结结构化构化构化构化半半半半结结结结构构构构化数据化数据化数据化数据视频、音视频、音频识别技频识别技术等术等大数据背景数据的来源网页爬虫网页爬虫视频识别视频识别语音识别语音识别等等大数据背景数据的来源传统关系数据库，如传统关系数据库，如：OracleOracle、MYSQLMYSQLl无法储存几亿行长，几百万行宽的表格，巨大的数据直接导致数据库崩溃l半结构化数据和脏数据将会导致出错（类型不严格）传统方法失效传统方法失

4、效！如何解决？如何解决？大数据处理技术的解决办法：大数据处理技术的解决办法：存成文件（存成文件（FILE SYSTEMFILE SYSTEM）大数据背景数据的来源某搜索引擎搜索日志某搜索引擎搜索日志大数据背景数据的来源二、大数据处理实现技术二、大数据处理实现技术大数据处理技术面对的大数据处理技术面对的第一个问题第一个问题如何高效存储大规模文件？如何高效存储大规模文件？大数据处理实现技术分布式储存系统GFS / HDFS数据数据读取问题读取问题1 T1 T100M100M/S/SOH NO ! OH NO ! 大数据处理实现技术分布式储存系统GFS / HDFS2.52.5小时小时谷

5、歌文件系统（谷歌文件系统（谷歌文件系统（谷歌文件系统（GFSGFSGFSGFS）大数据处理实现技术分布式储存系统GFS / HDFS分而治之分而治之大数据处理实现技术分布式储存系统GFS / HDFS谷歌文件系统（谷歌文件系统（GFSGFS）解决方案解决方案.10G1 1分分3030秒秒100M/S大数据处理实现技术分布式储存系统GFS / HDFS10G10G10G10G可靠性问题可靠性问题大数据处理实现技术分布式储存系统GFS / HDFS大数据处理技术面对的大数据处理技术面对的第二个问题第二个问题99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%

6、=76% 备份备份一份数据至少做三个备份一份数据至少做三个备份大数据处理实现技术分布式储存系统GFS / HDFS谷歌谷歌解决方案解决方案10G10G10G10G10G10G10G10G10G10G10G10G10G10G心跳心跳（HeartBeatHeartBeat ）MasterMaster（主管）（主管）Secondary Secondary mastermaster （副主管）（副主管）ClientClient（用户程序）（用户程序）读取元数据读取元数据读取数据读取数据云（云（云（云（ Cloud Cloud Cloud Cloud ）MasterMaster作用：作用：l l 储存

7、元数据（数据位置信息）储存元数据（数据位置信息）l l 储存节点的日常维护储存节点的日常维护储存节点储存节点10G10G10G10G数据位置信息数据位置信息读取数据读取数据Google File SystemGoogle File System架构架构大数据处理实现技术分布式储存系统GFS / HDFS大数据处理实现技术分布式计算模型 MapReduce大数据处理技术面对的大数据处理技术面对的第三个问题第三个问题数据运算问题数据运算问题分布式计算（并行计算）分布式计算（并行计算）大数据处理实现技术分布式储存系统GFS / HDFS谷歌谷歌解决方案解决方案谷歌提出谷歌提出谷歌提出谷歌提出

8、MAP / REDUCE MAP / REDUCE MAP / REDUCE MAP / REDUCE 模型模型模型模型大数据处理实现技术分布式计算模型 MapReduceMMapap函数：函数：接受接受一个键值对一个键值对（key-value pairkey-value pair），），产生产生一组中间键值对一组中间键值对。mapmap 函数将中间键值对里键相同的值传递给函数将中间键值对里键相同的值传递给ReduceReduce函数。函数。R Reduceeduce函数：函数：接受接受一个键一个键，以及相关的，以及相关的一组值一组值，将这组值进行，将这组值进行合并合并产生产生一组一组规模

9、更小的值规模更小的值（通常只有一个或零个值）（通常只有一个或零个值）大数据处理实现技术分布式计算模型 MapReduceKEY-VALUEKEY-VALUEKEY-VALUEKEY-VALUE（键（键（键（键- - - -值）模型值）模型值）模型值）模型键（键（KeyKey）：）：l l键必须是唯一的，而值并不一定是唯一的键必须是唯一的，而值并不一定是唯一的l l每个值必须与键关联，但键可以没有值每个值必须与键关联，但键可以没有值l l必须必须对键进行明确定义。他决定了计数是否区分大小写对键进行明确定义。他决定了计数是否区分大小写( (键由键由HashHash值唯一确定值唯一确定) )。键值

10、对举例键值对举例：l l通讯录中的姓名（通讯录中的姓名（KeyKey）和联系方式（）和联系方式（ValueValue）l l计算机中各种根据文件名（计算机中各种根据文件名（KeyKey）访问各类文件，如文本、图片（）访问各类文件，如文本、图片（ValueValue）l l年份（年份（KeyKey）温度（温度（valuevalue）大数据处理实现技术分布式计算模型 MapReduce气象站气象数据的处理（找出最高气温）气象站气象数据的处理（找出最高气温）气象站气象数据的处理（找出最高气温）气象站气象数据的处理（找出最高气温）大数据处理实现技术分布式计算模型 MapReduceKeyKey

11、（年份）（年份）ValueValue（温度）（温度）大数据处理实现技术分布式计算模型 MapReduceMapReduce计算架构Map/ReduceMap/ReduceMap/ReduceMap/Reduce特点特点特点特点l l开发简单开发简单无需无需处理线程或提供精细的同步逻辑处理线程或提供精细的同步逻辑l l规模规模大大无需无需修改程序即可在任意规模机器上运行修改程序即可在任意规模机器上运行l l工作具备自动并行和分发功能工作具备自动并行和分发功能用户用户只需写好只需写好MapMap和和ReduceReduce函数即可函数即可l l高高容错容错失败失败任务在新节点任务在新节点上会重新

12、上会重新运行运行大数据处理实现技术分布式计算模型 MapReduceMapMapMapMap/ / / /ReduceReduceReduceReduce的局限的局限的局限的局限对迭代算法无能为力对迭代算法无能为力不是所有算法都能并行不是所有算法都能并行大数据处理实现技术分布式计算模型 MapReduce三、大数据开源软件三、大数据开源软件HadoopHadoopHadoopHadoop简介简介谷歌技术开源实现谷歌技术开源实现GFSGFSMAPREDUCEMAPREDUCE开源实现大数据开源软件Hadoop简介HDFSHDFSMAPREDUCEMAPREDUCE20022002年年，Dou

13、g CuttingDoug Cutting从做开源从做开源Apache Apache NutchNutch引擎开始引擎开始20032003年年，DougDoug在在看到谷歌发表看到谷歌发表的的GFSGFS之后，开始开源实现之后，开始开源实现 NDFS ( NDFS ( NutchNutch D Distributed File System)istributed File System)。20042004年年, ,谷歌发表谷歌发表MapReduceMapReduce，20052005年，年，NutchNutch开发人员开源实现开发人员开源实现MapReduceMapReduce。2006200

14、6年，年，NutchNutch的的NDFSNDFS和和MapReduceMapReduce移出移出NutchNutch项目，独立形成独立项目，命项目，独立形成独立项目，命名名HADOOPHADOOP。HadoopHadoop的得名（的得名（ Doug Cutting Doug Cutting 的小孩给毛绒玩具象起的名字）的小孩给毛绒玩具象起的名字）20062006年，年， Doug CuttingDoug Cutting加入雅虎（聘请），雅虎开始资助加入雅虎（聘请），雅虎开始资助HadoopHadoop发展。发展。20082008年，年，1 1月月HadoopHadoop成为成为Apache

15、Apache顶级项目，顶级项目，2 2月，雅虎宣布，月，雅虎宣布，HadoopHadoop应用在自应用在自家搜素引擎中（其搜索引擎的索引建立在拥有家搜素引擎中（其搜索引擎的索引建立在拥有1 1万个内核的万个内核的HadoopHadoop集群上），集群上）， 4 4月，月，HadoopHadoop在在900900个节点上运行个节点上运行1TB1TB排序测试仅需排序测试仅需209209秒，成为全球最快。秒，成为全球最快。大数据开源软件Hadoop简介Hadoop 分布式文件系统（HDFS）架构大数据开源软件Hadoop简介安装安装安装安装HadoopHadoopHadoopHadoop1.系统要求：Linux(Ubuntu/CentOS/)2.java运行环境（安装JDK）3.安装SSH4.安装Hadoop大数据开源软件Hadoop简介HADOOP启动HDFS演示大数据开源软件Hadoop简介实例演示Hadoop云的实际操作1. 1.启动启动HDFSHDFS命令：命令：start-dfs.shstart-dfs.sh2. 2.在在eclipseeclipse中打开中打开HDFSHDFS目录（目录（eclipseeclipse需安装需安装Map/ReduceMap/Reduce插件）插件）MAP

展开阅读全文