大数据及MapReduce编程模型94精编版

上传人:ahu****ng1 文档编号:141924685 上传时间:2020-08-14 格式:PPTX 页数:94 大小:3.71MB
返回 下载 相关 举报
大数据及MapReduce编程模型94精编版_第1页
第1页 / 共94页
大数据及MapReduce编程模型94精编版_第2页
第2页 / 共94页
大数据及MapReduce编程模型94精编版_第3页
第3页 / 共94页
大数据及MapReduce编程模型94精编版_第4页
第4页 / 共94页
大数据及MapReduce编程模型94精编版_第5页
第5页 / 共94页
点击查看更多>>
资源描述

《大数据及MapReduce编程模型94精编版》由会员分享,可在线阅读,更多相关《大数据及MapReduce编程模型94精编版(94页珍藏版)》请在金锄头文库上搜索。

1、,Hust_ 2014年 8 月,大数据及其并行编程模型概述,主 要 内 容,一、大数据概述 二、应对大数据的系统思维 三、MapReduce 并行编程详解,2,注:本课件前30页PPT来源于国防科大 李东升教授:“大数据时代的挑战和探索”,互联网应用数据急剧增长 互联网用户数量巨大,日益活跃 微博、论坛、电子商务网站等 互联网上的用户生成数据(User Generated Content, UGC) 淘宝网每天新增数据40TB以上 百度每天处理10PB量级的数据, 总数据量达1000PB,应用背景,注:本课件前30页PPT来源于国防科大 李东升教授:“大数据时代的挑战和探索”,一、大数据概述

2、, 随着信息化的推进,国民经济、国家安全 等领域的数据不断增长 物联网、移动通信电话、手机短信、语音数据 遥感、公共安全、医疗、交通、情报等很多领域 高分辨率卫星(影像)、城市监控摄像头(视频)、 据报道,武汉监控摄像头已超过25万个,如采用1080P高清摄 像头(一天产生数据量40GB以上),整个城市每天新增监控 数据10PB以上,应用背景, 科学实验数据规模巨大,增长迅猛 生物工程 气候监测 高能物理 天文观测 生态环境 .,气候研究,华大基因测序目 前每天产生数据 约15TB,一年超 过5PB一,欧洲CERN对撞 机每年产生的数 据量超过15 PB,基因测序,应用背景,全 球 数 据 量

3、, IDC报告预测:未来 十年,全球数据量继 续迅速增长,Amount of digital information created and replicated in a year, ,年均增长率超过40% 2009年0.8ZB 2020年35ZB 1 ZB 106PB 月球,容量4GB的DVD光 用容量4GB的DVD光盘存储,DVD可从地球排至月球,G-T-P-E-Z-Y, 维基(Wiki)百科的定义 Big data is a collection of data sets so large and complex that it becomes difficult to process

4、 using on-hand database management tools IDC的定义 Big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling high-velocity capture, discovery, and/or analysis.,什么是大数据,大数据是超大、复杂

5、的数据集,现有的数据库管理技术难以应对,大数据技术描述了新一代的技术和架构,通过高速的数据获取、发现和分析技术,以经济的方式从各种超大规模的数据中提取价值,一、大数据概述, Volume:规模大 从PB级到ZB级 1 ZB 106* PB Variety:多样化 结构化、非结构化 文本、图像、视频等 Velocity:变化快 批处理/离线数据、流/实时/在线数据等 Value/ Veracity:价值稀疏 /数据质量 噪音和无用信息很多,一、大数据概述,大数据的特点, 大数据技术对经济社会和科研都在产生重 要影响 互联网产业、电子商务推荐、日常生活,大数据的影响,季节性流感是一个重要的公共卫生

6、问题:WHO估计, 全球每年25万至50万人因此死亡 及时监测到疾病的传播情况,尽快采取应对措施 2008年,Google通过处理网络搜索日志中的几千亿查询数据,训练建立流感疾病监测的数学模型,比美国病控制和预防中心提前1-2周给出流感的传播情况 论文发表在Nature (2009.2): Detecting Influenza Epidemics using Search Engine Query Data, 大数据技术对经济社会和科研都在产生重 要影响 科学研究,三种科研模式:理论、实验、计算 第四模式:数据密集型的科学发现 图灵奖获得者Jim Gray 2007年提出 专辑:Nature

7、 (2008.9): ”Big Data”, Science (2011.2): ”Dealing with data”,大数据的影响, 2012年3月29日,美国政府宣布投资2亿 美元启动“大数据研发计划” ( Big Data R reduce(String output_key, Iterator intermediate_values): / output_key: a word / output_values: a list of counts int result = 0; for each v in intermediate_values: result += ParseInt(

8、v); Emit(AsString(result);,其他示例,分布式检索 map函数挑选出满足特定模式的行,并将其组装成元组输出。 reduce函数是一个简单的确认函数,它完成的工作仅仅是将中间元组拷贝到输出中。 计算URL访问频率 map函数处理web网页的访问日志,并输出。 reduce函数将每个URL的访问次数加起来,输出,其他示例,翻转web-link图 在每个作为源的页面中,检查其连接URL,并逐个输出元组。 reduce函数将连接到每个target的所有source组合起来,形成list列表,输出 每个站点的术语向量 术语向量表示出在一篇文章中或者一组文章中最重要的单词,通常以元

9、组的方式。 map函数输出每个文章的 (hostname通过文章的URL分析得到)。 reduce函数取出不常用的术语,将其余的相加,得到最终的对,其他示例,倒排索引 map函数分析每个文档,然后产生一个(词,文档号)对的序列.reduce函数接受一个给定词的所有对,排序相应的文档IDs,并且产生一个(词,文档ID列表)对.所有的输出对集形成一个简单的倒排索引 分布式排序 map函数从每个记录提取key,并且产生一个(key,record)对.reduce函数不改变任何的对.,“实践是检验真理的唯一标准”,实践证明,MapReduce是出色的分布式计算模型 Google宣布,其对分布于1000

10、台计算机上的1TB数据进行排序仅仅需要68s 对4000台计算机上的1PB数据进行排序处理仅需要6小时2分钟(每次测试至少会损坏1块硬盘) 在08年1月份,Google MapReduce平均每天的数据处理量是20PB,相当于美国国会图书馆当年5月份存档网络数据的240倍,Hadoop上的MapReduce,job: 是客户端程序想要完成的一系列工作的集合。包括输入数据,MapReduce程序和配置信息。 task: Hadoop将job分解为tasks 有两种类型的task: map task和reduce task jobtracker和tasktracker: 用来控制job执行的 ta

11、sktracker运行task,并向jobtracker报告进度信息 jobtracker记录下每一个job的进度信息,如果一个task失败,jobtracker会将其重新调度到另外的tasktracker上。,Hadoop-MapReduce工作原理,Hadoop Streaming and Pipes,Hadoop流 允许用Java以外的语言来编写Map和Reduce函数 Hadoop管道 C+接口,流和管道及子进程的关系,进度和状态更新,Hadoop-MapReduce,Mapper public static class *Mapper extends Mapper Reducer p

12、ublic static class *Reducer extends educer Driver Package org.apache.hadoop.mapreduce.Job; org.apache.hadoop.mapreduce.Mapper; org.apache.hadoop.mapreduce.Reducer;,接口描述,public interface Mapper extends JobConfigurable, Closeable void map(K1 key, V1 value, OutputCollector output, Reporter reporter) th

13、rows IOException; public interface Reducer extends JobConfigurable, Closeable void reduce(K2 key, Iterator values, OutputCollector output, Reporter reporter) throws IOException; ,Mapper,public static class Map extends Mapper private final static IntWritable one = new IntWritable(1); private Text wor

14、d = new Text(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens() word.set(tokenizer.nextToken(); context.write(word, one); ,R

15、educer,public static class Reduce extends Reducer public void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException int sum = 0; for (IntWritable val : values) sum += val.get(); context.write(key, new IntWritable(sum); ,Driver,public static void main(String args

16、) throws Exception Configuration conf = new Configuration(); Job job = new Job(conf, wordcount); job.setJarByClass(WordCount.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); job.setMapperClass(Map.class); job.setReducerClass(Reduce.class); job.setInputFormatClass(TextInputFormat.class); job.setOutputFormatClass(TextOutputFormat.class); .addInputPath(job, new Path(args0); .setOutputPath(job, new Path(args1); job.waitForComplet

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号