大数据及MapReduce编程模型94精编版

资源描述

《大数据及MapReduce编程模型94精编版》由会员分享，可在线阅读，更多相关《大数据及MapReduce编程模型94精编版（94页珍藏版）》请在金锄头文库上搜索。

1、,Hust_ 2014年 8 月,大数据及其并行编程模型概述,主要内容,一、大数据概述二、应对大数据的系统思维三、MapReduce 并行编程详解,2,注：本课件前30页PPT来源于国防科大李东升教授：“大数据时代的挑战和探索”,互联网应用数据急剧增长互联网用户数量巨大，日益活跃微博、论坛、电子商务网站等互联网上的用户生成数据（User Generated Content， UGC）淘宝网每天新增数据40TB以上百度每天处理10PB量级的数据，总数据量达1000PB,应用背景,注：本课件前30页PPT来源于国防科大李东升教授：“大数据时代的挑战和探索”,一、大数据概述

2、, 随着信息化的推进，国民经济、国家安全等领域的数据不断增长物联网、移动通信电话、手机短信、语音数据遥感、公共安全、医疗、交通、情报等很多领域高分辨率卫星（影像）、城市监控摄像头（视频）、据报道，武汉监控摄像头已超过25万个，如采用1080P高清摄像头（一天产生数据量40GB以上），整个城市每天新增监控数据10PB以上,应用背景, 科学实验数据规模巨大，增长迅猛生物工程气候监测高能物理天文观测生态环境 .,气候研究,华大基因测序目前每天产生数据约15TB，一年超过5PB一,欧洲CERN对撞机每年产生的数据量超过15 PB,基因测序,应用背景,全球数据量

3、, IDC报告预测：未来十年，全球数据量继续迅速增长,Amount of digital information created and replicated in a year, ,年均增长率超过40% 2009年0.8ZB 2020年35ZB 1 ZB 106PB 月球,容量4GB的DVD光用容量4GB的DVD光盘存储，DVD可从地球排至月球,G-T-P-E-Z-Y, 维基（Wiki）百科的定义 Big data is a collection of data sets so large and complex that it becomes difficult to process

4、 using on-hand database management tools IDC的定义 Big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling high-velocity capture, discovery, and/or analysis.,什么是大数据,大数据是超大、复杂

5、的数据集，现有的数据库管理技术难以应对,大数据技术描述了新一代的技术和架构，通过高速的数据获取、发现和分析技术，以经济的方式从各种超大规模的数据中提取价值,一、大数据概述, Volume：规模大从PB级到ZB级 1 ZB 106* PB Variety：多样化结构化、非结构化文本、图像、视频等 Velocity：变化快批处理/离线数据、流/实时/在线数据等 Value/ Veracity：价值稀疏 /数据质量噪音和无用信息很多,一、大数据概述,大数据的特点, 大数据技术对经济社会和科研都在产生重要影响互联网产业、电子商务推荐、日常生活,大数据的影响,季节性流感是一个重要的公共卫生

6、问题：WHO估计，全球每年25万至50万人因此死亡及时监测到疾病的传播情况，尽快采取应对措施 2008年，Google通过处理网络搜索日志中的几千亿查询数据，训练建立流感疾病监测的数学模型，比美国病控制和预防中心提前1-2周给出流感的传播情况论文发表在Nature (2009.2): Detecting Influenza Epidemics using Search Engine Query Data, 大数据技术对经济社会和科研都在产生重要影响科学研究,三种科研模式：理论、实验、计算第四模式：数据密集型的科学发现图灵奖获得者Jim Gray 2007年提出专辑：Nature

7、 (2008.9): ”Big Data”, Science (2011.2): ”Dealing with data”,大数据的影响, 2012年3月29日，美国政府宣布投资2亿美元启动“大数据研发计划” （ Big Data R reduce(String output_key, Iterator intermediate_values): / output_key: a word / output_values: a list of counts int result = 0; for each v in intermediate_values: result += ParseInt(

8、v); Emit(AsString(result);,其他示例,分布式检索 map函数挑选出满足特定模式的行，并将其组装成元组输出。 reduce函数是一个简单的确认函数，它完成的工作仅仅是将中间元组拷贝到输出中。计算URL访问频率 map函数处理web网页的访问日志，并输出。 reduce函数将每个URL的访问次数加起来，输出,其他示例,翻转web-link图在每个作为源的页面中，检查其连接URL，并逐个输出元组。 reduce函数将连接到每个target的所有source组合起来，形成list列表，输出每个站点的术语向量术语向量表示出在一篇文章中或者一组文章中最重要的单词，通常以元

9、组的方式。 map函数输出每个文章的（hostname通过文章的URL分析得到）。 reduce函数取出不常用的术语，将其余的相加，得到最终的对,其他示例,倒排索引 map函数分析每个文档,然后产生一个(词,文档号)对的序列.reduce函数接受一个给定词的所有对,排序相应的文档IDs,并且产生一个(词,文档ID列表)对.所有的输出对集形成一个简单的倒排索引分布式排序 map函数从每个记录提取key,并且产生一个(key,record)对.reduce函数不改变任何的对.,“实践是检验真理的唯一标准”,实践证明，MapReduce是出色的分布式计算模型 Google宣布，其对分布于1000

10、台计算机上的1TB数据进行排序仅仅需要68s 对4000台计算机上的1PB数据进行排序处理仅需要6小时2分钟（每次测试至少会损坏1块硬盘）在08年1月份，Google MapReduce平均每天的数据处理量是20PB，相当于美国国会图书馆当年5月份存档网络数据的240倍,Hadoop上的MapReduce,job: 是客户端程序想要完成的一系列工作的集合。包括输入数据，MapReduce程序和配置信息。 task: Hadoop将job分解为tasks 有两种类型的task: map task和reduce task jobtracker和tasktracker: 用来控制job执行的 ta

11、sktracker运行task，并向jobtracker报告进度信息 jobtracker记录下每一个job的进度信息，如果一个task失败，jobtracker会将其重新调度到另外的tasktracker上。,Hadoop-MapReduce工作原理,Hadoop Streaming and Pipes,Hadoop流允许用Java以外的语言来编写Map和Reduce函数 Hadoop管道 C+接口,流和管道及子进程的关系,进度和状态更新,Hadoop-MapReduce,Mapper public static class *Mapper extends Mapper Reducer p

12、ublic static class *Reducer extends educer Driver Package org.apache.hadoop.mapreduce.Job; org.apache.hadoop.mapreduce.Mapper; org.apache.hadoop.mapreduce.Reducer;,接口描述,public interface Mapper extends JobConfigurable, Closeable void map(K1 key, V1 value, OutputCollector output, Reporter reporter) th

13、rows IOException; public interface Reducer extends JobConfigurable, Closeable void reduce(K2 key, Iterator values, OutputCollector output, Reporter reporter) throws IOException; ,Mapper,public static class Map extends Mapper private final static IntWritable one = new IntWritable(1); private Text wor

14、d = new Text(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens() word.set(tokenizer.nextToken(); context.write(word, one); ,R

15、educer,public static class Reduce extends Reducer public void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException int sum = 0; for (IntWritable val : values) sum += val.get(); context.write(key, new IntWritable(sum); ,Driver,public static void main(String args

16、) throws Exception Configuration conf = new Configuration(); Job job = new Job(conf, wordcount); job.setJarByClass(WordCount.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); job.setMapperClass(Map.class); job.setReducerClass(Reduce.class); job.setInputFormatClass(TextInputFormat.class); job.setOutputFormatClass(TextOutputFormat.class); .addInputPath(job, new Path(args0); .setOutputPath(job, new Path(args1); job.waitForComplet

展开阅读全文

大数据及MapReduce编程模型94精编版

最新文档