大数据技术概论_第一节课_

上传人:lizhe****0001 文档编号:47798254 上传时间:2018-07-05 格式:PDF 页数:90 大小:3.77MB
返回 下载 相关 举报
大数据技术概论_第一节课__第1页
第1页 / 共90页
大数据技术概论_第一节课__第2页
第2页 / 共90页
大数据技术概论_第一节课__第3页
第3页 / 共90页
大数据技术概论_第一节课__第4页
第4页 / 共90页
大数据技术概论_第一节课__第5页
第5页 / 共90页
点击查看更多>>
资源描述

《大数据技术概论_第一节课_》由会员分享,可在线阅读,更多相关《大数据技术概论_第一节课_(90页珍藏版)》请在金锄头文库上搜索。

1、大数据技术概论 中国科学院大学工程学院 2015年秋季学期 课程简介 课程目的:随着数据的爆炸性增长,大数据管理 与分析已经成为业界十分关心的话题。本课程首 先阐述大数据的概念、特点及面临挑战,开源 Hadoop技术体系的原理、架构和实现,然后介绍 大数据解决方案以及实践 参考资料 课程用书: Hadoop权威指南,Tom White 参考资料 Mining of Massive Datasets,Anand Rajaraman Hadoop In Action, Chuck Lam, Manning Data-Intensive Text Processing with MapReduce,

2、 Jimmy Lin and Chris Dyer (www.umiacs.umd.edu/jimmylin/MapReduceMapReduce- book-final.pdf) 前期准备 理论 计算机原理 TCP/IP网络原理 数据结构 实践 Java编程 Linux系统操作 提纲 什么是大数据什么是大数据 大数据带来的技术挑战 Google的案例 课程设置 大数据是目前产业界和学术界的热点 科学就是数据,科学就是数据, 数据就是科学。数据就是科学。 数据就是石油数据就是石油 大数据是下一个大数据是下一个 Intel-inside 大数据的定义 维基(Wiki)百科的定义 Big data

3、 is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools 规模庞大,结构复杂,难以通过现有IT技术与工具处理的数 据集 IDC的定义 Big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very la

4、rge volumes of a wide variety of data, by enabling high-velocity capture,discovery, and/or analysis. 新一代的技术和架构,通过高速的数据获取、发现和分析技 术,以经济的方式从各种超大规模的数据中提取价值 Volume:规模大 从PB级到ZB级 1 ZB 106* PB Variety:多样化 结构化、非结构化 文本、图像、视频等 Velocity:变化快 批处理/离线数据、流/实时/在线数据等 Value:价值大/密度低 噪音和无用信息很多 大数据的特征:4V 大数据的特征Volume 全球IP

5、网一分钟传送639TB 发出2亿邮件 苹果的应用下载4.7万次 Amazon销售8.3美元 Pandora新增6万多首歌曲 Flickr有2千万次访问照片 Flickr新贴3000张照片 Twitter新增320个账户 Twitter上载10万条新微博 Facebook新增27.7万用户 Facebook发生6百万次访问 Google发生2百万次搜索查询 Youtube上载30小时的视频 Youtube发生130万次观看 大数据的特征Volume IDC报告预测:未来十年,全球数据量继续 迅速增长,年均增长率超过40% 2009年0.8ZB 2020年35ZB 华大基因测序目前每天产生华大基因

6、测序目前每天产生 数据约数据约15TB15TB,一年超过一年超过5PB5PB一一 欧洲欧洲CERNCERN对撞机每年产生的对撞机每年产生的 数据量超过数据量超过1515 PBPB 美国美国EarthScopeEarthScope每年产生数每年产生数 据超过据超过68TB68TB 一一 E E- -VLBIVLBI观测数据已经从观测数据已经从TB TB 量量 级进入到了级进入到了PB PB 量级量级 科学实验数据规模巨大,增长迅猛 大数据的特征Variety 结构化数据(Structured) VS. 非结构化数据 (Unstructured) 结构化数据是可以用二维表结构来逻辑表达实 现,并可

7、存储在数据库中的数据 非结构化数据则是指那些无法通过预先定义的 数据模型表述或无法存入关系型数据库表中的 数据 不同类型数据的发展态势 企业数据中,目前已有超过80%的数据是以非 结构化的形式存在的。 互联网领域,非结构化数据已占到整个数据量 比例的75%以上。 非结构化数据年增长速度约为63%,远超过结 构化数据增长速度32%。 12 大数据的特征Velocity 数据量增长越来越快 高速网络、传感网、空中卫星、无线移动通讯网络(5G) 需要处理的速度和响应越来越快 公共安全的需求:人脸识别、应急事件检测 商业利益的驱动: E-Promotions、 Healthcare monitorin

8、g: 全球全球39%的人是网民的人是网民 用户生产内容数量激增用户生产内容数量激增 用户生产内容数量激增用户生产内容数量激增 用户制作实时游戏视频/在线播放 Twitch月活跃用户达1亿,同比增长122% 手机依赖趋势上升手机依赖趋势上升 数据的生产-消费模式在改变 Old Model: 少数大型组织产生数据,其他人消费数据少数大型组织产生数据,其他人消费数据 New Model: 所有人产生数据,所有人消费数据所有人产生数据,所有人消费数据 18 大数据的特征Value 2001, Banko and Brill 发表 了一篇自然语言领域的经 典研究论文,探讨训练数 据集大小对分类精度的影

9、响,发现数据越大,精度 越高;更有趣的发现是, 他们发现当数据不断增长 时,不同算法的分类精度 趋向于相同,使得小数据 集时不同算法在精度上的 差别基本消失! (Brants et al., EMNLP 2007) (Banko and Brill, ACL 2001) 大数据的特征Value 2007, Brants et al. 描述了 一个基于2万亿个单词训 练数据集的语言模型, 比较了当时最先进的 Kneser-Ney smoothing 算 法与他们称之为“stupid backoff “ (愚蠢退避)的 简单算法,最后发现,后者 在小数据集时效果不佳, 但在大数据集时,该算 法最终

10、居然产生了更好 的语言模型! 大数据的特征Value Twitter:日本海啸、地震信息提前传播,协助 紧急事件的应急处理(2011); 微博: 7.21北京暴雨900万条(受灾分布)、 钓鱼岛4000万条(民众情绪) Google:2008年在甲型H1N1流感爆发几周前, 提前预测冬季流感的传播 阿里巴巴:提前8-9个月预测08年金融危机 淘宝网:根据你的消费与浏览商品,判断你可 能购买什么。 提纲 什么是大数据 大数据带来的技术挑战大数据带来的技术挑战 Google的案例 课程设置 大数据时代下的系统需求 存储和管理 存储PB级的处理 存储多种多样的数据 处理 处理PB级的多种数据 低延迟

11、读写速度 服务 高可扩展性 提供7*24小时不间断服务 成本 较低的软硬件成本 较低的人力成本 数据源(企业数据、互联网) 数据导入(提取、转换、加载) 数据存储(Oracle、Mysql) 数据计算(实时、离线) 数据挖掘(监督、非监督) 可视化 平 台 管 理 大数据处理面临的困难 在过去的7年里,与计算能力的增 长相比,数据规模以更高的指数级 速度增长:在线数据每年增长95%, 而根据摩尔定律,计算能力每年的 增长率为40% 分析 计算 存储 海量数据 HP实验室 提高计算机性能的方案 提高集成度: 摩尔定律:芯片集成度每18-24个月翻一倍,计 算性能提高一倍。 提高计算机性能的方案

12、提高处理器字长: Intel:4bits、8bits、16bits、32bits、64bits 提升处理器频率:(1990s-2004) 改进处理器微架构 指令级并行:RISC结构、五级流水线 单核处理单核处理 器性能提器性能提 升接近极升接近极 限!限! 微处理器芯片集成度与主频、功耗、性能的演变趋势图 2004后处理器 的性能不再像 人们预期那样 提高 单核处理器性能提升接近极限 VLSI集成度不可能无限制提高 芯片集成度已进入极小尺度级别,集成度不可 能无限制提高 单核处理器性能提升接近极限 处理器的指令级并行度提升接近极限 高级流水线等各种复杂的微体系结构技术都已 得到研究应用,难以进

13、一步挖掘更多的指令级 并行性 RISCRISC ARM FISCFISC CISCCISC Intel X86 数十种芯片 10W+ 1芯片对 千万应用 数百种芯片 1W+ 1芯片对 万应用 1 1个体系结构个体系结构,数千种芯片 0.1W+ 1芯片对 千应用 复杂指令集复杂指令集 精简指令集精简指令集 函数指令集函数指令集 单核处理器性能提升接近极限 2005年前,人们预期可以一直提升处理器主频 但2004年5月Intel处理器Tejas and Jayhawk(4GHz)因 无法解决散热问题最终放弃,标志着升频技术时 代的终结 Cite from Edward L. Bosworth, T

14、he Power Wall, 2010 2005年前 人们预计 的主频提 升路线图 2007年人 们大大降 低了主频 提升预期 2005年后 Intel转入 多核技术 功耗P=CV2f,C:时钟跳变时门电路电容,V:电压,f:主频 功耗墙功耗墙 单核处理器性能提升接近极限 功耗和散热大幅增加超过芯片承受能力 晶体管密度不断提高,单位面积功耗和散热大 幅增加 主频提高导致功耗和散热急剧增加 大数据处理面临的困难 分析 计算 存储 海量数据 数据存储和数据输入/输出的速度 是制约计算机体系发展的重要瓶颈 处理器速度和存储器速度差异越来越大 处理器性能每2年翻一倍,而存储器性能每6 年翻一倍 为了匹

15、配两者间速度差异,处理器需要做 越来越大的Cache CPU/内存的性能增长对比图 计算机硬件性能提升比较 数据访问速度严重受限 磁盘容量增长远快过存储访问带宽和延迟 80年代中期数十MB到今天1-2TB,增长10万倍,而带宽仅提高50倍,延迟仅提高2倍 ! 100TB数据顺序读一遍需要多少时间? 设硬盘读取访问速率128MB/秒 1TB/128MB 约2.17小时 100TB/128MB = 217小时 = 9天! 即使用百万元高速磁盘阵列(800MB/s),仍需1.5天! 多核、多处理器促进并行计算 并行计算(Parallel computing)是指在具有 并行处理能力的计算节点上,将一个计算 任务分解成多个并行子任务,并分配给不 同的处理器,各个处理器之间相互协同, 并行地执行子任务,从而达到加速计算速 度,或提升计算规模的目的。 并行计算技术的分类 共享内存(Shared Memory) 所有处理器通过总

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 教育/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号