大数据及云计算培训资料(演变史)

上传人:好** 文档编号:116129708 上传时间:2019-11-15 格式:PPTX 页数:53 大小:6.63MB
返回 下载 相关 举报
大数据及云计算培训资料(演变史)_第1页
第1页 / 共53页
大数据及云计算培训资料(演变史)_第2页
第2页 / 共53页
大数据及云计算培训资料(演变史)_第3页
第3页 / 共53页
大数据及云计算培训资料(演变史)_第4页
第4页 / 共53页
大数据及云计算培训资料(演变史)_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《大数据及云计算培训资料(演变史)》由会员分享,可在线阅读,更多相关《大数据及云计算培训资料(演变史)(53页珍藏版)》请在金锄头文库上搜索。

1、详解大数据、云计算 演变史 何为大?信息度量 ? 1Byte = 8 Bit ? 1KB = 1,024 Bytes ? 1MB = 1,024 KB = 1,048,576 Bytes ? 1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes ? 1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes ? 1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes ? 1EB = 1,024 PB = 1,048,576 TB =

2、 1,152,921,504,606,846,976 Bytes ? 1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes ? 1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes ?Google每天要处理超过24PB的数据 ?Facebook每天更新的照片量超过1 000万张 ?YouTube每月接待多达8亿的访客,平均每一 秒钟就会有一段长度在一小时以上的视频上 传 ?twitter上的信息量几乎每年翻一倍,截至 2012年,每天都会发布超过4亿条微博 数据都从哪里来? 互联网企

3、业 :SNS、微 博、视频 网 站、电子商 务网站 物联网、移 动设备 、终 端中的商品、 个人位置、 传感器采集 的数据 联通、移 动、电信等 通信和互联 网运营商 天文望远镜 拍摄的图 像、视频 数 据、气象学里 面的卫星云 图数据 表面张力 vs 万有引力 量变导致质变 ? 一个月吃一碗饭 ? 一天吃一碗饭 ? 一餐吃一碗饭 ? 一个小时吃一碗饭 ? 一分钟吃一碗饭 ? 一秒吃一碗饭 这么多数据要放哪里?怎样处理? 不要问我从哪里来的 “不知所云” ? 通过使计算分布在大量的分布式计算机上,而非本地计算机或远 程服务器中,企业数据中心的运行将与互联网更相似。这使得企 业能够将资源切换到需

4、要的应用上,根据需求访问计算机和存储 系统。 服务特征 用户只需要一台具备基本计算能力的计算设备 以及 一个有效的互联网连接,就可以随时随地使用该服 务 随时随地 用户具备使用该服务的需求,但是并不具备独立提 供该服务的经济 或者技术条件 低成本 云计算平台提供计算能力(包括处理器、内存、存 储、网络接口),但是并不关心用户的应用类型 按需供应 按量计 费 把计算能力像水和电一样提供给用户 什么是云计算 权威定义 ? Wiki定义: ? 云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化的资源 的计算模式。 ? 美国国家标准与技术研究院(NIST)定义: ? 云计算是一种按使用

5、量付费的模式,这种模式提供可用的、便捷的、按 需的网络访问, 进入可配置的计算资源共享池(资源包括网络,服务器 ,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少 的管理工作,或与服务供应商进行很少的交互。 Google 野望 “浏览器操作系统” ?向互联网迁移应用 ?向互联网迁移数据 ?向互联网迁移计算 ?向互联网迁移存储 IaaS基础设施云 (代表:亚马逊的S3) SaaS 应用云 (代表:salesforce的CRM) PaaS 平台云 (代表:Google App Engine) 私有云 (数据中心 内部网) 公共云 (服务提供商 互连网) 混合云 (公共和私有) XX 就

6、是服务 亚马逊IaaS应用案例:纽约时 报 使用亚马逊 云计算服务 ?效果:在不到 24个小时的时 间里处理了1100万篇文章 ?费用:累计花费240美元 利用自己服务器 ?时间 :数月时间 ?费用:多得多的费用 16 Google 云计算SaaS 提供在线“Word、Excel、PPT” 提供在线MAP 提供在线日历管理 软件终结者 ? 可提供随需应用的客户关系管理(On- demandCRM) ? 允许客户与独立软件供应商定制并整合其产 品,同时建立他们各自所需的应用软件 ? Salesforce CRM 价格分别有5美元,17美元 ,65美元,125美元和250美元的不同版本 云计算的演

7、化 电电厂模式 ?利用电厂的 规模效应, 来降低电力 的价格,并 让用户使用 起来更方便 效用计计算 ?1960年的计算 设备的价格是 非常高昂的, 远非普通企 业、学校和机 构所能承受 网格计计算 ?如何把一个非 常巨大的计算 问题切分成许 多小块,然后 分配给许多普 通的PC来处理 云计计算 ?需求有了一定 的规模,技术 也已经成熟 2006年8月9日 Google CEO埃里克·施密特(Eric Schmidt)在搜索引擎大会 (SESSanJose 2006) 首次提出“云计算”(CloudComputing)的概念。 ? 1996年,互联网上只有一万多个网站,现在有一亿六千

8、万个 ? 96年能上网的人基本上使用28.8或者33.6Kbps的猫,高速的 56Kbps猫直到97年才出来 ? 640×480才是主流,800×600是高端 90年代 19972013 1998年 Googol ? Google ? 1 0000000000 0000000000 0000000000 0000000000 0000000000 0000000000 0000000000 0000000000 0000000000 Google的BID PROBLEM ? 海量数据 ? 快速处理 全球Web 数据 邮件数据 地图数据 卫星照片 搜索排名 Google的Pa

9、geRank 技术 ? PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。 ? 评估每个投票网页的重要性,因为某些网页的投票被认为具有较 高的价值,这样,它所链接的网页就能获得较高的价值。 ? 杜绝人工干预或操纵 Google的海量数据怎样存储? 摩尔定律正在走向终结 Ø单芯片容纳晶体管的增加,对制造工艺提出要求 ØCPU制造18nm技术,电子泄漏问题 ØCPU主频已达3GHz时代,难以继续提高 ü散热问题(发热太大,且难以驱散) ü功耗太高 GoogleGoogle云云计

10、计计计算算应应应应用用 MapReduceMapReduce 并行数据处理 BigTableBigTable 结构化数据表 GFSGFS 分布式文件系统 ChubbyChubby 分布式锁 1. GFS设计原则: Ø机器失效不能视为异常现象 Ø能应付对大型/超大型文件处理 Ø支持大量用户同时访问 1. GFS组成 ØGFS集群:一个的Master和多个ChunkServer(块服务器)组成,并可以多 客户端Client访问 2. GFS设计要点 Ø每个文件拆成若干个64M文件块Chunk组成 Ø每个Chunk都由Master根据其创建

11、时间指定Chunk Handle(64) Ø文件块被保存在ChunkServer本地磁盘中 Ø缺省情况下3处热备份Chunk块文件 GFS P2P传输协议 多源文件传输协议 MFTP the Multisource FileTransfer Protocol ?BitTorrent专门为大容量文件的共享而设计, 它采用了一种像传销一样的通讯方式。 P2P MapReduce Google MapReduce 架构设计师 Jeffrey Dean 只要执行的简单计算,而将 并行化、容错、数据分布、 负载均衡的等杂乱细节放在 一个库里,使并行编程时不 必关心它们 只需要编写两个

12、函数: ?/产生映射关系 ?Map:(in_key, in_value) ?/对相同的key进行归类处理 ?Reduce:(key,value 1,value 2) 输入 ?Hello World Bye World ?Hello China Bye China ?Hello Si-tech Bye Si- tech Map Reduce 输出 ?Hello :3 ?Bye :3 ?China :2 ?World :2 ?Si-tech:2 例子:单词统计 ? Map (key, value) ? ? for ( each world in value) ?collect(world,1);

13、? ? Reduce (key, value ) int count = 0; for (each w in value) count +; collect (key, count); 第一步 编码 第二步 分割 分割 Hello World Bye World Hello China Bye China Hello Si- tech Bye Si-tech Hello World Bye World Hello China Bye China Hello Si-tech Bye Si-tech 第三步 Map(映射) Hello World Bye World Hello 1 World 1

14、 Bye 1 World 1 Hello China Bye China Hello 1 China 1 Bye 1 China 1 Hello Si- tech Bye Si-tech Hello 1 Si-tech 1 Bye 1 Si-tech 1 第四步 Fold(合并) Map ?Hello 1,World 1,Bye 1, World 1 ?Hello 1, China 1, Bye 1, China 1 ?Hello 1, Si-tech 1, Bye 1, Si-tech 1 Fold ?Hello 1, Hello 1, Hello 1 ?Bye 1, Bye 1, Bye

15、1 ?World 1, World 1 ?China 1, China 1 ?Si-Tech 1 Si Tech 1 第五步 Reduce(归纳) Fold ?Hello 1, Hello 1, Hello 1 ?Bye 1, Bye 1, Bye 1 ?World 1, World 1 ?China 1, China 1 ?Si-Tech 1 Si Tech 1 Reduce ?Hello 3 ?Bye 3 ?World 2 ?China 2 ?Si-Tech 2 大数据、云计算有什么用? ? 马云成功预测 2008 年经济危机 ? “2008 年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧

16、美对中 国 采购在下滑。海关是卖了货,出去以后再获得数据;而我们提前 半年时间 从询盘上推断出世界贸易发生变化了。” 其他云平台 中间层 REST ?方便和优雅地 多租户 ?隔离性和安全性 ?降低成本 并行处理 ?海量数据 应用服务器 分布式缓存 ?降低服务器压力 ?提高反应速度 显示层 HTML JavaScript CSSFlash Silverlight 云计算平台 存储型云平 台 ?以数据存储 为主 计算型云平 台 ?以数据处理 为主 综合云计 算平台 ?计算和数据 存储处 理兼 顾 商业化云计算平台 公司技术术特性核心技术术企业业服务务开发语发语 言 微软整合其所用软件及数 据服务 大型应用软件开发技术Azure平台.NET Google储存及运算水平扩充 能力 平行分散技术MapReduce, BigTable,GFS Google AppEngine,应用代管服 务 Python,Java IBM整合其所有软件及硬 件服务 网格技术,分布式存储,动态 负载 虚拟资源池提供,企业云计算整 合方案 Oracle软硬件弹性虚拟平台Oracle的数据存储技术,Sun开 源技术 EC2上的Oracle数据库, OracleVM

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 事务文书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号