大数据时代2

上传人:F****n 文档编号:96402144 上传时间:2019-08-26 格式:PPT 页数:31 大小:7.43MB
返回 下载 相关 举报
大数据时代2_第1页
第1页 / 共31页
大数据时代2_第2页
第2页 / 共31页
大数据时代2_第3页
第3页 / 共31页
大数据时代2_第4页
第4页 / 共31页
大数据时代2_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《大数据时代2》由会员分享,可在线阅读,更多相关《大数据时代2(31页珍藏版)》请在金锄头文库上搜索。

1、大数据时代,ERP班组 2012.11,全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年 每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年 推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年 每天亚马逊上将产生 6.3 百万笔订单 每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB Google 上每天需要处理24PB 的数据,在web 2.0的时代,人们从信息的被动接受者变成了主动创造者,Big Data时代到

2、来,大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长,Big Data时代到来,大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合,什么是Big Data,数据量巨大 全球在2010 年正式进入ZB 时代,IDC预计到2020 年,全球将总共拥有35ZB 的数据量,20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data,2011年5 月,在“云计算相遇大数据” 为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念,Big Data名词由来,相较于“大数据”一词在 2011 年才开始蹿红不同,在计算

3、机研究领域和产业界,“大数据”早已众人皆知,各大IT 巨头纷纷布局大数据业务,通过收购大数据相关厂商来实现技术整合,以图抢占全新的制高点,各大IT 企业纷纷推出自身的大数据分析产品,包括Google、IBM、EMC、Oracle、微软、惠普、SAP、Teradata ,这些企业几乎囊括了目前全球最顶尖的搜索服务、数据库、服务器、存储设备、企业解决方案的主要提供商,足以显示大数据在产业界的汹汹来势,Big Data名词由来,大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大量化(volumes)、多类别(variety

4、)的数据中提取价值(value),将是IT 领域新一代的技术与架构,什么是Big Data技术,云计算与大数据,白云下面数据跑,蓝蓝的天上白云飘,如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀!,分布式,“云计算”(Cloud Computing)是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。 百度百科,分布式计算是一门计算机科学,它研

5、究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。,CAP博弈,分区容错性是不能牺牲的,Key Value,分布式存储系统 查询速度快、存放数据量大、支持高并发 不能进行复杂的条件查询 辅以实时搜索引擎进行复杂条件检索、全文检索,可替代并发性能较低的关系型数据库,节省几十倍服务器数量,B+ Tree Hash算法,大数据时代下的系统需求,High performance 高并发读写的需求 高并发、实时动态获取和更新数据 Huge Storage 海量数据的高效率存储和访问的需求 类似SNS网站,海

6、量用户信息的高效率实时存储和查询 High Scalability & High Availability 高可扩展性和高可用性的需求 需要拥有快速横向扩展能力、提供7*24小时不间断服务,RDBMS VS. NoSQL,高并发读写,大数据存储的 核心需求,高效率存储 和访问,高可扩展性和高可用性,低成本建设 运维,保证一致性的开销过大,难以实现高并发 存储性能受限于控制器,性能难以保证,关系型表单存储难以适应不同数据类型 上亿行数据的超级达标效率极低,传统基于盘阵的存储设备,造价昂贵,且市场垄断严重,建设成本居高不下,扩容成本尤其高 许可和维护花费高昂,无法简单的通过添加服务节点来扩展数据容

7、量和负载能力,难以进行横向扩展 数据库升级需要停机维护和数据迁移,导致服务中断,不保证遵循ACID原则,提高并发读写性能,Schema-Free存储适应不同数据类型 舍弃SQL标准功能,尽量简化数据操作,提升效率 MapReduce实现高效访问,基于X86设备,价格低廉 开源系统,节省许可费用,支持水平扩展,可简单的通过添加服务节点来扩展数据容量和负载能力 数据库升级不影响服务持续,NoSQL,NoSQL运动两个核心理论基础: Google的BigTable BigTable提出了一种很有趣的数据模型,它将各列数据进行排序存储。数据值按范围分布在多台机器,数据更新操作有严格的一致性保证。 Am

8、azon的Dynamo Dynamo使用的是另外一种分布式模型。Dynamo的模型更简单,它将数据按key进行hash存储。其数据分片模型有比较强的容灾性,因此它实现的是相对松散的弱一致性:最终一致性。,NoSQL是Not Only SQL的缩写,而不是Not SQL,它不一定遵循传统数据库的一些基本要求,比如说遵循SQL标准、ACID属性、表结构等等。相比传统数据库,叫它分布式数据管理系统更贴切,数据存储被简化更灵活,重点被放在了分布式数据管理上。,Big Table,为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。,Key-Value映射: (row:st

9、ring, column:string, time:int64)string,数据模型,支撑技术,Bigtable的表会根据行键自动划分为片(tablet),片是负载均衡的单元。,用GFS来存储日志和数据文件 按SSTable文件格式存储数据 用Chubby管理元数据,参考文献: The Chubby lock service for loosely-coupled distributed systems Google论文,Big Table,一个供客户端使用的库 一个主服务器(master server) 许多片服务器(tablet server),Big Table集群,片的定位,B+树

10、Chubby file:保存root tablet的位置 root tablet:元数据表的第一个分片 其它的元数据片,NoSQL数据库,NoSQL数据库,使用现状,腾讯在天津投资建立亚洲最大的数据中心; 新浪推出企业微博产品,提供精准的数据分析服务。,商业价值,在大数据推动的商业革命暗涌中,要么学会使用大数据的杠杆创造商业价值,要么被大数据驱动的新生代商业格局淘汰。,标准的虚拟化及分布式存储 内存计算技术 SAP中国区企业信息 管理咨询资深顾问 杜韬,Hadoop 数据应用策略、数据流技术 机器学习算法 百度首席科学家 威廉.张,Hadoop 数据采集、数据存储、数据处理 Yahoo!北京全

11、球软件 研发中心架构师 韩轶平,持续创新传统的企业级数据仓库产品线 收购Aster Data Hadoop、MapReduce Teradata首席客户官 周俊凌,马云的判断来自于数据分析,商业价值淘宝,双“十一”背后的技术讨论,系统逻辑架构,系统物理架构,性能对比,Ocean Base,政府、金融、电信等行业投资建立大数据的处理分析手段,实现综合治理、业务开拓等目标;应用到制造等更多行业。,商业价值,结构化数据向非结构化数据演进,使得未来IT投资重点不再是建系统为核心,而是围绕大数据为核心; 海量数据可以在各个部门创造重大的财物价值,未来投资倾斜。,商业价值,用户行为分析,用户行为分析,用户行为分析,用户行为分析,用户行为分析,用户行为分析,用户行为分析,用户行为分析,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号