初识大数据_课件幻灯片

上传人:飞*** 文档编号:50719257 上传时间:2018-08-10 格式:PPT 页数:56 大小:10.33MB
返回 下载 相关 举报
初识大数据_课件幻灯片_第1页
第1页 / 共56页
初识大数据_课件幻灯片_第2页
第2页 / 共56页
初识大数据_课件幻灯片_第3页
第3页 / 共56页
初识大数据_课件幻灯片_第4页
第4页 / 共56页
初识大数据_课件幻灯片_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《初识大数据_课件幻灯片》由会员分享,可在线阅读,更多相关《初识大数据_课件幻灯片(56页珍藏版)》请在金锄头文库上搜索。

1、初识大数据CDO 数据平台事业部-数据交换平台 图海About me 花名:图海 姓名:王勇 个人介绍:8年数据领域工作经验,现任数据平台事业部高级技术专家,主要关注在大规模集群应 用优化,大数据技术架构及数据平台化建设方向。09年加入淘宝后参与了分布式数据 平台建设的全过程,主导过极限存储、集群计算优化、数据生命周期等项目,目前作 为架构师致力于打造阿里数据交换平台。 Email: 旺旺:图海 微博:淘图海sina分享大纲 数据的价值 大数据的时代背景 理解大数据 大数据的技术挑战 大数据的关键领域 大数据阿里 典型案例数据能为我们带来什么?数据的价值挑选男友找回自信吃货集中营当乔帮主遭遇

2、苍老师禽流感和板蓝根的爱情故事数据化运营行业分析大数据的时代背景1321世纪是数据信息大发展的时 代,移动互联、社交网络、电子商务 等极大拓展了互联网的边界和应用范 围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动 互联网(微博)、物联网(传感器, 智慧地球)、车联网、GPS、医学影 像、安全监控、金融(银行、股市、 保险)、电信(通话、短信)都在疯 狂产生着数据。“大数据”的诞生:半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的 程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学 和基因学,创造出了“大

3、数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域 中。大数据的时代背景14地球上至今总共的数据量:在2006 年,个人用户才刚刚迈进TB时代,全球 一共新产生了约180EB的数据;在2011 年,这个数字达到了1.8ZB。而有市场研究机构预测: 到2020 年,整个世界的数据总量将会增长44 倍 ,达到35.2ZB(1ZB=10 亿TB)!1GB = 230字节 1TB = 240字节 1PB = 250字节 1EB = 260字节 1ZB = 270字节大数据时代的爆炸增长15利用GPS数据了解交通状况智能电表应用级家庭能源监测2012年3月29日奥巴马政府公布了”大数据

4、研发计划”。该计划的目标是改进现有人们从海量和复杂的数 据中获取知识的能力,从而加速美国在科学与工程领域发明的步伐,增强国家安全,转变现有的教学 和学习方式。大数据的浪潮谷歌搜索与流感预测大数据与乔布斯的癌症治疗微博&投资沃尔玛的啤酒与纸尿布塔吉特预测少女怀孕沃尔玛蛋挞与飓风用品的关系“魔毯”病人的监控智慧城市&智能化交通谷歌翻译系统Farecast与飞机票预测系 统16理解大数据数据已经成为可以与物质资产和人力资本相提并论的重要的生产要素 麦肯锡大数据:下一个创新、竞争和生产力的前沿理解数据体系大数据阿里数据源ICTCUIC日志文本 文档离线处理引擎hadoopODPS/飞天流式计算引擎流计

5、算系统数据同步全量同步 集群对拷数据魔方 淘宝指数 黄金策 量子统计数据服务化 API调用 TOP数据开放平台聚石塔 DMP 物流数据平台 UDC 无线数据平台数据同步实时同步 全量同步在线处理服务 分布式KV数据库 实时多维分析 关系型数据库 分布式OLAP 数据中间层大数据处理平台大数据的技术领域大数据的技术领域大数据的技术领域-分布式系统大数据的技术领域-分布式系统l2002-2004,Apache Nutch问世 l2003-2006,Google陆续发布GFS、 MapReduce和BigTable相关论文 l2004,Dong Cutting将DFS&MapRecue 实现加入到N

6、utch lNutch0.8版本之后,Hadoop成为Apache 独立顶级项目 l2006,Dong Cutting进入雅虎带领团队继 续hadoop开发 l2009,Cloudera成立且Dong Cutting加入大数据的技术领域-分布式系统大规模离线处理l 硬件错误是常态 单块盘年故障率4%,一个5w块盘的集群日故障率99.6% 廉价的服务器和普通的网络环境 CPU,内存,网络,交换机故障高发 l 大规模数据集: PB级别 l 元数据与数据分离: NN保存元数据,DN保存物理数据 l 主/从架构: 中心服务器负责管理(NN,JT) l 数据切分为Chunk: 提高数据读写效率及并发度

7、l 多副本按策略存放: 确保数据安全 l 数据访问模型: Write-once-read-many Appending writes l 移动计算比移动数据更划算Hadoop-HDFSHadoop-MapReduce大数据的技术领域-分布式领域阿里分布式技术体系大规模离线处理: l ODPS飞天 l HiveHadoop流式计算引擎: l 流式计算系统在线处理服务: l 实时多维分析 l 分布式缓存 l 分布式KV数据库 l 关系型数据库 l 异构数据中间层离线处理引擎/云梯1基于开源Hadoop平台,提供面向阿里集团的海量数据存储和计算服务 云梯服务特色 单一大集群,多用户共享 计算分时,按

8、需申请,按使用计费 资源组隔离,超卖+最小配额保证集群合理利用 支持根据业务优先级调度 支持标准的类Unix ugi数据权限管理方式+ACL扩展权限管理方案 生产/开发/测试共享集群,白天开发,晚上生产 提供基于Hive SQL的数据访问及加工方式离线处理引擎/ODPS飞天飞天阿里云自主研发的大规模分布式计算系统,其中盘古和伏羲是分别 是飞天的分布式文件系统和资源管理组件。 与hadoop相比,飞天提供了MRR计算框架,实现了基于Paxos的多master 架构,同时实现了核心组件的热升级功能,在性能上不低于同等规模的 hadoop集群。ODPS : ODPS则是基于飞天平台的开放数据处理服务

9、(Open Data Processing Service,),提供大规模数据存储和分析的能力。 l 提供高级用户编程界面(SQL/MapReduce/Xlib) l 安全体系更加完整,拥有环境沙箱,并可以做到cell级权限控制 l 屏蔽底层系统复杂性,所有数据以Table形式呈现 l 以Restful方式提供标准API访问,元数据集中统一存放 l 系统抽象程度较好,便于为数据专业人员接受流式计算服务中的难点l多流join问题l负载均衡l故障恢复,容灾容错l热点数据缓存lUV计算,访问去重l数据一致性l流式结果复用流式计算服务Galaxy: 高吞吐、秒级延迟 面向不同类型用户编程接口(SQL,

10、语义层/Java) 集群服务化:多集群用户不感知,可运维迁移任务 支持图形化界面开发、运维流程整合 支持多计算引擎 内建自动化数据测试体系 支持数据重跑(Map/Reduce/Merge模型)在线处理服务/实时多维分析Garuda: 面向“高并发OLAP” 高并发、低延迟(毫秒秒) 列存储、全索引 亿级别数据大表,支持大表Join 支持SQL,任意维度组合查询、统计 可选存储引擎:内存表、SSD、SATA SQL/Mysql protocol在海量数据集的前提下,数据的上钻下钻,多维聚合分析 ,大表关联查询都面临要在短时间内聚合大量数据的挑战,传 统的报表工具或数据库系统都无法予以支撑大数据的

11、技术领域大数据的技术领域-数据交换平台数据同步批量同步实时同步分布式同 步数据加工工作流 (DAG)Adhoc查询任务设计数据挖掘数据管理元数据管 理生命周期数据质量血缘分析基础体系监控系统计量系统审计系统账户/安全 体系工作流 (DAG)生命周期大数据的技术领域-数据处理平台生命周期设置不同分区的原因交互区整合区近线区归档区访问频率高高-高-低访问方式随机随机-随机-顺序数据量小且稳定小且稳定小且稳定大并且持续增长存储成本高高-高-低时间推移周期性删除数据压缩极限存储周期性删除分区型数据常用于源数据,由daemon框架分发数据压缩任务适用于存量大变化小且有逻辑业务主键的数据,效果最高可达10

12、0:1数据Raid化利用离线系统提供的软raid算法处理数据,可以通用性的节省一 倍空间生命周期-策略冷数据中心历史的有价值的数据,但访问的概率很低,转移到更廉价的存储中心大数据的技术领域-数据处理平台大数据的技术领域大数据的技术领域-数据分析与挖掘数据分析不仅是个 工具,而且是门艺 术,优秀的数据分 析师不光要懂业务 、懂管理,懂分析 、还要懂创意、懂 设计、懂生活,所 以数据分析师也是 个艺术家。大数据的技术领域-数据分析与挖掘数据挖掘解决的四类问题: 分类问题 聚类问题 关联问题 预测问题常用算法: Kmeans, 逻辑回归,决策树,SVD分解,随机森林,大规模矩阵运算等大数据的技术领域

13、-数据分析与挖掘相关工具:SAS,R,Rhive/Rhadoop, Mahout,Xlib,OpenMPI大数据的技术领域-数据分析与挖掘数据分析师和挖掘专家是真正的数据淘金者大数据的技术领域大数据的技术领域-数据可视化p数据可视化主要旨在借助于图形化手段,清晰有效 地传达与沟通信息p为了有效地传达思想概念,美学形式与功能需要齐 头并进,通过直观地传达关键的方面与特征,从而 实现对于相当稀疏而又复杂的数据集的深入洞察p数据可视化的根本目的:传达与沟通信息大数据的技术领域-数据可视化大数据的技术领域-数据可视化大数据的技术领域-数据可视化数据可视化相关工具:Google Public Data

14、Explorer Instantatlas Data Desk DAVIX Eye-Sys Ferret Data Visualization and Analysis GGobi IBM OpenDX IDL (programming language) Style Intelligence OpenLink AJAX Toolkit ParaView Smile (software)信息可视化的相关方法: Cladogram (phylogeny) 分支图 Color alphabet 色彩字母表 Dendrogram (classification) 树状图 Information vi

15、sualization reference model 信息可视化 Graph drawing 图形绘制 Halo (visualization technique) 晕轮法 Heatmap 热力型地图 HyperbolicTree 双曲树 Multidimensional scaling 多维尺度分析 Problem Solving Environment 问题求 解环境 Treemapping 矩形式树状图阿里数据可视化实验室: http:/datavlab.org/datavjs/大数据的技术领域-人才结构大数据阿里大数据案例阿里 阿里金融 推动中国银行业的变革 商家小额贷款 无抵押无担

16、保 1秒钟贷款、24小时随借随还 信用支付 无准入门槛 基于数据模型自动计算额度大数据案例阿里 中国智能物流骨干网 阿里巴巴正在建立“中国智能物流骨干网”(CSN),预计 能支撑日均300亿元网络零售额,并确保全国范围24小 时内送达。建立社会化物流体系,提升物流个环节的 效率是本质要解决的问题。 CSN的核心要素是数据,数据可以帮助物流公司智 能规划配送网点、优化配送路线、规划仓储建设、 合并路线、爆仓预警等,从而达到社会化资源最优 。通过提供实时计算、大规模数据处理,以及数据 挖掘等技术能力,让中国的物流公司、商家、淘宝 、天猫等都通过数据平台参与到物流数据建设,从 而形成基于数据的中国下一代物流体系。大数据仅仅是工具和手段,不是目的其更大的意义在于便捷人们的生活,优化商业模式和组织

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号