【精编】大数据研究现状及热点应用介绍

上传人:tang****xu2 文档编号:125546831 上传时间:2020-03-18 格式:PPT 页数:56 大小:12MB
返回 下载 相关 举报
【精编】大数据研究现状及热点应用介绍_第1页
第1页 / 共56页
【精编】大数据研究现状及热点应用介绍_第2页
第2页 / 共56页
【精编】大数据研究现状及热点应用介绍_第3页
第3页 / 共56页
【精编】大数据研究现状及热点应用介绍_第4页
第4页 / 共56页
【精编】大数据研究现状及热点应用介绍_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《【精编】大数据研究现状及热点应用介绍》由会员分享,可在线阅读,更多相关《【精编】大数据研究现状及热点应用介绍(56页珍藏版)》请在金锄头文库上搜索。

1、大数据交流提纲 顺序题目侧重点讲解人时间 1大数据研究现状及热点应用介绍 大数据发展 热点 应用 架构 黄绍辉9 00 10 00 2化工销售大数据应用设想 大数据价值 数据 资源分析 应用展 望 索寒生10 00 10 30 讲解和时间安排如下 大数据研究现状及热点应用介绍大数据研究现状及热点应用介绍 2014年5月 石化盈科信息技术有限责任公司MES事业部 目录 目录 二 大数据的技术实现 三 大数据的热点应用 四 大数据应用架构和技术架构 3 一 大数据的研究现状 一 大数据的研究现状 4 世界存储 传输与计算信息的技术能力 马丁 希尔伯特 普里西拉 洛佩兹 随着数字化信息的发展 人类产

2、生和储存的数据量呈现爆发式增长 全球的总存储数据量的量级已突破艾字 节 EB 甚至泽字节 ZB 1TB 1024GB 1PB 1024TB 1EB 1024PB 1ZB 1024EB 2000年 数字存储信息只占全球数据量的25 75 的信息存储在报纸 书籍 胶片 磁带上 到2007年 人类共存储超过300EB的数据 其中数字数据占到93 到2013年 全球总存储数据量达到1 2ZB 其中 数字数据占比将超过98 数字数据的存储量维持每三年增长一倍的高速增长 信息数据化程度的大幅提升 推动了大数据的商业价值显现 数字数据93 数字数据98 2000 数字数据25 2007 300EB 2013

3、 1 2ZB 一 大数据的研究现状 5 数字化信息的处理 以容量为标准的划分 1TB 1024GB 1PB 1024TB 1EB 1024PB 1ZB 1024EB 一 大数据的研究现状 6 据Wikibon公司测算 2012年全球大数据产值已经达到51亿美元 预计到2017年将达到534亿美元 年 均增速达到58 是同期IT产业增速的7倍 来源 Wikibon公司 2012年 7 2 2012年各行业大数据市场规模 计世资讯预测 2012年政府 互联网 电信 金融的大数据市场规模较大 四个行业将占据一 半市场份额 由于各个行业都存在大数据应用需求 潜在市 场空间非常可观 一 大数据的研究现状

4、 1 2011年 2016年中国大数据市场规模 计世资讯认为 2011年是中国大数据市场元年 一些大数据产品已经推出 部分行业也有大数据 应用案例的产生 2012年 2016年 将迎来大数 据市场的飞速发展 计世资讯预测 2013年大数据市场迎来增速为 138 3 的飞跃 2016年整个市场规模逼近百亿 0 81 138 107 110 92 90 0 30 60 120 150 0 20 40 60 80 100 市场规模 增长率 CCW Research 2012 04 互联网 15 电信 11 流通 4 金融 11 医疗 9 制造 9 教育 4 零售 6 能源 8 交通 4 政府 15

5、其他 4 CCW Research 2012 04 一 豌豆实验 大数据的应用之道 8 孟德尔 Gregor Johann Mendel 1822 1884 奥地利人 是遗传学的奠基人 1856年 孟德尔就开始了长达8年的豌豆实验 从不同种子供应商买来34个品种的豌豆 从中挑选出22个 品种用于实验 它们都具有某种可以相互区分的稳定性状 例如高茎或矮茎 圆料或皱料 灰色种皮或白 色种皮等 通过人工培植这些豌豆 对不同代的豌豆的性状和数目进行细致入微的观察 计数和分析 运用这样的实 验方法需要极大的耐心和严谨的态度 起初 孟德尔豌豆实验并不是有意为探索遗传规律而进行的 初衷是希望获得优良品种 只

6、是在试验的过 程中 逐步把重点转向了探索遗传规律 除了豌豆以外 孟德尔还对其他植物作了大量的类似研究 其中 包括玉米 紫罗兰和紫茉莉等 以证明1865年发现的遗传规律对大多数植物都适用 一 曹冲称象 大数据的分布处理之道 9 工具 秤 的处理能力有限 当超出其能力范围之后 应当如何处理 是造更大的工具 超级的大秤 还是智慧地将要称的物 大象 拆分成对等的物 石块 分而治之 是处理大事物的解决之道 只需将大事物分解到小工具能处理的大小 复制更多的小工具来 同时处理 最后将每一个部分的结果汇总起来 就是对大事物的处理结果 10 Google大数据的诞生 Google云计算 MapReduceBig

7、Table GFS Chubby 一 Google大数据 大数据的平台搭建之道 1998年 斯坦福大学的博士生拉里 佩奇和谢尔盖 布林在车库中创办了Google公司 两位年轻人没有找 到大笔的投资 不得不用廉价PC和自己动手做的小软件来构建网站 所依靠的最核心的3项技术就是 Google的分布式文件系统GFS MapReduce编程模式和分布式数据库BigTable 经过15年的发展 Google在全球部署了大约200万台服务器 每天处理数以亿计的搜索请求 存储每天 新增的24PB数据 一 诺兰模型 11 美国管理信息系统专家诺兰 Richard L Nolan 通过对200多个公司 部门发展

8、信息系统的 实践和经验的总结 提出了著名的信息系统进化的阶段模型 即诺兰模型 起步 只有个别人具有使用计算机的能力 一般发生在一个组织的财务部门 蔓延 数据处理能力迅速发展 出现数据冗余 不一致性 难以共享等问题 计算机使用效率不高 控制 成立了领导小组 采用了数据库技术 这一阶段是计算机管理变为数据管理的关键 集成 建立集中的DB及相应的IS 增加大量硬件 预算费用迅速增长 数据管理 开始选定统一的数据库平台 数据管理体系和信息管理平台 统一数据的管理和使用 各部门 各系统基本实现资源整合 信息共享 IT系统的规划及资源利用更加高效 成熟 信息系统可以满足企业各个层次的需求 从事务处理到高层

9、管理的决策 企业真正把IT同管理过程 结合起来 将组织内部 外部的资源充分整合和利用 提升了企业的竞争力和发展潜力 一 诺兰模型的总结 12 数据管理阶段 企业管理高层已经意识到企业信息战略的重要性 开始着手企业信息资源的统一规划 数据成熟阶段 企业和数据同步发展 数据是企业整体面貌的镜像 企业 以数据为镜 做出发展决策 尽管诺兰提出这一模型的时间是 20 世纪 80 年代 但在 30 多年后的今天 人们不难发现 他预见的准 确性 企业的信息化建设必然会走到以数据为中心的发展阶段 无论是否愿意 这条规律都是不可违背 一 大数据的研究现状 13 2004年 最初的版本由Doug Cutting和

10、Mike Cafarella开始实施 2006年1月 Doug Cutting加入雅虎 2006年2月 Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展 2006年2月 雅虎的网格计算团队 采用Hadoop 2011年12月 Cloudera 授权培训认证 正式进入中国 2012年5月28日 Apache Hadoop 2 0 Alpha 版本发布 2013年12月 除了社区的Apache hadoop发行版以外 cloudera hortonworks mapR EMC IBM INTEL 华为 等都提供了hadoop商业版本 发展过程 一 大数据的研究现状

11、 14 Gartner2012技术成熟度曲线 一 大数据的研究现状 15 Gartner2013技术成熟度曲线 近几年大数据不断加温 很多企业也的确面临数据量激增的现实困境 但大数据绝非仅仅是数据量大的挑 战 核心问题还是取决于数据挖掘背后所能产生的价值 在经历了一段热潮之后 大数据开始实实在在的 为企业解决问题 一 大数据的研究现状 16 应用可能性 电信 政府 公共事业 交通 金融 医疗 教育 能源 电力 石油 纵轴契合度 表示该用户的IT应用特 点 与大数据特性的契合 程度 横轴应用可能性 表示 该用户出于主客观因素 在 短期内投资大数据的 可能 性 High Mid Low LowMi

12、d High 优先关注行业用户 应用特点与大数据技 术有较高的契合度 在主客观条件上也有 较高的应用可能性 值得关注行业 用户 应有特点与大 数据的契合度 及应用可能性 综合较高 适当关注行 业用户 两个维度暂 时都不具备 优势 可适 当给予关注 互联网 电 子商务 契合度 流通零售 制造 大数据存在于各个行业领域 根基市场的关注度和技术成熟度将陆续应用 不同行业不同应用会使用不同的产品和方案来满足自身的实际需要 一 大数据的研究现状 17 国外业界对大数据宽泛的认知 第一 数据体量巨大 根据IDC的研究数据显示 预计到2015年全世界将会有8万亿GB的信息量 第二 数据类型繁多 包括以往文本

13、为主的结构化数据 也包括网络日志 音频 视频 图片 地理位置 信息等大量的非结构化数据 第三 处理速度快 1秒定律 第四 大数据的3V构成也导致其数据价值高但价值密度低的特点 也被称为大数据特点的第4个V 即数 据价值Value 8万亿 GB 2015全球信息量 1s 数据处理速度 85 非结构化数据占 比 数据价值 Volume 数据体量大 Variety 数据类型多 Velocity 处理速度快 Value 大量用户 群体 海量计算 大量数据管理 数据分析 一 大数据的研究现状 18 国内业内人士对大数据的认知 数据在线 知著 见微 晓意 大数 据的解决之道 目录 目录 二 大数据的技术实

14、现 三 大数据的热点应用 四 大数据应用架构和技术架构 19 一 大数据的研究现状 20 诞生 Google云计算 MapReduceBigTable GFS Chubby MapReduce MapReduce GFS HDFS BigTable Hbase Chubby ZooKeeper 二 大数据的技术实现 二 大数据的技术实现 21 大数据处理的平台解决方案 大数据储储存大数据处处理 数据分享 数据检检索 数据分析 数据展现现 分布式软件架构 并行计算框架 分布式存储 横向扩容 Scale out 架构 二 大数据的技术实现 22 Hadoop是个体系 HIVEHIVE Big Da

15、ta ApplicationsBig Data Applications Pig Pig ZooZoo KeeperKeeper SQLSQL RAWRAW 二 大数据的技术实现 23 大数据处理的平台解决方案 传统并行计算架构 并行计算 分布式存储 运算 储存 传统储存架构 计算与存储一体 计算向数据靠拢 高效专用存储模式 为程序员屏蔽通性 并发 同步与一致性等问题 任务之间无依赖 share nothing 具有高系统延展性 scale out 二 大数据的技术实现 24 Hadoop VS RDBMS RDBMSHadoop 资料量GB TBTB PB 存取方式交互式与批次批次 数据更新

16、多次读写一次写 多次读 数据结构固定 schema无 schema 资料一致性高 ACID 低 扩充性非线性线性 二 大数据的技术实现 25 Hive SQL like Hadoop Database Driver compiler optimizer executor metastore Data Node Data Node Data Node Data Node Hadoop Cluster M RM RM RM R Web UI CLI JDBC ODBC Create M R Job 二 大数据的技术实现 26 Sqoop SQL to Hadoop JDBCJDBCJDBC MapMapMap HDFS HIVE HBase SQL Create Map Tasks 二 大数据的技术实现 27 传统数据处理流程 运营信息 物料信息 工艺参数 操作信息 数据仓库 其他信息 大部份删除 ETL部份资料 二 大数据的技术实现 28 探索的数据处理流程 物料信息 工艺参数 操作信息 效益分析 工艺分析 报警分析 运营信息 数据仓库 二 大数据的技术实现 29 Spark 大数据的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号