《大数据智能分析解决方案介绍-ibm》由会员分享,可在线阅读,更多相关《大数据智能分析解决方案介绍-ibm(64页珍藏版)》请在金锄头文库上搜索。
1、 Copyright IBM Corporation 2012 Analytics and Big Data Analytics and Big Data on Poweron Power方案及案例分方案及案例分 享享 Analytics and Big Data on Power方案及案例分享课程 Page 2Page 2 目录 大数据与分析概述 高性能运算Symphony解决方案 DB2 BLU助力高性能数据集市 大数据案例分析 Analytics and Big Data on Power方案及案例分享课程 Page 3Page 3 大数据与分析概述 Analytics and Big
2、Data on Power方案及案例分享课程 Page 4Page 4 “上个月在瑞士达沃斯举 行的世界经济论坛上,大数 据是一个热点话题。在论 坛的一份报告大数据, 大影响中声明: 数据已 成为一类新的经济资产, 就像货币或黄金一样. “公司被数据淹没了 从客户的习惯到供应链 的效率。但是许多经理 却不能理解这些数据的 意义.” “越来越多的企业使用大众 媒体去分析公众对产品的反 馈,例如Facebook或 Twitter, 也有使用网站资源 试着“了解客户,是什么让 他们选择他们想要的东西” 负责IBM预测分析项目的迪 阿德瓦说。“ “大数据已抵达Seton医 疗保健家庭,幸运的是, 通
3、过使用这个分析工具,每 年超过200万复杂病例的 患者得到了帮助” “数据是新型石油” 未开采的石油,没有什么价值。 加工及提炼后,将助力世界。 “现在,沃森 正投入 到工作中,消化了数百 万页的研究, 结合最佳 的临床实践和监测结果 ,以协助医生治疗癌症 患者.” 奥斯卡情感测量 一 种工具,是由洛杉矶时 报、IBM和南加州大学 安创新实验室共同开发 的 分析意见,“主要 针对Twitter上共享的 百万条奥斯卡奖项比赛 的公共信息做出的分析 意见.”“数据是新型石油.” Clive Humby Analytics and Big Data on Power方案及案例分享课程 Page 5P
4、age 5 大数据来自哪里? 截至 2011 年 末网络上有 超过 20 亿人 现在有300 亿 个 RFID 记 (2005 年时有 13 亿) 全球有46 亿 台照相手 机 每年售出数 亿台支持 GPS 的设 备 在 2009 年有7600万 台智 能仪表 至 2014 年将达到 2 亿台 每天有超过3亿 活跃用户 每天有超 过25 TB 日志数据 每天有 超过 1亿 条消息 Analytics and Big Data on Power方案及案例分享课程 Page 6Page 6 大数据的特点 综合分析覆盖面越来越 宽的种类 应对日益增长的速度 有效地处理日益 增长的数量 建立大数据来源
5、的 真实性 三分之一商界领袖感到无法信任那些帮 助他们做决策的信息 50x 35 ZB 20202010 300亿 RFID传感器和 计数器 世界上80%的 数据是非结构 化的 Analytics and Big Data on Power方案及案例分享课程 Page 7Page 7 大数据会影响到您业务的方方面面 了解关于您客户的一切 从渠道交互到社交媒体,通过分析所有数据来源帮 助您了解您的每位客户 零延迟操作 分析所有可用的操作数据并且实时做出反应,从而 优化流程。通过成本效益技术降低IT成本。 在速度和规模上实现新产品创新 捕获所有来源的反馈,分析庞大的市场环境,研究 大量的数据,从而
6、推动创新。 即时的欺诈和风险意识 通过分析所有可用数据来打造更好的欺诈/风险模 型,用流数据交易分析来实时监测欺诈 利用仪表化资产 监控资产通过实时数据反馈来预测和预防维修问题 ,并且开发新产品和新服务。 Analytics and Big Data on Power方案及案例分享课程 Page 8Page 8 大数据主要与大型数据集相关 在大数据的新世界中,我们必须更换所有陈旧系统 大数据就是 Hadoop 较为陈旧的事务数据已经不再重要 数据仓库已是昨日黄花 大数据适合熟知互联网的企业。传统业务与大数据毫无关系 我们不具备相应的需求、预算或者技能,因此我们不必为此担心 人们对于大数据的观点
7、是怎样的 Analytics and Big Data on Power方案及案例分享课程 Page 9Page 9 研究显示了实施大数据的4个阶段 大数据采用 当基于当前的大数据活动级别而划分为 4 个小组时,受调查者在组织行为上表现出显 著的一致性 受调查者总数 n = 1061 由于舍入原因,各个比例总和不等于 100% 6% 部署两个或更多大 数据计划,继续应 用高级分析 占总受调查者的百分比 执行 22% 试点大数据计划, 以验证价值和需求 占总受调查者的百分比 试点 47% 基于业务需求和挑 战开发战略和路线 图 占总受调查者的百分比 探索 24% 专注于知识收集和 市场观察 占总
8、受调查者的百分比 学习 Analytics and Big Data on Power方案及案例分享课程 Page 10Page 10 智慧分析 数据仓库 大数据平台 加速器 流 计算 数据 仓库 Hadoop 系统 信息整合与治理 应用开发发现 系统 管理 内容管理数据仓库流计算Hadoop 系统 信息整合与治理 大数据平台 系统、存储和云 业务分析 内容 分析 决策管理风险 分析 绩效管理 商业智能与预测分析 大数据分析 内容 分析 预测分析决策管理 社交媒体分析 分析整合与治理 IBM提供了全面的、整合化的大数据和分析方法 Analytics and Big Data on Power方
9、案及案例分享课程 Page 11Page 11 Hadoop 系统 管理多样化海量数据 企业级应用增强了开源 Hadoop能力 流计算 用于分析流动的数据 能够处理分析多种数据 通过 高级分析运算符来支持结构化 ,非结构化,视频,音频等 数据仓库 工作负载均衡的MPP架构, 支持高性能的OLAP及混合型 的操作和分析负载 数据可视化 企业级搜索引擎 图形展现海量分析结果 IBM大数据平台 Analytics and Big Data on Power方案及案例分享课程 Page 12Page 12 BAO方案整体技术架构 从哪里 来? 是谁? 到哪里 去? Analytics and Big
10、Data on Power方案及案例分享课程 Page 13Page 13 大数据解决方案出现之前传统的计算模式 数据源数据抽取数据仓库 场景模型 策略 / 计划 平衡计分卡 预测 / 预报 绩效分析 价值分析 数据集市数据分析前端展示 风险 分析 企业数据仓库 数据仓库 事实表 E T L 工 具 数 据 管 理 基于门户 的 Web页面 固定报表 多维分析 即席查询 数据集市 MOLAP Relational 立 方 体 管 理 行业情报 ERP HR SCM CRM Statistics 外部数据 财务预 算数据 员工状态 设备状态 客户信息 分析报告 ETL: 抽取、转换 和加载 An
11、alytics and Big Data on Power方案及案例分享课程 Page 14Page 14 数据源数据抽取数据仓库 场景模型 策略 / 计划 平衡计分卡 预测 / 预报 绩效分析 价值分析 数据集市数据分析前端展示 风险 分析 企业数据仓库 数据仓库 事实表 E T L 工 具 数 据 管 理 基于门户的 Web页面 固定报表 多维分析 即席查询 数据集市 MOLAP Relational 立 方 体 管 理 行业情报 ERP HR SCM CRM Statistics 外部数据 财务预算数据 员工状态 设备状态 客户信息 分析报告 ETL: 抽取、转换和加载 电商、微博、社交
12、网 站、平安城市等产生 大量社交数据、日 志、图片、视音频数 据. 海量数据汇总、统计 耗时太长,满足不了 业务部门的时效性需 求; 传统计算模式遇到的困难 某些业务部门需要实 时数据分析,数据一 边产生,一边进行分 析,以应对市场压力 数据产生速度快,数 据量巨大,种类繁多 ,非结构化数据占了 80%以上 Analytics and Big Data on Power方案及案例分享课程 Page 15Page 15 Hadoop 并行计算模式 n HDFSHadoop Distributed File System。 n HDFS为了做到可靠性(reliability)创建了多份数据块(da
13、ta blocks) 的复制(replicas),并将它们放置在服务器群的计算节点中(compute nodes),MapReduce就可以在它们所在的节点上处理这些数据了。 n MapReduce Analytics and Big Data on Power方案及案例分享课程 Page 16Page 16 大数据技术与传统数据处理技术的关系 超越和补充传统数据处理技术 实时 数据处理 Internet 级别 海量数据 存储与分析 传统 数据仓库 In-Motion Analytics Data Analytics, Data Operations 1000 并发 jobs/job trac
14、ker SOA架构,共享服务(reuse JVM across many tasks) 使用TCP原语和二进制编码,取代 http and text/XML Push protocol avoids task tracker pulling tasks and the delay caused by pulling interval 专利的 asynchronous persistency protocol 以保证可靠性和性能 Note: Hadoop Results were published by Cloudera at Hadoop World event Dec, 2011. Had
15、oop jar example.jar sleep mt 1 rt 1 m 5000 r 1 Tested on 10 hosts 21 Analytics and Big Data on Power方案及案例分享课程 Page 22Page 22 IBM大数据平台优势2-高可靠 从硬件、文件系统和分布式计算框架所有层面采用高可靠设计架构,杜绝基于开源产品的不可 靠问题 Symphony计算框架:经过接近20年全球成功企业应用考验的高可靠性框架,不仅本身可靠性 高,不存在单点故障,而且通过对下层硬件资源的先进管理功能,实现物理资源与逻辑资源的 解耦,实现资源的动态加减和黑名单等机制,彻底解决硬
16、件故障的透明failover问题 GPFS-FPO文件系统:经过20多年全球无数应用验证的分布式文件系统,成熟、可靠,GPFS- FPO采用去中心化设计(元数据分散存储),天生不存在NameNode的单点故障和可靠性瓶 颈问题 PowerLinux在RAS特性方面全面领先X86平台 Analytics and Big Data on Power方案及案例分享课程 Page 23Page 23 IBM大数据平台优势3-好维护 Analytics and Big Data on Power方案及案例分享课程 Page 24Page 24 IBM大数据平台优势4-高度兼容性 Symphony和GPFS具有最广泛的兼容性,只要是基于Hadoop架构标准接口开发的软件都可 以100%兼容,如Hadoop Hbase, Pig, Hive, Java MR, Oozie等各种知名的Hadoop开源方 案