中石化-IBM大数据方案介绍

上传人:飞****9 文档编号:142973035 上传时间:2020-08-25 格式:PPT 页数:44 大小:7.20MB
返回 下载 相关 举报
中石化-IBM大数据方案介绍_第1页
第1页 / 共44页
中石化-IBM大数据方案介绍_第2页
第2页 / 共44页
中石化-IBM大数据方案介绍_第3页
第3页 / 共44页
中石化-IBM大数据方案介绍_第4页
第4页 / 共44页
中石化-IBM大数据方案介绍_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《中石化-IBM大数据方案介绍》由会员分享,可在线阅读,更多相关《中石化-IBM大数据方案介绍(44页珍藏版)》请在金锄头文库上搜索。

1、, 2012 IBM Corporation,2014年5月29日星期四,IBM大数据方案介绍 IBM 信息管理 软件部 , 2012 IBM Corporation,2,议程 应用场景和启发 IBM的大数据平台,? TBs,3,何来大数据,每天20 亿人浏 览网页 2011底 2012 IBM Corporation,30 亿/天 RFID 标签数据 (1.3B in 2005),46亿部 智能电 话,25+ TBs 日志数据/每天 7千6百万智能电表 in 2009 200M by 2014,12+ TBs 每天 智能手表、穿戴式电脑 每年新 增数亿 GPS设 备, 2012 IBM Co

2、rporation,4,大数据的4维,数据格式多,传输速度快,大数据量 不确定性, 2012 IBM Corporation,5,大数据为什么是现在?, 2012 IBM Corporation,6,大数据带来什么 表现优秀的企业使用分析技术的数量比表现较差的企业高五倍(见图1)。 调查来自100多个国家、30多个行业的近3,000高管、经理和分析员, 2012 IBM Corporation,7,大数据带来什么,消费意向,duke/unc and take it to the courts ,Im at Mickeys Irish Pub Downtown (206 3rd St, Cour

3、t Ave, Raleigh) w/ 2 others ,silliesylvia good! U shouldnt!,Think about the important stuff, like ur 43rd birthday ;),btw happy birthday Sylvia ;),地址,silliesylvia I 3 your leather leggings! Its so katniss!,年龄,个人属性, ,Sylvia Campbell, Female, In a Relationship 32 years old, birthday on 7/17,Lives near

4、 Raleigh, NC,College graduate; Income of 80-120k,喜爱和厌恶, Retweets BFs comments Interest in BBC shows: Downton Abbey, Sherlock, Fringe, (P private Text word = new Text(); public void map(Object key, Text val, Context StringTokenizer itr = new StringTokenizer(val.toString(); while (itr.hasMoreTokens()

5、word.set(itr.nextToken(); context.write(word, one); ,public static class IntSumReducer extends ReducerText,IntWritable,Text,IntWrita,private IntWritable result = new IntWritable(); public void reduce(Text key, Iterable val, Context context) int sum = 0; for (IntWritable v : val) sum += v.get(); . .

6、. MapReduce Application,Distribute map tasks to cluster Shuffle,Hadoop Data Nodes, 2012 IBM Corporation,16,InfoSphere BigInsights 有别亍开源的Hadoop, 2012 IBM Corporation,17,GPFS-SNC并行文件系统 vs HDFS BigInsights底层存储GPFS-SNC基于GPFS发展而来,与HDFS相比,在性能、 可靠性,易操作性方面具有巨大优势,是BigInsights强大的基石。, 2012 IBM Corporation,18,增

7、强的数据分析能力,企业级管理和处理能力的提升 SystemT文本分析器 - 基于Hadoop MapReduce文本分析,从非 结构化的文本数据中抓取出结构化,半结构化的数据便于分析和处理。 简单但是具有强大的扩展能力的JAQL语言。 统计分析平台project R, 以及机器智能学习systemML。 可视化的工具BigSheet用于展示和挖掘。 提升MapReduce仸务的处理性能。 解决Hadoop工作负载管理问题。, 2012 IBM Corporation,19,与IBM数据分析软件深度集成 通过DB2 Bridge to BigInsight提供统一的访问接口。 与分析应用和分析模

8、型进行端对端集成。 可以继续利用客户现有的分析平台的投资,降低整体的拥有成本,包 括企业级别的数据仓库集成能力(Netezza, DB2 , InfoSphere Warehouse)。, Import & Export Data Database & Files Web and Social Analyze and Query, ,Predictive Analytics Text Analytics SQL/Hive, Jaql, Pig, HBase 2012 IBM Corporation,BigInsight提供的应用开发界面,20 20, 2012 IBM Corporation,

9、拖拽的方式创建应用,21 21, 2012 IBM Corporation,BigSheets 大数据的分析展现工具, ,Model “big data” collected from various sources as collections (tabular structures) Filter and enrich content with built-in functions Combine data in different collections Visualize results through spreadsheets, charts Export data into com

10、mon,Sheets,formats (if desired) No programming knowledge needed!,22 22, 2012 IBM Corporation,23 23,BigSheets 大数据的分析展现工具, 2012 IBM Corporation,24,HDFS files: Hive-RC, text, delimited, JSON, SEQUENCE,HBase servers,HBase client API,ODBC Client,JDBC Client,SQL interface Server SQL Engine Parallel Execut

11、ion Engine,Hive MetaStore,Metastore,HCatalog,Client API Hive Storage Handlers,Hive-RC storage driver,Del storage driver,Text storage driver,JSON storage driver,HBase storage handler,Other Data Sources,(RDBMS, Web, etc.),IBM Big SQL 通过SQL访问所有大数据 利用MapReduce的并行机制 提供对各种数据源的接口, 2012 IBM Corporation,25,W

12、eb Results,RSS/License Feeds,Subscriptions,IBM Data Explorer 大数据搜索架构,Search Engine,Content, Document, Record Mgt. Systems,Databases,RSS/License Feeds,Collaboration Systems,Email and Email Archives,Internet (Web),CRM Systems File Systems,Knowledge Base Thesauri Acronyms Ontology Support Semantic Proc

13、essing,Federated Sources,Content Integration Query transformation & federation,Clustering Engine,User Profiles,Publish Search,Results Display Templates, robust transformation, XML feed,26,PureData for Analytics 基亍Netezza平台 支持海量关系数据分析挖掘,PureData for Transactional Analytics 基亍DB2数据仓库 支持海量数据的实时分析,InfoS

14、phere Streams 海量数据的实时分析平台,关系型数据仓库平台,流计算平台,信息集成平台,InfoSphere Information Server 大数据量的数据集成与转换,IBM 大数据平台 InfoSphere BigInsights 基亍Hadoop平台,低延迟高性能分析平台 支持非结构海量数据存储分析 Hadoop平台,PureData for Hadoop 基亍IBM BigInsight 支持海量非结构化的数据分析 2012 IBM Corporation,Streams 如何工作 ?,架构提供的服务 协调多物理节点的协同工作, 建立多节点的流连接 转换,标识, 连续的数

15、据获取 连续的分析过程 过滤 / 取样,关联 分类 将关联的数据进行碰撞匹配,减少通信延迟 通过将应用进行分割和网格部署实现高性能和高扩展性 应用可部署在由数据流连接的多个物理机器上,RFID,网络包traces,数字语音, 视频和图像数据 twitters 卫星数据(GPS),交易数据 ATM 交易,感应器数据,Stream 定位亍处理高频率数据、海量多来源数据、 分布式数据和事件来源 广泛的数据和事件来源,非结构化数据,结构化数据, 高可用密度数据 简单分析 规范定义的数据 高频率 (百万比/秒) 极低延迟 , 低可用密度数据 复杂分析 需要被监测的事件 高容量 (TB/秒) 低延迟,新闻

16、播报 天气预报,方位数据 web searches,Stream产品 一套基础软件平台 基于x86处理器平台和RHEL 5u3 64-bit 从单个笔记本扩展到大型集群 Single- and/or multi-core 处理节点 首个原型基于IBM Blue Gene TD Financial Group 世界最快 交易系统原型 处理 5百万 TAQ 事件/秒,平均延迟150 微妙 可为专门领域进行定制 Infrastructure selects analytic implementation appropriate to target GA 产品包括 w/, ,高度精简用于开发基于流计算的语言平台 开发工具 开发组件包 与 IBM 其它产品的整合, 2010 IBM Corporation,30,InfoSphere Streams 平台,运行环境 可扩展的Strea

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号