{管理信息化大数据分析}大数据方案与案例

上传人:卓****库 文档编号:140935359 上传时间:2020-08-02 格式:PPTX 页数:46 大小:3.18MB
返回 下载 相关 举报
{管理信息化大数据分析}大数据方案与案例_第1页
第1页 / 共46页
{管理信息化大数据分析}大数据方案与案例_第2页
第2页 / 共46页
{管理信息化大数据分析}大数据方案与案例_第3页
第3页 / 共46页
{管理信息化大数据分析}大数据方案与案例_第4页
第4页 / 共46页
{管理信息化大数据分析}大数据方案与案例_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《{管理信息化大数据分析}大数据方案与案例》由会员分享,可在线阅读,更多相关《{管理信息化大数据分析}大数据方案与案例(46页珍藏版)》请在金锄头文库上搜索。

1、大数据(大数据)时代来临,大数据,People,Devices,Sensors,移动互联网 Mobile Internet,物联网 Internet of Things,1,新量级、新处理模式、新企业智能,大数据 要解决的问题,Volume 海量的数据规模,Variety 多样的数据类型,Value,Velocity 快速的数据流转,巨大的数据价值,3,Social Media,Machine / Sensor,DOC / Media,Web Clickstream,Apps,Call Log,Log,什么是半结构化/非结构化数据,大数据 带来的挑战,不同“看”数据的方式 需要更高性价比的数据

2、计算与储存方式 不同的数据管理策略 超越企业现有 IT 的数据解决能量,4,不同“看”数据的方式,5,可视:结构化资料 15%,未视:半/非结构化数据 85%,DB/DW,主管们看的 战情数位仪表板,其实是残缺的,10万 GB,10万 TB,需要更高性价比的数据计算与储存方式,6,数据库,数据仓库,计算更快 存储更省,7,不同的数据管理策略,当我们想要扩充时, 才发觉: 架构只能 scale-up, scale-out 不易 处理时间过长, time-to-value 受限 成本过高, cost-efficiency 受限,15% 结构化的 DB/DW,遗憾,残缺,每天几百 GB、 几 TB

3、的资料,且持续成长中,储存 Storing,在收数据的同时做必要的前置处理 (pre-processing) ,并区分数据处理的优先等级 (prioritizing),计算 Processing,如何有效的避免因硬件毁坏所导致的资料损毁,管理 Managing,如何从中挖掘出所关注事件的 pattern 或 behavior,分析 Analyzing,超越企业现有 IT 的数据解决能量,8,大数据的储存与处理/运算,大数据储存,大数据处理,数据分享,数据检索,数据分析,数据展现,分布式软件架构 并行计算框架,分布式存储 横向扩容(Scale-out) 架构,什么是大数据处理 (大数据 Proc

4、essing),Log file : 1.5TB / day,Hit Count,Word Count,什么是大数据处理 (大数据 Processing),177.23.21.50 - - 15/Nov/2011:00:07:45 GET /flower_store/product.screen?product_id=FL- 10 rv:1.8.0.10) Gecko/20070223 CentOS/1.5.0.10-0.1.el4.centos Firefox/1.5.0.10 1025 4463192.168.11.38 -,3rd party pre-defined Reporting,

5、Filter,String Truncation,Log file : 1.5TB / day,什么是大数据处理 (大数据 Processing),1.1 TB per-day,600 GB per-day,什么是大数据处理 (大数据 Processing),177.23.21.50 - - 15/Nov/2011:00:07:45 GET /flower_store/product.screen?product_id=FL- 10 rv:1.8.0.10) Gecko/20070223 CentOS/1.5.0.10-0.1.el4.centos Firefox/1.5.0.10 1025

6、4463192.168.11.38 -,A,B,C,D,X,Y,Z,O,P,Q,A,D,A,C,X,Event Sequence Diagram,RDB data,Event 范例 被浏览的网页 每笔网络交易所经历的每个程序或系统 .,Big Flat File for full text search,什么是大数据处理 (大数据 Processing),Signature,Meta Data,Meta Data,Tag Value,Tag Value,App,App,App,App,Media Extraction,File Transformation,什么是大数据处理 (大数据 Proc

7、essing),Social Media,Machine & Sensor Data,Media,Web Clickstream,Mobile Apps,Call Log,Splunk,BI/ Reporting,Customized Solutions,Database / Data Warehouse,Etu知意图的大数据解决方案,大数据储存,大数据处理,数据分享,数据检索,数据分析,数据展现,分布式软件架构 并行计算框架,分布式存储 横向扩容(Scale-out) 架构,大数据处理的平台解决方案 企业的资料云 硬件与软件一体 / 储存与运算合一,大数据 运算与储存,单一架构解决,Etu

8、Appliance,17,传统并行计算架构,并行计算 + 分布式存储,运算,储存,传统储存架构,计算与存储一体,计算向数据靠拢,高效专用存储模式 为程序员屏蔽通性、并发、同步与一致性等问题 任务之间无依赖(share-nothing),具有高系统延展性 (scale-out),Hadoop 的特性,Hadoop 不只是 Hadoop,18,大数据 Applications,SQL,RAW,关系数据库 vs Hadoop,连结关系数据库与 Hadoop,汇入与导出数据 Sqoop 查询与整合 Hive JDBC Driver (Java) Hive ODBC Driver (C+) Hive A

9、dd-in for Excel (by Microsoft) Thrift (C/C+, Python, Perl, PHP),Hive 简介,由 Facebook 开发 架构于 Hadoop 之上, 设计用来管理结构化数据的中间件 以 MapReduce 为执行环境 数据储存于HDFS上 Metadata 储存于RDMBS中 Hive的设计原则 采用类SQL语法 扩充性 Types, Functions, Formats, Scripts 性能与平水扩展能力兼具,Hive SQL like Hadoop Database,Driver (compiler, optimizer, execut

10、or),metastore,Data Node,Data Node,Data Node,Data Node,Hadoop Cluster,M/R,M/R,M/R,M/R,Web UI,CLI,JDBC ODBC,Create M/R Job,Sqoop SQL to Hadoop,JDBC,JDBC,JDBC,Map,Map,Map,HDFS/HIVE/HBase,SQL,Create Map Tasks,Sqoop 支援的 RDMBS,Oracle Netezza Teradata SQL Server Microsoft PDW MySql Postgre SQL,传统的数据处理流程,营运

11、信息,数据仓库,用户浏览日志,大部份删除,ETL部份资料,探索式的数据处理流程,广告效益分析 ? 促销活动分析 ? 电子报效益分析 ?,用户浏览日志,营运信息,数据仓库,27,Strictly NDA - Microsoft Confidential,Sensors,Devices,Web Log,Crawlers,ERP,CRM,LOB,APPs,Connectors,非结构化数据源,S S RS,SSAS,BI Platform,Familiar End User Tools,PowerView,Excel with PowerPivot,Embedded BI,Predictive An

12、alytics,结构化数据源,Hadoop,企业的 Hadoop 应用策略,应用一 : 参照 RDBMS 中的数据表,RDBMS,Customers,WebLogs,Products,应用二 : 脱机数据分析,RDBMS,Customers,Products,Sales History,RDBMS,Sales 2008,Sales 2009,Sales 2010,Sales 2008,应用三 : 历史数据与在线数据交互运用,应用四 : 利用 Hadoop 进行数据汇总,RDBMS,WebLogs,WebLog Summary,应用五: 利用 ODBC 连结 Excel & Hive,其他应用

13、- Etu Recommender建构在 Etu Appliance 上的精准推荐系统,Etu Recommender,Recommendation Engine,商品/内容 关联性分析,客户行为 相似性分析,客户海量量浏览数据,客户 交易数据,其他或 第三方资料,推荐清单,其他应用 - Etu Recommender建构在 Etu Appliance 上的精准推荐系统,Web Server,User DB,Product DB,Etu Recommender,商品浏览日志,用户数据,产品目录,推荐结果,API,其他应用 - Etu Recommender建构在 Etu Appliance 上

14、的精准推荐系统,Etu Recommender 精准推荐应用系统,个人化推荐清单,个人化EDM,个人化账单,百货,零售,流通,银行,连锁,媒体,虚拟通路 (在线),实体通路 (线下),结账,点击,浏览,搜寻,交易,购物车,推荐清单的运用不光只是在线服务,客户应用案例,需求 上亿个影像图文件 每个影像图文件大小约1020K 须集中管理 需满足图档的实时调阅与查询 现状 以SAN Storage来储存与管理所有的影像图文件 每个影像文件以档案目录方式来管理 以数据库来存放每个图像图文件之特征值 (meta-data)与文件路径, 供使用者查询与搜索,SAN Storage,DB,应用程序,应用程序,应用程序,应用程序,其他应用 海量小图档管理,其他应用 海量小图档管理,SAN Storage,DB,应用程序,应用程序,应用程序,应用程序,大量的查询与搜索造成SAN Storage接口的效能瓶颈, 响应时间太久,数据库对上亿条数据以上的查询效能不佳 无法支持全文搜索 无法支撑大量的关连性计算与分析,传统Storage对储存巨量小档案并不合适 每日新档案的导入响应时间太慢,导入Etu Appliance,运用支巨量资料高平行读写和存储之非关系数据库, 来储存巨量小图像图檔及其特征值,一次打通所有效能瓶颈,利用内建分布式文件系统作为提供其高可靠性的底层存储支持,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 企业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号