主题一_解析大数据

上传人:xmg****18 文档编号:115836797 上传时间:2019-11-15 格式:PPT 页数:54 大小:7.21MB
返回 下载 相关 举报
主题一_解析大数据_第1页
第1页 / 共54页
主题一_解析大数据_第2页
第2页 / 共54页
主题一_解析大数据_第3页
第3页 / 共54页
主题一_解析大数据_第4页
第4页 / 共54页
主题一_解析大数据_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《主题一_解析大数据》由会员分享,可在线阅读,更多相关《主题一_解析大数据(54页珍藏版)》请在金锄头文库上搜索。

1、解析大数据解析大数据 一.大数据及分析应用 数据量快速增长 我们即将进入艾字节 时代,5个艾字节( Exabyte)相当于3.7 万个国会图书馆的信 息量。2006全年,全 世界就生产了160艾 字节的数字数据,是 已有全部书籍信息量 的300万倍。 B-KBMBGBTBPB EB-ZBYBBB (1KB=2的10次方B) 数据增长的来源增多 大量的非结构化数据 大数据有价值吗? 大数据的价值 获取有价值的数据 大数据经典案例 沃尔玛“啤酒加尿布”经典案例 Google成功预测SAS病毒 奥巴马大选连任成功(乔治.克鲁尼) 微软大数据成功预测奥斯卡 美国明尼苏达州一家塔吉特百货公司预测 高中生

2、怀孕 淘宝网数据预测胸部最大的是新疆妹子 一、数据的发展 (一)小数据 1、古代分配问题、庞涓之死 2、世界上对数据的使用 (二)大数据 1、bit-B-KB-M-G-T-P-E-Z-Y-D-N 2、百度首页导航每天就要从 超过1.5PB的数据中进行数据挖掘 “互联网+”的新生产要素构成:数据资源 二、大数据的定义与发展历程 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积 累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息 ,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造了 “大数据”概念。如今,这个概念几乎应用到了所有人类智力与发展的领 域中。 二、

3、大数据的定义与发展历程 20世纪90年代提出 大数据是指无法在一定时间内用传统数据库工具对其内容 进行抓取、管理和处理的数据集合麦肯锡 大数据是需要新处理模式才能具有更强的决策力、洞察发 现力和流程优化能力的海量、高增长率和多样化的信息资 产Gartner “4V”就是“大数据”的显著特征,或者说,只有具备这 些特点的数据,才是大数据。 大数据的构成 大数据,本质上是经济社会的 离散化解构与全息化重构, 表现为行业间海量数据的跨 界融合,行业内海量数据的 深度挖掘。 三、大数据技术分类 大数据技术分类大数据技术与工具 基础架构支持云计算平台 云存储设备及技术 虚拟化技术 网络技术 资源监控技术

4、 数据采集数据总线 ETL工具 数据存储分布式文件系统 关系型数据库 NoSQL技术 关系型与非关系型数据库融合 内存数据库 数据计算技术数据查询、统计与分析 数据预测与挖掘 图谱处理 BI商业智能 数据展示与交互图形与报表 可视化工具 增强现实技术 可穿戴设备 四、云计算定义 云计算方便您的生活 数据中心(多终端同步-透明) nPC / 笔记本 客户端 n浏览器 nPDA / 手机 / 相机 n电子相册 n电视 运算中心 n拍出的相片立即编辑修改 n在线编写文档、报告 n随时随地写日志 n随时随地的身体健康状况监控 云云 云计算 云计算的核心模式:大规模分布式计算,将计算、存储 、网络等资源

5、以服务的模式提供给多用户。 特点:简单资源访问、资源按需分配及更好利用、节约 成本。 云平台:存储型、计算型、综合型。 商业平台:AWS亚马逊、Google、MS 开源平台:Hadoop、OpenNebula、 Nimbus、OpenStack 云计算特点 超大规模:服务器群 虚拟化:可以看作是一片用于计算的云 高可靠性:冗余副本、负载均衡 通用性:支撑千变万化的实际应用 高可扩展性:灵活、动态伸缩 按需服务:按需购买 极其廉价:不再需要一次性购买超级电脑 安全: 摆脱数据丢失、病毒入侵 方便:支持多终端、数据共享 网格计算 利用并行计算 解决大型问题 公用计算 将计算资源 做为计量服 务 软

6、件即服务 (Software as a Service ) 基于网络预定 应用程序 于2001年推出 云计算 基于互联网的 相关服务的增 加、使用和交 付模式。 下一代英特网 计算,下一代 数据中心 Grid Computing Utility Computing SaaS Cloud Computing 云计算的演进 云计算演进 云计算技术体系结构 云计算实现机制 云计算的实现机制 云体系 云平台:构造云存储和云计算体系 大数据与云计算 u云计算的模式是业务模式,本质是数据处理技术。 u数据是资产,云为数据资产提供存储、访问和计算 u盘活资产,使其为国家治理、企业决策、个人生活服务 ,是大数

7、据核心议题,也是云计算的最终核心。 大数据与云计算 五、行业大数据解决方案 IT厂商大数据产品 Oracle服务器:Exalogic、Exadata、Exalytics EMCIsilon OneFS平台 Intel商业Hadoop平台 IBMInfoSphere大数据分析平台、Netezza一体机分析工具 SAPHANA分析应用软件、BO预测分析 MSSQL Server数据仓库 AmazonAWS云服务、商品推荐引擎 Facebook广告推广平台 Baidu智能化应用推荐系统 CMCC好友智能推荐引擎 Alibaba公有云服务、小额贷款金融服务 中国企业大数据现状 34 半结构化数据 结构

8、化数据 非结构化数据 企业非结构化数据越来越多中国500强企业日数据生成量 中国500强企业数据中心数据年增长率 中国企业级数据中心数据存储量正在快速增长, 非结构化数据呈指数倍增长,如果能有效的处理 和分析,非结构数据中也富含了对企业非常有价 值的信息。 六、中国企业大数据现状 35 1 3 各行业企业对大数据的关注程度 目前企业的数据系统架构存在问题 2 目前企业数据分析处理面临的问题 企业大数据应用需求分析 36 大数据 挑战 l l发卡量增长迅速:发卡量增长迅速:20082008年发卡约年发卡约500500万张,万张,20102010年增加了一倍。年增加了一倍。 l l业务数据增长迅速

9、:业务数据增长迅速:随着业务的迅猛增长,业务数据规模也线性膨 胀。 l数据存储、系统维护、数据有效利用都面临巨大压力。 需求 可扩展、高性能的数据仓库解决方案 能够实现业务数据的集中和整合;可以支持多样化和复杂化数据分析能够实现业务数据的集中和整合;可以支持多样化和复杂化数据分析 提升信用卡中心的业务效率;提升信用卡中心的业务效率;通过从数据仓库提取数据,改进和推动 有针对性的营销活动。 采用大数 据方案后 价值体现 实时的商业智能 可以结合实时、历史数据进行全局分析,风险管理部门现在可以每天评 估客户的行为,并决定对客户的信用额度在同一天进行调整;原有内 部系统、模型整体性能显著提高 秒级营

10、销秒级营销 Greenplum数据仓库解决方案提供了统一的客户视图,更有针对的进 行营销。2011年,中信银行信用卡中心通过其数据库营销平台进行了 1286个宣传活动,每个营销活动配置平均时间从2周缩短到2-3天。 EMC Green- plum 七、部分案例 大数据应用案例(农夫山泉) 37 大数据 挑战 l农夫山泉数据量变得越来越大,分销表中数据基数大,增速快,数据数据 展现速度越来越慢;展现速度越来越慢; l l数据运算速度越来越慢,已经让人无法忍受,影响业务的正常进行;数据运算速度越来越慢,已经让人无法忍受,影响业务的正常进行; l l数据更新慢,数据更新慢,采用传统的ETL(数据抽取

11、、转换、装载),农夫山泉的分 析系统数据基本上一天才能更新一次。 需求 能够应对海量数据的挑战,实现高效的逻辑运算、实时的数据分析以 及快速的数据展现的解决方案。 采用大数 据方案后 价值体现 实现了快速的数据展现 与原有商业智能报表展现方案相比,新方案数据展现速度快25-30倍; 形成了强大逻辑计算能力 测试了120多张已经上线的报表,基本上速度提升100150倍;SAP HANA和Business Objects 4.0组合只用了46秒就完成原来需要24小时 才能完成的逻辑计算; 实现了数据的实时、同步 HANA使得数据从业务系统中转换到HANA中时基本上没有任何延迟。 SAP HANA

12、大数据应用案例(“数字黄河”) 38 大数据 挑战 l数据激增,IT系统负担加重; l地域分隔,信息孤岛拉低效能; l无法共享,数据同步成为难题; l标准各异,数据规范有待统一。 需求 制定短期和长期技术规划,以适应未来信息系统的发展。 采用大数 据方案后 价值体现 解决跨平台异构应用系统的数据共享与集成问题 黄河水利委员会各部门随时获取其权限范围内的最新数据,而无须将 其存储在本部门系统中; 消除信息孤岛,实现数据统一管理 有效消除了各业务系统和各组织结构之间的信息孤岛,简单获取黄河 数据资源的单一视图,并确保了数据的完整性、及时性、准确性和一 致性,同时首次实现元数据的可视化统一管理 IB

13、M Info- Sphere 39 互联网行业拥抱大数据的关键因素 l互联网行业对数据实时分析要求较高 ,例如广告监测、B2C业务,往往要求 在数秒内返回上亿行数据的分析,从而 达到不影响用户体验和快速准确营销的 目的。 l目前互联网企业面对大数据,会普遍 感觉到实时分析能力差、海量数据处理 效率低、缺少分析方法、分析软件能力 差等问题。 互联网行业大数据分析面临的主要问题 互联网大数据技术的应用,会首先带动社会化媒体 、电子商务的快速发展,其他的互联网分支也会紧 追其后,整个行业在大数据的推动下将会蓬勃发展 。 八、行业应用 40 医疗大数据应用场景 l医疗行业产生的数据量 主要来自于PAC

14、S影像、 B超、病理分析等业务所 产生的非结构化数据。人 体不同部位、不同专科影 像的数据文件大小不一, PACS网络存储和传输要 采取不同策略。面对大数 据,医疗行业遇到前所未 有的挑战和机遇。 l医疗行业大数据应用场 景非常多,右图仅以临床 操作和研发为例,展示医 疗行业大数据应用场景。 l对于公共卫生部门,可 以通过过覆盖全国的患者 电子病历数据库,快速检 测传染病,进行全面的疫 情监测,并通过集成疾病 监测和响应程序,快速进 行响应。 比较效果研究 临床操作 临床决策支持系统 医疗数据透明度 远程病人监控 研发 预测建模 提高临床试验设计的统计工具和算法 疾病模式的分析 41 能源遇到

15、大数据 能源行业数据特征 能源勘探开发数据的类型众多,不同类型数据 包含的信息各具特点,综合各种数据所包含的 信息才能得出地下真实的地质状况。 能源行业面临的大数据问题 能源行业企业对大数据产品和解决方案的需 求集中体现在:可扩展存储、高带宽、可处理 不同格式数据的分析方案。 大数据行业应用 42 应用可能性 电信 政府(公共事业) 交通 金融 医疗 教育 能源(电力/ 石油) 纵轴契合度: 表示该用户的IT应用特 点与大数据特性的契合 程度; 横轴应用可能性:表示 该用户出于主客观因素 在短期内投资大数据的 可能性; 注: 该位置为分析师访谈的 综合印象,为定性分析 ,图中位置不代表具体 数

16、值 High Mid Low LowMid High 优先关注行业用户 应用特点与大数据技 术有较高的契合度, 在主客观条件上也有 较高的应用可能性。 值得关注行业 用户 应有特点与大 数据的契合度 及应用可能性 综合较高 适当关注行 业用户 两个维度暂 时都不具备 优势,可适 当给予关注 互联网(电 子商务) 契合度 流通零售 制造 43 21 互联网行业大数据主要应用在社交和网购方面结合位置数据、消费数据进行实时营销信息推送是电 信行业大数据应用主要场景 3 金融行业大数据应用场景主要集中在投资方面 4 制造行业具有多环节、多地域特色,各个环节的优 化是制造行业最关注的大数据应用场景 大数据潜在应用 44 应用领域应用领域典型案例典型案例 科学研究ARGO“全球海洋观测网”、美国国家生态观测网络NEON、MIT媒体实验室人类语 言习得研究、电视媒体与社交媒体的互动关系 教育与HRMCoursera、edX、Udacity在线教育平台、Kenexa HRM数据分析、

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号