华为大数据解决方案汇报v2.0

上传人:suns****4568 文档编号:60871625 上传时间:2018-11-19 格式:PDF 页数:68 大小:6.47MB
返回 下载 相关 举报
华为大数据解决方案汇报v2.0_第1页
第1页 / 共68页
华为大数据解决方案汇报v2.0_第2页
第2页 / 共68页
华为大数据解决方案汇报v2.0_第3页
第3页 / 共68页
华为大数据解决方案汇报v2.0_第4页
第4页 / 共68页
华为大数据解决方案汇报v2.0_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《华为大数据解决方案汇报v2.0》由会员分享,可在线阅读,更多相关《华为大数据解决方案汇报v2.0(68页珍藏版)》请在金锄头文库上搜索。

1、华为大数据解决方案汇报 -FusionInsight金融大数据解决方案 1 ContentContent 大数据发展趋势 1 1 3 3 华为大数据平台行业实践 2 2 华为大数据平台关键技术 4 4 华为大数据平台案列详述 2 未来银行:客户更加移动化、个性化、社交化,实时化 固定时间地点获取服务 被动接受数据 寻求更多资源 信任市场信息 被动接受传播 传统客户 随时随地获取服务 分析、创造数据 寻找有意义的体验 互动参与内容、产 品和体验的创建 审视细节 新客户 传统银行 关注过程和步骤 固定渠道单一交互 通过客户经理联系客户 标准化和产业化提供服务 被动接受信息且信息来源单一 关注场景

2、营销 客户 运营 客户 服务 客户 个性化的 灵活服务 效率 全渠道 新银行 3 第二数据平台成为驱动业务创新的新平台 或有金融资产 统一历史明细 在线征信 精准营销 实时营销 第一数据平面: 交易核心 单次、事务性 第二数据平面: 大数据平台 并发、查询/分析 POS ATM 柜面 电话银行 网上银行 金融脉络关系 实时 批量 互联网 大数据业务: 实时在线性 业务持续性 跨多元数据 对大数据平台的要求: 企业级质量标准:金融等保、可靠、 易用;支持现有系统的对接。 开放性:多分析引擎统一管理,满 足多样化的数据分析场景 挖掘能力:支持机器学习、深度学习等新 的数据挖掘能力,实现更精准的洞见

3、 4 数据:存量 . . 增量 . . 行内 . . 行外 交易 明细 帐户 明细 帐户 影像 日志 社交 信用 行外数据 行内数据 企业数据平面 历史数据越来越多 非结构化数据越来越多 社交、网购数据 “在大数据领域,不能充分形成大数据使用能力 的竞争者将被淘汰”-McKinsey Global Institute 业务系统 数据分析 5 混合型数据平台-体系架构 新核心系统 老核心系统 客户系统 外围系统 渠道系统 外部系统 操作型 数据区 数据 交换区 数 据 采 集 和 交 换 平 台 集成型数据区 实时事件处理平台 历史数据区 历史数据平台 分析型数据区 监管报送平台 统一报表平台

4、管理会计系统 流动风险系统 市场风险系统 数据挖掘平台 国家审计平台 应用服务区 应用 服务器 报表 工具 W E 服 务 器 即席 查询 数据 挖掘 工具 历史 数据 访问 应用 技 术 缓 冲 层 贴 源 模 型 层 共 性 加 工 层 大数据平台 ETL调度 数据标准 元数据 数据质量 数据管控 数据交换 基 础 模 型 层 传统平台 应 用 集 市 层 基础数据平台 6 对应系统:客户管理系统、各类产品系统、帐务处理系统、各类渠 道系统、管理流程系统。 功能定位:主要承担面向客户的交易、帐务处理,面向内部的流程、 事务管理等功能。 数据特征:存储业务处理和流程管理过程中产生的客户、协议

5、、账 户、交易等原始数据,数据基本为当前状态,保存一定周期的交易 流水数据。 混合型数据平台-数据区域 对应系统:主要是历史数据平台。 功能定位:根据数据生命周期管理,承担对操作型系统、分析型系统 的历史数据,以及数据集成平台部分历史数据的在线归档保存,为客 户交易明细历史查询、公检法查询等应用提供支持。 数据特征:状态类数据采用全表历叱拉链存储,交易类数据保留长期 历史。 操作型数据区 对应系统:基础数据平台、大数据平台和实时事件处理平台。 功能定位:实现全行关系型结构化数据、非结构化数据的处理,包 括离线分析和实时事件数据的集中管理和加工,为业务运营和决策 分析提供数据支持。 数据特征:

6、1.利用大数据技术,实现ODS、EDW、汇总层数据统计等一系列 的离线数据分析功能,而传统数据库则实现复杂的交于和事务处理 逻辑。 2.大数据平台同时可以实现非结构化数据的集中管理,结构化及非 结构化数据的初加工为主; 3.实时事件处理平台以实时事件数据的集中管理和加工为主。 集成型数据区 对应系统:统一报表平台、监管报送平台、管理会计、风险管理等 系统。 功能定位:主要获取数据集成平台提供的汇总数据,按照应用主题 进行数据的高粒度汇总加工、图形化分析和展现。 数据特征:存储汇总、聚合类数据,主要以星型结构、宽表等形式 存储,存储周期较长。 分析型数据区 历史数据区 7 数据处理技术分布式演进

7、趋势:Hadoop成为开放的事实标准 SMP Hadoop 特点:Share Everything 结构化、关系型 Flash Cache+分布式块存储+IB SMP+MPP混合 MPP 特点:Share Nothing 开放,、全球生态 结构化、半结构化、非结构化 高性能、实时 特点:Share Nothing 结构化、关系型 通用的硬件 特点:单机、Scale up 性能存在瓶颈 扩展性差 8 内存计算兴起,Hadoop生态系统持续壮大 实时化:内存计算兴起 Hadoop生态系统持续扩大 AMPlab开发的Spark,提供迭代式内存计算模型,非 常适合用于数据挖掘算法的并行化 预计Spar

8、k将成为编写和分享数据挖掘算法的标准平台 Spark目前已经成为Apache顶级项目 Hadoop 2.0发布支持多种计算模型调度的Yarn,实现多种计算模型在同一个集群中并存,将帮助Hadoop 进一步巩固大数据生态圈。HDFS和Yarn成为Hadoop核心平台性组建,不断吸收更多组建集成到Hadoop。 Hadoop HDFS Storm MapReduce Pig Hive YARN/Zookeeper Spark HBase Flume Sqoop Integration Batch Processing Interactive Analytics Search Machine Lea

9、rning Complex Event Process 3rd Party or customized wordload Impala Solr MLLIB 融入 混合负载的统一计算平台,满足数据多样化 9 ContentContent 大数据发展趋势 2 2 3 3 华为大数据平台行业实践 1 1 华为大数据平台关键技术 4 4 华为大数据平台案列详述 10 全球布局、全面覆盖大数据领域关键技术 西安研究所: 大数据算法(IT) Hadoop产品化(IT) ELK/MPP DB(高斯实验室) 深圳研发基地/香港: 大数据洞察平台(IT) 大数据解决方案(IT) 数据挖掘算法(诺亚实验室) 印

10、度研究所: Hadoop(中央软件院) 数据可视化(中央软件院) MOLAP(中央软件院) 美研所: Spark (中央软件院) ELK/MPP DB(高斯实验室) 大数据系统加速(香农实验室) 欧研所: 分布式内存DB(中央软件院) 分布式计算算法(中央软件院) 杭州研究所: Hadoop(中央软件院) Spark(中央软件院) 流计算(中央软件院) 加研所: Yarn/大规模调度 硬件加速(中央硬件院) 金融大数据分析(IT) 俄研所: 大数据算法(香农实验室) 11 华为在社区的贡献华为在社区的贡献 12 会使用 Hadoop 会定位周 边问题 会定位内核级问 题(拔尖的个人) 定位内核

11、级问题 的团队(依赖团 队而不是精英个 人) 能够独立完成支 撑关键业务特性 的内核级开发 能够带领社区,引 领社区完成面向未 来的内核级特性开 发 能够创建新的社区 顶级项目,并且得 到生态系统认可 强大的Hadoop内核团队支持的开发与产品交付能力,企业级运营支撑能力 Apache开源社区生态系统 组件多,代码量大 组件更新块 特性无有效整合 华为积极参与spark社区贡献,主导Spark SQL升级支持hive 0.13, 其中合入社区patch 150+,公司贡献在社区排名第三。 强大内核开发团队提供企业级的开源支撑能力 企业版的关键在于工程团队的能力及与周边生态环境的对接能力 某大银

12、行CIO:“我们把大数据应用视作 是生命线,肯定是采用企业版,因为搞开 源软件不是我们的主业。在选合作伙伴的 时候,我们一定考虑门当户对,因为强有 力的合作伙伴才能保证保证58年的供应、合年的供应、合 作安全作安全” 13 华为大数据:提供大数据存储、处理、分析和服务平台 Manager 统一管理 通用X86服务器 分布式存储 数据处理平台数据处理平台 大数据基础设施 数据集成 平台 收集 清洗 转换 特征/模型/挖掘/可视/服务 数据洞察/数据服务 电信 详单查询、经分分析、 精准营销 银行 全生命周期分析、历史明细、 精准营销、在线征信与风控 等 行业 应用 政府 交通、公安 情报分析、人

13、口管理 海量数据存储,批处理,流处理、交互式分析 14 HIVE/Impala/Elk HDFS/HBase M/R Spark Porter Miner DataFarm Hadoop Storm Solr 系统管理 Farmer 元数据管理 Manager Hadoop API Plugin API OpenAPI/SDK 应用服务层 REST/SNMP/Syslog Data Information Knowledge wisdom Yarn/ Zookeeper 安全管理 MPP DB FusionInsight的Hadoop层提供大数据处理环境,基于社区开源软件增强,按照场景选择业界

14、最佳实践 FusionInsight的DataFarm层提供支撑端到端数据洞察,构建数据到信息到知识到智慧的数据供应链, 其中包括 相对独立的数据集成服务Porter、数据挖掘服务Miner和数据服务框架Farmer FusionInsight Manager是一个分布式系统管理框架,管理员可以从单一接入点操控分布式集群,包括系统管理 (OM/NTP/灾备)、数据安全管理和数据治理 大数据软件平台FusionInsight 15 Porter用来简化大数据的数据集成 除了开源的Sqoop2支持的DB和HDFS外, porter还支持从SFTP, FTP和NAS进行数据导入和导出 除了Sqoop

15、2支持的HDFS外, porter还支持数据注入到HBASE并提供功能丰富的rowkey生产机制 Sql请求和响应可以通过SFTP和FTP提交, 实现和现有系统的无缝集成 轻量汇总的Sql和结果可以通过 SFTP和FTP提交, 并且能够自动调度按天/按月调度。 FusionInsight Porter:大数据全能搬运工 RM DB Hadoop HDFS HBase SFTP Server FTP Server Other Data Source Porte r DB 文件服 务器 MR/spark/Hive 任务提交 目标 系统 HDFS /Hive HBase RDMS 数据 数据 FTP

16、/SFTP/NFS JDBC Porter 16 FusionInsight Miner:基于分布式内存计算的数据分析平台 主要特点: 端到端分析平台:一站式平台支撑数据分析全流程 特征工程/社交化:特征复用;支持1,000万维度 建模算法:自研HiGraph算法, 比MLlib快35倍 开放性:对Operator的扩展性;与R无缝对接;与SAS、SPSS等对接; 业务驱动:基于业务问题驱动的闭环解决方案,比如推荐引擎使能套件 act 典型数据挖掘典型数据挖掘 业务理解 数据理解 数据预处理 特征提取 模型 模型构建 模型 模型 模型评估 模型 模型应用 应用效果评估 结束 开始 模型评估好 应用效果好 典型数据分析流程 FusionInsight Miner 数据探索 并行化机器学习算法库(Mahout/MLlib/HiGraph) 建模分析 可视化 行业应用使能器(Enabler)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号