京东金融大数据分析平台总体架构-v1.0教案资料

资源描述

《京东金融大数据分析平台总体架构-v1.0教案资料》由会员分享，可在线阅读，更多相关《京东金融大数据分析平台总体架构-v1.0教案资料（82页珍藏版）》请在金锄头文库上搜索。

1、金融集团大数据分析平台总体架构议程大数据分析平台综述 1 大数据分析平台总体架构 2 大数据分析平台演进路线 3 大数据分析平台一期实施重点 4 附录数据质量管理平台 5 大数据分析平台建设目标外部非结构化数据统一制定目标和分析模型自定义报表工具行列的简单定义方式多种格式报表集团决策层集团职能管控层各级业务操作层关注集团主要经营指标业务人员使用BI应用实现业务协作和创新 BI分析工具供应链金融系统 POP系统其他业务系统云数据推送平台已实现了主要零售及金融业务系统数据清洗整合为未来金融集团数据平台提供了丰富的数据源通过数据平台和BI应用建设金融集团将搭建

2、统一的大数据共享和分析平台对各类业务进行前瞻性预测及分析为集团各层次用户提供统一的决策分析支持提升数据共享与流转能力采购管理系统查看职能部门的业务经营情况大数据分析平台建设预期收益 2 加强业务协作实现分散在供应链金融人人贷保理等各个业务系统中的数据在数据平台中的集中和整合建立单一的产品客户等数据的企业级视图有效促进业务的集成和协作并为企业级分析交叉销售提供基础 3 促进业务创新金融集团业务人员可以基于明细可信的数据进行多维分析和数据挖掘为金融业务创新客户服务创新产品创新等创造了有利条件 4 提升建设效率通过数据平台对数据进行集中为管理分析挖掘预

3、测类等系统提供一致的数据基础改变现有系统数据来源多数据处理复杂的现状实现应用系统建设模式的转变提升相关IT系统的建设和运行效率 5 改善数据质量从中长期看数据仓库对金融集团分散在各个业务系统中的数据整合清洗有助于企业整体数据质量的改善提高的数据的实用性通过数据平台实现数据集中确保金融集团各级部门均可在保证数据隐私和安全的前提下使用数据充分发挥数据作为企业重要资产的业务价值 1 实现数据共享议程大数据分析平台综述 1 大数据分析平台总体架构 2 大数据分析平台演进路线 3 大数据分析平台一期实施重点 4 附录数据质量管理平台 5 大数据分析平台总体架构历史数据查询

4、数据交换平台应用集市数据区商城零售供应链金融人人贷系统基金系统系统企业内外部半结构化非结构化数据大数据交换组件数据库数据交换组件数据区数据交换组件大数据区沙盘演练数据区实时数据区客户主题协议主题产品主题业务沙盘演练数据增值产品零售数据供应链数据增值产品数据区主题数据区用户访问层客户汇总账户汇总机构汇总社交媒体移动互联用户评价访问日志处理后大数据待处理大数据流程调度监控告警数据标准数据质量元数据数据安全流程调度平台数据管控平台流程调度层实时数据查询客户管理财务管理外部用户贴源数据区内部管理分析内部

5、用户历史归档数据区 IT人员风险管理大数据分析平台总体架构数据产生层内部业务系统产生的结构化数据商城日常零售业务处理过程中产生的结构化数据存储在关系型数据库中如供应商信息采购信息商品信息销售流水金融集团日常业务处理过程中产生的结构化数据存储在关系型数据库中如客户信息账户信息金融产品信息交易流水企业内部非结构化数据日常业务处理过程中产生的非结构化数据存储形式多样主要包括用户访问日志用户投诉用户点评企业外部数据企业外部数据以非结构化为主主要包括国家政策法规论坛等互联网信息地理位置等移动信息微博等社交媒体信息源数据内容在本次项目实施中将采用

6、以增量为主全量为辅结合的方式获取源数据商城和金融集团业务系统的数据增量数据识别获取由云数据推送平台负责云数据推送平台采用分析对比源系统日志方式实现对于无法通过上述方式获取增量的源系统数据则采用某一个时间范围内的全部数据作为增量初始数据加载均采用全量模式源数据增量大数据分析平台总体架构数据交换层数据交换层设计目标传输组件是根据数据源存储的不同分类而设计的本质是通过分析数据存储结构和数据存储库的特点来针对性的设计工具以追求卓越的性能数据区数据交换组件数据库数据交换组件大数据交换组件金融集团系统数据服务层外部大数据商城系统 Hadoop元数据云数据推送平台数

7、据平台导入临时区数据平台导出临时区 NAS存储 ETL程序区大数据分析平台总体架构数据交换层NAS存储 Hadoop集群元数据区数据平台ETL数据处理程序区数据平台临时数据区存储数据平台各个Hadoop集群的元数据信息如 HDFS文件系统元数据集团数据交换平台每日获取运输局推送平台提供的业务系统变化数据暂存在NAS临时数据区金融数据平台加工计算结果返回给业务系统暂存在NAS临时数据区数据平台ETL加工处理程序数据压缩数据加载各数据数据处理等统一存储在NAS集群指定目录各接口服务器通过文件系统Link建立映射大数据分析平台总体架构数据交换层大数据交换组件企业

8、内部非结构化半结构化数据如音频视频邮件 Office文档抵押品扫描件等企业外部非结构化半结构化数据如微博贴吧论坛用户点击流用户移动位置等批量采集大数据源以SFTP协议批量传输数据文件在线访问开发Java或C应用调用大据源API 或以网络平台爬虫方式抓取源系统非结构化半结构化数据组件以实时和批量两种模式实现下列功能数据采集数据传输到数据交换平台接口服务器 NAS指定目录存储数据到数据平台大数据区指定HDFS目录定时抽取用户访问日志加载到数据平台大数据区HDFS指定目录 MR程序加工处理开发网络爬虫程序扫描用户微博抓取用户微博内容社交圈信息存入

9、大数据区大数据分析平台总体架构数据交换层数据库数据交换组件企业内部业务系统产生的结构化数据包括两大来源商城零售业务数据数据存储在Oracle SQLServer MySQL和MongoDB四类数据库金融集团互联网金融业务数据数据存储在MySQL数据库 Perl程序数据采集调用Perl文件模块相关函数轮询指定目录获取数据文件数据核查 Perl执行文件级数据质量检查数据加载调用HiveLoad数据命令加载到数据平台临时数据区的HiveTable 组件以实时和批量模式实现下列功能数据采集轮询NAS集群指定目录获取数据文件 LZO压缩数据核查对数据文件进行质量校验数据

10、加载加载数据到临时数据区云数据推送平台连接供应链金融系统数据库分析供应链金融MySQL数据库日志识别增量数据存储到金融平台NAS存储的指定目录金融平台加载数据文件到数据平台临时区Hive表大数据分析平台总体架构数据交换层数据区数据交换组件数据平台计算层各数据区贴源数据区主题数据区集市数据区沙盘数据区大数据区归档数据区 Sqoop实现集市数据区与数据平台其他Hadoop数据区的数据交换Hadoop命令 Hive外部表 MR程序实现数据平台Hadoop数据区间的数据交换组件以批量方式实现下列数据交换功能贴源数据区和主题数据区到集市数据区大数据区到主题数据区和集市数据区主题数据

11、区贴源数据区集市数据区到沙盘数据区各个数据区数据归档数据集市的数据按照据生命周期规划统一将过期数据归档到历史数据归档区大数据分析平台总体架构流程调度层批量处理流程批量数据处理由流程调度层部署的自定义开发WorkFlow组件调度运行整个流程主要完成如下工作获取业务系统结构化数据存入临时数据区获取企业内外部非结构化数据并进行结构化处理存入主题或集市数据区按照贴源数据模型整合数据标准化数据更新追加按照主题数据模型整合数据并生成汇总数据加工计算后结果交付到数据集市支持分析类应用大数据分析平台总体架构流程调度层实时数据处理流程实时数据处理强调的是实时或准实时获取并

12、处理数据通常采取消息队列等技术构建数据流整个处理流程由流程调度层部署的自定义开发WorkFlow组件调度运行整个流程主要完成如下工作通过数据库数据交换组件获取增量数据加载到实时数据区通过大数据交换组件获取非结构化数据并利用Storm处理数据加载到实时数据区针对实时数据区数据执行标准化处理和贴源整合大数据分析平台总体架构流程调度层归档数据处理流程数据归档的对象包括业务系统数据文件贴源数据区数据主题数据区数据大数据区数据和集市数据区数据数据按照生命周期规划存储到归档区Hadoop集群归档后原数据区删除此数据整个处理流程由流程调度层部署的自定义开发WorkFlow组件调度

13、运行整个流程主要完成如下工作数据文件通过HDFS命令行copyfromlocal进行归档贴源主题和大数据区通过HDFS命令行distcp或自定义开发的MR程序执行归档集市数据区通过Sqoop或数据库提供的Hadoop集成技术如外部表执行归档大数据分析平台总体架构数据存储层业务系统前日增量数据缓存数据支持后续ELT数据处理数据内容主要用途数据模型保留周期用户访问模式工作负载平台要求贴源数据模型保存最近7天数据贴源数据区和主题数据区批量作业访问无最终用户访问 I O敏感连续小批量的数据抽取和加载少量量数据使用Hive的Load命令大量数据使用MR程序与主题区

14、贴源区集市区构成一个Hadoop集群 Hive 无单点故障 7 24小时非工作日有限停机主题数据区集市数据区和沙盘演练数据区批量作业访问无最终用户访问 I O敏感日终批量ETL以ELT形式通过HiveSQL执行与主题区贴源区集市区构成一个Hadoop集群 Hive 无单点故障 7 24小时非工作日有限停机贴源数据模型不保存历史业务系统前日快照数据和一段时间的流水数据数据标准化为后续主题模型集市和沙盘演练提供数据临时数据区贴源数据区大数据分析平台总体架构数据存储层续企业内外部非结构化半结构化数据采集并存储数据进行结构化处理最终得到结构化数据数据内容主

15、要用途数据模型保留周期用户访问模式工作负载平台要求数据按照HDFS文件存储建议保留1年集市区沙盘区增值产品区主题区归档区批量作业访问少量高级业务人员进行大数据分析 MapReduce分布式计算半非结构化数据的结构化处理包括文本检索语义分词图像识别音频识别等与主题区贴源区构成一个Hadoop集群 HDFS 无单点故障 7 24小时非工作日有限停机集市区沙盘区增值产品区主题区高时效区批量作业访问业务人员执行历史数据查询 MapReduce分布式计算 HDFS命令实现Hadoop集群内归档 Sqoop实现数据库归档通过Hive提供历史查询独立的Ha

16、doop集群 HDFS Hive 无单点故障 7 24小时非工作日有限停机数据按照HDFS文件存储数据文件按照数据区划分目录建议保留7年其他各数据区历史数据按数据生命周期规划归档平台过期数据支撑历史数据查询大数据区历史归档数据区大数据分析平台总体架构数据存储层续业务系统历史明细数据打破业务条线整合数据数据内容主要用途数据模型保留周期用户访问模式工作负载可用性要求第三范式模型保留长期历史需要根据主题细化主题区集市区沙盘区增值产品区归档区批量作业访问少量高级业务人员进行灵活查询挖掘预测 I O敏感日终批量ETL 合并拉链关联汇总等等以ELT形式通过HiveSQL执行复杂处理使用MR定制UDF 与大数据区贴源区构成一个Hadoop集群 Hive 无单点故障 7 24小时非工作日有限停机集市区沙盘区增值产品区归档区批量作业访问少量高级业务人员进行灵活查询挖掘预测 I O敏感日终批量ETL 连接聚合汇总等等以ELT形式通过HiveSQL执行复杂处理使用MR定制UDF 与大数据区贴源区构成一个Hadoop集群 H

展开阅读全文

京东金融大数据分析平台总体架构-v1.0教案资料

最新文档