基于HADOOP技术实现银行历史数据线上化研究 (论文)

上传人:飞*** 文档编号:36186952 上传时间:2018-03-26 格式:PDF 页数:2 大小:146.93KB
返回 下载 相关 举报
基于HADOOP技术实现银行历史数据线上化研究 (论文)_第1页
第1页 / 共2页
基于HADOOP技术实现银行历史数据线上化研究 (论文)_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于HADOOP技术实现银行历史数据线上化研究 (论文)》由会员分享,可在线阅读,更多相关《基于HADOOP技术实现银行历史数据线上化研究 (论文)(2页珍藏版)》请在金锄头文库上搜索。

1、技术应用 p p l i c a t i o n 基于 HAD O OP技术 实现银行历史数据线上化研究 文 l l中国光大银行信息科技部刘尔凯 崔振东 I l 硅谷到北京,从中关村到金融衔,大数据的话题 从 翥 跟踪业务、 技术发展趋势, 开展了对大数据技术的深入研讨 , 并尝试将大数据领域的 Ha d o o p技术应用于银行 I T系统建 设 。光大银行首个基于 H a d o o p技术的应用试点项目 历史数据查询项目于 2 0 1 3年 1 0月底成功投产上线 ,这是 H a d o o p技术在银行系统应用上的一个重要里程碑。本文 将浅析光大银行历史数据线上化研究和 Ha d o

2、o p技术应用。 一 、历史数据线上化需求 中国光大银行的客户历史交易数据原本存放在磁带库 和光盘库中,查询的效率较低、工作量较大。将这些历史 数据放入联机服务系统 ,提供即时高效的查询服务 ,即是 提升客户服务的迫切要求,也是盘活数据资产、发挥数据 价值的重要基础。 从业务需求角度看,这个系统需要提供历史交易数据 的导入和查询服务 ,具有对数据一次写入多次读取的功能 特性 : 从系统功能上看,该系统需要具备存储光大银行 1 0 余年历史交易明细数据的能力,并依托于历史积存的大数 据 ,支持大时间跨度的高性能查询 ,实现线下数据线上化 的 目标 ; 从系统运维角度看 ,该系统需要具有可持续发展

3、 的能力,满足未来增量交易数据的持续沉淀以及数据规模 外延的扩大,具备较好的可扩展性。可以看出,虽然这个 系统的业务功能并不复杂 ,但对系统的技术要求很高。 二 、选择 Ha d o o p技 术 在项目技术选型期间,首先考虑了利用传统技术的可 能性 。采用传统技术,优点在于具备充沛的成型案例,相 对承担较小的风险。然而传统存储技术对于硬件设备要求 较高 ,成本昂贵。同时,响应效率随着存储数据量和查询 数据量的增长而降低 ; 在扩展l生 方面具有较大局限性。 限于传统技术所带来的诸多问题 ,在科技飞速发展的 时代 ,是否有更适合本项目特点的新技术?答案是肯定的。 H a d o o p技术,在

4、大数据时代应运而生,已经在互联 网行业广泛应用 ,依靠分布式架构实现大数据存储和大数 据运算 ,具有低硬件成本、高性能、高可用性 、高可扩展 金 屯子 I 6 5 , 技术应用 p p l i c a t i o n 性的特点 ,尤其适用于对数据一次写入多次读 取。这些特点正是历史数据线上化的要求。然 而 ,该技术在国内银行尚无成型案例 ,是否适 合银行运营体系,是否能满足银行系统对稳定 性 、安全性的要求还有待考察。 以 “ 打造国内最具创新能力的银行”为愿 景的光大银行,持续保持着对各项新业务、新 技术发展趋势的跟踪 ,光大科技人对于在互联 网领域应用广泛的 Ha d o o p技术也进行

5、了充 分预研。在历史数据查询项目中,H a d o o p的 解决方案以其低成本、易扩展 、高可靠的特点 在各项方案中脱颖而出。 三、Ha d o o p技术在项目中的应用 图 1扩 展示例 Ha d o o p, 由 HDF S、Ma p Re d u c e、Hb a s e、Pig、 H i v e和 Z o o K e e p e r 等成员组成 ,各成员都具有独特的功 能和鲜明的特点 。根据历史数据线上化的特点 ,本项目主 要 选 择 使 用 了 HDF S、Ma p Re d u c e、Hb a s e和 Z o o K e e p e r 等成员。 下面介绍应用 Ha d o

6、o p技术方面的特点。 1 单集群 VS双集群。为满足对系统灾备的要求 ,需 要同时在生产机房和灾备机房部署集群,且当生产机房失 效,灾备机房的集群可对外独立提供服务支持 。 Ha d o o p技术的设计初衷是依靠集群力量高效工作 , 基于集群架构的优势,从理论上可以在多个机房部署同一 大型集群。在两个机房部署单集群的方案虽然可以充分利 用 H a d o o p技术的集群理念,但也会遇到一些问题 : 首先, 需要保证单一机房数据完整性,使数据复本分布到不同的 机房,以保证单边机房可以随时对外独立提供服务支持。 其次,当出现非系统性突发状况时,很难保证持续稳定的 服务供应 ,容易造成集群内管

7、理的混乱。此外,D a t e No d e 间的数据传输是常态,会大量占用机房间的网络带宽资源。 要解决上述问题,需要对 Ha d o o p架构进行周密的重构 , 进行大规模的改造。 综合分析 ,结合项 目背景 ,改进原有思路,采用双集 群解决方案 。在两个机房分别部署一个集群,集群间服务、 数据独立。在单机房,单系统出现异常时,快速切换,保 证数据安全性和业务连续性 ; 双集群的数据独立传输、整 合和加载 ,最大力度节约机房间的网络资源 ; 双集群特有 6 6 l 2 0 1 4 年1 月 的双活设计 ,即两个集群同时提供查询服务 ,提高了硬件 资源利用率。 2 高可用性。预防出现单点故

8、障,保证系统运行,在 HDF S采用双 Na me N o d e,在 H b a s e采用双 Hma s t e r 的设置,并由 Z o o K e e p e r 进行管理 ,出现故障时的自动 切换 。 采用 Ha d o o p技术对数据的多冗余复本机制,确保无 单点故障。在数据节点的某一节点出现故障时,仍保证数 据完整 ,可以提供服务 ,并且可以自动复制数据 ,保证达 到设置的复本数量。 3 可扩展性。系统采用 Ha d o o p架构 ,实现动态扩 展,系统扩容 ,平台增加新节点后,自动在所有节点之间 均衡数据。 后台根据忙闲程度自动发起, 占用少量系统资源 , 无需人工干预,实

9、现数据均衡分布 ( 如图所示 ) 。 四、项 目意义 通过历史数据查询项目的实施,光大银行完成了历史 数据线上化,提高了业务办理效率,提升了客户服务质量。 本项目使银行对 Ha d o o p技术的研讨付诸于实践,使 Ha d o o p技术与银行运营体系深度结合 ,是对银行数据支持平 台的一次勇敢创新。这项技术具有低成本、高可用、易扩 展三大特点 ,有效解决了海量数据存储问题 ,突破计算能 力瓶颈,大幅度节约投资 ,从而优化投资效率 ,提高投入 产出比。此外 ,本项 目在大数据存储、大数据查询、大数 据运算等领域 ,对 Ha d o o p技术的应用进行了有益的探索 , 为银行迎接 “ 大数据”时代积累了宝贵经验。园

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号