数据仓库技术及其在金融行业的应用

上传人:夏** 文档编号:510317349 上传时间:2023-06-19 格式:DOC 页数:14 大小:330KB
返回 下载 相关 举报
数据仓库技术及其在金融行业的应用_第1页
第1页 / 共14页
数据仓库技术及其在金融行业的应用_第2页
第2页 / 共14页
数据仓库技术及其在金融行业的应用_第3页
第3页 / 共14页
数据仓库技术及其在金融行业的应用_第4页
第4页 / 共14页
数据仓库技术及其在金融行业的应用_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《数据仓库技术及其在金融行业的应用》由会员分享,可在线阅读,更多相关《数据仓库技术及其在金融行业的应用(14页珍藏版)》请在金锄头文库上搜索。

1、数据库技术及其在金融行业的应用1. 前言数据库仓库(DW)技术从1991年开始出现,经过多年的摸索和应用,目前在一些发达国家已经建设得比较成熟,为企业综合与灵活的分析型应用提供了强大的数据支撑,为管理层的分析决策和操作层的智能营销提供了技术保证,为企业带来了多方面的收益。而在国内,数据库仓库仍处于尝试或初级建设阶段。国内的金融行业,随着外部监管和信息披露的压力、内部管理和决策分析的需要,在建设分析类应用时,也正在逐渐从孤立的数据层向统一的数据仓库层规划和转移。建立数据仓库能够减少对数据层的重复投资和资源浪费、统一数据标准、监管和提高数据质量、消除信息孤立、支持综合分析和灵活及时的分析型应用、适

2、应管理和发展、提高业内竞争力。本文对数据库技术做一个概括性的介绍,并对国内外金融行业数据仓库技术的应用现状做一个简单分析。2. 数据仓库概念2.1. DW的提出2.1.1. 需求业务系统的建设与逐渐完善,巨量数据信息的积累。分析类需求不断增加,传统分析类应用造成巨大的资源浪费和管理困难。业务数据平台异构、数据来源口径多、标准不统一、信息孤立。整合部门级应用,建设企业级应用,满足综合分析、复杂查询、智能营销等高级需求。2.1.2. DW概念的提出MIT在20世纪70年代对业务系统和分析系统的处理过程进行研究,结论是只能采用完全不同的架构和设计方法。1988年,IBM为解决全企业数据集成问题,提出

3、了信息仓库的概念,确立了原理、架构和规范。但没有进行实际的设计。1991年,Bill Inmon提出了数据仓库概念,并对为什么建设数据仓库和如何建设数据仓库进行了论述。Bill Inmon被称为数据仓库之父。2.2. DW的四个特征2.1.1. 面向主题 OLTP应用或支持独立分析的应用是面向应用组织数据,数据分散,不利于综合分析。为OLAP应用提供数据支撑的DW是综合分析业务需求对不同源系统数据进行提取、提炼,按主题重新设计数据模型和重组数据,覆盖所有的应用。主题是在较高层次上将企业信息系统中的数据综合、归类,并进行分析利用的抽象。例如对于一个银行来说,DW所面向的主题域可能包括当事人、协议

4、、产品等。2.1.2. 集成共享由于源系统的数据平台异构、数据标准不统一、数据模型差别大,在建设数据仓库时要进行数据集成,为所有应用共享统一标准的数据。数据集成的工作主要包括三个内容。数据清洗:按照数据质量管理的要求进行数据清洗,保证进入数据仓库的数据都是符合规范且可以使用的。数据转换:将不同标准的数据进行转换与统一,并保证可以回溯。数据整合:不同源系统的数据在数据仓库中可能会进入到相同的模型中,要对源系统与数据仓库模型的差异进行分析整合。2.1.3. 随时间变化DW自己不产生源数据,但需要根据源数据进行数据加工和汇总。DW中加工后的基础数据和汇总数据是随时间不断变化的。2.1.4. 不可更新

5、这是指在DW中不会更新从源系统中传过来的细节数据。在进行数据转换时,一般也并不删除原值。2.2. DW与DM、ODS的关系2.2.1. DW与DMDM是数据集市(Data Mart),相当于部门级或应用级的数据仓库,一个企业内部一般建有多个DM,不为种类的分析型应用使用。各DM分别设计和建立,数据标准和数据模型没有统一。DM建设难度小,容易成功,但随着数据集市越来越多,无法解决数据冗余、数据质量、数据标准不统一、统计数据不一致等问题,无法满足综合分析和智能查询的业务需要。DW是指企业级数据仓库,一般一个企业内部只建立一个,数据层大集成,可以为所有分析型应用所使用。由于技术条件的限制,DW在前几

6、年的建设初期,难度很大,遭到过大面积的失败。目前所指的数据仓库实际上包含了数据集市和前期数据仓库的概念,可以说是数据集市和数据仓库的融合。数据仓库内部即可建立企业级整合统一的数据层,同时也可建立为部门级决策支持所设计的数据集市。2.2.2. DW与ODSODS是操作型数据存储(Operational Data Store)。与DW相同的是,它也是面向主题的;是集成的(可能是部分集成)。与DW不同的是,ODS要具有同时支持分析型应用和操作型应用的特性,因此它存储的数据是当前的,需要实时刷新,却不一定要求存储非常大量的历史;基础数据是随业务而更新的。ODS也经历了多种应用形式,它曾做在数据仓库的前

7、端,做一些初级的数据整合,数据快进快出,例如这可以支持要求每小时做一次分析的应用。它也曾作为初级形式的数据仓库,例如支持面向电子商务的ODS。ODS产生的技术背景是由于早期的DW因为技术条件的限制,不存储细节数据、难以实现频繁的更新和删除,不能支持实时性要求较高的分析应用。但ODS具有数据同步复杂(一般需要两次数据落地)、数据共享困难、数据冗余、管理复杂等问题。目前由于条件的成熟,ODS和DW也有走向融合的趋势,在数据仓库内部分为动态数据区和表态数据区,分别相当原来的ODS和DW概念。2.2.3. 走向融合后的DW集成原来的DW、DM和ODS,融合后的企业级数据仓库,在内部划分出多个数据层次。

8、在近期业务数据区,能够为一线业务人员提供战术性决策和操作智能;在长期历史数据区,能够为管理人员提供战略性决策分析和复杂查询。即可支持部门特色的应用,也可支持跨部门的企业级综合应用。整合后的企业级数据仓库(EDW)简化了数据管理和维护流程,减少了数据冗余和延迟,减小了投资成本和协调工作,满足多种级别智能型应用的需要,为企业创造长期的价值。3. 数据仓库架构3.1. 数据仓库架构的构成广义的企业级数据仓库(EDW)包括基础平台和分析型应用。基础平台又可分为技术架构和数据架构。技术架构包括ETL体系、数据访问体系、数据存储体系、安全管理体系等;数据架构包括数据标准、数据质量、数据模型、数据管控、数据

9、接口等。3.2. 数据仓库技术架构如上图所示,数据仓库技术架构由八个组件组成:源数据层、ETL服务层、数据服务层、中间服务层、访问控制层、用户层、元数据管理层、安全管理层。源数据层:作为ETL层的数据抽取源,为EDW提供原始数据支持。本层设计要考虑源系统状况和数据抽取方式,确定存储方式、数据量、交付时间、对时间窗口的影响,以及数据文件规范、文件压缩方式、传输模式、文件发送位置等规范信息。ETL服务层:完成数据文件转换和加载,并负责管理和调整数据仓库中所有作业的依赖关系,管理整体作业流。数据服务层:一般包括四个层次。数据缓冲区支持ETL处理;基础数据层基于面向主题的物理数据模型,用于保存数据仓库

10、基础数据;汇总层是建立在基础数据之上的主题级汇总数据;应用数据层(数据集市)是建立在基础数据区和汇总数据区之上的一组数据库,分别对应一类应用主题。中间服务层:OLAP服务器通过ODBC等接口从数据仓库批量获取数据,按多维设计模型生成立方体,支持BI软件包的多维展现请求。BI软件包通过ODBC等接口访问数据仓库,支持业务用户的灵活查询和固定报表请求;还可通过OLAP接口访问多维数据库支持业务用户的多维分析请求。应用服务器:提供一个具有高可用性和负载均衡功能的基础平台,以支持BI软件包和其它应用软件包的运行。访问控制层:主要包括WEB、认证、安全、门户四方面的服务。该层为用户层提供HTTP服务、门

11、户的单点登录、用户统一认证、提交用户层请求到中间服务层,对用户实施安全策略,为用户管理报表、查询文档,提供个性化定制等。用户层:数据仓库系统用户既包括进行系统建设的开发人员、系统运行人员和系统管理人员,又包括最终使用系统的业务用户,这里主要对业务用户进行描述。业务分析人员主要是指使用应用界面访问数据仓库系统的总各业务部门、各分行的业务用户。该类人员使用数据仓库主要生成或预览定义报表,进行相对固定的查询和多维分析 。管理决策人员主要包括各部门的领导、总行和分行领导。数据仓库系统为管理决策人员分配专门的系统资源,建立最为直观方便的存取界面,为决策人员赋予最大的信息访问权,实现对信息的自由访问。知识

12、工作者是指各部门、各分行较为高级的用户。可以对指定的主题、指标进行自定义的灵活分析和比较。分析的方式包括自定义查询和报表、多维旋转和穿透钻取等。元数据管理:元数据管理是将分散在数据仓库各环节的、独立的元数据统一存储在元数据存储库中,并将各个元数据有机的联系在一起,实现对数据流的跟踪管理,向前可以进行数据的血缘分析,向后可进行影响性分析。安全管理:安全管理主要包括网络安全、操作系统安全、数据安全和应用安全,这里不做专门介绍。可参考相关技术资料。3.3. 数据仓库数据架构数据仓库的数据架构分数数据流向、数据模型、数据标准、数据质量、数据管控和数据保留策略与容量规划六个部分来简单介绍。数据流向:一种

13、比较典型的数据仓库数据流设计模式是,先通过ETL服务将源系统数据加载到临时数据区,本区主要用于源系统数据和ETL运行数据暂存;然后通过数据加工将详细历史数据、客户信息、账户信息、交易信息等数据存储到基础数据区;然后可定期进行账户信息和客户信息等汇总,将数据存储到汇总数据区;最后可将应用分析所需的数据存放到应用数据区。数据模型:由于数据仓库建设经验的积累,各行业有其比较成熟的数据仓库数据模型,例如在金融行业,Teradata和IBM各有其自己的数据模型。成熟的数据模型产品对建设数据仓库有一个很好的经验和方法论指导,但客户化依然具有很大的工作量。数据标准:数据标准化是一项关键工作。进行数据标准化工

14、作必须有专职数据管理员,制定配套的管理流程;数据标准化包括数据映射和制执行准规则,如识别规则、归并规则、重要口径等;数据标准化工作还包括统一的业务定义,进行总体规划。数据质量:数据质量也是一项关键工作,数据质量太差的数据仓库,其应用价值可以几乎为零。数据质量问题来源广泛、复杂,可以设计或借助现成的数据质量检查系统进行数据质量检查。保证质量的工作内容主要包括:定义及初始度量、分析及发现错误、查找问题根源、解决质量问题、监控改进过程、发现及分析改进中的异常。数据管控:建立统一的数据管理体系框架,主要有三个层面组成:管理策略、方法和内部体系,其核心是工作内容包括数据规划、数据标准制订和管理、数据质量

15、管理。数据管理体系的建立和完善是一个长期持续的过程。数据保留策略和容量规划:数据保存周期受三个关键需求驱动:业务分析的需求;法规需求、审计与投资者情况披露;基于历史数据为客户提供额外的服务。在确定了数据仓库建设策略之后,可以进行数据容量规划,这包括计算用户数据量、计算磁盘空间需求、分析目前容量现状及对策等工作。3.4. 数据仓库应用架构国际先进银行的企业级数据仓库实践表明,实现需求主要有三种应用模式:灵活分析、数据挖掘(如评分系统)和应用开发。应用系统的开发离不开需求的成熟和稳定,只有通过大量的灵活分析和数据挖掘的应用,才能形成成熟稳定的应用需求,反之,使用系统在业务中的大量使用,又会促进分析

16、人员更加深入、有效的分析探索数据。灵活分析具有IT和业务两方面的知识和技能,利用查询工具进行任意的数据探索和查询,以回答各种未预定义的业务问题;数据挖掘在灵活分析的基础上对某些业务问题进行数据属性层面的提炼和归纳,如典型的评分模型、违约模型等;应用系统是指联机或批量访问数据仓库的应用系统,典型的应用有营销管理系统、利润贡献度模块、反洗钱应用、关键指标/平衡计分卡应用。在进行分析应用的建设规划时,要根据业务需求的急迫程度确定业务实现的优先次序,并制定一个分析型应用的评估模型。4. ETL设计与工具介绍 4.1. ETL概念ETL具有如下的含义:E(Extraction,抽取)、T(Transfor

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 营销创新

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号