数据仓库技术及其在金融行业的应用

上传人:夏** 文档编号:486723942 上传时间:2024-01-09 格式:DOCX 页数:14 大小:63.12KB
返回 下载 相关 举报
数据仓库技术及其在金融行业的应用_第1页
第1页 / 共14页
数据仓库技术及其在金融行业的应用_第2页
第2页 / 共14页
数据仓库技术及其在金融行业的应用_第3页
第3页 / 共14页
数据仓库技术及其在金融行业的应用_第4页
第4页 / 共14页
数据仓库技术及其在金融行业的应用_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《数据仓库技术及其在金融行业的应用》由会员分享,可在线阅读,更多相关《数据仓库技术及其在金融行业的应用(14页珍藏版)》请在金锄头文库上搜索。

1、数据库技术及其在金融行业的应用几1. 前言数据库仓库(DW)技术从1991年开始出现,经过多年的摸索和应用,目前在一些发 达国家已经建设得比较成熟,为企业综合与灵活的分析型应用提供了强大的数据支撑,为管 理层的分析决策和操作层的智能营销提供了技术保证,为企业带来了多方面的收益。而在国 内,数据库仓库仍处于尝试或初级建设阶段。国内的金融行业,随着外部监管和信息披露的压力、内部管理和决策分析的需要,在 建设分析类应用时,也正在逐渐从孤立的数据层向统一的数据仓库层规划和转移。建立数据 仓库能够减少对数据层的重复投资和资源浪费、统一数据标准、监管和提高数据质量、消除 信息孤立、支持综合分析和灵活及时的

2、分析型应用、适应管理和发展、提高业内竞争力。本文对数据库技术做一个概括性的介绍,并对国内外金融行业数据仓库技术的应用现 状做一个简单分析。2. 数据仓库概念2.1. DW的提出2.1.1. 需求业务系统的建设与逐渐完善,巨量数据信息的积累。 分析类需求不断增加,传统分析类应用造成巨大的资源浪费和管理困难。 业务数据平台异构、数据来源口径多、标准不统一、信息孤立。 整合部门级应用,建设企业级应用,满足综合分析、复杂查询、智能营销等高级需求。2.1.2. DW 概念的提出MIT 在 20 世纪 70 年代对业务系统和分析系统的处理过程进行研究,结论是只能采用 完全不同的架构和设计方法。1988 年

3、, IBM 为解决全企业数据集成问题,提出了信息仓库的概念,确立了原理、架 构和规范。但没有进行实际的设计。1991 年, Bill Inmon 提出了数据仓库概念,并对为什么建设数据仓库和如何建设数据仓 库进行了论述。Bill Inmon被称为数据仓库之父。2.2. DW的四个特征2.1.1. 面向主题OLTP应用或支持独立分析的应用是面向应用组织数据,数据分散,不利于综合分析。 为OLAP应用提供数据支撑的DW是综合分析业务需求对不同源系统数据进行提取、 提炼,按主题重新设计数据模型和重组数据,覆盖所有的应用。主题是在较高层次上将企业信息系统中的数据综合、归类,并进行分析利用的抽象。 例如

4、对于一个银行来说,DW所面向的主题域可能包括当事人、协议、产品等。2.1.2. 集成共享由于源系统的数据平台异构、数据标准不统一、数据模型差别大,在建设数据仓库时 要进行数据集成,为所有应用共享统一标准的数据。数据集成的工作主要包括三个内容。 数据清洗:按照数据质量管理的要求进行数据清洗,保证进入数据仓库的数据都是符 合规范且可以使用的。数据转换:将不同标准的数据进行转换与统一,并保证可以回溯。 数据整合:不同源系统的数据在数据仓库中可能会进入到相同的模型中,要对源系统 与数据仓库模型的差异进行分析整合。2.1.3. 随时间变化DW自己不产生源数据,但需要根据源数据进行数据加工和汇总。DW中加

5、工后的基础 数据和汇总数据是随时间不断变化的。2.1.4. 不可更新这是指在DW中不会更新从源系统中传过来的细节数据。 在进行数据转换时,一般也并不删除原值。2.2. DW与DM、ODS的关系2.2.1. DW 与 DMDM是数据集市(Data Mart),相当于部门级或应用级的数据仓库,一个企业内部一般 建有多个DM,不为种类的分析型应用使用。各DM分别设计和建立,数据标准和数据模型 没有统一。DM建设难度小,容易成功,但随着数据集市越来越多,无法解决数据冗余、数 据质量、数据标准不统一、统计数据不一致等问题,无法满足综合分析和智能查询的业务需 要。DW 是指企业级数据仓库,一般一个企业内部

6、只建立一个,数据层大集成,可以为所有 分析型应用所使用。由于技术条件的限制,DW在前几年的建设初期,难度很大,遭到过大 面积的失败。目前所指的数据仓库实际上包含了数据集市和前期数据仓库的概念,可以说是数据集 市和数据仓库的融合。数据仓库内部即可建立企业级整合统一的数据层,同时也可建立为部 门级决策支持所设计的数据集市。2.2.2. DW 与 ODSODS是操作型数据存储(Operational Data Store)。与DW相同的是,它也是面向主题 的;是集成的(可能是部分集成)与DW不同的是,ODS要具有同时支持分析型应用和操 作型应用的特性,因此它存储的数据是当前的,需要实时刷新,却不一定

7、要求存储非常大量 的历史;基础数据是随业务而更新的。ODS 也经历了多种应用形式,它曾做在数据仓库的前端,做一些初级的数据整合,数 据快进快出,例如这可以支持要求每小时做一次分析的应用。它也曾作为初级形式的数据仓 库,例如支持面向电子商务的ODS。ODS产生的技术背景是由于早期的DW因为技术条件的限制,不存储细节数据、难以 实现频繁的更新和删除,不能支持实时性要求较高的分析应用。但ODS具有数据同步复杂 (一般需要两次数据落地)、数据共享困难、数据冗余、管理复杂等问题。目前由于条件的 成熟, ODS 和 DW 也有走向融合的趋势,在数据仓库内部分为动态数据区和表态数据区, 分别相当原来的ODS

8、和DW概念。2.2.3. 走向融合后的 DW集成原来的DW、DM和ODS,融合后的企业级数据仓库,在内部划分出多个数据层 次。在近期业务数据区,能够为一线业务人员提供战术性决策和操作智能;在长期历史数据 区,能够为管理人员提供战略性决策分析和复杂查询。即可支持部门特色的应用,也可支持 跨部门的企业级综合应用。整合后的企业级数据仓库(EDW)简化了数据管理和维护流程,减少了数据冗余和延 迟,减小了投资成本和协调工作,满足多种级别智能型应用的需要,为企业创造长期的价值。3. 数据仓库架构3.1. 数据仓库架构的构成广义的企业级数据仓库(EDW )包括基础平台和分析型应用。基础平台又可分为技术架构和

9、数据架构。技术架构包括ETL体系、数据访问体系、数 据存储体系、安全管理体系等;数据架构包括数据标准、数据质量、数据模型、数据管控 数据接口等。3.2. 数据仓库技术架构元数据管理休系:技术元数据”业务元数据”操作元数据源数据层核心数据-文件国结数据I文件-信用卡数据.文件J其它源数据层中间服务层访问控制层用户层数据服务层汇 总JDBC应用服务器BI工貝QueryOLAP服务器FTP据集市据* 数据 缓整合存数据 集市ODBC ReportODBC/FastExport加载数 据文件ETL服务层J ”DW调度控制库单元1单兀2单元n依赖和触 数据质量发规则库 规则库Lc_厂任务执行代理 任务调

10、度引擎 侦测器 日志管理引擎WEB服务器应 用 负 载 匀 衡单一视图KPI个性定制 安全管理应用发布银监会证监会人民银行信息发布T外部数据接口4知识I单 点 登 录 门 户网 络 负 载 匀j决策人员1_n业务 用户安全管理体系:网络安全,数据安全,操作系统安全,应用安全如上图所示,数据仓库技术架构由八个组件组成:源数据层、ETL服务层、数据服务 层、中间服务层、访问控制层、用户层、元数据管理层、安全管理层。源数据层:作为 ETL 层的数据抽取源,为 EDW 提供原始数据支持。本层设计要考虑源系统状况 和数据抽取方式,确定存储方式、数据量、交付时间、对时间窗口的影响,以及数据文件规 范、文件

11、压缩方式、传输模式、文件发送位置等规范信息。ETL服务层: 完成数据文件转换和加载,并负责管理和调整数据仓库中所有作业的依赖关系,管理 整体作业流。数据服务层:一般包括四个层次。数据缓冲区支持ETL处理;基础数据层基于面向主题的物理数据 模型,用于保存数据仓库基础数据;汇总层是建立在基础数据之上的主题级汇总数据;应用 数据层(数据集市)是建立在基础数据区和汇总数据区之上的一组数据库,分别对应一类应 用主题。中间服务层:OLAP 服务器通过 ODBC 等接口从数据仓库批量获取数据,按多维设计模型生成立方 体,支持 BI 软件包的多维展现请求。BI软件包通过ODBC等接口访问数据仓库,支持业务用户

12、的灵活查询和固定报表请求; 还可通过 OLAP 接口访问多维数据库支持业务用户的多维分析请求。应用服务器:提供一个具有高可用性和负载均衡功能的基础平台,以支持BI软件包和 其它应用软件包的运行。访问控制层:主要包括WEB、认证、安全、门户四方面的服务。该层为用户层提供HTTP服务、门 户的单点登录、用户统一认证、提交用户层请求到中间服务层,对用户实施安全策略,为用 户管理报表、查询文档,提供个性化定制等。用户层:数据仓库系统用户既包括进行系统建设的开发人员、系统运行人员和系统管理人员, 又包括最终使用系统的业务用户,这里主要对业务用户进行描述。业务分析人员主要是指使用应用界面访问数据仓库系统的

13、总各业务部门、各分行的业 务用户。该类人员使用数据仓库主要生成或预览定义报表,进行相对固定的查询和多维分 析。管理决策人员主要包括各部门的领导、总行和分行领导。数据仓库系统为管理决策人 员分配专门的系统资源,建立最为直观方便的存取界面,为决策人员赋予最大的信息访问权, 实现对信息的自由访问。知识工作者是指各部门、各分行较为高级的用户。可以对指定的主题、指标进行自定 义的灵活分析和比较。分析的方式包括自定义查询和报表、多维旋转和穿透钻取等。元数据管理: 元数据管理是将分散在数据仓库各环节的、独立的元数据统一存储在元数据存储库中 并将各个元数据有机的联系在一起,实现对数据流的跟踪管理,向前可以进行

14、数据的血缘分 析,向后可进行影响性分析。安全管理: 安全管理主要包括网络安全、操作系统安全、数据安全和应用安全,这里不做专门介 绍。可参考相关技术资料。3.3. 数据仓库数据架构数据仓库的数据架构分数数据流向、数据模型、数据标准、数据质量、数据管控和数 据保留策略与容量规划六个部分来简单介绍。数据流向:一种比较典型的数据仓库数据流设计模式是,先通过ETL服务将源系统数据加载到临 时数据区,本区主要用于源系统数据和ETL运行数据暂存;然后通过数据加工将详细历史 数据、客户信息、账户信息、交易信息等数据存储到基础数据区;然后可定期进行账户信息 和客户信息等汇总,将数据存储到汇总数据区;最后可将应用

15、分析所需的数据存放到应用数 据区。数据模型: 由于数据仓库建设经验的积累,各行业有其比较成熟的数据仓库数据模型,例如在金 融行业, Teradata 和 IBM 各有其自己的数据模型。成熟的数据模型产品对建设数据仓库有 一个很好的经验和方法论指导,但客户化依然具有很大的工作量。数据标准: 数据标准化是一项关键工作。进行数据标准化工作必须有专职数据管理员,制定配套 的管理流程;数据标准化包括数据映射和制执行准规则,如识别规则、归并规则、重要口径 等;数据标准化工作还包括统一的业务定义,进行总体规划。业数据质量: 数据质量也是一项关键工作,数据质量太差的数据仓库,其应用价值可以几乎为零。 数据质量问题来源广泛、复杂,可以设计或借助现成的数据质量检查系统进行数据质量检查。 保证质量的工作内容主要包括:定义及初始度量、分析及发现错误、查找问题根源、解决质 量问题、监控改进过程、发现及分析改进中的异常。数据管控: 建立统一的数据管理体系框架,主要有三个层面组成:管理策略、方法和内部体系, 其核心是工作内容包括数据规划、数据标准制订和管理、数据质量管理。数据管理体系的建 立和完善是一个长期持续的过程。数据保留策略和容量规划: 数据保存周期受三

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号