ETL方法介绍

上传人:油条 文档编号:1509137 上传时间:2017-06-23 格式:PPT 页数:32 大小:388KB
返回 下载 相关 举报
ETL方法介绍_第1页
第1页 / 共32页
ETL方法介绍_第2页
第2页 / 共32页
ETL方法介绍_第3页
第3页 / 共32页
ETL方法介绍_第4页
第4页 / 共32页
ETL方法介绍_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《ETL方法介绍》由会员分享,可在线阅读,更多相关《ETL方法介绍(32页珍藏版)》请在金锄头文库上搜索。

1、中国人民保险公司保险数据模型及业务标准化 数据模型及业绩指标和风险测算分析 ,ETL方法介绍2004年4月15日,中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017/6/23,2,内容,ETL基本概念ETL过程讲解PICC ETL总体架构PICC ETL开发方法,中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017/6/23,3,ETL基本概念主要目的,将源系统数据经过抽取转换过程,最终装载到目标系统将针对日常业务操作的数据转化为针对数据仓库而存储的决策支持型数据,中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017/6/23,4,ETL基本概念术语解释,

2、ETL,Extract-Transform-Load的缩写,数据抽取(Extract)、转换(Transform)、装载(Load)的过程,DW,DataWarehousing,根据Bill.Inmon的定义,“数据仓库是面向主题的、集成的、稳定的、随时间变化的,主要用于决策支持的数据库系统”,MetaData,元数据,就是描述数据的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据,中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017/6/23,5,ETL基本概念数据仓库中的位置,中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017

3、/6/23,6,ETL基本概念数据质量,正确性(Accuracy):数据是否正确体现在现实或可证实的来源 完整性(Integrity):数据之间的参照完整性是否存在或一致 一致性(Consistency):数据是否被一致的定义或理解 完备性(Completeness):所有需要的数据是否都存在 有效性(Validity):数据是否在企业定义的可接受的范围之内 时效性(Timeliness):数据在需要的时间是否有效 可获取性(Accessbility):数据是否易于获取、易于理解和易于使用,中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017/6/23,7,ETL基本概念数据质量原

4、因,业务系统不同时期数据模型不一致 业务系统不同时期业务过程有变化 各个源系统之间相关信息不一致 遗留系统和新业务、管理系统数据集成不完备带来的不一致性 源系统缺少输入验证过程,不能阻止非法格式的数据进入系统 可以验证但不能改正数据,验证程序不能发现格式正确但内容不正确的错误 源系统不受控制的更改,而这种更改不能及时的传播到受影响的系统 数据由多个交叉的访问界面,难以统一管理数据质量问题 缺少参照完整性检查低劣的源系统设计 数据转换错误,比如ETL过程错误或数据迁移过程的错误 源系统与数据仓库系统的数据组织方式完全不同,中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017/6/23

5、,8,ETL基本概念数据转换,空值处理 规范化数据格式 拆分数据 验证数据合法性 数据替换 实现数据规则过滤 数据排序 数据类型统一转换 . .,中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017/6/23,9,ETL过程讲解逻辑架构,中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017/6/23,10,ETL过程讲解 Extract,设计原则为提高ETL效率,数据在进入ETL系统后的EXF文件都将转换为Flat Text文件格式从ETL程序设计的灵活性和整体结构的一致性考虑,尽量采用Pull的方式,减少对源系统的影响和对其他开发队伍的依赖,并减少网络压力由于Batc

6、h Windows的限制,如果日源数据量大于5GB则必须考虑采用Push的方式以提高传送速度,如,可以由源系统将数据转换为Flat Text文件后,由ETL程序采用FTP的方式进行传送EXF的文件格式接近数据源的数据结构定义在Extract过程中过滤数据仓库不需要的数据记录和字段Push和PullPush在源系统上根据定义的数据格式将每日增量数据生成数据文件,再通过FTP或文件拷贝的方式传送给ETL程序处理Pull由ETL程序通过DRDA或ODBC等数据库协议直接访问源数据库获取所需数据进行处理,中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017/6/23,11,ETL过程讲解数

7、据转换过程中产生的文件,EXF (Extracted Format)由数据源Extract产生的文件,文件结构与Source相似,经过过滤,部分字段被忽略。CIF (Common Interface Format)CIF是ETL经过C/S/S过程产生的中间数据文件。PLF (Pre-Load Format)经过数据转换,用于直接加载到数据仓库的文本文件,其数据结构与数据仓库中的表定义一致。,中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017/6/23,12,ETL过程讲解数据转换过程中一般需要完成的操作,数据检查与稽核数据类型统一转换赋缺省值数据排序数据拆分筛选不合格的数据并记录

8、到Rejected文件中 根据加载要求,CIF文件分为Load/Append和Snapshot两类数据拷贝数据翻译数据聚合复杂计算数据匹配对于必须通过比较才能确定变化的记录的数据,通过比较产生Delta数据和新的基准数据,中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017/6/23,13,ETL过程讲解数据处理流程,中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017/6/23,14,ETL过程讲解数据对照开发流程,SourceTable,CIF,TargetTable,PLF,1,2,3,6,EXF,5,6,4,1、收集整理所有数据源,定义源数据结构(与EXF相同)

9、2、根据物理模型设计定义数据仓库数据(与PLF相同)结构3、设计源数据表(文件)与数据仓库数据表对应关系(Table Mapping),确定Pilot的数据源范围4、设计源数据字段与数据仓库字段的数据对照5、设计CIF的数据结构6、设计源数据字段EXFCIFPLF数据仓库数据字段的数 据对照,中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017/6/23,15,PICC ETL总体架构处理机制,中间数据存放机制通用方式:文本文件或者数据库表PICC:数据库表数据装载机制通用方式:全量装载、增量装载和全增量混合装载PICC:全量装载数据装载周期通用方式:日、周、旬、月、季、半年、年P

10、ICC:月以上数据映射完成机制通用方式:程序处理、工具处理以及混合处理PICC:程序处理,中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017/6/23,16,PICC ETL总体架构应用框架,中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017/6/23,17,PICC ETL总体架构数据抽取(Extract),从旧系统中导出20张表(详见应用框架组成部分),每个表的最后都要增加一个字段字段名称(Source_system_labe),字段数据类型(char(10),字段的值(V2001A) 从新系统(车险数据库)中导出24张表(详见应用框架组成部分),每个表的最后都

11、要增加一个字段:字段名称(Source_system_labe),字段数据类型(char(10),字段的值(V2003A)从新系统(财险数据库)中导出如下8张表(详见应用框架组成部分), 每个表的最后都要增加一个字段:字段名称(Source_system_labe),字段数据类型(char(10),字段的值(V2003P)手工整理Excel表格共20张(详见应用框架组成部分)把旧系统导出的20张表数据导入到表群EXF-Core System中把新系统车险数据导出的24张表数据导入到表群EXF-New System中把新系统财险数据导出的8张表数据导入到表群EXF-New System中把手工整

12、理的20张Excel表数据导入到表群EXF-External中,中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017/6/23,18,PICC ETL总体架构数据抽取(Extract),中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017/6/23,19,PICC ETL总体架构数据转换(1)(Transform1),在CIF第一层表中每生成一条记录产生一个唯一的记录ID 进行数据类型转换 进行空值替换 进行数据格式统一 进行新旧系统到本系统的代码映射 根据业务需求对数据进行必要的转换 其它一些代码的转换(例如RiskCode、KindCode替换成Product_id

13、等) 把不符合数据质量要求的记录写入相应的Reject表中,并调查原因,重新制定映射和清洗规则 在CIF第二层表中每生成一条记录产生一个表内唯一的Fundamental ID,注意在这个过程不进行任何整合过程,而是从CIF第一层每过来一条相关记录就生成一个Fundamental ID 根据数据的Mapping,生成各个数据域的值 在CIF第二层表中写入相关的CIF第一层表的唯一记录ID 在CIF第二层表中写入与数据级别相关的标识字段值,例如Policy_no、Cliam_no、Coverage_no等 需要回写的整合过的Fundamental ID,放入空值 把不符合数据质量要求的记录写入相应

14、的Reject表中,并调查原因,重新制定映射和整合规则,中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017/6/23,20,PICC ETL总体架构数据转换(1)(Transform1),中国人民保险公司保险数据模型及业务标准化 | 保密 | 2017/6/23,21,PICC ETL总体架构数据转换(2)(Transform2),进行从CIF第二层表到PLF的Fundamental Entities的整合过程,生成真正的全局唯一的Fundamental ID 向CIF第二层表中回写全局唯一的Fundamental ID 把CIF - Program表群导入到PLF相应表中 把E

15、XF - External表群导入到PLF相应表中 由PLF的Fundamental Entities生成相应的Anchor Entities数据 把全局唯一的Anchor Entity ID回写到相应的Fundamental Entity中 根据CIF第二层表中的附加字段(例如Policy_no等),生成Fundamental Entity级别的Relationship Entity数据 如果CIF第二层不足以满足生成Relationship Entity数据的需要,则根据附加的标识CIF第一层数据来源的唯一记录字段中的值(唯一记录ID),回溯到CIF第一层表中找到相关字段的值,并据此生成相应的Relationship Entity数据 Anchor Entity级别的Relationship Entity数据要根据Anchor Entity的ID回溯到Fundamental Entity,并进一步回溯到CIF第二层表中才能获取到 根据PLF - Atomic表群生成PLF - Aanlytical表群的数据,把此过程需要临时存放的数据写入到CIF第二层的Analytical表群中 把不符合数据质量要求的记录写入相应的Reject表中,并调查原因,重新制定映射和整合规则,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 电子/通信 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号