数据整合方案

上传人:M****1 文档编号:505405131 上传时间:2023-03-07 格式:DOCX 页数:11 大小:96.94KB
返回 下载 相关 举报
数据整合方案_第1页
第1页 / 共11页
数据整合方案_第2页
第2页 / 共11页
数据整合方案_第3页
第3页 / 共11页
数据整合方案_第4页
第4页 / 共11页
数据整合方案_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《数据整合方案》由会员分享,可在线阅读,更多相关《数据整合方案(11页珍藏版)》请在金锄头文库上搜索。

1、1. 信息资源标准化数据标准化主要实现了数据格式、内容和语义的映射、转换,实现编码一致 化、面向主题集成、数据聚合等功能。通过数据交换、采集,形成的基础业务数据,通过数据整合进一步的数据ETL(数据抽取、转换、加载),安照定制的标准信息规范进行匹配映射(Match )、 数据格式转换(Transform ),并对重复数据进行数据清洗(Cleanse )、过滤 (Filtrate)、聚合(Aggregate ),最后多维加载(Load)后形成标准化数据。采用数据同步工具和ETL工具完成数据抽取、同步等整合工作,并通过任 务调度管理实现对整合工具的集中管理和执行。数据采集时可以安信息资源平台的要求

2、将数据标准化.在采集抽取数据时没有安信息资源平台转换为标准数据的数据,需要安信息资源平台的要求转换成标 准的数据如字典的统一。2. 数据加工管理2.1. 数据抽取数据抽取是利用抽取工具,建立抽取模型,将多个数据源数据汇总到一个数据库的过程。2.2. 数据清洗由于数据来自多个业务系统,而且包含历史数据,需要安照一定的规划把数据进行清洗,整个数据清洗的对象应包括不完整的数据、错误的数据、重复的数 据等三大类。2.3. 数据转换数据转换主要实现数据标准化的过程,信息资源平台的数据,来自多个业务 系统,有些数据源没有按照统一的标准规范设计,因此会造成数据难以与其他数 据共享。数据转换应实现按照统一的数

3、据标准和既定的格式转换规则,对数据的 整理和格式统一。2.4. 数据装载数据装载操作效率是数据资源平台需要考虑的重要环节.投标人应详细描述 针对本项目的不同数据资源所应采用的数据装载策略。2.5. 数据标识数据标识主要为了突出数据的关键性信息,便于实时的统计和更有效的比 对,进而获取符合用户业务办理相关的结果.3. 数据整合处理系统3.1. 数据处理流程数据中心的构建,基础和核心的工作是需要对来自各方的数据进行充分的整 合和处理,对获取的各类源数据,需要进行大量的数据梳理、分析,并作相关的 数据整理工作,通过数据梳理和转换工作,把不同来源的数据基于数据标准,转换 成标准化数据后,再进行入库,从

4、而保证进入数据中心的数据质量,不产生垃圾 数据,从而为数据中心的全局应用奠定基础。数据处理的流程如下图所示:企业关键码标准化处理企业基础信息整合处理企业许可数据整合处理企业监管数据整合处理其他政府部门数据整合处理电子统计报表数据导入处理历史数据整合处理其他数据整合处理数据的处理流程主要如下:1、获取源数据通过数据共享交换对接和实施,获取各单位的原始数据,并暂存在数据缓冲 库中,这部分的数据结构和原始数据的数据结构相同.2、数据整合处理对缓冲库中存储的数据,基于数据标准,对原始的数据进行整合处理,包括 企业关键码标准化处理、企业基础数据整合处理 、企业许可数据整合处理、企 业监管数据整合处理、其

5、他政府部门数据整合处理、电子统计报表数据导入处理 历史数据整合处理等。通过整合处理,把非标准化的原始数据转换成标准化的数据.3、数据中心数据入库对整合处理后的数据按照数据的性质,分别进入到基础数据库和业务数据库 中。3.2. 食品安全监管数据整合处理分析3.2.1. 企业关键码标准化处理 目前,有关企业的各类信息都分散在 XX 省 XX 监管平台、网上办事大厅 XX 分厅以及相关部门的行政审批系统,不同的系统对企业的唯一编码各不相同,目 前存在三种方式:企业组织机构代码企业工商登记注册号 统一社会信用代码 企业 XX 行业相关许可证号 由于不同的业务系统是由不同的开发商开发的,在企业编码的标识

6、上各不统一的,为了实现基于企业为主线,首先需要以企业关键码为关联,对各方汇聚的 有关企业的各类信息进行关联整合,形成企业综合资源,为后续的企业综合分析 提供数据支撑。因此 ,需要基于企业编码标准,对采集的原始企业业务数据的企业编码进 行标准化处理。企业关键码标准化处理涉及的工作包括 :1、基础数据获取 通过共享交换对接、文件导入等多种方式,获取有关企业的基础数据等.2、企业关键码梳理分析根据调研情况,针对 XX 市企业基础数据的实际情况和国家推行三码合一的 政策,采用依次以信用代码、组织机构代码、工商登记注册号、许可证号对从各 方获取的企业信息进行梳理分析,和企业关键码进行比对,制定企业关键码

7、标准 化的处理规则。3、企业关键码数据标准化 对各方汇聚的企业关键码数据按照标准化处理规则进行转换、补充等处理.3.2.2. 企业基础信息整合处理在不同的业务系统中,对企业基础信息描述有有差异、包括企业字段和相关 的数据结构的设计等,因此,需要对各方汇聚的企业基础信息按照统一的企业基 础数据标准,进行整合处理,构建企业基础数据库.3.2.3. 企业许可数据整合处理目前,XX市相关企业许可数据主要分布在两个渠道:网上办事大厅XX分 厅XX省XX监管平台等.1网上办事大厅XX分厅许可数据整合处理通过网上办事大厅XX分厅进行受理和审批,则通过和网上办事大厅XX分厅进行对接,获取相关的企业许可数据。对

8、获取的企业许可数据按照统一的数据标准进行整合处理,经过规则转换后 形成标准的企业许可数据导入到数据中心。2、XX省XX监管平台企业许可数据导入若属于XX省监督管理局办理的许可事项,则对接XX省监督管理局的数据中 心,获取XX市XX相关企业的许可信息,安照企业的许可标准导入到市局数据中心.3.2.4.企业监管数据整合处理以企业为主线,对分散在不同渠道的企业监管数据进行梳理,安照数据标准 要求,对和企业相关的监管数据进行整合处理并入库。需要进行整合处理的监管数据大类包括:四品一械企业日常监管数据四品一械企业行政执法数据 四品一械企业抽样检验数据 四品一械企业信用数据 食品追溯数据 广告监管系统的抓

9、取视频、抓拍图片和抓取音频等广告监测数据 其他3.2.5. 电子统计报表数据导入处理对 XX 市 XX 监督管理局上报省局的统计报表数据(以电子表格方式),对这 部分数据也需要导入到数据中心,提供全局应用的数据支撑。3.3. 数据整合处理功能3.3.1. 数据抽取在融合数据库中,必须从不同的操作型数据库系统以及其它形式外部数据源 中有选择地抽取数据,而不应该将所有源数据全部塞入融合数据库。在具体的抽 取过程中,还必须根据是增量装载工作还是初始完全装载等不同情况的变化规划 抽取任务。有效的数据抽取对于数据仓库的成功很关键,需要合理细致地制订数据抽取 策略。数据抽取的要点主要有:数据源确认:确认数

10、据的源系统(或文件)和结构;列出对事实表的每一个数据项和事实对于每个目标数据项,找出源数据项一个数据元素有多个来源,选择最好的来源确认一个目标字段的多个源字段,建立合并规则确认一个目标字段的多个源字段建立分离规则确定默认值检查缺失值的源数据抽取方法:针对每个数据源,定义抽取过程是人工抽取还是基于工具 抽取; 抽取频率:对于每个数据源,确定数据抽取的频率,每天、每星期、 每季度,基础数据装载等等; 时间窗口:对于每个数据源,表示出抽取过程进行的时间窗口; 工作顺序:决定抽取任务中某项工作是否必须等到前面的工作成功完成,才能开始;异常处理:决定如何处理无法抽取的输入记录。3.3.2. 数据转换抽取

11、得到的数据是没有经过加工的数据,不能直接应用于融合数据中心。首先,所 有抽取的数据必须按照标准数据集转换为融合数据库可以使用的数据。拥有可以用来后 续建立数据仓库进行战略决策的信息,并且提供对外数据共享与服务,而操作型系统的 数据不能满足这个要求;其次,抽取得到的数据其质量可能还达不到融合数据中心的要求, 所以必须在进入融合数据库之前提高数据的质量。在将抽取的数据载入库之前,不可避免 地要执行各种类型的数据转换。必须保证在所有的数据整合到一起之后,数据的组合不 能违反任何商业规则。这期间需要考虑融合数据库中需要的数据结构和数据元素,结合 源数据格式、数据取值和质量要求可以知道如何综合采用多种类

12、型的转换工作来 符合融合数据库的要求.数据转换的基本任务包括: 数据或记录的选择 对所选择的数据或记录进行分离或合并处理 转化:包括多种对数据记录的单独字段的基本转化,以对不同源系统数 据进行标准化,并使这些字段对用户来说可用和可理解 丰富:对单个字段数据进行重新分配和简化其中主要的转换类型有格式修正、字段的解码、计算值和导出值、单个字段 的分离、信息的合并、特征集合转化、度量单位的转化、日期/时间转化、汇总、 键的重构等等。实施数据转换的过程中,要结合使用转换工具和手工技术.使用自动的工具 可以提高效率和准确性,更重要的是,自动转换工具可以记录元数据,确定的转 换参数和规则都会作为元数据被工

13、具存储起来,成为数据仓库整个元数据组成的 一部分,可以被其他部分共享,当由于商业规则或者数据定义发生变化而带来转 换功能变化时,可以将这些变化输入工具,转换的元数据会由工具自动进行调整.使用转换工具的理想目标当然是彻底排除手工的方法,但在实际中却是不可 能实现的。即使是使用最精良的转换工作组合,也会存在必须使用手工开发内部 程序的需要,需要进行复杂的手工编码和人工测试工作。采用手工技术,不但成 本和错误率攀升,也会在数据库环境中产生一些相互独立的程序,手工方法最大 的缺点是所带来的元数据的记录、管理、维护问题.清洗的过程中可以检查错误的拼写,检查多个数据源之间编码,或者补充数 据的错误值,也可

14、以排除从多个数据源系统中取同一个数值时出现的重复问题。 对数据元素的标准化也是数据转换过程的一个很重要的组成部分。要对数据类型 进行标准化,并且对不同数据源的相同数值的长度进行补充.语义的标准化也是 一个重要的任务。你要解决同义和同音异义的问题。当相同的字段名在不同的数 据源系统中代表不同的意义的时候,需要解决这个同音异义的问题。数据转换过程解决了从不同数据源提取数据的解决方法.你要组合一个源记 录中提取的数据,或者对很多源记录中提取的数据进行组合。另一方面,数据转 换还包括了清洗没有用的源数据,并将它们进行新的组合.在数据准备阶段,对 数据的分类和聚类是很重要的部分.基本功能种类解释选择:从

15、源系统中选择整个记录或者部分记录。分离冶并:对源系统中的数据进行分离操作或者合并操作。转化:对源系统进行标准化和可理解化。汇总:将最低粒度数据进行汇总.清晰:对单个字段数据进行重新分配和简化转换类型(1) 格式修正(2) 字段的解码(3) 计算值和导出值(4 )单个字段的分离(5 )信息的合并(6)特征集合转化(7 )度量单位的转化(8 )关键字重新构造(9 )汇总(10 )日期/时间转化数据整合和合并数据整合和合并是将相关的源数据组合成一致的数据结构,装入整合层数据库。(1)实体识别问题数据来源于多个不同的客户系统,对相同客户 可能分别有不同的键码,将它们组合成一条单 独的记录(2 )多数据源相同属性不同值的 问题不同系统中得到的值存在一些差别,需要给出 合理的值3.3.3. 数据装载向融合数据库中转移数据的过程中存在多种情况,一般存在三种类型的数据 装载:初始装载:第一次对所有的数据库表进行迁移;增量装载:根据需要定期装载应用运行过程中发生的变化; 完全刷新:完全刷新是指完全刷新一个或多个表

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号