数据整合方案样本.doc

上传人:公**** 文档编号:557595849 上传时间:2023-03-01 格式:DOC 页数:12 大小:490.02KB
返回 下载 相关 举报
数据整合方案样本.doc_第1页
第1页 / 共12页
数据整合方案样本.doc_第2页
第2页 / 共12页
数据整合方案样本.doc_第3页
第3页 / 共12页
数据整合方案样本.doc_第4页
第4页 / 共12页
数据整合方案样本.doc_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《数据整合方案样本.doc》由会员分享,可在线阅读,更多相关《数据整合方案样本.doc(12页珍藏版)》请在金锄头文库上搜索。

1、1. 信息资源原则化数据原则化重要实现了数据格式、内容和语义映射、转换,实现编码一致化、面向主题集成、数据聚合等功能。通过数据互换、采集,形成基本业务数据,通过数据整合进一步数据ETL(数据抽取、转换、加载),按照定制原则信息规范进行匹配映射(Match)、数据格式转换(Transform),并对重复数据进行数据清洗(Cleanse)、过滤(Filtrate)、聚合(Aggregate),最后多维加载(Load)后形成原则化数据。采用数据同步工具和ETL工具完毕数据抽取、同步等整合工作,并通过任务调度管理实现对整合工具集中管理和执行。数据采集时可以按信息资源平台规定将数据原则化。在采集抽取数据

2、时没有按信息资源平台转换为原则数据数据,需要按信息资源平台规定转换成原则数据如字典统一。2. 数据加工管理2.1. 数据抽取数据抽取是运用抽取工具,建立抽取模型,将各种数据源数据汇总到一种数据库过程。2.2. 数据清洗由于数据来自各种业务系统,并且包括历史数据,需要按照一定规划把数据进行清洗,整个数据清洗对象应涉及不完整数据、错误数据、重复数据等三大类。2.3. 数据转换数据转换重要实现数据原则化过程,信息资源平台数据,来自各种业务系统,有些数据源没有按照统一原则规范设计,因而会导致数据难以与其她数据共享。数据转换应实现按照统一数据原则和既定格式转换规则,对数据整顿和格式统一。2.4. 数据装

3、载数据装载操作效率是数据资源平台需要考虑重要环节。投标人应详细描述针对本项目不同数据资源所应采用数据装载方略。2.5. 数据标记数据标记重要为了突出数据核心性信息,便于实时记录和更有效比对,进而获取符合顾客业务办理有关成果。3. 数据整合解决系统3.1. 数据解决流程数据中心构建,基本和核心工作是需要对来自各方数据进行充分整合和解决,对获取各类源数据,需要进行大量数据梳理、分析,并作有关数据整顿工作,通过数据梳理和转换工作,把不同来源数据基于数据原则,转换成原则化数据后,再进行入库,从而保证进入数据中心数据质量,不产生垃圾数据,从而为数据中心全局应用奠定基本。数据解决流程如下图所示:数据解决流

4、程重要如下:1、获取源数据通过数据共享互换对接和实行,获取各单位原始数据,并暂存在数据缓冲库中,这某些数据构造和原始数据数据构造相似。2、数据整合解决对缓冲库中存储数据,基于数据原则,对原始数据进行整合解决,涉及公司核心码原则化解决、公司基本数据整合解决 、公司允许数据整合解决、公司监管数据整合解决、其她政府部门数据整合解决、电子记录报表数据导入解决、历史数据整合解决等。通过整合解决,把非原则化原始数据转换成原则化数据。3、数据中心数据入库对整合解决后数据按照数据性质,分别进入到基本数据库和业务数据库中。3.2. 食品安全监管数据整合解决分析3.2.1. 公司核心码原则化解决当前,关于公司各类

5、信息都分散在XX省XX监管平台、网上办事大厅XX分厅以及有关部门行政审批系统,不同系统对公司唯一编码各不相似,当前存在三种方式: 公司组织机构代码 公司工商登记注册号 统一社会信用代码 公司XX行业有关允许证号由于不同业务系统是由不同开发商开发,在公司编码标记上各不统一,为了实现基于公司为主线,一方面需要以公司核心码为关联,对各方汇聚关于公司各类信息进行关联整合,形成公司综合资源,为后续公司综合分析提供数据支撑。因而 ,需要基于公司编码原则,对采集原始公司业务数据公司编码进行原则化解决。公司核心码原则化解决涉及工作涉及 :1、基本数据获取通过共享互换对接、文献导入等各种方式,获取关于公司基本数

6、据等。2、公司核心码梳理分析依照调研状况,针对XX市公司基本数据实际状况和国家履行三码合一政策,采用依次以信用代码、组织机构代码、工商登记注册号、允许证号对从各方获取公司信息进行梳理分析,和公司核心码进行比对,制定公司核心码原则化解决规则。3、公司核心码数据原则化对各方汇聚公司核心码数据按照原则化解决规则进行转换、补充等解决。3.2.2. 公司基本信息整合解决在不同业务系统中,对公司基本信息描述有有差别、涉及公司字段和有关数据构造设计等,因而,需要对各方汇聚公司基本信息按照统一公司基本数据原则,进行整合解决,构建公司基本数据库。3.2.3. 公司允许数据整合解决当前,XX市有关公司允许数据重要

7、分布在两个渠道:网上办事大厅XX分厅XX省XX监管平台等。1、网上办事大厅XX分厅允许数据整合解决通过网上办事大厅XX分厅进行受理和审批,则通过和网上办事大厅XX分厅进行对接,获取有关公司允许数据。对获取公司允许数据按照统一数据原则进行整合解决,通过规则转换后形成原则公司允许数据导入到数据中心。2、XX省XX监管平台公司允许数据导入若属于XX省监督管理局办理允许事项,则对接XX省监督管理局数据中心,获取XX市XX有关公司允许信息,按照公司允许原则导入到市局数据中心。3.2.4. 公司监管数据整合解决以公司为主线,对分散在不同渠道公司监管数据进行梳理,按照数据原则规定,对和公司有关监管数据进行整

8、合解决并入库。需要进行整合解决监管数据大类涉及: 四品一械公司寻常监管数据 四品一械 公司行政执法数据 四品一械公司抽样检查数据 四品一械公司信用数据 食品追溯数据 广告监管系统抓取视频、抓拍图片和抓取音频等广告监测数据 其她3.2.5. 电子记录报表数据导入解决对XX市XX监督管理局上报省局记录报表数据(以电子表格方式),对这某些数据也需要导入到数据中心,提供全局应用数据支撑。3.3. 数据整合解决功能3.3.1. 数据抽取在融合数据库中,必要从不同操作型数据库系统以及其他形式外部数据源中有选取地抽取数据,而不应当将所有源数据所有塞入融合数据库。在详细抽取过程中,还必要依照是增量装载工作还是

9、初始完全装载等不同状况变化规划抽取任务。有效数据抽取对于数据仓库成功很核心,需要合理细致地制定数据抽取方略。数据抽取要点重要有:u 数据源确认:确认数据源系统(或文献)和构造;列出对事实表每一种数据项和事实对于每个目的数据项,找出源数据项一种数据元素有各种来源,选取最佳来源确认一种目的字段各种源字段,建立合并规则确认一种目的字段各种源字段,建立分离规则拟定默认值检查缺失值源数据u 抽取办法:针对每个数据源,定义抽取过程是人工抽取还是基于工具抽取;u 抽取频率:对于每个数据源,拟定数据抽取频率,每天、每星期、每季度,基本数据装载等等;u 时间窗口:对于每个数据源,表达出抽取过程进行时间窗口;u

10、工作顺序:决定抽取任务中某项工作与否必要等到前面工作成功完毕,才干开始;u 异常解决:决定如何解决无法抽取输入记录。3.3.2. 数据转换抽获得到数据是没有通过加工数据,不能直接应用于融合数据中心。一方面,所有抽取数据必要按照原则数据集转换为融合数据库可以使用数据。拥有可以用来后续建立数据仓库进行战略决策信息,并且提供对外数据共享与服务,而操作型系统数据不能满足这个规定;另一方面,抽获得到数据其质量也许还达不到融合数据中心规定,因此必要在进入融合数据库之前提高数据质量。在将抽取数据载入库之前,不可避免地要执行各种类型数据转换。必要保证在所有数据整合到一起之后,数据组合不能违背任何商业规则。这期

11、间需要考虑融合数据库中需要数据构造和数据元素,结合源数据格式、数据取值和质量规定可以懂得如何综合采用各种类型转换工作来符合融合数据库规定。数据转换基本任务涉及:u 数据或记录选取u 对所选取数据或记录进行分离或合并解决u 转化:涉及各种对数据记录单独字段基本转化,以对不同源系统数据进行原则化,并使这些字段对顾客来说可用和可理解u 丰富:对单个字段数据进行重新分派和简化其中重要转换类型有格式修正、字段解码、计算值和导出值、单个字段分离、信息合并、特性集合转化、度量单位转化、日期/时间转化、汇总、键重构等等。实行数据转换过程中,要结合使用转换工具和手工技术。使用自动工具可以提高效率和精确性,更重要

12、是,自动转换工具可以记录元数据,拟定转换参数和规则都会作为元数据被工具存储起来,成为数据仓库整个元数据构成一某些,可以被其她某些共享,当由于商业规则或者数据定义发生变化而带来转换功能变化时,可以将这些变化输入工具,转换元数据会由工具自动进行调节。使用转换工具抱负目的固然是彻底排除手工办法,但在实际中却是不也许实现。虽然是使用最精良转换工作组合,也会存在必要使用手工开发内部程序需要,需要进行复杂手工编码和人工测试工作。采用手工技术,不但成本和错误率攀升,也会在数据库环境中产生某些互相独立程序,手工办法最大缺陷是所带来元数据记录、管理、维护问题。清洗过程中可以检查错误拼写,检查各种数据源之间编码,

13、或者补充数据错误值,也可以排除从各种数据源系统中取同一种数值时浮现重复问题。对数据元素原则化也是数据转换过程一种很重要构成某些。要对数据类型进行原则化,并且对不同数据源相似数值长度进行补充。语义原则化也是一种重要任务。你要解决同义和同音异义问题。当相似字段名在不同数据源系统中代表不批准义时候,需要解决这个同音异义问题。数据转换过程解决了从不同数据源提取数据解决办法。你要组合一种源记录中提取数据,或者对诸多源记录中提取数据进行组合。另一方面,数据转换还涉及了清洗没有用源数据,并将它们进行新组合。在数据准备阶段,对数据分类和聚类是很重要某些。l 基本功能种类解释选取: 从源系统中选取整个记录或者某

14、些记录。分离/合并:对源系统中数据进行分离操作或者合并操作。转化: 对源系统进行原则化和可理解化。汇总: 将最低粒度数据进行汇总。清晰: 对单个字段数据进行重新分派和简化l 转换类型(1)格式修正(2)字段解码(3)计算值和导出值(4)单个字段分离(5)信息合并(6)特性集合转化(7)度量单位转化(8)核心字重新构造(9)汇总(10)日期/时间转化l 数据整合和合并数据整合和合并是将有关源数据组合成一致数据构造,装入整合层数据库。(1)实体辨认问题数据来源于各种不同客户系统,对相似客户也许分别有不同键码,将它们组合成一条单独记录(2)多数据源相似属性不同值问题不同系统中得到值存在某些差别 ,需

15、要给出合理值3.3.3. 数据装载向融合数据库中转移数据过程中存在各种状况,普通存在三种类型数据装载:u 初始装载:第一次对所有数据库表进行迁移;u 增量装载:依照需要定期装载应用运营过程中发生变化;u 完全刷新:完全刷新是指完全刷新一种或各种表内容,并重新装载新数据。在装载过程中,普通会用到四种方式:u 装载:如果要装载目的表已经存在,并且也有数据存在于表中,装载过程就会抹去已有数据,应用输入文献中新数据。如果装载目的是个空表,就直接应用来自输入文献数据。u 追加:若表中已经存在数据,追加过程会无条件地增长输入数据,并在目的表中保存已有数据。当存在记录重复状况时,需要定义如何解决重复输入数据记录副本(可以作为副本增长进去,也可以将其丢弃)。u 破坏性合并:如果输入数据记录主键与已有记录互相匹配,就对匹配目的记录进行更新,如果没有匹配目的记录,就将输入记录添加入目的表。u 建设性合并:如果数据记录主键与已有记录匹配,就保存已有记录,加入输入记录,并将增长记录标记为旧记录代替。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 网络安全

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号