《深入浅出数据治理精编版》由会员分享,可在线阅读,更多相关《深入浅出数据治理精编版(43页珍藏版)》请在金锄头文库上搜索。
1、深入浅出数据治理目录一 数据管理的现状 3二 数据治理的概述 4(一)数据治理概念 4(二)数据治理目标 4三 数据治理体系 5四 数据治理核心领域 5(一)数据模型 6(二)数据生命周期 6(三)数据标准 8(四)主数据9(五)数据质量 10(六)数据服务 12(七)数据安全 12五 数据治理保障机制 13(一)制度章程 13(1)规章制度 13(2)管控办法 13(3)考核机制 13(二)数据治理组织 15(1)组织架构 15(2)组织层次 16(3)组织职责 17(三)流程管理 19(四)IT技术应用19(1)支撑平台 19(2)技术规范 22附件A数据管理规范23附件B数据质量评估办法
2、38附件C数据质量管理流程42关于数据治理的理解根据行业信息化发展的现状,结合当今行业数据治理的要求, 大型集团或政务管理部门现阶段数据管理方面存在以下的不足:(1)数据多头管理,缺少专门对数据管理进行监督和控制的 组织。信息系统的建设和管理职能分散在各部门,致使数据管理的 职责分散,权责不明确。组织机构各部门关注数据的角度不一样, 缺少一个组织从全局的视角对数据进行管理,导致无法建立统一的 数据管理规程、标准等,相应的数据管理监督措施无法得到落实。 组织机构的数据考核体系也尚未建立,无法保障数据管理标准和规 程的有效执行。(2)多系统分散建设,没有规范统一的省级数据标准和数据 模型。组织机构
3、为应对迅速变化的市场和社会需求,逐步建立了各 自的信息系统,各部门站在各自的立场生产、使用和管理数据,使 得数据分散在不同的部门和信息系统中,缺乏统一的数据规划、可 信的数据来源和数据标准,导致数据不规范、不一致、冗余、无法 共享等问题出现,组织机构各部门对数据的理解难以应用一致的语 言来描述,导致理解不一致。(3)缺少统一的主数据,组织机构核心系统间的人员等主要 信息并不是存储在一个独立的系统中,或者不是通过统一的业务管 理流程在系统间维护。缺乏对集团公司或政务单位主数据的管理, 就无法保障主数据在整个业务范围内保持一致、完整和可控,导致 业务数据正确性无法得到保障。(4)缺乏统一的集团型数
4、据质量管理流程体系。当前现状中 数据质量管理主要由各组织部门分头进行;跨局跨部门的数据质量 沟通机制不完善;缺乏清晰的跨局跨部门的数据质量管控规范与标 准,数据分析随机性强,存在业务需求不清的现象,影响数据质量; 数据的自动采集尚未全面实现,处理过程存在人为干预问题,很多 部门存在数据质量管理人员不足、知识与经验不够、监管方式不全 面等问题;缺乏完善的数据质量管控流程和系统支撑能力。(5)数据全生命周期管理不完整。目前,大型集团或政务单 位,数据的产生、使用、维护、备份到过时被销毁的数据生命周期 管理规范和流程还不完善,不能确定过期和无效数据的识别条件, 且非结构化数据未纳入数据生命周期的管理
5、范畴;无信息化工具支 撑数据生命周期状态的查询,未有效利用元数据管理。数据治理的概述2.1 数据治理概念数据治理是指将数据作为组织资产而展开的一系列的具体化工 作,是对数据的全生命周期管理。数据治理体系是指从组织架构、管理制度、操作规范I、应用 技术、绩效考核支持等多个维度对组织的数据模型、数据架构、数 据质量、数据安全、数据生命周期等各方面进行全面的梳理、建设 以及持续改进的体系。2.2 数据治理目标数据治理的目标是提高数据的质量(准确性和完整性),保证数据的安全性(保密性、完整性及可用性),实现数据资源在各组织机 构部门的共享;推进信息资源的整合、对接和共享,从而提升集团 公司或政务单位信
6、息化水平,充分发挥信息化作用。数据治理体系数据治理体系包含两个方面,一是数据质量核心领域,二是数 据质量保障机制。具体两者内容及相互关系可以参见下图:保障与规范数据治理核心领域核心领域保障机制制度章程-规章制度 管控办迭考核机制数据摸型组织俎织架构组织层次粗织职责数据服务数据质哥主数据 eJ III 兀数据支撑与落实数拯全生命 周期流程IT技术应用*流程目标*技术规范*流程任务实施办法*流程分级*支撑平台为了有效管理信息资源,必须构集团级数据治理体系。数据治 理体系包含数据治理组织、数据构架管理、主数据管理、数据质量 管理、数据服务管理及数据安全管理内容,这些内容既有机结合,又相互支撑。4.1
7、 数据模型数据模型是数据构架中重要一部分,包括概念数据模型和逻辑 数据模型,是数据治理的关键、重点。理想的数据模型应该具有非 冗余、稳定、一致、易用等特征。逻辑数据模型能涵盖整个集团的 业务范围,以一种清晰的表达方式记录跟踪集团单位的重要数据元 素及其变动,并利用它们之间各种可能的限制条件和关系来表达重 要的业务规则。数据模型必须在设计过程中保持统一的业务定义。 为了满足将来不同的应用分析需要,逻辑数据模型的设计应该能够 支持最小粒度的详细数据的存储,以支持各种可能的分析查询。同 时保障逻辑数据模型能够最大程度上减少冗余,并保障结构具有足 够的灵活性和扩展性4.2 数据生命周期一般包括数据生成
8、及传输、数据存储、数据处理及应用、数据 销毁四个方面。(1)数据生成及传输数据应该能够按照数据质量标准和发展需要产生,应采取措施 保证数据的准确性和完整性,业务系统上线前应该进行必要的安全 测试,以保证上述措施的有效性。对于手工流程中产生的数据在相 关制度中明确要求,并通过事中复核、事后检查等手段保证其准确 性和完整性。数据传输过程中需要考虑保密性和完整性的问题,对 不同种类的数据分别采取不同的措施防止数据泄漏或数据被篡改。(2)数据存储这个阶段除了关注保密性、完整性之外,更要关心数据的可用 性,对于大部分数据应采取分级存储的方式,不仅存储在本地磁盘 上,还应该在磁带上,甚至远程复制到磁盘阵列
9、中,或者采用光盘 库进行存储。对于存储备份的数据要定期进行测试,确保其可访问 其数据完整。数据的备份恢复策略应该由数据的责任部门或责任人 负责制定,信息化管理部门可以给予相应的支持。同时还需要注意 因为部门需要或故障处理的需要,可能对数据进行修改,必须在数 据管理办法中明确数据修改的申请审批流程,审慎对待后台数据修 改。(3)数据处理和应用信息化相关部门需要对数据进行分析处理,以挖掘出对于管理 及业务开展有价值的信息,为保证过程中数据的安全性,一般应采 用联机处理,系统只输出分析处理的结果。但是实际中,因为相关 数据分析系统建设不到位,需要从数据库中提取数据后再对数据进 行必要的分析处理,在这
10、个过程中就需要关注数据提取操作是否可 能对数据库造成破坏、提取出的数据在交付给分析处理人员的过程 中其安全性是否会降低、数据分析处理的环境安全性等等。(4)数据销毁这个阶段主要涉及数据的保密性。应明确数据销毁的流程,采 用必要的工具,数据的销毁应该有完整的记录。尤其是对于需要送 出外部修理的存储设备,送修之前应该对数据进行可靠的销毁。4.3 数据标准数据标准是集团单位建立的一套符合自身实际,涵盖定义、操 作、应用多层次数据的标准化体系。数据标准的建立是集团单位信息化、数字化建设的一项重要工 作,行业的各类数据必须遵循一个统一的标准进行组织,才能构成 一个可流通、可共享的信息平台。数据治理对标准
11、的需求可以划分为两类,即基础性标准和应用 性标准。前者主要用于在不同系统间,形成信息的一致理解和统一 的坐标参照系统,是信息汇集、交换以及应用的基础,包括数据分 类与编码、数据字典、数字地图标准;后者是为平台功能发挥所涉 及的各个环节,提供一定的标准规范,以保证信息的高效汇集和交 换,包括元数据标准、数据交换技术规范、数据传输协议、数据质 量标准等。(1)数据分类与编码数据分类与编码标准是信息化建设中标准化的一项基础工作, 该类标准规定平台汇集、交换相关信息统一的分类系统和排列顺序 以及编码规则,目的是在不同系统和用户之间建立交通数据的一致 参照,对提高数据采集、处理和数据交换效率具有重要作用
12、。数据 分类与编码标准的制定将有力推进平台标准化及交通信息化建设标 准化的进程。(2)数据字典针对实际需求,定义数据集,建立各个领域的数据字典,规范 数据概念和数据定义。在此基础上,形成完备的集团单位数据集和 数据字典。(3)元数据标准元数据标准是描述数据资源的具体对象时所有规则的集合,它 包括了完整描述一个具体数据对象时所需要的数据项集合。针对各 种信息资源分别制定适当的元数据标准,可为信息的管理、发现和 获取提供一种实际而简便的方法,从而提高数据交换效率。(4)数据交换标准为了保证数据共享和交换的顺利实现,必须明确定义和规范数 据交换的相关标准。数据交换的标准规范是集团单位综合信息平台 的
13、核心标准。其中应当包括数据交换内容、数据交换格式、数据传 输方式、各类中心间数据接口的标准化等方面。(5)数据质量标准由于数据采集任务通常由其他二级平台完成,数据治理平台的 标准方法主要集中在数据的加工和管理上。应该重点开发的一个领 域是数据质量控制方法。应当从三个方面对数据质量方法进行研究: “ 坏数据”或“不可靠数据”的识别,错误数据的编辑方法,以及 缺少值的处理。4.4 主数据主数据管理要做的就是从各部门的多个业务系统中整合最核心 的、最需要共享的数据(主数据),集中进行数据的清洗和丰富,并 且以服务的方式把统一的、完整的、准确的、具有权威性的主数据 传送给集团单位范围内需要使用这些数据
14、的操作型应用系统和分析 型应用系统。主数据管理的信息流应为:1) 某个业务系统触发对主数据的改动;2) 主数据管理系统将整合之后完整准、确的主数据传送给所有 有关的应用系统3) 主数据管理系统为决策支持和数据仓库系统提供准确的数 据源。因此对于主数据管理要考虑运用主数据管理系统实现,主数据 管理系统的建设,要从建设初期就考虑整体的平台框架和技术实现。4.5 数据质量数据质量不高将影响数据仓库应用程度不高。低下的数据质量 往往造成开发出来的系统与用户的预期大相径庭,数据质量关系建 设有关分析型信息系统成败同,时数据资源是集团单位的战略资源, 合理有效的使用正确的数据能指导集团单位做出正确的决策,
15、提高 省综合竞争力。不合理的使用不正确的数据(即差的数据质量)可 导致决策的失败,正可谓差之毫厘、谬以千里。数据质量管理包含对数据的绝对质量管理、过程质量管理。绝 对质量即数据的真实性、完备性、自治性是数据本身应具有的属性。 过程质量即使用质量、存储质量和传输质量,数据的使用质量是指 数据被正确的使用。再正确的数据,如果被错误的使用,就不可能 得出正确的结论。数据的存贮质量指数据被安全的存贮在适当的介 质上。所谓存贮在适当的介质上是指当需要数据的时候能及时方便 的取出。数据的传输质量是指数据在传输过程中的效率和正确性。高质量的交通运输行业数据至少有如下几项要求:一是正确性,在转换、分析、存储、传输、应用流程中不存在 错误;二是完整性,数据库应用或要求的所有记录、字段都存在;三是一致性,体现在整个数据库的定义和维护方面,确保数据 在使用的整个过程中是一致的;四是时效性,衡量指标是在指定的数据与真实的业务情况同步 的时间容忍度内,即指定的更新频度内,及时被刷新的数据的百分 比;五是可靠性,提供数据的数据源必须能够可靠稳定地提供数据。数据质量管理的规划和实施包括以下内容: