公共数据治理运营支撑与数据应用模型设计项目实施技术方案

上传人:尘** 文档编号:371994627 上传时间:2023-12-08 格式:DOCX 页数:236 大小:8.66MB
返回 下载 相关 举报
公共数据治理运营支撑与数据应用模型设计项目实施技术方案_第1页
第1页 / 共236页
公共数据治理运营支撑与数据应用模型设计项目实施技术方案_第2页
第2页 / 共236页
公共数据治理运营支撑与数据应用模型设计项目实施技术方案_第3页
第3页 / 共236页
公共数据治理运营支撑与数据应用模型设计项目实施技术方案_第4页
第4页 / 共236页
公共数据治理运营支撑与数据应用模型设计项目实施技术方案_第5页
第5页 / 共236页
点击查看更多>>
资源描述

《公共数据治理运营支撑与数据应用模型设计项目实施技术方案》由会员分享,可在线阅读,更多相关《公共数据治理运营支撑与数据应用模型设计项目实施技术方案(236页珍藏版)》请在金锄头文库上搜索。

1、公共数据治理运营支撑与数据应用模型设计项目实施技术方案1 项目总体概况1.1 项目背景近年来,H市立足于建设卓越全球城市,率先实现政府治理能力现代化的目标,在公共数据管理和互联网政务服务方面采取了一系列改革举措,积累了一定的实践经验,同时也面临一些困难和问题。 根据公共数据和一网通办管理办法要求,需要进一步促进公共数据资源整合和利用,推进政务服务“一网通办”等电子政务发展,加快智慧政府建设,提升政府治理能力和公共服务水平。为深入贯彻党的十九大关于建设人民满意的服务型政府的要求,坚持以人民为中心的发展思想,适应政府管理和服务现代化发展需要,深化改革,进一步优化营商环境,提升群众和企业获得感,H市

2、通过大数据资源平台的建设,将“四大库”、“市级统建系统”、“各市级委办”、“各行政区”的数据汇聚成了市级数据湖,并以市级数据湖为基础,通过数据的集成与治理,构建了市级数据库,推动跨地区、跨层级、跨部门数据共享交换和应用,为后续公共数据的进一步整合、共享、开放提供了一定的工作基础。建立统一的公共数据平台,全面实现H市政务“一网通办”,是贯彻党中央、国务院决策部署,深入推进“放管服”改革,持续优化营商环境,切实提升群众和企业获得感的重要举措。市委市政府已经明确,2018年建成H市政务“一网通办”总门户;到2020年,H市要形成整体协同、高效运行、精准服务、科学管理的智慧政府基本框架。1.2 建设内

3、容基于大数据资源平台,通过对“四大库”、“市级统建系统”、“各市级委办”、“各行政区”的数据等相关信息的采集、梳理、交换、整合、扩展,构建H市统一的基础信息数据库。建设完善市级数据库:通过人口、法人、空间地理库数据源整合开发,并对接电子证照库。实现对人口、法人、空间地理信息、证照等的接入、整合、开发、利用。结合H市实际,构建公共主题库及专题库,为应用提供安全高质的专题数据服务。通过对工商、税务、质监、民政等法人相关信息的采集、梳理、交换、整合、扩展,构建H市统一的法人基础信息数据库。1.3 建设目标通过对公安、卫计、社保、民政等人口相关信息的采集、梳理、整合、扩展,构建H市统一的人口基础信息数

4、据库。人口库以公安部门的户籍和暂住人口基础信息为基础、以身份证或护照号码以及居住性质为唯一标识,以其他部门人口信息为动态补充。通过本次H市大数据资源平台公共数据运营支撑项目的建设,完善市级数据库的建设,将“四大库”、“市级统建系统”、“各市级委办”、“各行政区”的数据汇聚成了市级数据湖,并以市级数据湖为基础,初步构建基础的H市大数据资源平台,实现面向各需求单位部门进行数据共享、分析和利用、以及面向社会进行数据开放的目的,支撑智慧政府的改革。通过数据的集成与治理,构建了市级数据库,利用H市大数据资源平台公共数据运营支撑项目的能力和服务,开展数据的管理、处理、分析与可视化等工作,支撑各类业务应用。

5、在本次项目中完成以下四个部分:1、 完善公共数据逻辑模型、物理模型的设计规范并确定公共数据库存储原则基层上,利用中心所建设的平台工具对进入市级数据湖的数据进行清洗、分层与转化,形成市级数据库。2、 完成对人口库数据资源的接入、整合、开发、利用。3、 完成对法人库数据资源的接入、整合、开发、利用。本项目为构建H市大数据资源平台公共数据提供运营支撑,需要梳理并编制各部门政务信息资源目录体系,实现数据管理、交换、共享等基础功能。按照统一、集约、高效的数据开发利用理念,通过研究建立多级交换管理体系,形成政务信息资源物理分散、逻辑集中的信息共享模式,满足政府部门多方位、多层次的数据需求,为跨地域、跨部门

6、、跨平台不同应用系统、不同数据库之间的数据交换与管理服务。制定相关标准规范及管理制度,通过相应平台工具汇聚区内各单位公共数据及市级落地数据资源,形成区级数据池,同时经过数据清洗、转换、融合、治理后高质量的公共数据资源,形成公共数据资源中心。2 项目技术方案2.1 整体技术方案为建设统一的数资源中心,加强数据资源整合:制定相关标准规范及管理制度,通过相应平台工具汇聚区内各单位公共数据及市级落地数据资源,形成数据池,同时经过数据清洗、转换、融合、治理后高质量的公共数据资源,形成数据资源中心。本次项目完善公共数据逻辑模型、物理模型的设计规范并确定公共数据库存储原则基层上,利用中心所建设的平台工具对进

7、入市级数据湖的数据进行清洗、分层与转化,形成市级数据库。并完成对人口、法人、空间地理库数据资源的整合开发,实现对人口、法人、空间地理信息的接入、整合、开发、利用,结合H市实际,构建公共主题库,为应用提供安全高质的公共数据服务。本次公共数据存储模型设计实施项目的框架如下图所示:(1) 业务信息数据整合整合政务数据(国家、市级、区)、公共事业数据、行业数据(金融、电信)、物联网数据(气象、摄像头),实现内外部数据融合。l 采集人口数据:通过公安口、民政口、人社口、卫计口等来源数据,采集人口出生、死亡、婚姻、社保、户籍等信息。l 采集法人数据:通过工商口、税务口、质检口、民政口等来源数据,采集法人登

8、记、税务、工商登记等信息。l 采集空间地理数据:采集地图、街道、区域、小区、楼宇、景点等地名、类型、经纬度等信息。(2) 数据抽取/数据交换数据采集模块采用集中化多租户ETL平台进行数据采集、转换、稽核工作,完成数据标准化、集中化,实现数据脉络化、关系化,实现统一的数据处理加工,包括:离线采集、实时采集、准实时采集、流媒体采集、数据导入上报。(3) 基础库按照人、地、事、物、组织等对象方式对数据进行建模,形成全区统一共用的基础数据库。典型的基础数据库包括人口库、法人库、空间地理信息库。l 人口库:构建全市统一的、以公民身份号位为唯一标识的、可共享的综合人口信息资源库。基于综合人口库,实现全市人

9、口信息的汇聚治理、共享交换和应用服务,为开展跨部门、跨业务、跨区域的人口应用服务和数据共享,以及人口大数据分析、辅助决策等,提供全方位的人口信息支撑。l 法人库:促进相关部门有关法人单位业务信息的关联汇聚,丰富法人单位信息资源。支撑法人单位信息资源的分布查询和深化应用。通过公共数据开放网站,分级、分类安全有序开放综合法人信息,促进社会化创新应用。l 空间地理库:基于规划、国土资源等部门提供的GIS地图服务基础上,构建自然资源和空间地理基础信息,并将遥感影像、地址数据、政务信息图层等,与人口信息、法人单位、宏观经济、社会信用进行整合,形成本市空间地理基础信息资源库,为全市政府部门和企事业单位提供

10、统一的地理空间信息服务。2.2 模型设计思路及规范2.2.1 数据模型分层设计对数据模型进行分层能对管理数据有一个更加清晰的掌控,主要有体现清晰数据结构、数据血缘追踪、减少重复开发、复杂问题简单化、屏蔽原始数据异常、屏蔽业务的影响。每个数据分层都有它的作用域,在使用表的时候能更方便地定位和理解。规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。便于维护数据的准确。本次建设公共数据模型从层次上分为ODS、DW与ST层,即:数据运营层、数据仓库层和数据应用层。ODS层数据为近源层数据,数据源中的数据,经过ETL抽取、洗净、传输之后,装入本层。在源数据装入这一层时,要进行诸如去噪、去重

11、、提脏、业务提取、单位统一、砍字段、业务判别等多项工作。DW层数据为数据仓库层数据,ODS层数据经过整合,针对不同实体进行汇总后的数据进入该层。ST层为数据应用层,数据更灵活,更贴近实际应用,用于数据展现。1. 数据来源层ODS层数据主要会有两个大的来源:(1) 业务库,使用sqoop来抽取,每天定时抽取一次。在实时方面,考虑用canal监听mysql的binlog,实时接入。(2) 埋点日志,线上系统会打入各种日志,日志以文件的形式保存,选择用flume定时抽取,或spark streaming、storm来实时接入,kafka也会是一个关键的角色。在ODS层中要进行数据清洗,比如异常字段的

12、处理、字段命名规范化、时间字段的统一等。2. ODS层DW层通过对ODS层数据进行整合,设计通用的数据仓库层,减少数据模型冗余度。规范仓库层模型,将有效提升数据模型重用度,好的DW层模型可以大大提升运营效率和数据一致性。3. DWST层ST层为数据应用层,将DW层数据根据不同需求进行多维度汇总、统计,对数据完成汇总、切片、钻取统计,为不同场景设计数据应用层模型。2.2.2 数据模型分域设计数据仓库中的数据是面向主题组织的,主题是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。公共数据库资源模型设计分域情况如下:主题域主题域缩写相关

13、内容人口域PRTY个人基本信息法人域GRP法人基本信息事件域EVT出生、死亡、诉讼资源域RES空间资源、服务资源、公共资源、网络资源账务域ACC消费记录、纳税记录关系域REL就职记录、婚姻关系根据对人口、法人、空间地理库数据信息的特征,将对人口、法人、空间地理结合H市实际,构建数据模型三大公共主题域,为应用提供安全高质的公共数据服务。人口主题域:收集城市各职能局的业务数据,对数据进行清洗、比对、关联,获得人口空间数据,建立人口库数据资源。法人主题域:收集城市各职能局的业务数据,对数据进行清洗、比对、关联,获得法人空间数据,建立法人库数据资源。资源主题域:通过收集城市各职能局的空间地理资源,结合

14、业务数据,对数据进行清洗、比对、关联,获得空间地理数据,建立空间地理库数据资源。主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域(也说是对某个主题进行分析后确定的主题的边界。)模型设计示例如下:2.2.3 物理模型设计依据数据仓库建模理论,结合实际经验,物理模型设计时需确定数据模型在分布式系统中的存储形态,综合考虑Hadoop、MPP、一体机数据库、内存数据库四种形态各自特点,结合数据按照粒度不同、周期不同、主题不同形成的数据热度,制定数据的存储分布。2.2.3.1 分表规则根据情况,将公共数据模型按照如下规则进行设计:表命名类型名称说明YYYY

15、MMDD日表存放当天数据YYYYMM月表存放月末数据,或当月累计数据DM多周期日表存放多个周期的日数据DM_YYYYMM多周期日表累计的月表存放多个周期的日数据,每月分表DM_YYYY多周期日表累计的年表存放多个周期的日数据,每年分表MM多周期月表存放多个周期的月数据DS当周期表当周期最新的数据DT_YYYYMMDD累计日表当月累计数据2.2.3.2 表命名规则基于分主题分层的原则命名:层_主题域_表名_表类型_分表规则例如:人口表 DWD_PRTY_INDIV_YYYYMMDD法人表 DWD_PRTY_GRP_YYYYMMDD2.2.3.3 字段命名原则为了保证数据定义和数据自身质量,以提高处理效率,字段设计建议遵循以下原则:l 相同字段设计命名一致性,对于多个表均有的字段,设计为统一的名称l 对于表间关联常用的字段,各表应该设计成同样的字段类型。l 避免对Hash键值字段进行数据的处理。字段名称字段命名字段类型枚举值个人姓名INDIV_NAMEVARCHAR(32)个人证件号码INDIV_CERT_CODEVARCHAR(32)个人证件类型

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 行业软件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号