《医疗数据平台 医疗机构数据采集系统建设方案V1》由会员分享,可在线阅读,更多相关《医疗数据平台 医疗机构数据采集系统建设方案V1(14页珍藏版)》请在金锄头文库上搜索。
1、智慧医院医疗数据平台医疗机构数据采集系统建设方案设计单位: 建设单位: 编制日期:第1章 医疗机构数据采集1.1. 医疗数据算法提供标准化的医疗数据算法,至少包括:1.2. 基础算法v 文本结构化v 字符预处理v 医疗NLPv 医疗字典1.3. 业务算法v 预测算法v 挖掘算法v 智能算法v 分析算法1.4. 质量监控具备抽取的不合法数据转成正确的目标数据库所需要数据的功能,有以下几种情况的数据清洗工作:必需填写的项为空、数据长度不合法、值域不合法、取值范围不合法、数据项之间逻辑冲突。1.5. 日志监控1)具备通过调用审计日志服务,记录系统的使用详细信息的功能。2)支持对服务操作调用的情况、使
2、用频率、资源峰值空闲,日志归档的功能。第2章 数据资产管理经过数据集成后,业务系统及医疗大数据资源平台里都有大量的数据表、API等各类数据资产,数据管理者通过数据集成工具同步数据、通过数据开发加工数据后,需要对整个平台数据进行统一管控,了解平台的核心数据资产,提供对应数据资产管理规范。2.1. 资产门户对平台的数据资产进行统一管控和查看,无论是各类型数据的元数据信息,都需要能从资产门户,让使用者知道有哪些数据可用,让管理者知道有哪些属于可管,平台能对数据状态情况进行查看和分析。2.2. 数据地图数据地图面向数据开发者,汇聚用户所有数据信息,通过元数据信息收集、数据血缘探查、数据权限申请授权等手
3、段,帮助数据资源平台完成数据信息的收集和管理,解决数据资源平台数据开发者有哪些数据可用、到哪里可以找到数据的难题,并且提升数据资源的利用率,数据地图包含以下功能: 数据概览展示面向开发者和管理者的数据资产情况,包含总项目数、总表数、占用存储量、消耗存储量,占用存储TOP排行等; 数据表详情展示数据表的详细信息。包括:表字段信息、分区信息、数据产出信息、变更历史、血缘信息。 字段信息通过字段信息可以了解表的结构,甚至可以通过这些基础信息直接获得表的DDL语句,以完成类似数据表结构的建设; 分区信息当该数据表存在分区,即可了解通过分区信息可以看到表的分区情况,每个分区大小、数据量的波动情况,了解产
4、出数据在数据量上的稳定性。 产出信息通过产出信息可以推断表产出时间的波动情况,在依赖该表时可以推算下游表的产出时间及是否可以稳定产出。 历史变更可以了解表级别、字段级别、分区级别的修改情况,从而推断表结构稳定性、变化频率等特征。2.3. 数据血缘根据数据资源平台里任务的运行信息和记录,通过分析,提供数据表、字段级别的血缘关系;包含上下游血缘、影响分析。用户可以了解表数据的来源,数据表的使用者,改动表带来的影响情况等信息。并且通过可视化的方式,看到表的上游、下游,并能不断追朔,方便用户了解数据的来源和下游的使用情况数据权限用户可在数据权限中,完成对数据表和API的权限申请和审批过程,并提供申请的
5、全部历史信息情况。2.4. 资产管理类目管理数据资产类目编制的过程是梳理资产、明确职责、规范工作、整理和挖掘数据资产的过程。可支持多套视角下的类目编制,帮助用户快速清晰的定义各个分类。类目属性设置数据资产管理方可针对类目进行属性设置,包括共享属性、类目说明等内容,支持日常的维护和更新。类目与数据资产关系管理数据资产管理方可针数据资源和各种类目关系进行对应维护管理,保障类目和数据资源的关系可靠清晰。主要包含数据表、API服务等资产与和资源类目的关联维护。数据表管理针对资产数据表提供对应的元数据信息管理,核心元数据是描述数据资源各种属性和特征数据的基本集合,包括数据资产基本信息、说明信息(例如摘要
6、、分类等)、管理信息(例如负责单位等)。同时支持离线表管理以及生命周期设置,帮助用户对表的创建到回收都是可管控、可治理的。对应数据表管理者也可在数据表管理中,对不完整的数据资源信息进行修改说明,完善业务信息上下文,让管理者和使用者能更清晰了解其业务含义。2.5. 数据开发当底层数据进行聚合后,数据仍然出于零散的状态,数据是无法直接为上层智能算法和DI应用提供对应数据的,此时需要对数据进行汇聚加工。数据管理和开发人员需要在数据资源平台建立对应的数据中心,进行对应数据的加工。 数据开发为数据使用者提供一站式的集成开发环境,可满足数据资源平台下,数据开发者进行ETL开发、数据挖掘算法开发、数据主题库
7、建设等需求。工作流设计器:帮助用户配置数据开发节点任务,包含ODPS SQL、ODPS MR、Shell、机器学习、数据同步、虚拟节点任务。可以被工作流任务or其他节点任务依赖,并能够被调度系统调度,完成数据仓库的建设。第3章 监控运维3.1. 系统概述数据资源平台上数据量庞大、数据类型多样、数据业务复杂,数据处理任务也非常多,数据处理环节和流程周期长,需要支持高并发、多周期、支持多种数据处理环节的统一数据任务调度机制,按照策略进行数据任务调度。监控运维为数据开发者和维护者提供一站式的数据运维管控能力,用户可自主管理作业的部署、作业优先级、以及生产监控运维。平台提供数据监控运维、任务运行情况监
8、控、异常情况告警、日常运维数据统计等功能。3.2. 运维概览运维概览:主要用来展示调度任务的指标数据情况,目前包含以下几类:任务完成情况、任务运行情况、任务执行时长排行、调度任务数量趋势、近一月出错排行、任务类型分布、30天基线破线次数排行。3.3. 任务运维可视化展示调度任务DAG图,极大地方便用户对线上任务进行运维管理;支持任务运行状态监控告警,支持单任务重跑、多任务重跑、kill、置成功、暂停等操作;支持两种模式选择:包括列表、DAG模式。可以针对 周期运行、测试运行、手动运行任务查看任务运行状态。可以针对任务进行重跑、停止、查看运行日志、查看节点代码、查看节点属性。3.4. 监控告警监
9、控告警是调度任务的监控保障系统,当任务出现错误的时候,系统会通过预定义的方式告知用户任务失败。用户可以按照自己定义的规则来配置告警规则,及时调整任务产出,保障产出数据的及时性和可用性。第4章 数据质量4.1. 系统概述数据质量主要用于数据质量监控,其拥有一套完善的规则校验体系,用户可以配置诸如唯一性监控、波动监控、空值监控等监控规则,如果违反相应监控规则,触发报警给相关人员。数据质量以数据表为监控对象,当表中数据发生变化的时候则会触发数据质量的的校验逻辑,对表中的数据进行校验,帮助用户避免脏数据的产出和质量不佳的数据对整体数据的污染。同时数据质量中会保留所有规则的历史检验结果,以便用户对数据的
10、质量进行分析和定级。针对实时数据也提供对应质量监控接入,提供数据断流等质量信息监控,方便用户对流数据的实时性进行管控;4.2. 规则配置数据质量监控模块支持灵活的规则配置,预置30种以上的内置基础业务模板,拥有完备的数据质量度量标准。模板中提供了波动阈值比较、固定值比较两种度量方式,覆盖字段级、表级规则,包含空值、唯一值、离散值、最大值、最小值、平均值、汇总值等采集方法,且提供了自定义规则适配多样化业务需求。4.3. 自定义规则系统支持自定义编写规则表达式。支持标准SQL形式的自定义规则,任意复杂度。规则强弱分类、红橙等级预警。服务将规则按照重要程度划分成强、弱两种,按照偏离预期程度划分成红、
11、橙阈值。当重要的规则严重偏离期望值时能够阻塞数据生产链路,防止脏数据污染下游,保障生产链路的数据正确性。4.4. 并发可用型规则采集引擎支持可配的资源池,且支持水平扩展。此外,数据质量提供了可靠的容错机制,保障采集作业状态的一致性和正确性。4.5. 智能优先级保障规则采集引擎执行层面,提供了优先级错峰保障机制,在资源有限情况下,保障强规则的任务能够得到第一时间的执行,在资源空闲时,弱规则的任务能够得到有效的执行。4.6. 质量报警当出现质量问题触发规则时,对应负责人会收到相应的报警提示,及时对数据质量进行处理优化。4.7. 质量总览为数据质量管理人员提供监控总览情况,用户可展现目前数据质量总体
12、/个人所监控的表的总数、配置的规则总数和今日运行任务情况的统计信息。第5章 数据安全整个数据资源平台上的数据安全是重中之重,敏感数据防护更需要符合行业规定和数据隐私法律等规定,数据安全模块为平台提供安全服务,通过以下功能保障数据安全和对应自定义化的安全功能配置:数据资源平台内部,积累大量敏感数据,一旦发生泄漏,损坏,不仅仅会给带来数据损失,更重要的是会影响平台的权威性和可信性。为了保护数据安全,首先要知道敏感数据在哪里,通过数据安全等级,发现和定位敏感数据,明确其在数据资源平台上的分布情况,根据定义的敏感数据类型自动发现敏感数据,并为其分级分类。通常分为绝密、机密、正常等等级进行对应安全规则保
13、障。5.1. 数据保护对于数据的访问都应当受到监控,确保敏感数据访问的合法性、合理性、安全性,规范用户对访问敏感数据的访问权限,对于不同的行业,不同的应用系统,需要分析关联操作可能带来的安全隐患,并加以记录及控制。5.2. 数据访问审计特权用户的不正当操作有可能会威胁整个数据系统的安全。在生产环境中,对于特权用户的访问有严格的审查流程,包括何时访问,执行哪些操作,执行顺序等等。记录审计特权用户的访问记录,可以确保特权用户在正确的时间完成了正确的操作,审查是否有越轨行为的出现,进而保证数据系统的安全。5.3. 医疗数据脱敏包含有敏感信息的数据库,在不限制用户访问的情况下,需要对敏感信息进行动态遮
14、蔽。比如,存储有关公民个人信息,例如,身份证号码,电话号码,电子邮件等,应该对这些敏感信息进行部分或者全部遮蔽,来达到数据安全保护的目的。动态访问遮蔽是在不确定能够排除那些用户,那些访问地址,甚至那些字段为可疑或者有害访问时,关注数据内容本身,抓住敏感信息点,并有针对性地对该部分信息进行动态访问遮蔽,从而达到保护数据安全的目的。脱敏目标数据包括医疗结构化数据及Dicom索引下的隐私数据。脱敏方式包括:无需脱敏/掩码(部分数据/字段以X代替)/K-泛化匿名(即数据泛化)/全隐匿。5.4. 采集交换流程分析上述流程图综合介绍了数据采集、数据定时交换、数据实时交换的数据流程。数据采集通过在各接入医疗单位及医院部署前置机,接入单位将数据以备份数据方式实时向数据中心的数据采集库上传,经过处理清洗转标后,入库成为正式数据。数据定时交换与数据采集的流程类似,只是数据为双向交换模式。