数据资源加工指导规范资料

上传人:f****u 文档编号:109691357 上传时间:2019-10-27 格式:DOC 页数:17 大小:43.57KB
返回 下载 相关 举报
数据资源加工指导规范资料_第1页
第1页 / 共17页
数据资源加工指导规范资料_第2页
第2页 / 共17页
数据资源加工指导规范资料_第3页
第3页 / 共17页
数据资源加工指导规范资料_第4页
第4页 / 共17页
数据资源加工指导规范资料_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《数据资源加工指导规范资料》由会员分享,可在线阅读,更多相关《数据资源加工指导规范资料(17页珍藏版)》请在金锄头文库上搜索。

1、 项目编号 INFO-115-C01文档编号 TR-REC-012 中国科学院数据应用环境建设与服务 数据资源加工指导规范 (征求意见稿) 中国科学院数据应用环境建设与服务 项目组 2009 年 12 月 I 目 录 范围4规范性引用文件4术语和定义4科学数据资源4元数据4数据类型5数据集5数据项5数据产品5数据资源加工5科学数据资源加工总体要求5数据资源加工内涵6数据资源采集加工指导思想和一般原则6统一领导,统筹规划6突出重点,注重基础6需求导向、务求实效6前瞻性、科学性6延续性7组织管理7文件要求7数据约定8数据资源加工流程8过程策划8数据采集9数据采集的原则10数据采集录入的技术要求10

2、数据采集工作流程10数据录入10数据采集录入的技术要求10数据采集录入的方法11原始数据的保存11来源筛选11原始数据标准化预处理11数据清理12数据集成13消除冗余13数据变换13数据归约14数据加工模型和算法14数据处理加工与产品生产14数据加工的级别15数据加工处理的原则15数据加工处理的技术要求15数据审核16数据更新17 数据资源加工指导规范 范围 本规范提出中国科学院数据应用环境建设与服务项目中科学数据资源采集加工过程的规范化要求,包括对组织管理方面的要求、文档方面的要求、数据约定和数据采集加工流程方面的要求等。 本规范是对中国科学院数据应用环境建设与服务项目中数据采集加工过程的指

3、导性规范,适用于项目内各类数据资源的采集、加工或更新,各数据库主要承担建设单位应参照本规范建立本数据库的实施细则。 规范性引用文件 下列规范性引用文件通过本部分的引用而成为本规范的条款。凡是注日期的引用文件,其随后所有的修改(不包括勘误的内容)或修订版均不适用于本规范。但是,鼓励根据本规范达成协议的各方,研究是否可使用这些文件的 新版本。凡是不注日期的引用文件,其新版本适用于本规范。 z TR-REC-014 科学数据库核心元数据标准 z TR-REC-017 唯一标识符规范 z TR-REC-018 科学数据分类规范与分类词表 z TR-REC-062 数据库建设技术文档参考规范 术语和定义

4、 科学数据资源 科学数据资源是科技活动或通过其它方式所获取到的反映客观世界的本质、特征、变化规律等的原始基本数据,以及根据不同科技活动需要,进行系统加工整理的各类数据集,用于支撑科研活动的科学数据的集合。 元数据 关于数据的数据。 数据类型 对数据的有效值域及对该值域中的值所允许的操作的规定。例如,整型、实型、布尔型、日期类型、字符串类型等。 数据集 由相关数据组成的可标识集合。数据集的大小在理论上是不确定的,一个简单的数据表可以成为一个数据库集,几个相同类型的表也可以被成为一个数据集。 数据项 属性数据中不可再分的 小的单元。 数据产品 数据产品是遵从统一的标准规范,对基础数据进行集成、加工

5、、处理后生成的新的数据集。该数据集的生产过程和数据质量控制措施可以被人工或计算机详细描述、记录,可被其他人或计算机重复操作。数据产品揭示数据间的内在联系,通过重新组合和再分析,表征某一规律性的现象或过程。 数据资源加工 生成数据产品的过程,包括数据加工模型、数据处理过程、数据产品质量评价等内容。 科学数据资源加工总体要求 数据资源采集加工过程中,数据库承建单位应采用数据应用环境建设与服务项目发布的有关标准规范,以及相关的国家标准、国际标准、学科领域标准规范或其应用方案,完成对采集加工工作的组织管理、制订数据约,规划数据资源加工流程,并严格贯彻实施,保质保量完成数据采集加工任务。 对科学数据资源

6、采集加工工作的要求包括多个方面,它规范人员操作,设备要求,数据采集、录入、筛选清理、预处理、处理加工、审核与更新等流程,是科学数据资源高质量建设的有效保障。 数据资源加工内涵 数据产品具有增值的普遍特征。作为数据产品,必须是经过实质性加工、具有智力投入的成果。有的数据虽然表达形式变化了,但由于没有进行实质性加工和智力投入,并未有效提高数据资源的信息量,也不能称之为数据资源加工。 数据资源采集加工指导思想和一般原则 统一领导,统筹规划 数据资源采集加工工作应在数据库牵头建设单位的领导下,统一决策,同一数据库范围内工作方法统一,技术指标统一,从而达成数据产品的一致性。 突出重点,注重基础 数据资源

7、的内容选择应在突出重点和注重基础两者之前取得平衡。数据库承建单位应根据当前具备的工作基础以及国内外相关数据库建设情况,确定所承建数据资源的特点和重点内容,对重点内容加以重视,适当提高质量规格。 同事,数据库承建单位应注重基础性和共性数据的建设,确保所承建数据资源的广度,提升所承建数据资源的通用性、易用性,保证数据资源具有一定的用户范围。 需求导向、务求实效 确定资源采集的内容和范围时,既要考虑数据资源单位的数据资源特点以及工作的复杂、难易程度,不能选取太多,过于复杂不便实际使用;又要充分满足工程建设以及用户的查询、使用数据的需要,不能过于简单。数据资源建设工作应当切实以用户需求为导向,以应用为

8、目标,做真正用户需要的数据,而不是盲目地扩大数据内容范围和提升技术指标。 前瞻性、科学性 资源采集加工的内容不但要满足现阶段科学数据资源的使用需求,更应该考虑将来一定时间内由于科技快速发展等原因可能产生的数据资源应用需求,这样建立的数据资源才会更有生命力。确定数据资源采集范围时,可以积极采用国内和国外先进标准。 延续性 对于连续采集数据,数据采集加工的内容应在一定时间范围内具有较好的延续性,使数据资源建设的内容相对保持稳定,增加数据的时间可比性,数据资源采集加工的内容确定应相对慎重,不断地增删数据内容对数据资源积累形成信息造成很大的负面影响。 组织管理 数据库主要承建单位负责所承建数据库内数据

9、资源采集加工过程的领导、组织、协调和管理。 数据库各参加建设单位共同承担所承建数据库的数据采集加工工作。 数据采集和加工承担人员应具备以下条件:具有一定的政治素质,爱岗敬业,工作认真负责,细致严谨,熟练掌握数据采集和加工过程所需的学科领域知识和计算机技术。 文件要求 为保证所承建数据库数据资源采集加工过程规范健壮,降低人为因素的影响,使标准的技术方法长期延续并加深项目主管单位和用户对数据资源的了解,数据库承建单位应将所所承建数据库在采集加工过程中所采取的政策措施,标准的流程、技术和方法等形成数据资源采集整理工作指南,并发布实施,同时,还应对数据资源采集加工过程的执行情况建立加以记录。 适用时,

10、数据资源采集整理工作指南应包括以下内容: z 数据来源说明,如资料列表,数据准入原则等 z 数据约定,对拟建数据库规格的约定,包括数据采集的文件格式,数据库模型,指标设置,各项指标的定义、公式、测量方法、精度要求,以及数据采集所使用的样表等。 z 数据采集加工的过程要求,为保证数据资源采集加工工作正常完成所必须执行的工作过程,每个过程的目标,执行人,设备要求,必要步骤和过程产出结果的要求等。 z 适用时,采集加工过程的执行情况记录应包括以下内容: z 工作时间 z 人员 z 相关的环境因素 z 设备运行情况 z 执行情况 z 异常和处理 数据资源采集加工过程的相关信息应填入所承建数据库的元数据

11、对应元素当中。关于数据库核心元数据的更加详细规定参照TR-REC-014 科学数据库核心元数据标准要求执行。 必要时,建库单位应保留数据采集的原始记录一定时间,以备查证使用。 文档书写方面更加详细规定参照TR-REC-062 数据库建设技术文档参考规范要求执行。 数据约定 在正式开展数据资源采集加工工作之前,数据库承建单位应以用户需求为出发点,立足于当前承建单位的数据建设能力,对数据资源采集加工直至形成产品的过程和产品的规格进行商讨,并形成约定。 数据约定是数据采集加工工作策划的重要输入项,数据约定的内容中至少应包括以下方面: z 范围约定 根据学科领域和应用特点确定数据选取范围,保证数据完整

12、性、准确性和连贯。 时间范围约定:数据集描述的起止时间 空间范围约定(如适用):数据集描述的地理空间范围 学科范围约定: z 数据量 z 数据类型约定 z 数据质量期望,如填充率水平、差错率水平、主要数据来源等 z 数据库模型,如 ER 图等 z 数据字典 对于每个数据元素,应在以下方面进行描述: 数据来源 采集方法,如采集的部分,拍照要求,计算公式等 设备要求 编码方法 精确度 参照系 对数据采集加工内容的确定应特别注重其规范性,相关的规范包括项目规范、任何可能存在的国家标准、国际标准或行业标准等。其中应特别注重涉及唯一标示符的内容设计应参照TR-REC-017 唯一标识符规范要求;涉及分类

13、编码的内容设计应参照TR-REC-018 科学数据分类规范与分类词表的要求。 数据资源加工流程 过程策划 规范的采集加工业务流程是保障科学数据资源质量 重要和关键的环节。数据库承建单位应对数据资源采集加工过程进行策划,以需求为导向,对数据采集加工工作的过程方法进行设计,确定有效和高效实现数据加工目标所必须的过程,以及每个过程应该遵循的技术与规范,以及为达成数据采集加工目标所必须的过程输入输出规格要求。 过程策划的输入可以包括但不限于以下方面: z 用户和其他相关方的需求和期望; z 对数据资源特性的评估; z 对服务过程特性的评估等。 特别地,数据资源建设的相关建设应该格外关注是否存在任何可能

14、存在的相关国际标准、国家标准、行业标准或其它相关标准规范可以作为输入项。 对数据资源采集加工流程的约定由数据库主要承建单位负责协商形成,并敦促各承建单位遵照实施。所拟定的各项技术与规范都应写入数据资源采集整理工作指南。 下列流程为不同类型科学数据库资源采集加工常见的业务流程,以及每个业务流程相对通用的原则和质量要求,数据库承建单位可参照选择适宜之条款建立所承建数据库的采集加工过程方法。本规范对下列流程的执行顺序没有要求,但数据库建设单位在数据资源采集整理工作指南中应指出其采集加工过程方法的执行顺序。 在正式展开工作之前,数据库承建单位应对数据资源采集加工过程进行策划,以需求为导向,对数据采集加工工作的过程方法进行设计,确定为达成数据采集加工目标所必须的过程输入输出规格要求。策划结果应该能支持数据采集加工工作有效和高效的实现。 过程策划的结果应该包括: z 实现数据加工目标所必须的过程,以及过程之间的关联 z 每个标准化过程所应达成的目标和应遵循的规范: 目标 人员要求 资源要求 过程的输入 一般执行方法 过程的输出 相关文档 数据采集 数据采集录入是指对科学数据资源进行收集并形成原始记录的过程。 数据的采集是数据库业务流程的源头,数据采集的质量如何直接关系到信息的质量问题,必须予以高度重视。 数据采集的原则 z 保证采集数据的全面真实。采集的数据必须根据规定的要求,采集到所需要

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号