档案数字副本OCR规范

上传人:创****公 文档编号:132286106 上传时间:2020-05-14 格式:DOC 页数:11 大小:163.58KB
返回 下载 相关 举报
档案数字副本OCR规范_第1页
第1页 / 共11页
档案数字副本OCR规范_第2页
第2页 / 共11页
档案数字副本OCR规范_第3页
第3页 / 共11页
档案数字副本OCR规范_第4页
第4页 / 共11页
档案数字副本OCR规范_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《档案数字副本OCR规范》由会员分享,可在线阅读,更多相关《档案数字副本OCR规范(11页珍藏版)》请在金锄头文库上搜索。

1、ICS 01.140.20A 14备案号:中华人民共和国档案行业标准 DA/T XX2017 纸质档案数字副本光学字符识别(OCR)工作规范Specification for optical character recognition(OCR) of digital copies of paper-based records(征求意见稿)2017-XX-XX 发布 2017-XX-XX 实施发 布 国 家 档 案 局 前 言本标准按照GB/T 1.12009 给出的规则起草。本标准的附录A是资料性附录,附录B是规范性附录。本标准由国家档案局提出并归口。本标准起草单位:本标准主要起草人:纸质档案

2、数字副本光学字符识别(OCR)规范1 范围本标准规定了纸质档案数字副本光学字符识别(OCR)的工作组织、方案制定、实施过程、成果管理与应用、性能和指标、业务评价要求。本标准适用于形成的、印刷字迹清晰、文本规范的纸质档案数字副本的光学字符识别(OCR)工作。2 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB 23121980 信息交换用汉字编码字符集 基本集GB/T 97042012 党政机关公文格式GB 180302005 信息技术 中文编码字符集DA/T 1319

3、94 档号编制规则DA/T 181999 档案著录规则DA/T 222015 归档文件整理规则DA/T 31 纸质档案数字化技术规范3 术语和定义3.1 字符 character供组织、控制或表示数据用的元素集合中的一个元素。GB 18030-2005,4 术语和定义3.2 字符集 character set多个字符的集合。字符集包含的字符个数不同,常见字符集名称有ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。3.3 光学字符识别(OCR)Optical Character Recognition;OCR通过信息技术对图像文件中的字符形状进

4、行识别、文字转换和文本输出、呈现的过程。3.4 纸质档案数字副本 digital copies of paper-based records 纸质档案经过数字化加工过程后形成的,存储在磁带、磁盘、光盘等载体上并能被计算机等电子设备识别的数字图像。3.5 档案OCR成果 OCR achievements of records记录通过OCR技术获取的纸质档案数字副本文字内容的文件。3.6 识别准确率 recognition accuracy通过OCR技术识别正确字符的比率。识别准确率=(识别正确字符数/应识别字符总数)100%3.7 识别速度 recognition speed单位时间内通过OCR

5、技术识别字符的数量。4 总则4.1 档案OCR应当纳入数字档案馆(室)资源建设范畴,统筹规划,有序实施,逐步实现常态化。4.2 档案OCR应当科学开展,以有利于实现档案信息检索、计算机辅助编目、编研开发和数据挖掘为原则。4.3 档案OCR应当基于档案数字化工作,档案OCR成果与纸质档案数字副本之间应建立准确、可靠的关联关系。4.4 应当釆取有效的管理和技术手段,加强档案OCR的过程管理和质量控制,确保档案OCR过程规范、成果可靠、数据安全。4.5涉密纸质档案数字副本的OCR工作,应符合涉密档案相关的管理和技术要求。5 工作组织5.1 机构及人员5.1.1 应建立或依托档案数字化工作机构,配备相

6、应素质和技术水平的工作人员,组织开展档案OCR工作的统筹规划、组织实施、协调管理、技术保障、安全保障、监督检查、成果验收和长期保存等。5.1.2 档案OCR工作实行服务外包的,应建立权责明确、覆盖工作全过程的监督机制和安全防范机制,确保档案信息安全。对外聘的工作人员,应进行安全审查。5.2 基础设施5.2.1 应配备或依托档案数字化工作场地、机房等,合理规划、配备和管理设施设备,确保设施设备能够满足档案OCR的实际需要。5.2.2 应配备或开发相应性能先进、安全可靠的电子档案管理系统、OCR软件系统,建立有助于档案OCR的式样库、特征数据库等,提升档案OCR质量。5.3 流程控制5.3.1 档

7、案OCR流程包括图像输入、图像预处理、比对识别、修改校正、成果整理输出等业务环节。应依据相关技术标准,制定档案OCR工作流程和业务环节的操作规范,对全过程进行有效控制。5.3.2 应加强对档案OCR工作全流程的质量管理和安全管理,建立完善的质量问题发现、修正机制,确保档案信息安全。5.4 工作文件与元数据5.4.1 应建立档案OCR工作方案、技术方案、工作审批材料、流程控制材料、数据验收材料、项目验收报告、成果移交材料等的管理工作文件,采取服务外包的还应包括项目招标文件、投标文件、中标通知书、项目合同、保密协议、操作规程、监管记录等,加强对档案OCR工作的管理。5.4.2 应参照相关标准,提出

8、档案OCR工作流程中相关元数据设计、捕获、著录和管理的基本要求,与对应的纸质档案数字副本管理过程元数据实施融合管理,并纳入入数字档案馆(室)应用系统数据库。6 方案制定6.1 确定工作策略 6.1.1 OCR工作开展前,应当依据纸质档案数字副本OCR项目的计划、合同、招投标书等有关项目文件对OCR工作的识别系统(OCR软件,见附录A)、网络系统、基础设施、保障能力等方面进行业务评价。对不符合要求的评价项目须整改达到评价指标要求后方能开展纸质档案数字副本OCR工作。6.2.2 评价通过后,应根据以下因素,制定档案OCR的工作策略: 图像资源:即符合输入标准的可识别的彩色(24BITS)、灰度(2

9、56阶)和黑白二值图像。一般应为TIFF、BMP、JPG、PDF(图像)、OFD(图像)格式文件。 OCR引擎:对图像包含文字进行高速和高识别率的OCR软件开发包。 OCR软件:装备OCR引擎的软件,可高速稳定输出识别结果。应根需要识别的目标,按照项目资源的成本风险平衡原则确定OCR的范围、质量、效率、技术等要求。 基础设施:支持系统运行的建筑、设施和设备,包括介质的场外存放场所、备用的机房及辅助设施。 专业技术支持能力:对系统的运转提供支撑和综合保障的能力,以实现系统的预期目标。包括硬件、系统软件和应用软件的问题分析和处理能力、网络系统安全运行管理能力、沟通协调能力等。 运行维护管理能力:保

10、障系统相关的设备和软件正常运行,提供长期、及时、全面的技术支持的能力。包括运行环境管理、系统管理、安全管理和变更管理等。 灾难恢复预案:对系统灾难实行快速、有效的响应和恢复。包括灾难紧急响应,灾后系统重建及重续运行,通信、后勤、技术等相关保障机制建设。6.2 制定技术方案6.2.1 应当根据确定的档案OCR工作策略制定OCR各工作系统技术方案,包含OCR的数据管理系统、OCR识别处理系统和网络系统。技术方案中所涉及的系统应满足如下条件: 与档案管理系统相当的安全保护级别; 具有可扩展性; 对档案管理系统无明显可用性和性能影响。6.2.2 为确保技术方案满足档案OCR工作策略的要求,应对技术方案

11、进行确认和验证,并记录和保存验证及确认的结果。按照确认的OCR软件技术方案进行开发,实现所要求的数据系统、数据处理系统和网络系统。6.2.3 按照经过确认的技术方案,应制定OCR软件各阶段的系统安装及测试计划,以及支持不同关键业务功能的系统安装及测试计划,并组织最终用户共同进行测试。确认以下各项功能可正确实现: 对识别图像进行预处理; 数据识别及校验; 输出档案OCR成果; 数据安全管理。7 档案OCR的实施7.1 图像输入7.1.1 档案OCR实施前,应当先评估纸质档案数字副本质量是否符合OCR的基本要求。评估内容一般应包括图像分辨率、偏斜度、清晰度、失真度、亮度、对比度、灰度等。7.1.2

12、 纸质档案数字副本的图像分辨率宜为300dpi,不应低于200dpi。特殊情况下,如文字偏小、密集、清晰度较差等,可以适当提高分辨率。文件命名应符合DA/T 131994 、DA/T 222015 、DA/T 31的规定。7.1.3 对质量不能达到档案OCR工作基本要求的纸质档案数字副本,应按照DA/T 31的要求重新数字化后导入。7.2 图像预处理7.2.1 二值化7.2.1.1在识别处理前,应对彩色图像进行灰度化和二值化处理;对灰度图像进行二值化处理。OCR软件应采取局部自适应二值化等算法,并支持自动或手动调节。7.2.1.2 OCR软件应具备亮度和对比度值自动、手动调节功能。亮度和对比度

13、值的设定以调整后的图像中文字的笔画连贯清晰为准。7.2.2 图像降噪7.2.2.1 对图像中印刷体字符进行识别处理前,需要根据噪声的特征对待识别图像进行降噪处理,提升识别处理的精确度。7.2.2.2 OCR软件的降噪处理应去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质,去除档案页面原有的纸张褪变斑点、水渍、污点、装订孔等影响识别的地方。7.2.3 倾斜校正7.2.3.1对图像进行识别前,应进行图像方向检测并进行自动水平或垂直倾斜校正。软件应支持由用户指定图像倾斜的角度,并然后采用相应的图像旋转算法进行手工倾斜校正。7.2.3.1 图像质量控制程序应自动检测图像处理质量。对无法达到质

14、量要求的图像进行标注。7.3 比对识别7.3.1 版式分析7.3.1.1 OCR软件在对比识别前应对图像中的字符块结构进行版式分析,把图像中相似的版块信息划分到一起。如横排文本、竖排文本、表格、图形等。7.3.1 .2 OCR软件可采取多种分析方法,自动检测各版块类型,对图像内部区域进行逻辑归类,记录各版块的位置,存储版面信息。7.3.2 档案特征分析7.3.2.1 归档章分析。建立归档章式样库,自动识别图像中的归档章,并根据归档章样式,识别出字段位置,如全宗号、年度、机构、保管期限、件号、页数等。7.3.2.2 公文内容分析。建立公文格式库,可准确识别公文的版头、主体、版记三部分,识别公章、签章等区域,比照公文样式,识别份密级、发文单位、标题、日期等公文要素。公文要素OCR识别要求参见附录B。7.3.2.3 表格分析。建立单独表格处理模块,建立专用表格模板定义工具,自定义文件处理单、发文稿纸、备考表等表格模板,识别表格中的字段位置。7.3.2.4 印章分析。识别印章图像位置,存储印章图像,建立印章名称与印章图像的关系库,用于版式恢复。7.3.3 识别和匹配7.3.3.1 OCR软件应抽取字体、字号、粗体、斜体、首行缩进等字符特征,通过相似度计算方法,与特征数据库比对,识别为计算机文字内码。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号