蒙古文资源数字化加工及应用系统介绍资料

上传人:f****u 文档编号:128341101 上传时间:2020-04-21 格式:PDF 页数:29 大小:3.64MB
返回 下载 相关 举报
蒙古文资源数字化加工及应用系统介绍资料_第1页
第1页 / 共29页
蒙古文资源数字化加工及应用系统介绍资料_第2页
第2页 / 共29页
蒙古文资源数字化加工及应用系统介绍资料_第3页
第3页 / 共29页
蒙古文资源数字化加工及应用系统介绍资料_第4页
第4页 / 共29页
蒙古文资源数字化加工及应用系统介绍资料_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《蒙古文资源数字化加工及应用系统介绍资料》由会员分享,可在线阅读,更多相关《蒙古文资源数字化加工及应用系统介绍资料(29页珍藏版)》请在金锄头文库上搜索。

1、内蒙古出版集团内蒙古出版集团 蒙古文蒙古文资源资源数字化数字化加工加工及应用系统及应用系统 成果汇报成果汇报 20142014年年4 4月月1010日日 产品目标 产品成果展示 产品远景 产品目标 建设背景 内蒙古出版集团成员出版社60多年已累计出版7万 多种类蒙古文图书 现急需图书资源数字化处理 蒙古文数字内容资源是蒙古文文化大发展大繁荣 的时代要求 英文 中文等图书资源的数字化OCR识别技术已相 当成熟 并得到广泛应用 蒙古文图书资源的OCR识别技术也已有解决方案和 较深研究 但还没有完整的产品化软件 产品目标 蒙蒙古古文文图书数字化结构化加工系统图书数字化结构化加工系统 针对具有代表性的

2、蒙古文白体铅印图书 实现从纸质图书到结 构化数字化电子资源的全流程加工 严格按照GB 13000 2010 信息技术 通用多八位编码字符集 进行蒙古文编码 传统蒙古文名义字符 变形显现字符和控制 符使用规则 严格遵守了GB 25914 2010国家标准 传统蒙古文 词汇处理 采用了集团正在组织研制的 信息技术 传统蒙古文单 词词形规范 基本集 国家标准 中蒙两国研制的 蒙古文拉丁转 写方案 和 蒙古文正字法词典 修订本 字符输出选择了 蒙古文OpenType字库 软件编码格式选择了Unicode编码体系 实现蒙古文资源结构化数字化加工基础框架 充分考虑系统扩展 性 为将来全面实现多字体 多语种

3、混排蒙古文资源的加工做 技术储备 产品目标 产品成果展示 产品远景 实现技术路线 针对蒙古文图书的数字化加工过程 完整设计了从纸书扫 描到最终数字资源输出的工业化生产流程 实际加工过程 系统功能流程介绍 图像图像扫描 扫描 纸质的资源通过扫描仪 本地图 像导入等方式 导入到工程中 系统功能流程介绍 图像图像处理处理 提供了与图像识别相关的基本图 像处理功能 能够将图像调整到良好的状态 以备识别 系统功能流程介绍 版面分析 版面分析 基于图像的图书结构与内容标引功能 针 对文字区块 提供文种 字体 标题等属性设置 完 成内容结构化处理 生成篇章结构生成 为数据输出 环节的xml epub提供结构

4、化内容 系统功能流程介绍 文字识别和字形校勘 文字识别和字形校勘 完成针对文字区块的图像到 蒙文部件的自动转化 并提供了人机交互界面 对 识别结果进行字形编改 系统功能流程介绍 后处理和二次编辑 后处理和二次编辑 完成针对文字区块的蒙 文部件到蒙文整词的字典匹配和编码纠错 并提供人机交互界面对匹配结果进行二次编 改 系统功能流程介绍 合成输出 合成输出 可合成输出4中格式电子化资源 它们包 括TXT文档 PDF文档 XML文档 Epub文档 每种文档格式都遵循相应的最新的国际标准 加工结果展示 TXT格式电子资源 格式电子资源 TXT格式电子资源完全基于格式电子资源完全基于Unicode编码

5、可用编码 可用 win7自带记事本打开 进行拷贝 粘贴 编辑等操作 自带记事本打开 进行拷贝 粘贴 编辑等操作 加工结果展示 PDF格式电子资源 系统生成三种不同应用的格式电子资源 系统生成三种不同应用的PDF格式文档 原图格式文档 原图 PDF 基于识别结果文本的 基于识别结果文本的PDF 双层 双层PDF 原图 原图PDF文件可用于文件可用于 原版式阅读 文本原版式阅读 文本PDF完全以矢量字显示 可用于再版印刷 双层完全以矢量字显示 可用于再版印刷 双层 PDF的作用是可用于原版式阅读过程中的信息全文检索 随着蒙文的作用是可用于原版式阅读过程中的信息全文检索 随着蒙文 的检索技术发展 以

6、及的检索技术发展 以及PDF文件对蒙文的全面支持 在未来双层文件对蒙文的全面支持 在未来双层 PDF将给用户带来更好的阅读体验 将给用户带来更好的阅读体验 加工结果展示 PDF格式电子资源 系统生成三种不同应用的格式电子资源 系统生成三种不同应用的PDF格式文档 原图格式文档 原图 PDF 基于识别结果文本的 基于识别结果文本的PDF 双层 双层PDF 原图 原图PDF文件可用于文件可用于 原版式阅读 文本原版式阅读 文本PDF完全以矢量字显示 可用于再版印刷 双层完全以矢量字显示 可用于再版印刷 双层 PDF的作用是可用于原版式阅读过程中的信息全文检索 随着蒙文的作用是可用于原版式阅读过程中

7、的信息全文检索 随着蒙文 的检索技术发展 以及的检索技术发展 以及PDF文件对蒙文的全面支持 在未来双层文件对蒙文的全面支持 在未来双层 PDF将给用户带来更好的阅读体验 将给用户带来更好的阅读体验 加工结果展示 PDF格式电子资源 系统生成三种不同应用的格式电子资源 系统生成三种不同应用的PDF格式文档 原图格式文档 原图 PDF 基于识别结果文本的 基于识别结果文本的PDF 双层 双层PDF 原图 原图PDF文件可用于文件可用于 原版式阅读 文本原版式阅读 文本PDF完全以矢量字显示 可用于再版印刷 双层完全以矢量字显示 可用于再版印刷 双层 PDF的作用是可用于原版式阅读过程中的信息全文

8、检索 随着蒙文的作用是可用于原版式阅读过程中的信息全文检索 随着蒙文 的检索技术发展 以及的检索技术发展 以及PDF文件对蒙文的全面支持 在未来双层文件对蒙文的全面支持 在未来双层 PDF将给用户带来更好的阅读体验 将给用户带来更好的阅读体验 加工结果展示 XML格式电子资源 系统可根据版面分析确定的页面结构生成格式电子资源 系统可根据版面分析确定的页面结构生成XML 结构化信息 且结构化信息 且XML的标签可自定义 的标签可自定义 XML结构化信息可用于未来结构化信息可用于未来 导入数据库或其他系统进一步使用 导入数据库或其他系统进一步使用 加工结果展示 EPUB格式电子资源 系统可根据版面

9、分析确定的页面结构生成格式电子资源 系统可根据版面分析确定的页面结构生成EPUB结结 构化信息 针对移动互联网的流式阅读和篇章结构导航 构化信息 针对移动互联网的流式阅读和篇章结构导航 EPUB格式格式电子电子 书遵循书遵循IDPF推出的推出的OCF规范 规范 OCF规范遵循规范遵循ZIP压缩技术 压缩技术 即即EPUB电电子子 书本身就是一个书本身就是一个ZIP文件 文件 识别核心介绍 1 在分析和总结了多个印刷厂字模的基础上 得到构成 蒙文词汇的蒙文白体部件最小集合 54个基本部件 2 将合体字中 在字形上不可拆分到54个基本部件的部分 归纳形成蒙文白体合体字部件集合 31个合体字部件 3

10、 将合体字中 在字形上可拆分到54个基本部件的部分 直接在识别时将其识别成多个基本部件 4 在针对蒙文新闻体时 同样沿用上述思想构建部件集合 蒙文新闻体部件集包括 54个基本部件 86个合体字部件 5 最终保证识别核心输出给后处理模块时 只需面对54个 基本部件的内部编码 从而做到后处理模块的 字体 无关性 识别核心介绍 b06e 后处理介绍 1 系统的构建了动词整词 静词整词 动词词干 静词词 干 以及各附件成分词典 15个词典文件 2 后处理模块在接收到 文字识别 结果 即部件内部编 码串 后 根据词典匹配规则 得到对应的 名义字符形式 并返回给下一环节 后处理介绍 词典构建 根据蒙文词汇

11、在语言学上的分类 首先将词汇分 类为动词 静词和附件成分 再根据词形构成细分 最终得 到15个词典 后处理介绍 词典匹配逻辑 根据蒙文词汇在语言学上的构成 先从整词 辞典中查找 如整词词典中查找不到 则通过词干词典和附 加成分词典的匹配关系进行查找 成果总结 完整实现完整实现蒙蒙古古文文图书数字化结构化图书数字化结构化加工系统加工系统 已完整实现蒙古文资源数字化加工的全流程功能 并提供了 专业的软件UI和高可用的交互式界面 针对基于 蒙古文白体 印刷的铅印图书 部件识别率已达 到95 以上 编码正确率达到90 以上 已完成一个针对 蒙古文数字化加工 的高扩展性基础开发 框架 为未来系统扩展到针对多字体 多文种混排图书的数 字化加工打下坚实基础 产品目标 产品成果展示 产品远景 产品远景 针对多字体的扩展 三国体 京体 新闻体 哈旺体等 针对多文种的扩展 蒙汉混排 蒙英混排等 提高编码纠错能力 扩展智能学习功能 产品远景 针对大规模图书资源的数字化加工 构建松耦合 流水线式 作业的蒙古文资源数字化结构化加工云平台 谢谢聆听

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号