《OCR光学文字识别系统》由会员分享,可在线阅读,更多相关《OCR光学文字识别系统(7页珍藏版)》请在金锄头文库上搜索。
1、OCR光学文字识别系统OCR (Optical Character Recognition,光学字符识别)可将扫描或拍照得到的图像转换为电子的文本或表格。所用到的软件:尚书七号,可识别简体,简繁混合以及英文,图片的分辨率要求在300dpi或更高MS office组件 OneNote2007以上第1步 整理图片,jpg,bmp,tiff等都行,这张图是扫描得到的,300dpi。最好用TIFF格式的图片,因为它没有压缩,图片包含的信息更丰富,更有利于文字识别,但图片比较占空间。可用ps进行图片的水平较正,删除文字外的其它东西。第2步 打开尚书七号,打开图像,按F5自动分析版面,或直接拖动鼠标画出区
2、域,点击按钮,设置区域的类型,橫排文字、竖排文字、表格,图片等。 第3步 按F8键开始识别文字,系统认为有问题的文字被标记为红色。第4步,排版,参考方法2的第5步。OCR文字识别的正确率为95%。后期的校对工作是必须的。方法二软件:OneNote 2007 以上(属于Microsoft Office组件)适用情况:图片分辨率为72dpi或更高第1步 整理图片,jpg,bmp,png等都行,这张图是从汉唐网用QQ截的。第2步,将图片置入OneNote软件中第3步 复制图片中的文本第4步,ctrl+v 粘贴文本 第5步,后期排版 (1)标记段落开始,此处我用的是(2)将现有的回车标记删除(p为回车标记)(3)将自定义的段落开始标记替换为回车标记(5)设置首行缩进(6)得到结果