如何提高Tesseract-OCR的识别精度

上传人:m**** 文档编号:491870513 上传时间:2023-08-21 格式:DOC 页数:5 大小:62KB
返回 下载 相关 举报
如何提高Tesseract-OCR的识别精度_第1页
第1页 / 共5页
如何提高Tesseract-OCR的识别精度_第2页
第2页 / 共5页
如何提高Tesseract-OCR的识别精度_第3页
第3页 / 共5页
如何提高Tesseract-OCR的识别精度_第4页
第4页 / 共5页
如何提高Tesseract-OCR的识别精度_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《如何提高Tesseract-OCR的识别精度》由会员分享,可在线阅读,更多相关《如何提高Tesseract-OCR的识别精度(5页珍藏版)》请在金锄头文库上搜索。

1、如何提高Tesseract-OC的识别精度概述:本文介绍了提高Tesseract-OC识别精度的步骤及注意事项。通过对Tesseract-OCR 的训练能有效提高Tesseract-OCF的识别精度,特别是对与验证码识别方面有很 大帮助。关键字:Tesseract-OC验证码,自动识别,手册,教程1. 使用步骤1.1. Make Box Files1.1.1. commandtesseract lang.fontname.expnum.tif lang.fontname.expnum -l specifiedLang batch.nochop makebox1.1.2. outputlang.

2、fontname.expnum.box1.2. Fix Box1.2.1. commandjTessBoxEditor1.2.2. output1.3. Run Tesseract for Training1.3.1. commandnobatchtesseract lang.fontname.expnum.tif lang.fontname.expnum box.train1.3.2. outputlang.fontname.expnum.trlang.fontname.expnum.txt1.4. Compute the Character Set1.4.1. commandunichar

3、set_extractor lang.fontname.expnum.box1.4.2. outputunicharset1.5. Clustering1.5.1. command1mftraining -F font_properties -U unicharset lang.fontname.expnum.tr1.5.2. output1inttemp mfunicharset Microfeat pffmtable1.5.3. command2cntraining lang.fontname.expnum.tr1.5.4. output2normproto1.6. Combine1.6.

4、1. commandcombine_tessdata dir/lang.1.6.2. outputlang.traineddata1.7. Test1.7.1. commandtesseract specifiedTif output -l specifiedLang -psm 71.7.2. outputoutput.txt2. 使用说明2.1. 关于名称的说明在各个步骤中多处出现类似 lang.fontname.expnum 的名称,这个是按照 tesseract的使用说明写的,但在实际使用过程中并不是必须的,可以从简。 例如: my.calibri.exp0.tif 写成 my.tif

5、也是可以的。22关于步骤的说明2.2.1. Make Box File-1 specifiedLang个人认为主要是为了减少步骤 2 ( Fix Box)的工作量而使用的 选择合适的文件可以让生成的box更加准确,减少修改工作量。222Fix BoxjTessBoxEdito是一个tesseract-OCR的辅助工具,主要用来修改生成的Box。它还有2个不错的功能就是:1、合并tif文件;2、利用一个文本和设置的字体生成一个tif图片在用jTessBoxEdito修改生成的Box过程中需要注意,如果tesseract-OCR没有认 出某个tif图片上的文字,最好不要自行添加,也不要对粘连的字符

6、进行split或对分开的字符进行 merge。因为很可能即使这么做了,在步骤3( Run Tesseract for Training)里也只是会收到一个错误提示。通过用jTessBoxEditor对识别错误的Box进行修改,可以有效提高 Tesseract-OCR 的识别精度,特别是在图片中的字符出现粘连的情况下。jTessBoxEdito的下载地址是:http:/sourceforge. net/projects/vietocr/files/jTessBoxEditor/2.23 Clustering按照tesseract-OCR的说明,在这个步骤里是可以一次对多个tr进行操作的,但我每次

7、都提示程序出错,所以我采取合并文件的方式来变通。2.24 Combine这个步骤所生成的traineddata文件就是tesseract-OCR进行识别的关键。在执行 combine_tessdata命令前,请将步骤 4( Compute the Character Se)和 5( Clustering) 中生成的6个文件重命名,在文件名前加上“ Iang.”。例如:lang是 my,则对应的文件名就是my. uni charsetmy.i nttempmy.mfu nicharsetmy.Microfeatmy.pffmtablemy.no rmproto)如果命令参数中用dir指定了目录,请将上述5个文件一起复制到指定的目录中。2.2.5. Test生成 traineddata 后,就可以用训练所使用的 tif 图片进行测试。可以通过 -l 命令 指定使用新生成的traineddata。例如:my. traineddata则在使用时就输入“-l my” (即不带后缀的文件名)。测试的结果将会输出到 output.txt 中,可以和 tif 图片 进行比较。如果发现识别率不高,请重新进行步骤2(Fix Box)。如果无法识别,请注意检查是否有遗漏上述步骤的哪一步,或是在执步骤6(Comb ine)时是否有遗漏什么文件没有重命名或复制到指定目录下。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号