如何提高Tesseract-OCR的识别精度

资源描述

《如何提高Tesseract-OCR的识别精度》由会员分享，可在线阅读，更多相关《如何提高Tesseract-OCR的识别精度（5页珍藏版）》请在金锄头文库上搜索。

1、如何提高Tesseract-OC的识别精度概述：本文介绍了提高Tesseract-OC识别精度的步骤及注意事项。通过对Tesseract-OCR 的训练能有效提高Tesseract-OCF的识别精度，特别是对与验证码识别方面有很大帮助。关键字：Tesseract-OC验证码，自动识别，手册，教程1. 使用步骤1.1. Make Box Files1.1.1. commandtesseract lang.fontname.expnum.tif lang.fontname.expnum -l specifiedLang batch.nochop makebox1.1.2. outputlang.

2、fontname.expnum.box1.2. Fix Box1.2.1. commandjTessBoxEditor1.2.2. output1.3. Run Tesseract for Training1.3.1. commandnobatchtesseract lang.fontname.expnum.tif lang.fontname.expnum box.train1.3.2. outputlang.fontname.expnum.trlang.fontname.expnum.txt1.4. Compute the Character Set1.4.1. commandunichar

3、set_extractor lang.fontname.expnum.box1.4.2. outputunicharset1.5. Clustering1.5.1. command1mftraining -F font_properties -U unicharset lang.fontname.expnum.tr1.5.2. output1inttemp mfunicharset Microfeat pffmtable1.5.3. command2cntraining lang.fontname.expnum.tr1.5.4. output2normproto1.6. Combine1.6.

4、1. commandcombine_tessdata dir/lang.1.6.2. outputlang.traineddata1.7. Test1.7.1. commandtesseract specifiedTif output -l specifiedLang -psm 71.7.2. outputoutput.txt2. 使用说明2.1. 关于名称的说明在各个步骤中多处出现类似 lang.fontname.expnum 的名称，这个是按照 tesseract的使用说明写的，但在实际使用过程中并不是必须的，可以从简。例如： my.calibri.exp0.tif 写成 my.tif

5、也是可以的。22关于步骤的说明2.2.1. Make Box File-1 specifiedLang个人认为主要是为了减少步骤 2 ( Fix Box)的工作量而使用的选择合适的文件可以让生成的box更加准确，减少修改工作量。222Fix BoxjTessBoxEdito是一个tesseract-OCR的辅助工具，主要用来修改生成的Box。它还有2个不错的功能就是：1、合并tif文件；2、利用一个文本和设置的字体生成一个tif图片在用jTessBoxEdito修改生成的Box过程中需要注意，如果tesseract-OCR没有认出某个tif图片上的文字，最好不要自行添加，也不要对粘连的字符

6、进行split或对分开的字符进行 merge。因为很可能即使这么做了，在步骤3( Run Tesseract for Training)里也只是会收到一个错误提示。通过用jTessBoxEditor对识别错误的Box进行修改，可以有效提高 Tesseract-OCR 的识别精度，特别是在图片中的字符出现粘连的情况下。jTessBoxEdito的下载地址是：http:/sourceforge. net/projects/vietocr/files/jTessBoxEditor/2.23 Clustering按照tesseract-OCR的说明，在这个步骤里是可以一次对多个tr进行操作的，但我每次

7、都提示程序出错，所以我采取合并文件的方式来变通。2.24 Combine这个步骤所生成的traineddata文件就是tesseract-OCR进行识别的关键。在执行 combine_tessdata命令前，请将步骤 4( Compute the Character Se)和 5( Clustering) 中生成的6个文件重命名，在文件名前加上“ Iang.”。例如：lang是 my，则对应的文件名就是my. uni charsetmy.i nttempmy.mfu nicharsetmy.Microfeatmy.pffmtablemy.no rmproto)如果命令参数中用dir指定了目录，请将上述5个文件一起复制到指定的目录中。2.2.5. Test生成 traineddata 后，就可以用训练所使用的 tif 图片进行测试。可以通过 -l 命令指定使用新生成的traineddata。例如：my. traineddata则在使用时就输入“-l my” （即不带后缀的文件名）。测试的结果将会输出到 output.txt 中，可以和 tif 图片进行比较。如果发现识别率不高，请重新进行步骤2（Fix Box）。如果无法识别，请注意检查是否有遗漏上述步骤的哪一步，或是在执步骤6（Comb ine）时是否有遗漏什么文件没有重命名或复制到指定目录下。

展开阅读全文