怎样从PDF文档里提取文字

上传人:平*** 文档编号:12102371 上传时间:2017-10-16 格式:DOC 页数:2 大小:172.36KB
返回 下载 相关 举报
怎样从PDF文档里提取文字_第1页
第1页 / 共2页
怎样从PDF文档里提取文字_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《怎样从PDF文档里提取文字》由会员分享,可在线阅读,更多相关《怎样从PDF文档里提取文字(2页珍藏版)》请在金锄头文库上搜索。

1、怎样从 PDF 文档里提取文字2010-05-15 22:23作者:朱铮南(转载、引用务必注明出处)通过扫描纸质文件创建的 pdf 文档是不能简单地转换成可以编辑的 word 文档的,只能够通过文字识别的方法,将 pdf 文档里的文字提取出来。如果扫描的分辨率很低,文字识别的正确率会打很大折扣。如图示的 pdf 文档,扫描的质量就很低,文字模糊,笔画残缺,用什么识别工具提取文字的效果好一些呢?1、用 Adobe Acrobat 识别用 Adobe Acrobat 打开这 pdf 文档,操作菜单“文档”“OCR 文本识别”“使用 OCR 识别文本”,经过识别以后,用“选择工具”选中文字进行复制,

2、再粘贴到文本文件或 word 文档,提取出的文字如下:“人提使用胶粘邦 l 己有 JL f f 的历史,最早使用的胶粘制为粘土、动物胶、植物脏、iffj宵等夭年在物质来帖横生情用品、E 严工具和古战黯哥。直到 20 世纪初,ffli:曹合成高付俨J: 业的?若立与平断进步,革于 ff 峨高分 f 的胶柑 1111 件到了阻瞌垃隅,股帖如 l 己应用于阁 I!经济各个工业部门相日常生活中。在多年的应用中 1 莘步形成了简便、易行、实用的胶粘鼎 l帖楼技术。i 草种技术除街 Ij用汇业相日常生 Ei 齿和得到广泛 1iY.咱外!成川 J 航天削啦、民器、船舶、电子倍思工税等闲民经前工业部门不可棋性

3、的技术粘攘技术是种在晴性极强,科技吉量较高的技术。撞了具备简便、快捷、高逊、价廉、惯于肯定报帮特点奸、还可忖闷质材制相术问质材制等各钟材阶的材料在不!lt 外界作闸的情况下实施良町 A 的粘接,解决了用其它连接方法无法解决的闷题,为结构连接和设备维幢开辟了接醋新的道路。”简直是天书,根本不能采用。2、转换成 jpg 图片以后在线进行识别用 Adobe Acrobat 打开这 pdf 文档,操作菜单“文件”“导出”“图像”“JPEG”,将 pdf 文档转换成图片。也可以用用 Phptoshop 打开这 pdf 文档,另存为 jpg 图片。登录 在线文字识别网站,将转换成的图片上传,网站识别出的

4、文字如下:“人类使用胶粘剂已有几十年的历史最早使用的胶粘利为粘土、动物胶、植物胶、sR育等大帐物质来粘接生活用结、生产工具和古兵器等直到 zo 世纪初,随着台成满分子r_业的建立与不断进步,纂 合成简分子的胶粘剂得到了还发股,胶粘剂已 rz 用于国民经济各个工业部门和日常生活中在多年的应用中逐步形成了简便、易行、实用的胶粘剂粘接技术.、该种枪术除在民用 f 业和日常生活中得多 U 厂一游业用外 L 成为 ru 天航空、兵器、船舶、电子粘接技术是信息工 Ii 等国民经济工业部门不可缺少的技术种实用性极强,科技含量较高的技术。除了具备简便、快捷、高效、价廉、便于掌握等特点外,!: i 对同质材料和

5、不同质材料等各种材质的材料在不受外界作用的情况 I实施良好的粘接,解决了用其它连接方法无法解决!山和题,为结构连接和设备维修开辟了一条崭新的道路”效果比用 Adobe Acrobat 识别要好一些,个别地方前后次序颠倒了。3、用汉王 pdf ocr 软件识别用汉王 pdf ocr,操作菜单 “识别”“开始识别 ”,识别的结果如下:“ 人类使用胶粘剂已有儿 f 午的历圭!,龄早使朋的胶粘剂为牯上、动物腔、植物胶、衙霄等天然物质来带占撮擞储用品、擞严工辫和古藏器等。赢到 20 世纪韧,随蔚赍成离分 1j 二,l:此的建立与不断,进步,基于合成筒分子的腔粘剂得到了迅遵艟解,腔帖制已虚用于圈融经济各个

6、工业部门和日常生活中。,在多年的应用中逐步形成 r 简便、易行、实用的腔粘荆粘拯技术。,拣种技术除猩民用 jt 北和日常嫩耩中彳寻驯广涎娩啊外融成为航哭航空成器、船舶、电子信息工程等困民经济工业部门不可缺少的技?术粘接技术是种蜜用性极强,科技音量较高的挫术。豫了县备简便、快捷、尚敞、价廉、便于譬搬游特点外,邂可对同鹰材料帚不同质材料等备种材艟的树料在币 i 蹙外界怍 II的情况下实施良好的粘接,解决了用其它连接方法无法解决岫问题,为结构连接和设备维修开辟了一条崭新的道路。”也和天书差不多。4、用 Microsoft Office Document Image Writer 进行识别用任何 pd

7、f 阅读软件打开这 pdf 文档,操作菜单“文件”“打印”,打印机名称选择“Microsoft Office Document Image Writer”,这是一个随 Microsoft Office 2003 一起安装到计算机里的虚拟打印机,它将 PDF 文档打印到后缀为“mdi”的文件里,并自动打开,在打开的“mdi”文件里依次操作菜单“工具”“使用 OCR 识别文本”和“工具”“将文本发送到 word”,提取出的文字如下:“人类使用胶粘剂己有几于年的厉史,最早使用的胶粘剂为粘上、动物胶、植物胶、沥臂等天然物质来粘接生活用品、生产工具和古兵器等。直到 20 擞纪初,随着台成高分子狡业的建立

8、与不断进步,荃于含成高分一子的胶粘剂得到了迅速发展,胶粘剂已应用于国民经济备个工业部门和日常生活中 在多年的应用中逐步形成了简便、易行、实用的胶粘剂粘接技术。、这种技术除在民用一 业和日常生活中得歹 U 广泛应叮外已成为航夭,航空、兵器、船舶、电子信息工程等国民经济工业部门不可缺少的技术二粘接技术是,一种实用性极强,科技含量较高的技术。除了具备简便、快捷、高效、价廉、便于掌握等特点外、还可对同质材料和军同质材料等各种材质的材料在不受外界作用的情况下实施良好的粘接解决了用其它连接方法无法解决的问题,为结构连接和设备维修开辟了一条崭新的道路。”相对而言,识别的正确率是四种方法中最高的,毕竟是微软,不服不行。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号