基于Android平台的OCR相机

资源描述

《基于Android平台的OCR相机》由会员分享，可在线阅读，更多相关《基于Android平台的OCR相机（9页珍藏版）》请在金锄头文库上搜索。

1、四川大学软件学院萌芽基金项目申报书项目项目名称：名称：基于基于 Android 平台的平台的 OCR 相机相机项目负责人：项目负责人：张张芮芮年年级：级： 2012 级级学学号：号： 2012141463163申请申请日期：日期： 2012-12-16四川大学软件学院制二一二年十二月2012 年度第 10 期萌芽基金项目申报书第 1 页一、一、申请简表申请简表姓名姓名张芮性别性别男年年级级2012学号学号2012141463163联系电话联系电话18782093646申申请请人人邮件邮件课题名称课题名称基于 Android 平台的 OCR 相机课题类别课题类别软件工程起

2、止年月起止年月2012/12 2013/12指导教师指导教师专业专业职称职称/职位职位研研究究课课题题描描述述摘摘要要目前，随着移动平台的迅猛发展，我们的学习、生活由此发生了巨大的变化。OCR（Optical Character Recognition，光学字符识别）技术在电脑上的应用很成熟。在移动终端上却无此应用，并且在我们日常生活中迫切需要一款基于移动平台的 OCR 软件。由此，我们就可以方便地进行图片编辑，获取我们需要的文字信息。如果可能的话，我们可以与翻译软件进行结合。通过对图片上的文字提取，录入翻译软件，就可以方便地进行图片翻译。无需自己将其手动输入翻译软件，通过手机的

3、照相功能获取图片，进行图片编辑，文字提取。还有此软件可以进行实时分享到人人、微博、QQ 等社交工具上。如今，社会对于视障朋友的关注度越来越大。我们这款软件可以给视障朋友带来不少的便利。我们运用 TTS（Text To Speech，从文字到语音）技术可以将图片中获取的文字进行语音转换。TTS 技术可以帮助有视觉障碍的人阅读图片上的信息，或者只是简单的用来增加文本文档的可读性。同时我们可以将图片以及通过 TTS 技术合成的语音进行合成分享到人人、微博、QQ 等社交软件上。因此我们研究的三个主要内容是：i. 开发基于 Android 平台的 OCR 相机软件；ii. TTS 技术与 OCR 技术的

4、整合；名片iii. 软件与其他社交软件的连接项目参加人员项目参加人员姓名姓名学号学号联系方式联系方式在本课题中的分工在本课题中的分工签名签名张张芮芮201214146316318782093646算法研究、文档撰写陈明毅陈明毅201214146328018782069060架构设计、界面设计徐子桓徐子桓201214146325413219023303算法研究、测试2012 年度第 10 期萌芽基金项目申报书第 2 页二、二、项目立项依据项目立项依据1.研究意义研究意义I. Android 平台被广泛应用平台被广泛应用谷歌的 Android 平台自 2010 年以来呈现出突飞猛进的发展势头，

5、在全球智能手机市场中所占份额从不到 10%一路猛增至 50%以上，俨然已经抢占了“半壁江山”。去年，全球智能手机销量首次超过 PC 电脑的销量。 “计算设备移动化”的时代即将到来。在全球手机总销量中，智能手机销量所占的比例也开始迅速增长。Android 已经成为全球智能手机市场的领跑者，截至 2012 年第一季度的市场份额已超过 50%。因此，这款软件就有广泛的平台，更多人会有机会使用这款软件，给自己带来便捷。II. 基于基于 Android 平台的平台的 OCR 相机可以方便快捷的进行图片文字提取相机可以方便快捷的进行图片文字提取在日常生活中，我们经常急需从一张图片中提取文字，而现实是我们没

6、有一款软件可以实现从图片拍摄到文字提取的功能。基于 Android 平台的 OCR 相机便可不受地域、空间的限制，进行图片编辑，文字提取。我们不需要一个扫描仪或照相机进行图片收集，也不需要一台电脑进行文字提取。我们只需要一部手机便可完成所有要求。这让我们的生活更为智能，工作更为高效。III. TTS 技术（文字转换为语音）技术（文字转换为语音）全球有几千万视障朋友，他们的生活由于生理条件已经缺少了些许色彩。而基于 Android 平台的 OCR 相机人性化的设置了一项功能：将从图片中提取的文字朗读出来。对于我们正常人来说也可提高阅读兴趣。同时，语音与图片的整合可以用于消息的发部（比如：新闻媒体

7、），并且可以应用于社交软件，这样使我们的交流更为便利。2.国内外研究动态国内外研究动态OCR 技术：技术：OCR（Optical Character Recognition）的概念诞生于 1929 年，由德国的科学家 Tausheck 首先提出，并且申请了专利。几年后，美国科学家 Handel 也提出了对文字进行识别的想法，但这种梦想直到计算机诞生后才变成为现实。现在这一技术已经由计算机来实现，OCR 的意思也就演变成为利用光学技术对文字和字符进行扫描识别，并将其转化为计算机内码。根据资料记载，第一个 OCR 软件是在 1957 年开发的 ERA（Electric Reading Autom

8、ation）。它是基于窥视孔方法实现的，识别的速度是每秒 120 个英文字母。在此以后，世界范围内广泛地进行着 OCR 技术的研究和开发工作。从 OCR 技术的发展历程来看，可分为三个阶段：第一阶段：第一阶段：第一代 OCR 产品出现于 60 年代初期，NCR 公司、Farrington 公司、IBM 公司分2012 年度第 10 期萌芽基金项目申报书第 3 页别研制出了自己的 OCR 软件。最早的 OCR 产品应该是 IBM 公司的 IBM1418。它只能识别印刷体的数字、英文字母及部分符号，并且必须是指定的字体。60 年代末，日立公司和富士通公司也分别研制出各自的 OCR 产品。第二阶

9、段：第二阶段：第二代 OCR 产品是基于手写体字符的识别，前期只限于手写体数字的识别，从时间上来看，是 60 年代中期到 70 年代初期。IBM 公司于 1965 年便在“纽约世界博览会”上展出了其 OCR 产品IBM1287。第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的，两年后 NEC 公司也推出了同样的系统。到 1974 年，信函的分拣率达到9293，并且广泛地应用在现实生活中，发挥着较好的作用。第三阶段：第三阶段：第三代 OCR 产品主要解决的技术问题就是对于质量较差的文档及大字符集的识别，例如汉字的识别。最先投入汉字识别研究的日本东芝公司，于 1983 年发布了

10、其识别印刷体日文汉字的 OCR 系统OCR-V595，其识别速度为每秒 70100 个汉字，最高识别率达到99.5。其后东芝公司又开始了手写体日文汉字识别的研究工作，经过不断改进，针对手写印刷体日文汉字的识别现在已经达到实际应用水平。我国在 OCR 技术方面的研究工作起步较晚，在 70 年代才开始对数字、英文字母及符号的识别进行研究；70 年代末开始进行汉字识别的研究；到 1986 年汉字识别的研究进入一个实质性阶段，取得了较大的成果。进入信息社会后，计算机已经渗透到人们生活的方方面面，如何将大量的纸制文字信息快速准确地输入到计算机是我国实现信息化的一个技术“瓶颈“，中文 OCR 系统使中文输

11、入工作高速化、自动化及高准确度，为建立各种信息库提供了基础条件。我国政府从七五科技攻关计划开始到现在的 863 计划一直长期支持中文 OCR 的研发，是中文 OCR 技术进步的最重要推动力。从80 年代中期开始，国内开始了中文 OCR 的研究热潮，到 90 年代中期，国内外共有 10 多家单位（包括汉王公司、国外的 IBM、HP 公司）相继推出了各自的中文 OCR 系统，达到可初步实用化的水平。从中文 OCR 技术的发展来看，其研发与应用经历了如下几个阶段：第一阶段：第一阶段：刷体单字体识别。第二阶段：第二阶段：刷体多字体识别。第三阶段：第三阶段：字体大字符集简繁混排、中英文混排识别。第四阶段

12、：第四阶段：各种应用系统开始推出，如名片识别系统、汉王文本王、银行票据识别系统、增值税发票识别认证系统等。2012 年度第 10 期萌芽基金项目申报书第 4 页TTS 技术：技术：历史早在 17 世纪就有法国人研发机械式的说话装置。直到 19 世纪，贝尔实验室对于电子语音合成技术的研究，才开启近代语音合成技术的发展。贝尔实验室在 1939 年制作出第一个电子语音合成器 VODER，是一种利用共振峰原理所制作的合成器。1960 年，瑞典语言学家 G. Fant则提出利用线性预测编码技术(LPC)来作为语音合成分析技术，并推动了日后的发展。后来 1980年代 Moulines E 和 Charp

13、entier F 提出新的语音合成算法 PSOLA，此技术可以合成比较自然的语音。（语音合成是将人类语音用人工的方式所产生。若是将电脑系统用在语音合成上，则称为语音合成器，而语音合成器可以用软/硬件所实现。文字转语音（Text-To-Speech，TTS）系统则是将一般语言的文字转换为语音，其他的系统可以描绘语言符号的表示方式，就像音标转换至语音一样。）TTS 是同时运用语言学和心理学的杰出之作，在内置芯片的支持之下，通过神经网络的设计，把文字智能地转化为自然语音流。TTS 技术对文本文件进行实时转换，转换时间之短可以秒计算。在其特有智能语音控制器作用下，文本输出的语音音律流畅，使得听者在

14、听取信息时感觉自然，毫无机器语音输出的冷漠与生涩感。TTS 语音合成技术即将覆盖国标一、二级汉字，具有英文接口，自动识别中、英文，支持中英文混读。所有声音采用真人普通话为标准发音，实现了 120-150 个汉字/秒的快速语音合成，朗读速度达 3-4 个汉字/秒，使用户可以听到清晰悦耳的音质和连贯流畅的语调。现在有少部分 MP3 随身听具有了 TTS 功能。3.项目创新点项目创新点I. 开辟新技术开辟新技术基于 Android 平台的 OCR 相机到目前为止几乎没有人做过类似软件。此款软件可以实现四大功能：第一第一，可以实现图片的剪切，获取自己需要的部分，这样加快处理速度；第二第二，从图片从提取

15、文字；第三第三，将所提取的文字转语音；第四第四，可将自己所做的“作品”进行分享。II. OCR 技术和技术和 TTS 技术集于一体技术集于一体如今，我们可以通过聊天软件发送文字、图片以及语音。但是我们团体想到的是将二者合二为一。即首先首先运用 OCR 技术提取文字，然后然后用 TTS 技术将提取的文字转换为语音，最后最后将它俩“打包”在一起发送出去。此功能的特点：图片、语音共存，大大方便了聊天等社交活动。III. 以人为本的理念以人为本的理念目前，视障人士有许多要迫切解决的需求。例如：阅读、聊天等。假如：一个正常人 A 与视障朋友 B 进行聊天，当 A 在聊天时发现一个有趣的东西 C，他将 C

16、拍下并发给 B。这样 B 就2012 年度第 10 期萌芽基金项目申报书第 5 页知道 C 为何物了。同样的当 A 发现一个有趣的 D，他想让周围的朋友知道。他只要通过此软件的处理便可分享到微博、人人等，不需要自己手动输入描述。三、三、研究方案研究方案1.主要研究内容、预期目标主要研究内容、预期目标主要研究内容：主要研究内容：I. 研究研究 OCR 技术原理技术原理首先通过了解 PC 版的 OCR 技术原理，然后研读开源的 OCR 代码，了解其算法。然后移植到 Android 平台上，实现 OCR 的转化。II. 研究研究 Android 开发平台环境开发平台环境这款软件是基于 Android 的。因此，Android 平台所需要的技术准则、

展开阅读全文