计算机硬件基础 第28章 扫描仪与ocr

上传人:子 文档编号:57564144 上传时间:2018-10-22 格式:PPT 页数:21 大小:199KB
返回 下载 相关 举报
计算机硬件基础 第28章   扫描仪与ocr_第1页
第1页 / 共21页
计算机硬件基础 第28章   扫描仪与ocr_第2页
第2页 / 共21页
计算机硬件基础 第28章   扫描仪与ocr_第3页
第3页 / 共21页
计算机硬件基础 第28章   扫描仪与ocr_第4页
第4页 / 共21页
计算机硬件基础 第28章   扫描仪与ocr_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《计算机硬件基础 第28章 扫描仪与ocr》由会员分享,可在线阅读,更多相关《计算机硬件基础 第28章 扫描仪与ocr(21页珍藏版)》请在金锄头文库上搜索。

1、第28章 扫描仪与OCR技术,1、什么是扫描仪? 扫描仪是一种获取图像的设备,并将信息转为电脑可以显示、编辑、存储和输出的数字格式。即可以完成以下工作:在文件中插队图和照片;将文字识别,免去打字;将传真文件扫到库中存档;在多媒体中加入图像;在报刊中加入图片有效表达主题。,第28章 扫描仪与OCR技术,第28章 扫描仪与OCR技术,扫描仪通过光源照射到被扫描的材料上来获得材料的图像。 材料将光线反射到CCD(Change Coupled Device,电荷偶合器件)的光敏元件上,由于材料不同的位置反射的光线强弱不同,CCD器件将光线转换成数字信号,并传送到计算机中,此时我们就获得了材料的图像。

2、如果您将纸张上的文字扫描到电脑中就可以通过OCR(光学字符识别)软件将图像转换成文字,可以减轻录入工作。,第28章 扫描仪与OCR技术,扫描仪的技术发展很快,但就其光学系统而言,不外乎CIS、CCD和棱镜分色系统几类,由于CIS(接触式图像传感器)十分适合OCR(光学字符识别),特别是其黑白方式,比CCD方式的扫描仪价格低廉,所以市场占有率曾一度较大,但随着扫描仪市场从黑白到灰度再到彩色的转变,彩色CIS扫描仪也已进入市场。,第28章 扫描仪与OCR技术,采用三棱镜分色系统,使得彩色扫描仪的关键技术全面提高,该系统利用光学物理原理,以三棱镜来分离自然光R、G、B三原色,由于三原色采用一致的角度

3、,同一时间曝光完成,使扫描的图像的边缘光洁度十分理想,扫描三维立体图像时,效果更好,这一技术代表未来新潮流,目前,只有少数几个厂家拥有该技术。CCD是目前扫描仪的主要技术,它的发展已从黑白、灰度演变到8位、12位、24位、30位乃至36位彩色,这决定了扫描仪的基本发展趋势,即其精度和色彩度方面将不断增高。,第28章 扫描仪与OCR技术,决定扫描仪扫描质量的因素很多,首先,分辨率是扫描仪的一项重要指标,扫描仪的分辨率包括光学分辨率和插值分辨率,作为扫描仪真实分辨率的光学分辨率,又分为水平分辨率和垂直分辨率两种方式,水平分辨率和光源系统CCD的真实分辨率及相应的硬件电路设计有关,它是由CCD的像素

4、点数除以扫描仪最大可扫描尺寸而得到的数值;垂直分辨率则与传动机构的精密程度有关,水平分辨率较垂直分辨率显得更为重要。,第28章 扫描仪与OCR技术,为提高扫描仪的图像质量,利用软件技术在硬件产生的像点之间插入另外的像点,由此获得的分辨率称为插值分辨率,该种分辨率在一定程度上使扫描仪的图像质量得到提高。所以,选择扫描仪一定要弄清其光学分辨率是多少,即便是光学分辨率高的扫描仪,在处理不同的扫描仪介质对象时,其性能表现也迥然不同。,第28章 扫描仪与OCR技术,例如在扫描彩色照片时,较低的分辨率效果反而更好,一般而言,分辨率在150200dpi之间为最佳;而扫描胶片时则需要较高的分辨率,因此在选择扫

5、描仪时,对分辨率因素的选择要和用户的用途结合起来考虑。扫描仪具有精确的缩放技术能力也是非常重要的,它可极大地影响图像质量、扫描文件的大小以及扫描和处理的时间。缩放的质量和扫描图像的质量在不同扫描仪间差异非常大。,第28章 扫描仪与OCR技术,实验结果表明,一定的插值分辨率在一特定的扫描仪中能产生最小的锯齿,而在其他插值分辨率下,却不一定具有最低的锯齿。某插值分辨率对某一扫描仪合适,对另一扫描仪却不一定带来最低的锯齿,因此,仅根据插值分辨率的大小判断扫描仪的质量是不可靠的。,第28章 扫描仪与OCR技术,决定扫描质量的因素还有色彩定位能力、图像噪音、灰度精确度、光源的一致性等。另外,扫描仪的扫描

6、速度和扫描图像的质量之间一直是相互制约的,扫描速度的提高总是以损失图像信息为代价,对扫描仪的这一指标,也应该和传统的认识有所区别。,第28章 扫描仪与OCR技术,事实上,传统的扫描速度只是将图像送入计算机中所需的时间大小的度量,除了用于光学字符识别(OCR)或进行扫描文档管理的扫描仪之外,扫描速度不是十分关键的指标,而其他指标也影响扫描处理的速度,如从扫描仪到计算机的数据传输速度;图像存储到磁盘的速度;扫描图像浏览和设置曝光的时间;对扫描结果进行校正处理和调整的时间等。,第28章 扫描仪与OCR技术,一、OCR的发展 要谈OCR的发展,早在60、70年代,世界各国就开始有OCR的研究,而研究的

7、初期,多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例,1960年左右开始研究OCR的基本识别理论,初期以数字为对象,直至1965至1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。,第28章 扫描仪与OCR技术,一个OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。,第

8、28章 扫描仪与OCR技术,第28章 扫描仪与OCR技术,扫描:扫描是纸质文稿图像输入计算机的过程。一般把相关文稿顺序扫描,在扫描质量控制程序自动检测并修正后,自动保存到数据库中。 图像处理:为了提高识别率,对图像进行“消蓝去污”的处理,即去掉图像上影响识别率的噪音如麻点、下划线等,图像质量控制程序自动监测图像处理质量。,第28章 扫描仪与OCR技术,版面分析:能自动进行版面理解并定位,判别划框区域是横排文本区、竖排文本区、表格区还是图像区,并对不同属性的区域以不同颜色的线框标识出来。自动版面分析在后台运行,操作人员可在前台进行确认,必要时对自动版面分析结果加入手工干预。,第28章 扫描仪与O

9、CR技术,识别: 把文字图像转化为计算机文字内码,可以识别印刷体和手写体中文(包括简体字和繁体字) 、表格、中英文混排, 识别出来的文字内码可以是GB码、BIG5码、GBK码或者Unicode码。识别过程在后台运行。 纵向校对:纵向校对是将一个图像或若干个图像中识别成同一个字的文字图像列在一起显示,并以突出颜色标出可疑字,便于操作员发现错误和修改。,第28章 扫描仪与OCR技术,横向校对:这是传统的人工校对方法,操作员直接对比识别结果文本和图像,以发现识别错误文字。系统自动调出文字对应的图像,进行比对。同时,以醒目的颜色标出识别可信度不高的文字。 版面还原:将识别并修改好的文本还原成跟扫描文稿

10、版面的布局一样、可以供计算机阅读和查询检索的RTF、PDF、HTML、 SGML/XML格式的数字文档。,第28章 扫描仪与OCR技术,文字特征抽取:单以识别率而言,特征抽取可说是OCR的核心,用什么特征、怎么抽取,直接影响识别的好坏,也所以在OCR研究初期,特征抽取的研究报告特别的多。而特征可说是识别的筹码,简易的区分可分为两类:一为统计的特征,如文字区域内的黑/白点数比,当文字区分成好几个区域时,这一个个区域黑/白点数比之联合,就成了空间的一个数值向量,在比对时,基本的数学理论就足以应付了。而另一类特征为结构的特征,如文字影像细线化后,取得字的笔划端点、交叉点之数量及位置,或以笔划段为特征

11、,配合特殊的比对方法,进行比对,市面上的线上手写输入软件的识别方法多以此种结构的方法为主。,第28章 扫描仪与OCR技术,对比数据库:当输入文字算完特征后,不管是用统计或结构的特征,都须有一比对数据库或特征数据库来进行比对,数据库的内容应包含所有欲识别的字集文字,根据与输入文字一样的特征抽取方法所得的特征群组。,第28章 扫描仪与OCR技术,对比识别:这是可充分发挥数学运算理论的一个模块,根据不同的特征特性,选用不同的数学距离函数,较有名的比对方法有,欧式空间的比对方法、以及类神经网络的数据库建立及比对、等著名的方法,为了使识别的结果更稳定,也有所谓的专家系统,利用各种特征比对方法的相异互补性,使识别出的结果,其可信度特别的高。 字词后处理:由于OCR的识别率并无法达到百分之百,或想加强比对的正确性及信心值,一些除错或甚至帮忙更正的功能,也成为OCR系统中必要的一个模块。字词后处理就是一例,利用比对后的识别文字与其可能的相似候选字群中,根据前后的识别文字找出最合乎逻辑的词,做更正的功能。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号