文本处理技术

上传人:桔**** 文档编号:591913850 上传时间:2024-09-18 格式:PPT 页数:107 大小:4.22MB
返回 下载 相关 举报
文本处理技术_第1页
第1页 / 共107页
文本处理技术_第2页
第2页 / 共107页
文本处理技术_第3页
第3页 / 共107页
文本处理技术_第4页
第4页 / 共107页
文本处理技术_第5页
第5页 / 共107页
点击查看更多>>
资源描述

《文本处理技术》由会员分享,可在线阅读,更多相关《文本处理技术(107页珍藏版)》请在金锄头文库上搜索。

1、第二章第二章 文本处理技术文本处理技术学习目标:学习目标:o1了解字符在计算机中的表示方法、输入方法和输出了解字符在计算机中的表示方法、输入方法和输出形式;形式;o2了解字符集、字库、字符编码等概念;了解字符集、字库、字符编码等概念;o3、了解扫描仪的基本结构和工作原理;、了解扫描仪的基本结构和工作原理;o4、理解文字识别的原理;、理解文字识别的原理;o5、掌握扫描仪操作和识别软件的使用。、掌握扫描仪操作和识别软件的使用。o一、字符编码技术一、字符编码技术o二、字符的键盘输入二、字符的键盘输入o三、字符输出三、字符输出o四、文本文件格式及格式转换四、文本文件格式及格式转换2.1文本的相关概念文

2、本的相关概念一、字符编码技术一、字符编码技术1字符集字符集 o文本是由字符组成的集合,字符是各种文字和符号的总文本是由字符组成的集合,字符是各种文字和符号的总称,称,包括各国文字、标点符号、图形符号、数字以及一包括各国文字、标点符号、图形符号、数字以及一些不可见的控制符等。通常将这个集合称为些不可见的控制符等。通常将这个集合称为字符字符集。集。2ASCII码码o是由美国标准化委员会制定的。是由美国标准化委员会制定的。ASCII码用码用7位二进制位二进制位对字符进行编码,每个编码占据一个字节,字符集中位对字符进行编码,每个编码占据一个字节,字符集中包含包含32个控制字符和个控制字符和96个图形字

3、符,图形字符包含数字、个图形字符,图形字符包含数字、英文大小写字母、标点符号以及常用的符号和控制字符。英文大小写字母、标点符号以及常用的符号和控制字符。3国际统一编码标准(国际统一编码标准(Unicode编码)编码) Unicode编码(国际统一编码标准)规定,每个字符编码(国际统一编码标准)规定,每个字符的的Unicode编码占据编码占据2个字节,所以包含的字符范围个字节,所以包含的字符范围比比ASCII编码字符集扩大了编码字符集扩大了256倍。倍。一、字符编码技术一、字符编码技术4汉字交换码(国标码)汉字交换码(国标码)oGB2312 80中共有中共有7445个字符符号:个字符符号: 汉字

4、符号汉字符号6763个、一级个、一级汉字汉字3755个(按汉语拼音字母顺序排列)个(按汉语拼音字母顺序排列) 、二级汉字、二级汉字3008个个(按部首笔划顺序排列)、非汉字符号(按部首笔划顺序排列)、非汉字符号682个个 。o所有的国标码汉字及符号组成一个所有的国标码汉字及符号组成一个94*94的方阵。在此方阵中,的方阵。在此方阵中,每一行称为一个每一行称为一个“区区”,每一列称为一个,每一列称为一个“位位”。这个方阵实际上。这个方阵实际上组成一个有组成一个有94个区(编号由个区(编号由01到到94),每个区有),每个区有94个位(编号个位(编号由由01到到94)的汉字字符集。)的汉字字符集。

5、o一个汉字所在的区号和位号的组合就构成了该汉字的一个汉字所在的区号和位号的组合就构成了该汉字的“区位码区位码”。其中,高两位为区号,低两位为位号。这样区位码可以唯一地确定其中,高两位为区号,低两位为位号。这样区位码可以唯一地确定某一汉字或字符;反之,任何一个汉字或符号都对应一个唯一的区某一汉字或字符;反之,任何一个汉字或符号都对应一个唯一的区位码,没有重码。位码,没有重码。一、字符编码技术一、字符编码技术5汉字机内码(内码)汉字机内码(内码)o汉字机内码(内码)是汉字在计算机内部表示和存储和汉字机内码(内码)是汉字在计算机内部表示和存储和处理使用的编码。处理使用的编码。o英文字符的的机内码是最

6、高为为英文字符的的机内码是最高为为0的的8位位ASCII码。为码。为了不与了不与7位位ASCII码发生冲突,把国标码每个字节的最码发生冲突,把国标码每个字节的最高位由高位由0改为改为1,其余位不变的编码作为汉字字符的机,其余位不变的编码作为汉字字符的机内码。内码。一、字符编码技术一、字符编码技术o一、字符编码技术一、字符编码技术o二、字符的键盘输入二、字符的键盘输入o三、字符输出三、字符输出o四、文本文件格式及格式转换四、文本文件格式及格式转换2.1文本的相关概念文本的相关概念二、字符的键盘输入二、字符的键盘输入1西文输入西文输入o由于西文字符数量较少,其每个字符均可在键盘上找到。由于西文字符

7、数量较少,其每个字符均可在键盘上找到。在英文输入时,输入什么字符便按什么键,键盘会产生在英文输入时,输入什么字符便按什么键,键盘会产生该字符对应的机内码。所以西文字符的输入编码是字符该字符对应的机内码。所以西文字符的输入编码是字符本身。本身。2汉字的输入码(外码)汉字的输入码(外码)o由于汉字数量太多,无法给每个汉字分配一个键,可能由于汉字数量太多,无法给每个汉字分配一个键,可能要按几个键才能输入一个汉字,因此由输入键序列构成要按几个键才能输入一个汉字,因此由输入键序列构成了汉字的输入码。了汉字的输入码。汉字输入方案汉字输入方案o(1) 音码:如全拼、双拼、微软拼音等音码:如全拼、双拼、微软拼

8、音等o(2) 形码:如五笔字型、郑码、表形码等形码:如五笔字型、郑码、表形码等o(3) 音形码:如智能音形码:如智能ABC、自然码等、自然码等o(4) 数字码:如区位码、电报码等数字码:如区位码、电报码等二、字符的键盘输入二、字符的键盘输入o一、字符编码技术一、字符编码技术o二、字符的键盘输入二、字符的键盘输入o三、字符输出三、字符输出o四、文本文件格式及格式转换四、文本文件格式及格式转换2.1文本的相关概念文本的相关概念三、字符输出三、字符输出o字符在计算机中以机内码形式存储和处理,这种二进制字符在计算机中以机内码形式存储和处理,这种二进制代码是不容易被人直接识别和阅读的,因此在输出时,代码

9、是不容易被人直接识别和阅读的,因此在输出时,必须还原成可以被人识别的形态,即以字符的笔划形状必须还原成可以被人识别的形态,即以字符的笔划形状来显示。来显示。 1字库字库o汉字在存储和处理的过程中,只需要用机内码汉字在存储和处理的过程中,只需要用机内码o在输出时,需要用到字形的信息,在输出时,需要用到字形的信息,o将每个汉字机内码对应的点阵信息保存为一个表,就成将每个汉字机内码对应的点阵信息保存为一个表,就成为字库。字库中描述字形信息的编码,称为汉字字形码为字库。字库中描述字形信息的编码,称为汉字字形码(输出码)。(输出码)。o当计算机需要显示某个字符时,根据字符内码与点阵码当计算机需要显示某个

10、字符时,根据字符内码与点阵码的对应,找到点阵信息进行显示。的对应,找到点阵信息进行显示。o同一字符,因为其显示的字体可以有很多,因此,字库同一字符,因为其显示的字体可以有很多,因此,字库也可以有多个。也可以有多个。三、字符输出三、字符输出2点阵字库点阵字库o以点阵表示的字形信息存储时,每个英文字形要使用以点阵表示的字形信息存储时,每个英文字形要使用16个字节存储,汉字字形则要使用个字节存储,汉字字形则要使用32个字节(个字节(16 * 16/8= 32)存储。可以看出,一个机内码为两字节)存储。可以看出,一个机内码为两字节的汉字,在显示为的汉字,在显示为16*16大小时,对应着一个大小时,对应

11、着一个32字节字节的点阵。的点阵。 三、字符输出三、字符输出o以点阵来描述字形的字库,称为点阵字库。点阵字库中以点阵来描述字形的字库,称为点阵字库。点阵字库中各个字符顺序存放,每个字符有一个地址码,这个地址各个字符顺序存放,每个字符有一个地址码,这个地址码与字符的机内码是对应的。码与字符的机内码是对应的。o点阵字库在早期使用较多,输出字符时处理也较简单,点阵字库在早期使用较多,输出字符时处理也较简单,只要给定字符的地址码,字形点阵数据顺序读出即可。只要给定字符的地址码,字形点阵数据顺序读出即可。三、字符输出三、字符输出3True Type字库字库o点阵字库在放大时,会在边缘出现锯齿现象。点阵字

12、库在放大时,会在边缘出现锯齿现象。o可用数字函数描述字体轮廓外形的内容丰富的指令集合来可用数字函数描述字体轮廓外形的内容丰富的指令集合来表示字符。表示字符。o这些指令中包括字型构造、颜色填充、数字描述函数、流这些指令中包括字型构造、颜色填充、数字描述函数、流程条件控制、栅格处理器控制,附加提示信息控制等指令。程条件控制、栅格处理器控制,附加提示信息控制等指令。o使用这种字库的显示实际上是由一系列指令描出字形的轮使用这种字库的显示实际上是由一系列指令描出字形的轮廓,然后用一定的方式填充,字形的输出是由指令绘制的廓,然后用一定的方式填充,字形的输出是由指令绘制的一系列相接的曲线或直线拼成,不管字形

13、被放大到多大,一系列相接的曲线或直线拼成,不管字形被放大到多大,重新绘制的曲线能够保持字符边缘的光滑。重新绘制的曲线能够保持字符边缘的光滑。三、字符输出三、字符输出4字库的使用字库的使用o字库以文件形式保存在操作系统中(如字库以文件形式保存在操作系统中(如windows XP操操作系统,保存在作系统,保存在“C:WINDOWSFonts”文件夹中)文件夹中)三、字符输出三、字符输出4字库的使用字库的使用三、字符输出三、字符输出o在输出字符时,使用不同的字库文件,输出的字形是不在输出字符时,使用不同的字库文件,输出的字形是不一样的,在编辑文本时,必须申明字符使用哪个字库文一样的,在编辑文本时,必

14、须申明字符使用哪个字库文件,这一操作在文字编辑软件中,称为字体定义。件,这一操作在文字编辑软件中,称为字体定义。o编辑软件提供了字体定义的操作,在对选中的字符进行编辑软件提供了字体定义的操作,在对选中的字符进行字体定义操作时,软件会给出当前可用的字体列表:字体定义操作时,软件会给出当前可用的字体列表:5、字库使用常见问题、字库使用常见问题o问题:问题:在一台计算上定义的文本,在另一台计算机上打开在一台计算上定义的文本,在另一台计算机上打开时,显示的字体与编辑时显示的不同,或者有的字符大,时,显示的字体与编辑时显示的不同,或者有的字符大,有的字符小。甚至不出现某个字。有的字符小。甚至不出现某个字

15、。o原因一:原因一:不同字库中,字符的数量不一定一样多,可能有不同字库中,字符的数量不一定一样多,可能有些字符在某个字库中存在,在另外的字库中不存在;不同些字符在某个字库中存在,在另外的字库中不存在;不同的计算机系统,其安装的字库数量和类别也不尽相同。的计算机系统,其安装的字库数量和类别也不尽相同。o若某台计算机中没有安装被定义过的字库文件,在显示时,若某台计算机中没有安装被定义过的字库文件,在显示时,系统会自动选择一种与原字体接近的字库来使用。这样就系统会自动选择一种与原字体接近的字库来使用。这样就造成了显示的效果与原来编辑时不一样的现象。若替代的造成了显示的效果与原来编辑时不一样的现象。若

16、替代的字库文件中缺少某一个字符,则显示时,会出现该字符不字库文件中缺少某一个字符,则显示时,会出现该字符不被显示被显示 三、字符输出三、字符输出5、字库使用常见问题、字库使用常见问题处理策略处理策略o一种是尽量使用常见的字体,如宋体、楷体等,这些字体一种是尽量使用常见的字体,如宋体、楷体等,这些字体的字库文件是在一般的操作系统中都会安装的,因此不会的字库文件是在一般的操作系统中都会安装的,因此不会出现在某一环境下,找不到原定义的字库文件的现象。出现在某一环境下,找不到原定义的字库文件的现象。o若一定要使用某一特殊字体,以显示特别的效果,将这些若一定要使用某一特殊字体,以显示特别的效果,将这些特

17、殊的字库文件与编辑的文本文件一同发行,在使用时先特殊的字库文件与编辑的文本文件一同发行,在使用时先把字库文件安装到系统中,然后再打开文本文件。把字库文件安装到系统中,然后再打开文本文件。这种方这种方法,要征得字库版权拥有者的同意,可能需要支法,要征得字库版权拥有者的同意,可能需要支一定的版权费用。一定的版权费用。三、字符输出三、字符输出o一、字符编码技术一、字符编码技术o二、字符的键盘输入二、字符的键盘输入o三、字符输出三、字符输出o四、文本文件格式及格式转换四、文本文件格式及格式转换2.1文本的相关概念文本的相关概念四、文本文件格式及格式转换四、文本文件格式及格式转换o将字符编辑为文本文件,

18、需要在一定的编辑软件中进行。将字符编辑为文本文件,需要在一定的编辑软件中进行。编辑文本时,除了对字符进行编排外,编辑软件还会加编辑文本时,除了对字符进行编排外,编辑软件还会加上一些格式定义,如字体、字大小,行间距等,最后形上一些格式定义,如字体、字大小,行间距等,最后形成一个文件保存。这样的文件可以称为文本文件。成一个文件保存。这样的文件可以称为文本文件。o编辑使用的软件不一样,保存的文件中会含有不同的格编辑使用的软件不一样,保存的文件中会含有不同的格式化定义信息,因此文本文件可能有很多不同的格式。式化定义信息,因此文本文件可能有很多不同的格式。常见的格式有纯文本、常见的格式有纯文本、RTP格

19、式、格式、Doc格式、格式、PDF格格式等,还有一些电子文献专用的格式,如式等,还有一些电子文献专用的格式,如CAJ、KDH等。等。1常见文本格式常见文本格式(1)Txt 格式格式o用用windows记事本软件编辑的文本文件不含有格式定记事本软件编辑的文本文件不含有格式定义,称为纯文本,纯文本的扩展名为义,称为纯文本,纯文本的扩展名为“txt”。(2)RTF 格式格式oRTF 格式是很多字处理程序都理解的一种文件格式,格式是很多字处理程序都理解的一种文件格式,当在一个字处理程序中创建了文档但希望在另一个字处当在一个字处理程序中创建了文档但希望在另一个字处理程序中编辑时,通常会使用该格式,即使在

20、不同的操理程序中编辑时,通常会使用该格式,即使在不同的操作系统平台上运行(如作系统平台上运行(如 Windows 和和 Macintosh)上,也可以实现文件交换)。上,也可以实现文件交换)。四、文本文件格式及格式转换四、文本文件格式及格式转换1常见文本格式常见文本格式四、文本文件格式及格式转换四、文本文件格式及格式转换o(3)Doc 格式格式oDoc 格式是格式是Microsoft word字处理软件默认的文件字处理软件默认的文件格式,使用这种格式保存文档,会将所有的格式化信息格式,使用这种格式保存文档,会将所有的格式化信息保存。保存。o(4)PDF 格式格式oPDF格式通常用于技术规范文件

21、、白皮书、研究报告格式通常用于技术规范文件、白皮书、研究报告和电子期刊等文档资料,其扩展名为和电子期刊等文档资料,其扩展名为pdf。 PDF格式格式文件用文件用Adobe Reader阅读器打开。阅读器打开。oAdobe Reader由由Adobe公司免费提供公司免费提供下载。下载。2常见文本格式间的转换常见文本格式间的转换o(1)Txt 与其它格式的转换与其它格式的转换o纯文本格式是一般编辑软件都能识别的格式,一般的编纯文本格式是一般编辑软件都能识别的格式,一般的编辑软件可直接打开纯文本文件。辑软件可直接打开纯文本文件。o启动能够输出目标格式的文本编辑软件后,选择打开指启动能够输出目标格式的

22、文本编辑软件后,选择打开指定的纯文本文件,进行必要的排版后,保存为这种目标定的纯文本文件,进行必要的排版后,保存为这种目标格式即可。格式即可。o对其它非对其它非txt文件格式的文件,用能识别它的编辑软件文件格式的文件,用能识别它的编辑软件打开,重新保存,保存时选择打开,重新保存,保存时选择txt格式,即可把其它格格式,即可把其它格式的文件保存为纯文本文件。式的文件保存为纯文本文件。四、文本文件格式及格式转换四、文本文件格式及格式转换2常见文本格式间的转换常见文本格式间的转换四、文本文件格式及格式转换四、文本文件格式及格式转换o(2)其它格式到)其它格式到PDF格式的转换格式的转换o这种转换可借

23、助一个特别的软件很方便地实现。这种转换可借助一个特别的软件很方便地实现。oPDF995S软件是一个虚拟打印机软件,当这个软件被软件是一个虚拟打印机软件,当这个软件被安装到操作系统中后,就可跟一般的打印机一样执行打安装到操作系统中后,就可跟一般的打印机一样执行打印操作。不管原来的文件是什么样的格式,执行打印命印操作。不管原来的文件是什么样的格式,执行打印命令后,原来应该打印到纸张上的内容,就输出成了一个令后,原来应该打印到纸张上的内容,就输出成了一个PDF文件。文件。2常见文本格式间的转换常见文本格式间的转换四、文本文件格式及格式转换四、文本文件格式及格式转换o(3)PDF格式到格式到DOC格式

24、的转换格式的转换oScanSoft PDF Converter v2.0是是ScanSoft 与与微软共同组队开发的一个微软共同组队开发的一个 Office 2003 插件。该插插件。该插件安装后,可以在件安装后,可以在Word中直接打开中直接打开 PDF 文档,然后文档,然后就可以编辑并转换为就可以编辑并转换为Word文档,并且完全保留原来的文档,并且完全保留原来的格式和版面设计。格式和版面设计。o一、手写方式录入字符一、手写方式录入字符o二、语音录入方式二、语音录入方式o三、利用扫描仪录入方式三、利用扫描仪录入方式 2.2 文本信息的录入文本信息的录入一、手写方式录入字符一、手写方式录入字

25、符o手写输入是直接通过书写录入字符的输入方法。这种方手写输入是直接通过书写录入字符的输入方法。这种方法要使用专门的硬件配合并在相应软件支持下才能使用。法要使用专门的硬件配合并在相应软件支持下才能使用。o通常是一块与计算机相连的触摸板,使用专用的笔在其通常是一块与计算机相连的触摸板,使用专用的笔在其上书写文字,计算机即可自动识别输入的字符,并将其上书写文字,计算机即可自动识别输入的字符,并将其转换成文本数据的形式存储起来,便于文字编辑软件处转换成文本数据的形式存储起来,便于文字编辑软件处理。理。o连笔识别。连笔识别。o倒插笔识别倒插笔识别 o自学习功能。自学习功能。o联想字识别、同音字识别、同形

26、字识别等技术。联想字识别、同音字识别、同形字识别等技术。一、手写方式录入字符一、手写方式录入字符o一、手写方式录入字符一、手写方式录入字符o二、语音录入方式二、语音录入方式o三、利用扫描仪录入方式三、利用扫描仪录入方式 2.2 文本信息的录入文本信息的录入二、语音录入方式二、语音录入方式o通过麦克风等输入设备,将欲录入的文字内容用比通过麦克风等输入设备,将欲录入的文字内容用比较规范的形式朗读给计算机,计算机加以识别处理,较规范的形式朗读给计算机,计算机加以识别处理,最后转换成文本信息。最后转换成文本信息。o与键盘录入和手写输入方式相比,语音录入方式要与键盘录入和手写输入方式相比,语音录入方式要

27、复杂得多。这是因为不同的人说话的语调、语气、复杂得多。这是因为不同的人说话的语调、语气、节奏、发音的规范程度均不一样,造成了很多不确节奏、发音的规范程度均不一样,造成了很多不确定的因素,使得识别系统的识别率很难提高。定的因素,使得识别系统的识别率很难提高。o语音识别系统主要由采录和识别两个部分组成,其语音识别系统主要由采录和识别两个部分组成,其中识别部分的难度比较大。目前人们常见到的语音中识别部分的难度比较大。目前人们常见到的语音识别系统,按识别对象可分为孤立词识别、连接词识别系统,按识别对象可分为孤立词识别、连接词识别和连续语音识别三类;而按使用对象可分为认识别和连续语音识别三类;而按使用对

28、象可分为认人语音识别和不认人语音识别两类。人语音识别和不认人语音识别两类。o一、手写方式录入字符一、手写方式录入字符o二、语音录入方式二、语音录入方式o三、利用扫描仪录入方式三、利用扫描仪录入方式 2.2 文本信息的录入文本信息的录入三、利用扫描仪录入方式三、利用扫描仪录入方式o扫描仪录入方式是把现有纸张上的文字符号,通过扫描扫描仪录入方式是把现有纸张上的文字符号,通过扫描成电子图像,利用软件对其中文字符号进行识别的一种成电子图像,利用软件对其中文字符号进行识别的一种技术。技术。o这种录入文本数据的方式适用于需要将一些印刷品上的这种录入文本数据的方式适用于需要将一些印刷品上的内容转录到计算机中

29、,并用计算机对它们进行加工处理。内容转录到计算机中,并用计算机对它们进行加工处理。oOCR软件的英文识别率可以高达软件的英文识别率可以高达90以上,中文识别以上,中文识别率可以高达率可以高达85以上。以上。 印刷文稿的扫描仪录入流程:印刷文稿的扫描仪录入流程:o从印刷文稿的扫描仪录入流程可以看出,文字识别的对从印刷文稿的扫描仪录入流程可以看出,文字识别的对象只是对电子图片,但电子图片的来源则不一定要通过象只是对电子图片,但电子图片的来源则不一定要通过扫描的方式实现,使用数码相机或者屏幕打印等方式获扫描的方式实现,使用数码相机或者屏幕打印等方式获得的电子照片中的文字,同样可被识别。得的电子照片中

30、的文字,同样可被识别。印刷印刷文稿文稿电子电子图片图片字符字符格式格式文本文本扫描扫描识别识别编辑编辑三、利用扫描仪录入方式三、利用扫描仪录入方式文字识别原理文字识别原理o电子图片先要经过版面分析,确定其文字的行列特征,电子图片先要经过版面分析,确定其文字的行列特征,然后进行行列的分割,最后分离出字符块。然后进行行列的分割,最后分离出字符块。o对字符块进行二值化和规一化处理(即将字符块的大小对字符块进行二值化和规一化处理(即将字符块的大小变为标准大小,颜色变为黑白两值)变为标准大小,颜色变为黑白两值)o与字符集的字模进行对比,根据字相似程度,确定被识与字符集的字模进行对比,根据字相似程度,确定

31、被识别的字可能是哪些字,还要根据字的上下文确定最可能别的字可能是哪些字,还要根据字的上下文确定最可能的字。的字。三、利用扫描仪录入方式三、利用扫描仪录入方式三、利用扫描仪录入方式三、利用扫描仪录入方式o若识别时能缩小字符集范围,可减小对比的运算量,并若识别时能缩小字符集范围,可减小对比的运算量,并使判断的准确程度提高。使判断的准确程度提高。o尚书七号汉字表格识别系统软件可由用户选择使用的识尚书七号汉字表格识别系统软件可由用户选择使用的识别字集有简体字集(简体汉字和英文符号等),繁体字别字集有简体字集(简体汉字和英文符号等),繁体字集和纯英文字集等。集和纯英文字集等。文字识别原理文字识别原理三、

32、利用扫描仪录入方式三、利用扫描仪录入方式文字识别条件文字识别条件o电子图片的质量是有一定的要求的。一般来说,印刷文电子图片的质量是有一定的要求的。一般来说,印刷文稿如果反差太小,过暗或者过亮,或者倾斜,或者有污稿如果反差太小,过暗或者过亮,或者倾斜,或者有污染,对人工阅读来说,不会有太大的影响,但是对自动染,对人工阅读来说,不会有太大的影响,但是对自动识别来说会有很大的困难。识别来说会有很大的困难。o当原稿质量欠佳时,在将原稿电子采集(扫描或照像等)当原稿质量欠佳时,在将原稿电子采集(扫描或照像等)时或采集后,应进行一定的预处理,以提高识别的准确时或采集后,应进行一定的预处理,以提高识别的准确

33、程度程度 o一、扫描仪一、扫描仪o二、用扫描仪录入文本二、用扫描仪录入文本o三、扫描仪录入文字的高级设置三、扫描仪录入文字的高级设置o四、其它电子照片中文字的识别四、其它电子照片中文字的识别第三节第三节 扫描仪录入文字技术扫描仪录入文字技术o一、扫描仪一、扫描仪o二、用扫描仪录入文本二、用扫描仪录入文本o三、扫描仪录入文字的高级设置三、扫描仪录入文字的高级设置o四、其它电子照片中文字的识别四、其它电子照片中文字的识别第三节第三节 扫描仪录入文字技术扫描仪录入文字技术一、扫描仪一、扫描仪1、扫描仪录入策略、扫描仪录入策略扫描仪和扫描软件只将印刷品采集为电子照片,识别出扫描仪和扫描软件只将印刷品采

34、集为电子照片,识别出文字是文字识别软件完成的。文字是文字识别软件完成的。用扫描仪录入文字需要在两个不同的环境中分别完成。用扫描仪录入文字需要在两个不同的环境中分别完成。为简单起见,一般的文字识别软件嵌入了扫描软件,因为简单起见,一般的文字识别软件嵌入了扫描软件,因此只要启动文字识别软件,然后选择扫描命令,即可打此只要启动文字识别软件,然后选择扫描命令,即可打开扫描软件。开扫描软件。识别环境下:逐张扫描逐张识别识别环境下:逐张扫描逐张识别两个环境下:批量扫描逐张识别两个环境下:批量扫描逐张识别2、扫描参数调整、扫描参数调整o扫描仪在扫描时,需要设置一些扫描参数,但系统也提扫描仪在扫描时,需要设置

35、一些扫描参数,但系统也提供参数的默认值。供参数的默认值。o当需要扫描识别的文稿质量较好时,例如需要扫描的文当需要扫描识别的文稿质量较好时,例如需要扫描的文稿为黑白文稿,字的大小合适,则所有参数均可使用默稿为黑白文稿,字的大小合适,则所有参数均可使用默认值。认值。o若文稿是印刷在有色纸张上,或者印刷颜色太浅,或者若文稿是印刷在有色纸张上,或者印刷颜色太浅,或者字太小,则需要进行一定的参数调整,然后才能进行扫字太小,则需要进行一定的参数调整,然后才能进行扫描。描。一、扫描仪一、扫描仪3、扫描仪的结构、扫描仪的结构o扫描仪分为上盖、原扫描仪分为上盖、原稿台、光学成像和光稿台、光学成像和光电转换部分、

36、机械传电转换部分、机械传动部分组成。动部分组成。一、扫描仪一、扫描仪o用于将要扫描的原稿压紧,以防止扫描灯光线泄露,并用于将要扫描的原稿压紧,以防止扫描灯光线泄露,并将光源反射回扫描扫描仪内。将光源反射回扫描扫描仪内。o若上盖没有盖好,扫描原件周围的光线不能反射回扫描若上盖没有盖好,扫描原件周围的光线不能反射回扫描仪内时,扫描后图片中原稿的周围会有产生黑影。仪内时,扫描后图片中原稿的周围会有产生黑影。o扫描时,对上盖用力也不能太大,以免将原稿台的玻璃扫描时,对上盖用力也不能太大,以免将原稿台的玻璃压脱,或者压住内部的传动部分,使扫描头不能移动。压脱,或者压住内部的传动部分,使扫描头不能移动。一

37、、扫描仪一、扫描仪3、扫描仪的结构、扫描仪的结构上盖上盖o主要是用来放置扫描原稿的地方。主要是用来放置扫描原稿的地方。o其四周设有标尺线以方便原稿放置,并能及时确定原稿其四周设有标尺线以方便原稿放置,并能及时确定原稿扫描尺寸。扫描尺寸。o中间为透明玻璃,称为稿台玻璃。在扫描时需注意确保中间为透明玻璃,称为稿台玻璃。在扫描时需注意确保稿台玻璃清洁,否则会直接影响扫描图像的质量。稿台玻璃清洁,否则会直接影响扫描图像的质量。o要特别注意在放置扫描原稿时不要损坏稿台玻璃,要要特别注意在放置扫描原稿时不要损坏稿台玻璃,要“轻拿轻放轻拿轻放”。一、扫描仪一、扫描仪3、扫描仪的结构、扫描仪的结构原稿台原稿台

38、一、扫描仪一、扫描仪3、扫描仪的结构、扫描仪的结构光学成像部分光学成像部分o俗称扫描头,即图像信息读取部分,它是扫描仪的核心俗称扫描头,即图像信息读取部分,它是扫描仪的核心部件,其精度直接影响扫描图像的还原逼真程度。它包部件,其精度直接影响扫描图像的还原逼真程度。它包括以下主要部件:灯管、反光镜、镜头以及电荷耦合器括以下主要部件:灯管、反光镜、镜头以及电荷耦合器件件(CCD)。一、扫描仪一、扫描仪3、扫描仪的结构、扫描仪的结构线性线性CCD传感器传感器oCCD图像传感器是平板式扫描仪的核心,其主要作用就是图像传感器是平板式扫描仪的核心,其主要作用就是将照射到其上的光图像转换成电信号。扫描仪使用

39、线性将照射到其上的光图像转换成电信号。扫描仪使用线性CCD,即感光器件是线状排列的。,即感光器件是线状排列的。o在在10m的间隔上并行排列着数千个的间隔上并行排列着数千个CCD图像单元,这些图像单元,这些图像单元规则地排成一线,当光线照射到图像传感器的感光图像单元规则地排成一线,当光线照射到图像传感器的感光面上时,每个面上时,每个CCD图像单元都接受照射其上的光线,并根图像单元都接受照射其上的光线,并根据感应到的光线强弱,产生相应的电荷。据感应到的光线强弱,产生相应的电荷。oCCD图像单元的数量,决定了扫描时每行扫描得到的像素图像单元的数量,决定了扫描时每行扫描得到的像素点的数目,数目越多,则

40、在一行上分辨图像的细节越精细。点的数目,数目越多,则在一行上分辨图像的细节越精细。oCCD图像单元的数量是决定扫描仪分辨率参数的一个重要图像单元的数量是决定扫描仪分辨率参数的一个重要因素。因素。一、扫描仪一、扫描仪3、扫描仪的结构、扫描仪的结构光电转换部分光电转换部分o是指扫描仪内部的主板。它是一块安置有各种电子元件是指扫描仪内部的主板。它是一块安置有各种电子元件的印刷电路板,是扫描仪的控制系统,在扫描仪扫描过的印刷电路板,是扫描仪的控制系统,在扫描仪扫描过程中,主要完成程中,主要完成CCD信号的输入处理,以及对步进电机信号的输入处理,以及对步进电机的控制,将读取的图像以任意的解析度进行处理或

41、变换的控制,将读取的图像以任意的解析度进行处理或变换所需的解析度。所需的解析度。3、扫描仪的结构、扫描仪的结构机械传动部分机械传动部分o主要是步进电机,由它驱动扫描头前后移动。主要是步进电机,由它驱动扫描头前后移动。2扫描仪的工作原理扫描仪的工作原理o扫描时,将文稿待扫描一面朝下,平放在原稿台上。扫描时,将文稿待扫描一面朝下,平放在原稿台上。o光源将光线照射到待扫描的图像原稿上,产生反射光,光源将光线照射到待扫描的图像原稿上,产生反射光,然后经反光镜组反射到线性然后经反光镜组反射到线性CCD中。中。o因因CCD为线状结构,实际成像只有一条线状部分被感为线状结构,实际成像只有一条线状部分被感应。

42、每条线的宽度大约为应。每条线的宽度大约为10 m,o线的宽度是决定扫描分辨率参数的又一重要因素。线的宽度是决定扫描分辨率参数的又一重要因素。一、扫描仪一、扫描仪2扫描仪的工作原理扫描仪的工作原理一、扫描仪一、扫描仪扫描仪工作过程示意图扫描仪工作过程示意图 3 3扫描仪的性能指标扫描仪的性能指标(1 1)分辨率)分辨率 o分辨率是扫描仪最重要的技术指标之一,用每英寸分辨率是扫描仪最重要的技术指标之一,用每英寸(in)(in)生生成的像素来表示。像素是图像中的一个小点,一幅图像就成的像素来表示。像素是图像中的一个小点,一幅图像就是由这些小点构成的。是由这些小点构成的。o光学分辨率:光学分辨率分为水

43、平光学分辨率:光学分辨率分为水平( (横向横向) )分辨率和垂直分辨率和垂直( (纵向纵向) )分辨率两种。水平分辨率是扫描头在水平方向内所分辨率两种。水平分辨率是扫描头在水平方向内所能获得的扫描精度,其质量由光电耦合器件决定;纵向分能获得的扫描精度,其质量由光电耦合器件决定;纵向分辨率是指带动感光元件的步进电机每英寸可移动的步数,辨率是指带动感光元件的步进电机每英寸可移动的步数,或者说是表示扫描头在托架上两次曝光间移动的距离。一或者说是表示扫描头在托架上两次曝光间移动的距离。一般提到光学分辨率指的是水平分辨率。般提到光学分辨率指的是水平分辨率。一、扫描仪一、扫描仪3 3扫描仪的性能指标扫描仪

44、的性能指标(1 1)分辨率)分辨率 一、扫描仪一、扫描仪o最大分辨率:扫描仪的最大分辨率是通过扫描仪的驱动最大分辨率:扫描仪的最大分辨率是通过扫描仪的驱动程序得到的,也即通过数学演算手法得到的,又叫最高程序得到的,也即通过数学演算手法得到的,又叫最高分辨率或插值分辨率。分辨率或插值分辨率。o其原理是在光学分辨率所获得的两扫描点之间插入附加其原理是在光学分辨率所获得的两扫描点之间插入附加的信息点,因此它不会增加新的细节,只是在相邻像素的信息点,因此它不会增加新的细节,只是在相邻像素间求出颜色和灰度数据的平均值,从而在它们之间增加间求出颜色和灰度数据的平均值,从而在它们之间增加一个新的像素。一个新

45、的像素。o一台扫描仪的光学分辨率为一台扫描仪的光学分辨率为600dpi,通过插值算法可,通过插值算法可使其最大分辨率达到使其最大分辨率达到9600dpi。3 3扫描仪的性能指标扫描仪的性能指标(1 1)分辨率)分辨率 一、扫描仪一、扫描仪o扫描仪的分辨率设定扫描仪的分辨率设定o通过以上情况可以看出,在使用过程中扫描仪的分辨率通过以上情况可以看出,在使用过程中扫描仪的分辨率是可调的,而调整的方法就是通过软件是可调的,而调整的方法就是通过软件(驱动程序驱动程序)进行进行的,如果设置的标准超过了设备的光学分辨率指标,则的,如果设置的标准超过了设备的光学分辨率指标,则驱动程序会对超过的部分自动进行插值

46、运算,来满足用驱动程序会对超过的部分自动进行插值运算,来满足用户的需求。户的需求。3 3扫描仪的性能指标扫描仪的性能指标一、扫描仪一、扫描仪(2)灰度级)灰度级o灰度级表示图像的亮度层次的范围,灰度级数越多说明灰度级表示图像的亮度层次的范围,灰度级数越多说明扫描仪生产的图像的亮度的动态范围越大,层次感越丰扫描仪生产的图像的亮度的动态范围越大,层次感越丰富。富。o目前多数扫描仪的灰度是目前多数扫描仪的灰度是1024级。灰度级通常被表示级。灰度级通常被表示为为10bit或或12bit。其含义是该扫描仪具有使扫描生成。其含义是该扫描仪具有使扫描生成的图像的亮度从纯黑到纯白之间平滑过渡的能力。的图像的

47、亮度从纯黑到纯白之间平滑过渡的能力。3 3扫描仪的性能指标扫描仪的性能指标一、扫描仪一、扫描仪(3)色彩位数)色彩位数o在计算机屏幕和纸张上是通过在计算机屏幕和纸张上是通过RGB(红绿蓝红绿蓝)三基色按三基色按不同比例合成的方法来模拟出与自然界的色彩一致的效不同比例合成的方法来模拟出与自然界的色彩一致的效果。果。o计算机在存储一种彩色时,实际上是存储了合成它的一计算机在存储一种彩色时,实际上是存储了合成它的一组三基色数据。计算机用不同位数的二进制数来存储不组三基色数据。计算机用不同位数的二进制数来存储不同灰度级的某种基色。同灰度级的某种基色。3 3扫描仪的性能指标扫描仪的性能指标一、扫描仪一、

48、扫描仪(3)色彩位数)色彩位数o使用使用8位二进制数来表示红色,则可以得到位二进制数来表示红色,则可以得到256种灰度种灰度级的红色。级的红色。o当它与当它与8位绿色、位绿色、8位蓝色合成时,就可以得到位蓝色合成时,就可以得到1670万种颜色,即真彩色。万种颜色,即真彩色。o此时的彩色实际上是使用了此时的彩色实际上是使用了3*8=24位二进制数据来位二进制数据来表示的。因此,我们也称其为表示的。因此,我们也称其为24位彩色。位彩色。o由此可以看出,彩色位数越高意味着计算机所能表达的由此可以看出,彩色位数越高意味着计算机所能表达的彩色种类越丰富,越接近自然色。彩色种类越丰富,越接近自然色。3 3

49、扫描仪的性能指标扫描仪的性能指标一、扫描仪一、扫描仪(3)色彩位数)色彩位数o扫描仪的色彩位数用扫描仪的色彩位数用“位位”来描述,它反映了扫描仪对来描述,它反映了扫描仪对图像色彩范围的辨析能力。早期的彩色扫描仪为图像色彩范围的辨析能力。早期的彩色扫描仪为24位,位,即红、绿、蓝即红、绿、蓝3个通道各为个通道各为8位。现在的彩色扫描仪已位。现在的彩色扫描仪已经有经有30位、位、36位或位或48位,它们每个通道的量化数值位,它们每个通道的量化数值分别用分别用10位、位、12位或位或16位来表示。通常扫描仪的色位来表示。通常扫描仪的色彩位数越多,扫描仪所能反映的色彩就越丰富,扫描出彩位数越多,扫描仪

50、所能反映的色彩就越丰富,扫描出来的图像效果也越真实,当然输入主机的图像文件的容来的图像效果也越真实,当然输入主机的图像文件的容量也会增大。量也会增大。3 3扫描仪的性能指标扫描仪的性能指标一、扫描仪一、扫描仪u其他参数其他参数o扫描速度扫描速度o扫描幅面扫描幅面o接口方式接口方式o缩放比例缩放比例o原稿类型(反射稿、透射稿)原稿类型(反射稿、透射稿)o一、扫描仪一、扫描仪o二、用扫描仪录入文本二、用扫描仪录入文本o三、扫描仪录入文字的高级设置三、扫描仪录入文字的高级设置o四、其它电子照片中文字的识别四、其它电子照片中文字的识别第三节第三节 扫描仪录入文字技术扫描仪录入文字技术二、用扫描仪录入文

51、本二、用扫描仪录入文本o用扫描仪录入文本需要文字识别软件和扫描软件支持。用扫描仪录入文本需要文字识别软件和扫描软件支持。在扫描和识别同时进行时,只需要启动文字识别软件,在扫描和识别同时进行时,只需要启动文字识别软件,即可打开内嵌的扫描软件启动扫描操作。如果扫描和识即可打开内嵌的扫描软件启动扫描操作。如果扫描和识别不是同时进行的,则需要先用扫描软件将文稿扫描成别不是同时进行的,则需要先用扫描软件将文稿扫描成电子照片,以后再调用识别软件识别。电子照片,以后再调用识别软件识别。o在文字识别软件中扫描并录入文字操作的步骤:在文字识别软件中扫描并录入文字操作的步骤:1启动识别软件启动识别软件o在桌面上双

52、击在桌面上双击“启动尚书六号表格文字识别系统软件启动尚书六号表格文字识别系统软件”的快捷方式图标,即可启动识别软件。的快捷方式图标,即可启动识别软件。o窗口中有窗口中有“扫描扫描”、“文件文件”、“切分切分”、“识别识别”等等工具图标。在菜单中也可以找到相应的命令。工具图标。在菜单中也可以找到相应的命令。二、用扫描仪录入文本二、用扫描仪录入文本2启动扫描程序启动扫描程序o选择选择“扫描扫描”工具图标,会启动扫描程序,并弹出相应工具图标,会启动扫描程序,并弹出相应窗口。窗口。二、用扫描仪录入文本二、用扫描仪录入文本3放置文稿放置文稿o将文稿待扫面向下,平放在原稿台上。将文稿待扫面向下,平放在原稿

53、台上。o注意放正,尽量不要倾斜。稿件的上端朝向扫描前扫描注意放正,尽量不要倾斜。稿件的上端朝向扫描前扫描灯所在的一端,这样扫描出的电子照片不会是倒立的或灯所在的一端,这样扫描出的电子照片不会是倒立的或是横向的。是横向的。o盖上扫描仪上盖。当稿件较厚时,特别是扫描较厚书的盖上扫描仪上盖。当稿件较厚时,特别是扫描较厚书的中间部分时,上盖不能较好地遮光,可以将白纸条放到中间部分时,上盖不能较好地遮光,可以将白纸条放到原稿台上原稿没有接触玻璃的地方,以将扫描灯的光线原稿台上原稿没有接触玻璃的地方,以将扫描灯的光线反射回去。以免扫描时出现黑色区域。反射回去。以免扫描时出现黑色区域。二、用扫描仪录入文本二

54、、用扫描仪录入文本4预览预览o选择预览按钮,扫描仪会以较低的分辨率和较快的速度选择预览按钮,扫描仪会以较低的分辨率和较快的速度将整个反射台扫描一遍,得到一幅预览图像。将整个反射台扫描一遍,得到一幅预览图像。二、用扫描仪录入文本二、用扫描仪录入文本5选定扫描区域选定扫描区域o在预览时,窗口中会出现一个虚线框,这是正式扫描的在预览时,窗口中会出现一个虚线框,这是正式扫描的范围设置框。把鼠标放到框的中央可以拖动窗口的位置,范围设置框。把鼠标放到框的中央可以拖动窗口的位置,把鼠标放到框的边线或角上,可以拖动框的大小,在框把鼠标放到框的边线或角上,可以拖动框的大小,在框中的部分,将是正式扫描时,扫描仪处

55、理的范围。中的部分,将是正式扫描时,扫描仪处理的范围。二、用扫描仪录入文本二、用扫描仪录入文本6扫描扫描o选定好扫描区域后,按一下窗口中选定好扫描区域后,按一下窗口中“扫描扫描”工具按钮,工具按钮,扫描仪即开始扫描操作。可以从上盖与原稿台间的缝隙扫描仪即开始扫描操作。可以从上盖与原稿台间的缝隙处看见扫描灯的移动(有些扫描仪会在上盖的边缘区设处看见扫描灯的移动(有些扫描仪会在上盖的边缘区设置一个长条状的有色透明窗口,可以从窗口中看到扫描置一个长条状的有色透明窗口,可以从窗口中看到扫描灯的移动情况)。扫描结束后,描得到的文稿出现在识灯的移动情况)。扫描结束后,描得到的文稿出现在识别程序的窗口中。别

56、程序的窗口中。二、用扫描仪录入文本二、用扫描仪录入文本7选定识别区域选定识别区域o文稿中可能只有部分内容是需要识别为字符的,或者有文稿中可能只有部分内容是需要识别为字符的,或者有比较复杂的版面,例如有分栏现象或文稿中有插图,在比较复杂的版面,例如有分栏现象或文稿中有插图,在识别时,应将这些部分单独划为识别区进行识别,以免识别时,应将这些部分单独划为识别区进行识别,以免识别时将图片当字符识别从而出错,有分栏时,如果没识别时将图片当字符识别从而出错,有分栏时,如果没有将分栏部分单独设置识别区,识别时重组成的文本将有将分栏部分单独设置识别区,识别时重组成的文本将会出现混乱。会出现混乱。二、用扫描仪录

57、入文本二、用扫描仪录入文本7选定识别区域选定识别区域o设置识别区的方法是在左边识别区设置工具按钮上单击设置识别区的方法是在左边识别区设置工具按钮上单击一次,选中设置工具,然后从窗口的每个文本区的左上一次,选中设置工具,然后从窗口的每个文本区的左上角拖动到右下角,松开以后,到下一个文本区重复以上角拖动到右下角,松开以后,到下一个文本区重复以上操作,直到所有待识别的内容都被相应的识别框框住。操作,直到所有待识别的内容都被相应的识别框框住。二、用扫描仪录入文本二、用扫描仪录入文本7选定识别区域选定识别区域o识别区切分识别区切分o文本被分成了三个识别区,避开了右侧的插图,三个区文本被分成了三个识别区,

58、避开了右侧的插图,三个区域间有箭头相连,表明了区域的先后次序,是系统根据域间有箭头相连,表明了区域的先后次序,是系统根据设置的先后次序自动添加的。设置的先后次序自动添加的。二、用扫描仪录入文本二、用扫描仪录入文本二、用扫描仪录入文本二、用扫描仪录入文本o版面分析版面分析o识别软件提供的切分按钮,是识别系统自带的自动版面识别软件提供的切分按钮,是识别系统自带的自动版面分析功能。选择此项工具以后,系统自动对版进行分析,分析功能。选择此项工具以后,系统自动对版进行分析,然后根据版面情况会将整个版面设置为多个识别区域。然后根据版面情况会将整个版面设置为多个识别区域。二、用扫描仪录入文本二、用扫描仪录入

59、文本7选定识别区域选定识别区域8识别识别p区域设定好区域设定好以后,直接按下以后,直接按下“识别识别”工具按工具按钮,系统即开始钮,系统即开始自动识别,识别自动识别,识别完成后,将识别完成后,将识别文本与原稿一同文本与原稿一同放于校对窗口中。放于校对窗口中。二、用扫描仪录入文本二、用扫描仪录入文本9校对校对o校对窗口上部校对窗口上部为识别后的文本为识别后的文本段落,是字符格段落,是字符格式,下面一行左式,下面一行左边为原稿区,是边为原稿区,是图片格式,原稿图片格式,原稿的右边是候选字的右边是候选字区。区。二、用扫描仪录入文本二、用扫描仪录入文本9校对校对二、用扫描仪录入文本二、用扫描仪录入文本

60、o当用鼠标在文本区某个字上单击一下的时候,原稿区会当用鼠标在文本区某个字上单击一下的时候,原稿区会自动移到这个字符的邻近区域,同时候选字也会切换到自动移到这个字符的邻近区域,同时候选字也会切换到被选中的这个字符,候选字是与选定字符相似的字符,被选中的这个字符,候选字是与选定字符相似的字符,是识别软件在识别时觉得可能的字符,识别软件会找出是识别软件在识别时觉得可能的字符,识别软件会找出一个最接近的字符显示到文本区中去,而把其它相似的一个最接近的字符显示到文本区中去,而把其它相似的字符列于候选字中。字符列于候选字中。o若实际正确的字是候选区中的某个字符,只要用鼠标在若实际正确的字是候选区中的某个字

61、符,只要用鼠标在候选区正确的字符上单击选定,则该字符会替换掉文本候选区正确的字符上单击选定,则该字符会替换掉文本区中的相应字符,若候选区的字符也不正确,用户可用区中的相应字符,若候选区的字符也不正确,用户可用键盘键入正确的字符。键盘键入正确的字符。 9校对校对二、用扫描仪录入文本二、用扫描仪录入文本o识别软件对显示在文本区中的字符有一个可信度的判断。识别软件对显示在文本区中的字符有一个可信度的判断。当它认为识别的可信度高的时候,字符会以黑色显示,当它认为识别的可信度高的时候,字符会以黑色显示,若系统对它自己选定的字符没有把握,则会将可疑字用若系统对它自己选定的字符没有把握,则会将可疑字用兰色突

62、出显示出来,以提醒用户人工校对。兰色突出显示出来,以提醒用户人工校对。10识别文件保存识别文件保存o校对完成以后,可将校对好的文本保存为纯文本文件,校对完成以后,可将校对好的文本保存为纯文本文件,供其它编辑环境使用。也可将文本全部选中,然后复制供其它编辑环境使用。也可将文本全部选中,然后复制到剪贴板,再粘贴其它编辑软件正在编辑的文本中。到剪贴板,再粘贴其它编辑软件正在编辑的文本中。二、用扫描仪录入文本二、用扫描仪录入文本o一、扫描仪一、扫描仪o二、用扫描仪录入文本二、用扫描仪录入文本o三、扫描仪录入文字的高级设置三、扫描仪录入文字的高级设置o四、其它电子照片中文字的识别四、其它电子照片中文字的

63、识别第三节第三节 扫描仪录入文字技术扫描仪录入文字技术三、扫描仪录入文字的高级设置三、扫描仪录入文字的高级设置1原稿字符颜色太浅或底色太深原稿字符颜色太浅或底色太深三、扫描仪录入文字的高级设置三、扫描仪录入文字的高级设置1原稿字符颜色太浅或底色太深原稿字符颜色太浅或底色太深o由于文字识别软件在识别字符时,需要做图像的二值化由于文字识别软件在识别字符时,需要做图像的二值化处理,即将文稿以黑白两种状态表示,非黑即白。若原处理,即将文稿以黑白两种状态表示,非黑即白。若原稿为白纸黑字,有较大的反差,则二值化处理时会得到稿为白纸黑字,有较大的反差,则二值化处理时会得到正常的图像,正常的图像,o当原稿是彩

64、色印刷品时,可能字符很浅,则有可能字符当原稿是彩色印刷品时,可能字符很浅,则有可能字符和背景都被白色填充,当原稿底色很深时,则可能字符和背景都被白色填充,当原稿底色很深时,则可能字符和背景都被黑色填充。这样在二值化后就没有字符的特和背景都被黑色填充。这样在二值化后就没有字符的特征,无法识别出汉字。征,无法识别出汉字。2原稿纸张太薄,反面的文字图形透出原稿纸张太薄,反面的文字图形透出o这种情况下,反面的图形文字会出现在扫描后的电子图这种情况下,反面的图形文字会出现在扫描后的电子图片中,成为图像噪声,影响文字的识别。片中,成为图像噪声,影响文字的识别。三、扫描仪录入文字的高级设置三、扫描仪录入文字

65、的高级设置3原稿字符太小原稿字符太小o扫描仪在扫描时,实际上是将完整连续的文稿切分为很扫描仪在扫描时,实际上是将完整连续的文稿切分为很多个像素点来保存的。对同一大小区域,像素点的多少多个像素点来保存的。对同一大小区域,像素点的多少对电子照片的精细程度无疑有很大影响。对电子照片的精细程度无疑有很大影响。o对于文字识别,将扫描的分辨率设得过高是没有实际意对于文字识别,将扫描的分辨率设得过高是没有实际意义的,因系统会自动将分辨率降到识别字库的分辨率。义的,因系统会自动将分辨率降到识别字库的分辨率。o但是若扫描设定的分辨率太低,扫描得到的字符块将缺但是若扫描设定的分辨率太低,扫描得到的字符块将缺少字符

66、应有的特征,从而使识别失败。少字符应有的特征,从而使识别失败。三、扫描仪录入文字的高级设置三、扫描仪录入文字的高级设置不同分辨率扫描字符效果不同分辨率扫描字符效果三、扫描仪录入文字的高级设置三、扫描仪录入文字的高级设置4原稿文字印刷发生倾斜原稿文字印刷发生倾斜o这种情况通常在扫描复印件时出现。由于原稿文字行与这种情况通常在扫描复印件时出现。由于原稿文字行与纸张边缘没有平行,在放置原稿时,很难保证文字行与纸张边缘没有平行,在放置原稿时,很难保证文字行与扫描仪的边框是平行的,最后扫描的电子图片中的文字扫描仪的边框是平行的,最后扫描的电子图片中的文字出现一定的倾斜,会造成识别错误。出现一定的倾斜,会

67、造成识别错误。三、扫描仪录入文字的高级设置三、扫描仪录入文字的高级设置1分辨率设置分辨率设置o分辨率设置主要是针对原始文稿字符太小情况下的处理。分辨率设置主要是针对原始文稿字符太小情况下的处理。由于原稿字符太小,扫描时可将分辨率设得较高,扫描由于原稿字符太小,扫描时可将分辨率设得较高,扫描得到的文字的轮廓将更精细。得到的文字的轮廓将更精细。o在分辨率设置栏(设置窗口的第三行)中输入一个较大在分辨率设置栏(设置窗口的第三行)中输入一个较大的数值。图中设置为的数值。图中设置为300dpi,是文字识别的推荐设置,是文字识别的推荐设置,若文字更小,可加大此项设置。若文字更小,可加大此项设置。三、扫描仪

68、录入文字的高级设置三、扫描仪录入文字的高级设置1分辨率设置分辨率设置三、扫描仪录入文字的高级设置三、扫描仪录入文字的高级设置2亮度、对比度设置亮度、对比度设置o亮度对比度设置是为了解决文字太浅或背景太深及背面亮度对比度设置是为了解决文字太浅或背景太深及背面文字透出等原因造成的扫描缺陷。文字透出等原因造成的扫描缺陷。三、扫描仪录入文字的高级设置三、扫描仪录入文字的高级设置3倾斜校正倾斜校正o窗口左侧最下部的工具按钮是倾斜校正工具。窗口左侧最下部的工具按钮是倾斜校正工具。o根据根据“选项选项”菜单中设置的校正方式是手动还是自动,菜单中设置的校正方式是手动还是自动,倾斜校正操作方法是不同的。倾斜校正

69、操作方法是不同的。o当为自动方式时,只要按校正按钮一次,系统自动测算当为自动方式时,只要按校正按钮一次,系统自动测算出倾斜角度,并给出提示,若确定要校正,按确定即可出倾斜角度,并给出提示,若确定要校正,按确定即可三、扫描仪录入文字的高级设置三、扫描仪录入文字的高级设置3倾斜校正倾斜校正三、扫描仪录入文字的高级设置三、扫描仪录入文字的高级设置o自动校正自动校正o自动校正一般比较精自动校正一般比较精确。但当版面中出现确。但当版面中出现某些不平行于文字行某些不平行于文字行的粗线条时,自动倾的粗线条时,自动倾斜校正会出错,例如斜校正会出错,例如扫描时上盖没有盖好,扫描时上盖没有盖好,则在扫描时文稿周围

70、则在扫描时文稿周围会出现黑框,会出现黑框,三、扫描仪录入文字的高级设置三、扫描仪录入文字的高级设置o手动倾斜校正手动倾斜校正o选择手动倾斜校正时,选择手动倾斜校正时,会出现一个带园圈的会出现一个带园圈的座标,调节座标上的座标,调节座标上的控制点,可使座标轴控制点,可使座标轴与文字行平行,然后与文字行平行,然后确定即可。确定即可。三、扫描仪录入文字的高级设置三、扫描仪录入文字的高级设置o4版面去污版面去污o扫描识别文字时,若扫描的图片中有一些污迹,可能会扫描识别文字时,若扫描的图片中有一些污迹,可能会影响识别效果,可用左侧工具中的擦除工具,将污迹擦影响识别效果,可用左侧工具中的擦除工具,将污迹擦

71、去。去。三、扫描仪录入文字的高级设置三、扫描仪录入文字的高级设置5字符集设置字符集设置o文字识别时,识别系统将分割得到的文字块与某一字符文字识别时,识别系统将分割得到的文字块与某一字符集进行对比,从而确定可能的文字。若字集过大,会造集进行对比,从而确定可能的文字。若字集过大,会造成系统运算量过大,或者识别错误,例如当原稿中有繁成系统运算量过大,或者识别错误,例如当原稿中有繁体文字时,若使用简体字集,则识别的结果中不会出现体文字时,若使用简体字集,则识别的结果中不会出现繁体字符,繁体字符会被识别为某个简体字。默认情况繁体字符,繁体字符会被识别为某个简体字。默认情况下,识别软件会使用简体字集,当原

72、稿有繁体字符,或下,识别软件会使用简体字集,当原稿有繁体字符,或者为纯英文时,可以把识别字集改为相应的字集,提高者为纯英文时,可以把识别字集改为相应的字集,提高识别的正确率。识别的正确率。三、扫描仪录入文字的高级设置三、扫描仪录入文字的高级设置o一、扫描仪一、扫描仪o二、用扫描仪录入文本二、用扫描仪录入文本o三、扫描仪录入文字的高级设置三、扫描仪录入文字的高级设置o四、其它电子照片中文字的识别四、其它电子照片中文字的识别第三节第三节 扫描仪录入文字技术扫描仪录入文字技术o除使用扫描方式获得文稿的电子照片外,还可以使用其除使用扫描方式获得文稿的电子照片外,还可以使用其它方式获得。它方式获得。屏幕

73、上显示的软件界面中的文字,可以使用屏幕打印的屏幕上显示的软件界面中的文字,可以使用屏幕打印的方法,方法,将屏幕显示内容打印成电子照片,然后用识别软件进行将屏幕显示内容打印成电子照片,然后用识别软件进行识别,识别,使用数码相机翻拍原稿成电子照片,然后用识别软件识使用数码相机翻拍原稿成电子照片,然后用识别软件识别出其中的文字。别出其中的文字。使用数码相机时,由于稿件不易压平,同时相机近距离使用数码相机时,由于稿件不易压平,同时相机近距离拍摄时,会出现一定的变形,识别效果不如扫描仪。拍摄时,会出现一定的变形,识别效果不如扫描仪。 四、其它电子照片中文字的识别四、其它电子照片中文字的识别o对使用其它方

74、法获得的电子照片中文字的识别,与扫描对使用其它方法获得的电子照片中文字的识别,与扫描仪扫描识别类似。仪扫描识别类似。o启动识别软件后,不选择启动识别软件后,不选择“扫描扫描”工具按钮,而是选择工具按钮,而是选择“文件文件”按钮,则弹出选择文件的对话窗口,指定待识按钮,则弹出选择文件的对话窗口,指定待识别的图像文件即可,接下来的识别区域选定等操作,与别的图像文件即可,接下来的识别区域选定等操作,与扫描仪扫描时的操作是一致的。扫描仪扫描时的操作是一致的。四、其它电子照片中文字的识别四、其它电子照片中文字的识别q连接设备。连接设备。q调用扫描软件调用扫描软件q放置稿件放置稿件qq设置扫描分辨率设置扫

75、描分辨率设置扫描分辨率设置扫描分辨率(输出目的)(输出目的)q颜色设置颜色设置(扫描类型)(扫描类型)五五 、图像素材的采集、图像素材的采集q图像预扫描图像预扫描o指定扫描区域指定扫描区域o设置扫描的效果设置扫描的效果q正式扫描正式扫描o文件存盘文件存盘 图像素材的采集图像素材的采集尚书六号尚书六号设置扫描分辨率设置扫描分辨率设置扫描分辨率设置扫描分辨率(输出目的)(输出目的)五五 、图像素材的采集、图像素材的采集颜色设置颜色设置(扫描类型)(扫描类型)五五 、图像素材的采集、图像素材的采集图像预扫描图像预扫描五五 、图像素材的采集、图像素材的采集设置扫描的效果设置扫描的效果五五 、图像素材的

76、采集、图像素材的采集文件存盘文件存盘五五 、图像素材的采集、图像素材的采集p 开始开始程序程序附件附件扫描仪和照相机导向扫描仪和照相机导向五五 、图像素材的采集、图像素材的采集 图像素材的采集图像素材的采集用扫描仪和照相机导向用扫描仪和照相机导向p 我的电脑我的电脑点击点击USB1200II Scanner #2图标图标五五 、图像素材的采集、图像素材的采集 图像素材的采集图像素材的采集用用USB1200II Scanner #2实实 验验 一:一:文本与图像素材的采集文本与图像素材的采集 o实验目的:实验目的:了解扫描仪的工作原理及使用技术,了解扫描仪的工作原理及使用技术,熟悉熟悉文本素材的

77、采集与处理文本素材的采集与处理熟悉熟悉图像素材的采集与处理图像素材的采集与处理o实验要求:实验要求:自觉遵守实验室有关规章制度,不准带零食到实验边吃东自觉遵守实验室有关规章制度,不准带零食到实验边吃东西边做实验。西边做实验。自带鞋套,否则不得进实验室,离开时将一次性鞋套带走。自带鞋套,否则不得进实验室,离开时将一次性鞋套带走。做完实验离开实验时,正常关机。做完实验离开实验时,正常关机。按时完成实验报告。按时完成实验报告。实验分组及上机时间:实验分组及上机时间:(分二组进行)(分二组进行)n第一组为:第一组为:10:00-10:30n第二组为:第二组为:10:30-11:00n第三组为:第三组为

78、:11:00-11:30n第四组为:第四组为:11:30-12:00实实 验验 一:一:文本与图像素材的采集文本与图像素材的采集 思考与练习:思考与练习:o1字符在计算机中是以什么样的形式存储和处理的?字符字符在计算机中是以什么样的形式存储和处理的?字符是如何显示在计算机屏幕上的?是如何显示在计算机屏幕上的?o2字库在计算机字符显示中有什么作用?在字库在计算机字符显示中有什么作用?在Windows XP中安装的字库,一般存放在什么地方?中安装的字库,一般存放在什么地方?o3在一台计算机上编辑好的本文,在另一台计算机上打印在一台计算机上编辑好的本文,在另一台计算机上打印时,字的大小不一样,而且有些字没有打印出来,这可能是时,字的大小不一样,而且有些字没有打印出来,这可能是什么原因造成的?应如何处理?什么原因造成的?应如何处理?o4扫描仪的光学分辨率和最大分辨率分别是什么含义,用扫描仪的光学分辨率和最大分辨率分别是什么含义,用扫描仪录入字符时,分辨率设置得越高,识别效果越好吗?扫描仪录入字符时,分辨率设置得越高,识别效果越好吗?o5简述用扫描仪录入字符的操作过程。简述用扫描仪录入字符的操作过程。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号