§4.1 文本信息加工的

上传人:镜花****ul 文档编号:98416176 上传时间:2019-09-10 格式:PPT 页数:25 大小:1.84MB
返回 下载 相关 举报
§4.1 文本信息加工的_第1页
第1页 / 共25页
§4.1 文本信息加工的_第2页
第2页 / 共25页
§4.1 文本信息加工的_第3页
第3页 / 共25页
§4.1 文本信息加工的_第4页
第4页 / 共25页
§4.1 文本信息加工的_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《§4.1 文本信息加工的》由会员分享,可在线阅读,更多相关《§4.1 文本信息加工的(25页珍藏版)》请在金锄头文库上搜索。

1、4.1 文本信息加工,4.1.1 文字及其处理技术,第四章 文本和表格信息加工,云南 纳西族 东巴文字,猜猜看,上面的象形文字究竟表示什么意思?,一、体验文字处理技术,1. 文字是人类为了更加流畅地表述意义、传递经验而发明的工具。,一、体验文字处理技术,1.文字是人类为了更加流畅地表述意义、传递经验而发明的工具。,甲骨文 殷周时代,金文 西周、春秋,战国文字 春秋战国,小篆 秦朝,隶书 秦朝,楷书 东汉,行书 南北朝,草书 西汉,印刷字体 宋朝,2.汉字的创造饱含民族的智慧,汉字起源于象形文字,至今仍然保留了象形文字的特点。,汉字的造字法有四种:象形、指事、会意、形声。,从字体上看,就是本字倒

2、过来。上部为树头,下部为树梢,在树梢上加一小横,就表示这里是树梢。因此,末的最初的意义是树梢。,象形,指事,金文明为日月幷照之会意字。,会意,形声,形声字的一部分是“形旁”表示字义,一部分是“声旁”表示读音,如:“鸽”是“鸟”形“合”声,“河”是“水”形“可”声。,3 书法是一种凝结了我国民族文化精髓的特殊的艺术形式,兰亭集序(局部) 晋王羲之,徐冰方块英文,将26个字母改造成类似中国汉字的偏旁部首,Art For The People,一、文字及其处理技术,历史上使用的文字处理技术,请按时间顺序排列: 活字印刷;机械式打字机;手写;雕版印刷; 刻字;计算机文字处理,Ti yan qing j

3、ing : pin yin yu han zi 体验情境:拼音与汉字,村居 (清) 高 鼎 草长莺飞二月天, 拂堤杨柳醉春烟。 儿童散学归来早, 忙趁东风放纸鸢。,二、汉字的编码,计算机只能识别二进制数码0和1,任何信息在计算机中都是以二进制形式存放的,汉字也不例外。在计算机处理汉字的不同环节采用的编码方式也有所不同,目前主要有三种:输入码、机内码、输出码。,汉字的输入方法,汉字的输入方法目前有两大类四种: ()键盘输入法。利用各种汉字输入方法的编码敲击键盘来输入汉字; ()非键盘输入法。目前主要有三种方法:手写笔输入,语音输入,扫描识别输入,1、汉字输入码(外码),种类: 流水码:根据汉字的

4、排列顺序形成汉字编码,如区位码、国标码、电报码等。 音码:根据汉字的“音”形成汉字编码,如全拼码、双拼码、简拼码等。 形码:根据汉字的“形”形成汉字编码,如王码五笔、郑码、大众码等。 音形码:根据汉字的“音”和“形”形成汉字编码,如表形码、钱码、智能ABC等。,概念:也称外码,是为了将汉字输入计算机而编制的代码,它是代表某一汉字的一级键盘符号。,2、汉字机内码(内码),概念:汉字机内码(内码)是计算机系统中用来存储和处理中西方信息的代码。英文内码采用单字节的ASCLL码,而汉字内码则是将区位码两个字节的最高位分别置为“1”,从而形成两个字节表示的汉字机内码。目前广泛使用的有国标码(GB)和BI

5、G5码(中文繁体)。,例如:“文”的区位码为4636,区码和位码分别用16进制表示即为“2E24H” ,而机内码为“CEC4H” 。,注:4636先转换成二进制是0100 1110 0100 0100,再转换成十六进制为2E44H,转换成国标码为4E44H,使两个字节的最高位置分别置为“1”,则得到1100 1110 1100 0100,也就是“文”的机内码CEC4H。,字符的编码ASCII码 美国信息交换标准代码( American Standard Code for Information Interchange, ASCII ),十进制数,二进制数,十六进制数,字符,0000 0000,

6、0000 0001,0000 0010,0000 0011,+,+1,+1,1,0,1,2,3,01111111,127,0 1 2 3 4 5 6 7 8 9 A B C D E F,0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15,十六进制数的表示,一个十六进制数需要四个二进制数表示 F=1111 E=1110 D=1101 C=1100 B=1011 A=1010 9=1001 8=1000 7=0111 6=0110 5=0101 4=0100 3=0011 2=0010 1=0001 0=0000,1个字符需要8位二进制数即8个比特 (Bit) 而 1个字节

7、B(byte)=8比特(Bit) 即一个字符需要一个字节来存储,3、汉字输出法(字型码),概念:汉字输出码又称汉字字形码或汉字字模,它是将汉字字形经过点阵数字化后形成的一串二进制数,用于汉字的显示和打印。,点阵字型编码是一种最常见的字型编码,它用一位二进制码对应屏幕上的一个像素点,字形笔划所经过处的亮点用1表示,没有笔划的暗点用0表示。例如,一个1616的点阵汉字的情形如图所示:,汉字字库的概念:在计算机中输出汉字时必须要得到相应汉字的字形码,通常用点阵信息表示汉字的字形。所有汉字字形点阵信息的集合就称为汉字字库。 显示字库一般为1616点阵字库,每个汉字的字形码占用32个字节的存储空间,打印

8、字库一般为2424点阵,每个汉字的字形码占用72个字节的存储空间。还有3232点阵,4848点阵,点阵数越大,显示的汉字效果越好,且需要的存储容量也越大。 常见的字库:由于输出的需要,人们设计了不同字体的字形,相应也有不同的字库。有宋体字库、楷体字库、隶书字库等。,3、汉字的输出码(字型码) 用于输出汉字的编码输出码(字型码),宋体,楷体,00000000000000000000000000000000000000000000,00000000000000010101010100100101000000000000,000000000000000000000000000000000000000

9、00000,00000000000000010101010100100101000000000000,00000000000000000000000000000000000000000000,00000000000000010101010100100101000000000000,00000000001111000001110001100001111100000000,00000000000000000000000000000000000000000000,00000000000000010101010100100101000000000000,000000000000000000000000

10、00000000000000000000,00000000000000010101010100100101000000000000,00000000000000000000000000000000000000000000,00000000000000010101010100100101000000000000,00000000001111000001110001100001111100000000,点阵字型:将汉字分解成若干个“点”组成的点阵字型。 例: 16 16 点阵,表示一个汉字,则一个汉字占 16 行,每一行 16 个点,其中每一个点用一个二进制数表示,值“ 0 ”没有笔形,值“ 1

11、”表示 有笔形。 1 B 8bit 1616bit/8bit=32B,练习: 132 32点阵表示一个汉字需要( )个字节。 A.128个 B.64个 C.32个 D.36个 2( )点阵显示的汉字效果最好。(多项选择) A.2424 B.精密型 C.提高型 D.1616 E. 64 64 3.存贮在计算机中的汉字以()码形式存储。 A.区位码 B.机内码 C.字形码 D.输出码 E. 二进制码,汉字的编码,输入码 (外码),机内码 (内码),输出码 (字型码),用于输入汉字的编码,用于存储汉字的编码,用于输出汉字的编码 字模1616,2424 宋体、楷体、隶书等,区位码 :6625 全拼编码

12、:chun 五笔字型:dw,春,用机内码 存储,如国标码(GB)和BIG5码,用汉字字型码 输出码 输出汉字,(数字码,音码、形码、混合码) 区位码输入, 智能ABC,微软拼音, 郑码,五笔字型,自然码等,宋体 楷体,三、汉字的处理过程,思考:,同一个字用不同的输入法输入,输入码一样吗?机内码一样吗?输出码一样吗? 如果用6464点阵表示一个汉字字形,需要用多少个字节来存放?,思考:,在浏览网页或阅读邮件遇到乱码现象应该怎样解决? 在输入汉字的时候,碰到生僻字,如“喆”、“镕”等字时,可以采取什么办法?,问题情境:丁丁是高一(18)班长,开学时要安排值日表,丁丁的计算机基础较好,于是就想通过电脑编制这个表格,以后修改更方便。可是,在他输入学生姓名的的时候,碰到了几个姓名怎么输也输不进去,你能帮他解决这个问题吗?,体验文字处理技术,汉字的编码,文字及其处理技术,输出码(字型码)汉字的输出,机内码(内码)汉字的存储,输入码(外码)汉字的输入,书法是一门凝结了我国民族文化精髓的艺术,汉字的创造饱含民族的智慧,文字的发明是为了更流畅地表述意义、传递经验,中文信息处理技术发展历史,课堂 小结,(教学重点),(教学难点),

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > 总结/计划/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号