中文信息处理重点题目及解答

上传人:博****1 文档编号:507951084 上传时间:2022-11-23 格式:DOC 页数:6 大小:219KB
返回 下载 相关 举报
中文信息处理重点题目及解答_第1页
第1页 / 共6页
中文信息处理重点题目及解答_第2页
第2页 / 共6页
中文信息处理重点题目及解答_第3页
第3页 / 共6页
中文信息处理重点题目及解答_第4页
第4页 / 共6页
中文信息处理重点题目及解答_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《中文信息处理重点题目及解答》由会员分享,可在线阅读,更多相关《中文信息处理重点题目及解答(6页珍藏版)》请在金锄头文库上搜索。

1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流中文信息处理重点题目及解答.精品文档. 中文信息处理 名词解释 信息:是物质世界存在的形式、状态及各种关系,是与物质、能量共同构成世界的三大要素之一。具有主观和客观双重属性。中文信息,是特指以汉语言文字为载体形式的信息。从宏观角度看,一类是自然性信息,一类是社会性信息。信息处理:就是用计算机对各种信息符号进行输入、转换、存储、传输、分类、排序、统计、分析、重组等加工过程。中文信息处理:是利用计算机对中文(包括口语和书面语)进行输入、转换、传输、存储、分析、加工的科学。中文信息处理技术已到社会生活的各个方面,汉字/汉语信息处理。代码:汉字的代码

2、有:汉字输入码、汉字内部码、汉字交换码、汉字地址码、汉字字形码和汉字控制功能码。从汉字代码的角度看,一个汉字信息处理系统,就是一个进行汉字代码转换的过程。中文代码包括内部码和外部码两大类,内部码是中文在计算机系统内部进行处理和传输的代码,外部码作为人机接口由用户给计算机输入信息时使用的代码。*中文计算机操作系统使用的代码系列一共三种,七位代码系列,八位代码系列和双八位代码系列。中文信息内部处理代码包括存储码、运算码、传输码。(是程序员用开发工具所支持的语言写出来的源文件,是一组由字符、符号或信号码元以离散形式表示信息的明确的规则体系。)编码:是以固定的顺序排列字符,并以此做记录、存贮、传递、交

3、换的统一内部特征,这个字符排列顺序被称为“编码”。A.计算机通讯技术领域对所处理信息的字符集序号序列的排序原则和代码赋值方式,也是“机内码”的编码。B.专指计算机键盘输入汉字的代码设计与实现,简称外码或人机界面编码。汉字编码:广义的汉字编码就是汉字排检法,即确定一个排序规则使全部汉字成为有序的集合,以便能按照排序规则检索到所需要的汉字。 狭义的汉字编码特指采用通用键盘上的字母数字为汉字编制代码,以便实现汉字的计算机输入。*静态编码:指把汉字作为等概率的离散字符进行的编码,不考虑汉字的使用频率。动态编码:是根据汉字的使用频率进行信息编码,如传输码、处理吗都采用动态编码。字符集:字符(Charac

4、ter)是文字与符号的总称,包括文字、图形符号、数学符号等。一组抽象字符的集合就是字符集。计算机对字母和符号采用国际上通用的ASCII码来编码,标准的ASCII码用7位二进制数编码,字符存放时采用一个字节,规定最高位为0,这样可以表示128个字符。汉字三种类型输入法:A.键盘输入方法 使用已有西文键盘,通过编码输入。分整字输入方法和编码输入方法。B.非键盘输入方式:如识别输入,包括汉字识别输入和语音识别输入。C.数字键盘编码输入。汉字输入计算机的途径:A.通过计算机的键盘人工输入 B.计算机自动识别 汉字的自动识别级汉语的语音自动识别 汉字属性:是汉字作为记录汉语的书写符号所具有的形、音、义等

5、属性。其研究和属性库的建立,具有特别重要的理论意义和实践意义。汉字的信息属性是汉字作为信息载体所具有的所有属性,包括传统的形音义,频率、分布、构词等。对汉字属性的传统认识是针对形音义三要素,现代对汉字信息属性认识有字量、字形、字音、字序四种。汉字属性库:从关系数据库的结构出发,任何一个层级的分类都可作为数据结构中的一个属性项,所有的属性项都可以依次排列在一个列表中,分别按照一定的规则命名进行统一的管理。电子出版(物):基于电、磁、光载体形式的电子出版物,又叫电子读物,就是充分利用计算机数字化图文处理功能,把图文声像等多媒体信息有机的组织起来,从根本上改变了几千年来的传统的文本载体形式,组成一个

6、立体化的“机读“信息集合体。特点:容量大、成本低、便于复制、阅读方式灵活、便于保存。网络出版:是以国际互联网为信息载体和传播工具,以网上电子交易为主要结算方式,通过远程在线浏览或下载到终端客户存储器方式,完成数字化电子读物的出版及销售。特点:信息化载体、数字化交易、超时空流通、成本最小化、资源效益最大化。语料库:是作为信息载体的大量语言资料的集合,可以提供足够多的资料和例证,满足语言研究的需要。现代意义上的语料库即指又大规模电子文件组建的计算机语料库。分类:根据语料的媒体形式/语料的年代背景/语料的语种数量和来源/专业特点和抽样方式。中文语料库可分为四类:生语料库,熟语料库,平行语料库,学习者

7、语料库。GBK编码:是中国大陆制订的、等同于UCS的新的中文编码扩展国家规范,为立足于GB231280同时支持ISO10640国际标准公布的过渡性标准,全称为汉字内码扩展规范,简称GBK。该编码规范兼容GB2312,共收录了21886个字符,包括汉字21003个、其他字符883个。另外提供了1894个造字码位,简、繁体字融于一库。Windows95/98简体中文版的字库表层编码就是采用的GBK,通过GBK与UCS之间一一对应的码表与底层字库联系。 英文名是:Chinese Internal Code Specification 中文名是:汉字内码扩展规范1.0版 它是双字节编码,GB2312-

8、80的扩充,在码位上和GB2312-80兼容。 范围:8140FEFE(剔除xx7F)共23940个码位,所收录的21003个汉字,包括了ISO/IEC 10646-1中的全部中日韩汉字。 (Windows 9598简体中文版带有GBK.txt文件,内含全部GBK字符。目前计算机系统中的宋体、隶书、黑体、幼圆、华文中宋、华文细黑、华文楷体、标楷体(DFKai-SB)、Arial Unicode MS、MingLiU、PMingLiU等字体支持显示这个字符集。微软拼音输入法2003、全拼、紫光拼音等输入法,能够录入如“镕炁夬喆姤赟昳堃慜靕臹”等GBK简繁体汉字。)CJK编码:中国受ISO和IEC

9、的委托成立ACCC,联合多国中文信息处理专家共同研制ISO10646CJK的国际标准汉字字符集。CJK统一汉字编码字符集基本兼容了中国、日本、韩国各自的汉字字符集和扩展字符集,是三国四方电脑用字符集的“并集”。(ISO 国际标准化组织 IEC 国际电工委员会 ACCC 中文代码国际联合会)基本字符集:根据GB2311扩充而来的汉字交换码标准,全称是国家标准信息处理交换用汉字编码字符集基本集(GB231280),简称为基本集,是中文信息处理的一个重要的基础标准。规定了汉字信息交换用的基本图形字符及其二进制代码的编码表示,广泛地适用于一般的汉字处理、汉字通信等信息系统之间的信息交换。 简答及论述

10、1.为什么说信息是构成世界的三大要素之一?答:信息是客观物质世界存在的形式、状态及各种关系,是与物质、能量共同构成世界的三大要素之一。从物理学和信息科学的角度概括了信息的基本内涵和外延:客观物质世界存在的形式指客观物质的静态形式,包括外部特征和内部属性。客观物质世界存在的状态指客观物质的动态属性,包括变化或运动的速度周期等改变。客观物质世界存在的各种关系指客观物质之间的相关性。自然界和人类社会中的事物都存在着某种关系,这些关系都具有重要的信息属性。信息的资源性:客观世界由物质构成,物质处于时空的永恒运动之中,这种永恒的运动的实质能量的转换与守恒。信息是制约和协调这种运动形式和状态的重要因素。即

11、使有了物质和能量,没有信息的变化,运动也不会发生,能量也不会表现出来。2.信息处理系统包括哪些子系统?答:信息处理系统包括四大子系统模块,信息输入 包括“人-机”界面的输入和非“人-机”界面的输入两种形式。信息存储 信息存储有两种形式:原始形态的存储和经过加工处理后的存储。介质目前主要有磁介质、集成电路和光介质三种。信息加工 主要由计算机的中央处理器完成,不同类型的信息需要不同类型的软件进行加工。根据不同的需求进行不同的操作,通常有下列几种:.修改,分类、合并,排序,比较、属性标注,.查询、检索。信息输出 也有“人-机”界面和非“人-机”界面两种形式。3.为什么说信息革命是文明发展的动力?答:

12、信息是人类生存的基本条件,可以说自从有了人类就有了信息技术。迄今为止,人类社会共发生了五次信息革命,每一次都扩大了信息和知识的传播,极大地推动了社会的文明和进步。在人类社会发展历史上发生了五次信息技术革命:第一次信息技术革命是自然方式,主要标志是有声语言的产生和使用。第二次信息技术革命是手工方式, 以文字的创造和使用为标志。使信息的存储和传递首次超越了时间和地域的局限;第三次信息技术革命是机械方式,以造纸和印刷术的发明为标志,为知识的积累和传播提供了更为可靠的保证;第四次信息技术革命是电气方式,以电报、电话、广播、电视的发明和普及为主要标志;电力技术在信息处理领域的应用,进一步突破了时间和空间

13、的限制。第五次信息技术革命是计算机技术与现代通信技术的普及应用,以将计算机用于信息处理为标志,将人类社会推进到了数字化的信息时代。从此开始了人类社会的第五次信息革命。4.简述中文信息处理的特点。答:中文信息处理的特点是与西文信息处理相比较而言的,特点和任务相互联系。主要从文字、词汇、语音、语法及软硬件方面作分析:大字符集 西方语言的书写符号是字母表式符号系统,字母数量较少。一种文字包括大小写、数字及各种标点符号等,总共不过几十个,属于“小字符集”。如:拉丁字母26个;汉语注音字母有40个,采用拉丁字母后的汉语拼音方案有26个字母。而汉字属于大字符集,常用汉字3500个,通用汉字7000个,历史

14、累计汉字多达6万余个。国家标准信息交换用汉字编码字符集基本集(GB2312-80)共收汉字图形字符6763个。编码方案众多使用字母数字键盘输入汉字,必须通过汉字编码。因为汉字是形音义的统一体,编码时所采用的信息的不同,会有不同的编码规则和方案。无论从编码的角度,还是从使用者的角度,都面临多样化的选择。形体多样结构复杂 一个汉字就是一个独立的二维的拓扑图形。五种基本笔画“横”“竖”“撇”“点”“折”,存在多种笔形变体。汉字结构层叠错落,笔画、字根、偏旁、部首、部件、字元,难以统一。汉语方言分歧严重现代汉语有七大方言区,每个方言区内部又有许多次方言区,方言片、方言点。普通话的普及应用水平远未达到语

15、音识别、人机对话所要求的规范化和标准化程度。因此,方言语音分歧成为语音信息处理的瓶颈。同音现象突出现代汉语共有412个不标调音节。按基本字符集6763个汉字计算,每个音节约有16.4个同音字;如按汉语大字典54678字计算,每个音节的同音字平均达到132.7个。书面汉语没有分词标志汉语没有形态 词的兼类和活用复杂 语法规则多有例外 歧义现象突出5.中文操作系统应具备哪些主要功能?答:通常我们说操作系统具有五个方面功能:存储器管理、处理机管理、设各管理、文件管理和作业管理,那么中文操作系统同时还应该具有汉字输入、存储、处理和显示的能力。中文操作系统的关键是让西文计算机操作系统能够处理中文代码。操作系统历史:CCDOS 面向用户的中西文兼容的操作系统,能够实现中文系系处理的三大基本功能即输出汉字、输入汉字、处理汉字。Windows的发展 A.16位操作系统 基于DOS的图形用户界面或桌面的操作系统,相当于中西文操作系统的混用阶段,具有支持读取磁盘服务、显示器和键盘输入等功能。B.16/32位混合操作系统 把Dos的

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号