对外中文信息处理

上传人:桔**** 文档编号:544802246 上传时间:2023-05-28 格式:DOC 页数:10 大小:228KB
返回 下载 相关 举报
对外中文信息处理_第1页
第1页 / 共10页
对外中文信息处理_第2页
第2页 / 共10页
对外中文信息处理_第3页
第3页 / 共10页
对外中文信息处理_第4页
第4页 / 共10页
对外中文信息处理_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《对外中文信息处理》由会员分享,可在线阅读,更多相关《对外中文信息处理(10页珍藏版)》请在金锄头文库上搜索。

1、第1章 导论1.1 中文信息处理简介1.1.1 中文信息处理的基本概念及研究内容语言信息处理在中华人民共和国国家标准GB 12200.1-90汉语信息处理词汇01部分:基本术语中的解释为:用计算机对自然语言的音、形、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作与加工。汉语的语言信息处理即中文信息处理(Chinese information processing),它不仅是指用计算机对汉语(字)的形、音、义等信息进行处理,还包括词、句子、篇章的输入、输出、存储和识别、分析、理解、生成等多方面的加工处理。中文信息处理的研究内容,按处理的对象来分,包括:汉字的信

2、息处理、词的信息处理、句子的信息处理和篇章处理。1 汉字的信息处理包括汉字的编码技术、汉字的键盘输入、汉字的识别技术及以汉字的字形技术等。2 词的信息处理包括对汉语词的切分、词性的标注以及词义的标注等。3 句子的信息处理中包括句法理论和句法分析。 4 中文信息处理的各个环节都会涉及到语义分析。5 语言在实际使用时总是以成段的话语或篇章形式出现。为了分析句子的歧义或理解省略和指代,必须考虑上下文和语言使用环境;为了从字里行间找出句子的言外之意,必须具备有关的背景知识和联想知识,这就需要作语用分析。总的来说,对于语用方面的研究,目前在国内外都还处于起步阶段。1.1.2 中文信息处理的基本过程图1-

3、 1中文信息处理系统结构框图由图可见,这样的处理过程和人们理解语言的过程是类似的。当人们遇到复杂句子时,通常也要经过查词典(词法分析)、弄清句子成分之间的句法关系(句法分析)和语义关系(语义分析)等阶段并结合自己的背景知识和上下文(语用分析)才能真正理解原文的含义。1.1.3 中文信息处理的学科地位一、语言中文信息处理实际上是对汉语这种语言的处理,那么什么是语言呢?语言(language)按中华人民共和国国家标准GB 12200.1-90汉语信息处理词汇01部分:基本术语中的解释为:为了传递信息而使用的一组字符、约定和规则。但从句子角度而言,语言是按一定语法规则组成的句子的集合。我们通常所说的

4、“语言”是指自然语言,但是自从计算机诞生以来,语言的概念就增加了一类,即“机器语言”。那么语言涵盖范围的扩展也正验证了把人类传统的语言学与流行的计算机技术相结合的必然。语言分类见图1-2所示:图1- 2语言的分类二、中文信息处理的学科地位中文信息处理是语言信息处理的一部分,而语言信息处理在学科上是由计算语言学这一语言学的分支学科来完成的,计算语言学是计算机科学与语言学中的应用语言学的交叉学科,即中文信息处理语言信息处理计算语言学=计算机科学应用语言学。它们之间的关系可以用图1-3表示,图1- 3 中文信息处理的学科地位三、计算语言学相关学科概念的阐述1关于计算语言学的定义,有如下几种形式:(1

5、)大不列颠百科全书给出的定义:计算语言学是利用电子数字计算机进行的语言分析。虽然许多其他类型的语言分析也可以运用计算机,计算分析最常用于处理基本的语言数据例如建立语音、词、词元素的搭配以及统计它们的频率。计算语言学导论,翁富良等著,中国社会科学出版社(2)计算语言学主要是计算机科学与技术和语言学交叉结合的一门学科。 1990年2月发布的国家标准汉语信息处理词汇01部分:基本术语(GB12200190)中对计算语言学的解释是:语言学的一个分支学科。它是应用计算机技术来研究和处理语言文字,内容包括:字频和词频统计、语音的识别与合成、机器词典的编纂、机器翻译、自然语言理解、计算机的自然语言接口等。汉

6、语信息处理研究,张普著,北京语言文化大学出版社(3)社会的需要和技术的进步推动历史悠久的语言学和新兴的计算机科学相结合,产生了一门交叉学科计算语言学。计算语言学为利用计算机处理语言信息(包括语言中信息成分的发现和提取,语言数据的存储、加工和传输,语言的翻译和理解)提供理论模型、计算方法和实现技术。俞士汶 计算语言学简介,计算语言学文集北京大学计算机语言研究所(4)现代计算机语言学是通过建立形式化的计算模型来分析、理解和处理语言的学科。它是一门边缘科学。它综合了语言学、逻辑学、心理语言学、计算机科学、哲学、人工智能、数学和统计学的研究成果,将它们运用于电子计算机的语言分析。这种语言分析包括了语言

7、学的所有领域:语音学、形态学、语法学、语义学、语用学。计算语言学被广泛地应用于信息检索、语音识别、机器翻译。计算语言学导论,翁富良等著,中国社会科学出版社 综上所述,可以认为:计算语言学是计算机科学和语言学相结合的一门学科。它也是研究自然语言的分析和生成,跟自然语言处理有相似的任务。自然语言处理属于人工智能科学,在总目标上是为建立智能计算机服务的,其学科性质更靠近计算机科学。顾名思义,计算语言学属于语言学,在总目标上是为研究人类语言学的一般规律服务的,其学科性质更靠近语言学。诚然,计算语言学是要用计算机来研究语言,但是不能说凡是用计算机来研究语言就是计算语言学。例如,仅仅用计算机检索例句写了一

8、篇语言学论文,就不一定属于计算语言学。计算语言学是通过建立形式化的计算模型来处理自然语言。例如,隐马尔科夫模型、概率上下文无关语法就是形式化的计算模型。在计算语言学中,计算模型占有中心的地位,它是利用计算机处理语言问题的基本思路。有了计算模型,才能研究实现模型的具体算法,编制出实现算法的程序。因此学习本课程,要采用“模型算法程序”的思路。图1- 4计算语言学的分类2计算语言学、自然语言处理以及人工智能计算语言学是对理解和生成自然语言的计算机系统的研究Grishman,1986,这里之所以强调计算机系统,就是因为只有当一种语言学理论或方法能够被计算机所处理时,才能称得上是计算语言学。计算语言学和

9、自然语言处理研究的内容应该是一致的,二者的着重点有所不同。从理论和方法的角度称为计算语言学,从技术和应用的角度称为自然语言处理。总之,这是一个相当广泛的研究领域,一般来说,凡是和自然语言相关的计算机理论、方法、技术、系统,都可以纳入自然语言处理的研究范围。从某种意义上说,计算语言学的目标是试图捕捉人类的语言能力Grishman,1986,相比之下,自然语言理解研究的范围就小一些,它研究的是自然语言词汇已被识别以后所要进行的研究Allen,1986,它的研究从词汇开始。自然语言理解是计算语言学的核心内容。同时自然语言理解又是人工智能(Artificial Intelligence,简称AI)的一

10、个研究分支,关于人工智能有一棵著名的智慧树如图1-5所示:图1- 5 智慧树引自自然语言理解一种让机器懂得人类语言的研究 姚天顺个人认为,自然语言理解主要是偏重于语言本身, 而计算语言学则是偏重于计算,是计算机和语言学的交叉。他们在处理目的是一样的,侧重点不同。1.2 汉语的特点及中文信息处理的特殊问题汉语在世界上属于汉藏语系,是一种孤立语。汉语在历史上先后吸收和同化了匈奴、鲜卑、突厥、契丹、满、蒙古、梵语等语言里面的许多成分,汉语自身有很多特点,这些特点也决定了在中文信息处理的过程中遇到了很多不同于其他自然语言处理的特殊问题。1.2.1 汉语的特点1汉字的特色:汉语的基本单位是字(单音节,不

11、用空格分开),英语的基本单位是词(多音节,用空格分开);汉语是大字符集的意音文字,是独一无二的完全使用由象形文字演化而来的方块汉字。2印欧语系的名词和形容词有“性、数、格”的形态变化动词有“时态”和“语态”之分,句中的语法关系可以由这些词的形态变化明确表示出来,这为计算机进行自动句法分析带来很大方便;而汉语(属汉藏语系)由于缺乏形态变化,汉语的词本身不能明显表达出语法意义,这种意义只能靠词序和虚词(介词、连词、助词、叹词、语气等词)来表达,因而给汉语的自动句法分析造成很大困难。3汉语采用连接书写形式,词与词之间没有间隔,计算机在理解汉语时要比理解其他语言多一个步骤:切分词。由于汉语无形态变化,

12、又无词尾的形式标记,要让机器从连续的汉字串中实现准确的自动分词是相当困难的,而自动分词又是实现汉语语法自动分词的必要前提,不解决自动分词问题,汉语理解也就无从说起。4汉语词类和句子成分之间不像印欧语系那样存在简单的一一对应关系。如图1.2所示,其中图(a)给出的是印欧语系(如英语、俄语)中词类和句子成分之间的对应关系,图(b)则是汉语词类和句法成分之间的对应关系。由于汉语中这二者之间的对应关系比较复杂,所以句法分析也复杂得多。图1- 6 词类与句子成分的对应关系5汉语中有两种特殊句型即连动句和兼语句,这两种句型在印欧语系和日语中是没有的,对这两种句型的分析有其特殊的困难。所谓连动句是指谓语由两

13、个或两个以上连用的动词或动词短语所构成的句子。例如:“他跑着回来告诉我们这个消息”共有“跑着”、“回来”、“告诉”三个动词,究竟哪一个是中心动词,由于无形态标志,机器难以区分,与此句相应的英语句子为:“He came running back to tell us the news”由于to加动词原形构成不定式(目的状语),动词原形的词尾加ing构成现在分词(方式状语),所以机器很容易确定该句的中心动词为came(过去时)。所谓兼语词是由兼语词组作谓语的句子,而兼语词组是由动宾词组和主谓词组嵌套而成,动宾词组中的宾语兼作主谓词组中的主语,这就是“兼语”名称的由来。兼语句的基本成分如下式所示:(

14、表语)主语 谓语1 兼语 谓语2 (宾语)兼类词组首长派通讯员送信(有宾语)我们请客人坐下(无宾语)例如:“小孩子笑他是大胖子”这个句子的主语是“小孩子”,谓语则由动宾词组“笑他”和主谓词组“他是大胖子”嵌套而成。其中“他”既是动宾词组的宾语又是主谓词组中的主语,一身兼二任,所以是兼语。在兼语句中,谓语1是陈述主语的,而谓语2只陈述兼语;在连动句中,则是所有谓语都是陈述全句主语,这正是连动句与兼语句的主要区别。但是由于汉语动词本身无形态标志,当机器分析到这两种特殊句型时,不仅中心动词难以确定,而且究竟是连动句还是兼语句也难以区分。而在英语的句法分析中则不会遇到这类问题。仍以这个兼语句子为例,与

15、之对应的英语句子为:“The children laugh at him for being a big fat”句中的谓语动词只有一个(laugh),主 谓 宾 状的句法关系很明确,既没有兼语现象,也没有连动现象,机器对这类句子进行分析时,不会有什么困难。汉语的特点还有一些,这里就不一一列举了,分析这些特点是要让人们认识中文信息处理的复杂性与艰巨性。另外,现有的自然语言处理理论和技术大多都是以英语为研究对象语言发展起来的。而汉语无论在语音、文字表示,还是在词汇,语法,语义及其语用等各个层面上都与之存在着很大的差异。这使得无法直接套用西方已成熟的理论和技术,汉语无疑是计算模型比较不发达的语言。我们必须依靠自己的力量来解决它,因为我们不能依靠外国人来帮助我们解决汉语的机器理解问题,这对从事中文信息处理的研究者来说是一个巨大的挑战和压力。1.2.2 中文语言处理的主要困难语言的信息处理属于高科技领域,要真正实现机器理解语言是十分困难的,之所以困难至少有三方面的因素:汉语形式化语义表示的复杂性;语言的歧义性;以及句子成分的省略与指代。现分述如下:一、汉语形式化语义表示的复杂性自然语言处理的核心问题是要解决“形式化语义表示”问题,即“语义分析”问题,由于乔姆斯基(Chomsky)提出的“形式语言理论”使

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 营销创新

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号