计算语言学对理论语言学的挑战

资源描述

《计算语言学对理论语言学的挑战》由会员分享，可在线阅读，更多相关《计算语言学对理论语言学的挑战（14页珍藏版）》请在金锄头文库上搜索。

1、语言文字应用1992年第1期(总第1期)计算语言学对理论语言学的挑战冯,怎伟计算语言学是采用计算机技术来研究和处理自然语言的一门新兴学科。计算语言学对自然语言的研究和处理,一般应经过如下三个方面的过程:第一,把需要研究的问题在语言学上加以形式化( l i11gt l ist i cfo rlnal i sm),使之能以一定的数学形式,严密而规整地表示出来;第二,把这种严密而规整的数学形式表示为算法( algo ri thm),使之在计算上形式化( c。m-Ptltatiol飞al formalism);第三,根据算法编写计算机程序,使之在计算机上加以实现(。ompt;te:i mplo

2、me;ltati。:1)。因此,为了研究计算语言学,我们不仅要有语言学方面的知识,而且,还要有数学和计算机科学方面的知识。这样,计算语言学就成为了一门介乎语言学、数学和计算机科学之间的边缘性的交叉学科,它同时涉及到文科、理科和工科三大领域。计算语言学的研究是从机器翻译开始的。194 6年电子计算机刚一问世,人们在把计算机广泛地应用于数值运算的同时,也想到了利用计算机把一种或几种语言翻译成另外一种语言或几种语言。从5 0年代初期到 6 0年代中期,机器翻译一直是计算语言学研究的中心课题,当时采用的主要是“词对词”翻译方式,这种不是建立在对自然语言理解的基础上的简单技术,没有得到

3、预期的翻译效果。6 0年代中期,人们开始转入对自然语言的语法、语义和语用等基本问题的研究,并尝试着让计算机来理解自然语言。许多学者认为,断定计算机否是理解了自然语言的最直观的方法,就是让人们同计算机对话,如果计算机对人用自然语言提出的问题能作出回答,就证明计算机已经理解了自然语言,这样,就出现了“人机对话”(或“自然语言理解”)的研究。计算语言学的理论和方法也就在这些具体的研究中逐渐形成、成熟并完善起来。目前,除了机器翻译和自然语言理解之外,计算语言学的研究领域还扩展到了自然语言人机接口、语音自动识别与合成、自然语言情报检索、术语数据库、风格学研究等领域。计算语言学已经在世界范围内引起

4、了广大学术界的瞩目,成为了一个独立的学科。它象一股强劲的东风吹进了传统的理论语言学的许多部门,使这些部门面目一新。计算语言学对传统的形态学提出了新问题。在机器翻译和人机对话的研究中,都要进行形态分析,这就促进了形态学的研究。传统的形态学都要区分屈折( i ll f lc ct io ll)和派生(derivatio: 1)。如英语的ame;ld/a nle;ided是屈折,a l l:c, ld/ame耐me;it是派生,前者作为词形变化看待,后者作为构词法问题看待。然而对于计算机来说,并没有必要一定要作这样的区分。通84语言文字应用常是把amollded和amen dm。n

5、 t都归入ame l记进行统一的处理。一个自动形态分析方案可包括一部词干词典和一套描述词形变化和构词的规则系统,其中既有派生,也有屈折。这样,在分析时,给出词干,计算机就可以自动地列出它的所有的变化形态,而给出一个变化形式,计算机就可以自动地把它切分为词干、词缀和词尾。计算机还要求区分各种同形现象,例如,英语frighte:飞中的一。;1要与oven中的一el:区别开来,re aped中的一ed要与r e ed中的一e cl区别开来。4 另外,还要考虑一些特殊的现象。如perfo rm、g lv e、g。等动词的过去时形式分别为pe r-formed、gave、we,t,eity的

6、复数形式eities在去掉词缀之后,还要把词干的形式作些改变,编写形态分析程序时,应该设法使这些各不相同的情况条理化。在机器翻译欣欣向荣的5 0年代末和 7 0年代初,学者们曾经对俄语、德语这样一些屈折变化丰富的语言进行过严格的形态分析,编制过相当精细的自动形态分析规则。目前,在机器翻译和人机对话中的自动形态分析技术已经十分成熟。计算语言学对于传统的句法学冲击最大,各种立足于自然语言自动处理的句法分析理论和方法犹如雨后春笋应运而生,形成了百花齐放的局面。在机器翻译研究的早期,苏联数学家库拉金娜(0.c.Ky几八r H H八)就用集合论方法建立了俄语句法的数学模型,精确地定义了

7、一些语法概念,这一模型成为了苏联科学院数学研究所和语言研究所联合研制的法俄机器翻译系统的理论基础。著名数理逻辑学家巴希勒(Y.B。r一I l il l el )提出了范畴语法( catogo ryg ram ma r),建立了一套形式化的句法和演算规则,通过有穷步骤,可以判断一个句子是否合乎语法。这些,都大大地推动了传统句法分析方法向精密化、算法化的方向发展。乔姆斯基的形式语言理论是影响最大的早期计算语言学的句法理论。乔姆斯基定义了。型语法、上下文有关语法、上下文无关语法和正则语法4种类型的形式语法。其中的上下文无关语法又口Ll做短语结构语法(pllrasestr tl

8、eturegram ma r,简称P SG)。这种短语结构语法广泛地应用于自然语言的自动分析和生成中。但是,人们不久就发现,短语结构语法的分析能力不高,难以区分大量的歧义句子,短语结构语法的生成能力过强,往往会生成大量的不合语法的句子。就是乔姆斯基本人,也认为短语结构语法不能充分地描述自然语言。于是他提出转换语法来克服短语结构语法的这些弱点,后来转换语法逐渐发展成为转换生成语法。不过,这种生成转换语法的分析效率也不高,并没有在实际的自然语言处理系统中受到欢迎。山于短语结构语法结构清晰,易于操作,计算语言学的学者们抛弃了转换生成语法,又转向短语结构语法,于是出现了各种增强的短语

9、结构语法。例如,受限语言( re st riote dl a llgu age)和扩充转移网络(a “g“me,tedtra,lsitionnetwork,简称A TN)。受限语言的表层结构分析和深层结构生成是分别进行的,而A TN的表层结构分析和深层结构生成是同时进行的。6 0年代后期,查斯特里(C l、 a st cl l io r)把程序设计语言的W一语法引进了自然语言处理中,他证实了英语和法语的转换语法都可以通过这样的 W一语法来重写。美国语言学家布列斯南( J.Bre sl l al l )主张建立面向词汇的非转换的语法,她和卡普兰一起,于2 983年提出了词汇

10、功能语法(le xie al一f川letio,: algra,l lmar,简称LFG)。马T凯依于1 983年提出了“合一语法”(unifie atioligrammar,简称UG),于1985年提出了“x ) J能合一语法”(ft、 :1。tio:lalu:lifie atiol、 algr am ma r,简称FU G)。盖兹达(G.Gazda r)、克莱因(E.K lei:1)、沙格(1.Sag)和普鲁姆(G.pull:m)等人于1 985年提出了“广义短语结构语法”(ge n e r alizodpl ra s estructuregr am mar,简称G p SG)

11、。于自拉德(c.pollard)于1 954年在他的博士论文中,提2 992年第i期8 5出了“中心词语法”(he adgram mar),1985年又和他的同事们一起提出了“中心词驱动的短语结构语法”(l、e ad 一drive nphr asestr u etu regram mar,简称HPS G)。这些语法都采用了复杂特征结构来改进短语结构语法,采用合一运算来改进传统的集合运算,从而有效地克服了短语结构语法的缺点,保持了短语结构语法的优点。理论语言学中的层次分析法实质上就是短语结构语法,因此,短语结构语法在计算机分析和生成自然语言时出现的各种问题,在层次分析法中也同样是存

12、在的。上述的这些旨在改进短语结构语法的计算语言学理论,都带有很强的可操作性,具有强烈的方法论色彩,必定会有助于理论语言学中广泛使用的层次分析法的改进和完善。在这方而,我们应该提倡理论语言学家和计算语言学家进行经常的对话,互相学习对方的长处,共同来解决短语结构语法在应用中出现的各种问题。计算语言学对句法学的如此巨大的影响,使我们想到了建立汉语产生式语法的问题。不论那一种计算语言学的语法,其最根本、最关键的问题,是要指出各种语言形式出现和变换的条件,只有指出了条件,计算机才可能根据有关的条件,执行相应的动作,从而使整个系统成为一个可以动态地执行的过程。不论那一种计算机,在执行有关程序

13、时,总免不了给它指出条件,有了条件,并且让计算机知道究竞是什么样的条件,计算机刁可能执行相应的动作。总而言之,计算机的任何操作,归根结底,可以归结为一个公式:条件动作即在一定的条件下,执行一定的动作,在另一条件下,执行另一动作。这样的“条件一动作”偶对,是一切计算机工作的最基本的方式,因此,要使自然语言的语法规则成为可供计算机执行的形式,我们就必须指出各种语法现象出现的条件。我国计算语言学的学者们多年来从事中文信息处理的研究工作,曾经提出了一些自然语言处理的算法,但是,在很长的时间内,山于我们对于自然语言形式化处理的关键问题不十分清楚,所以,这些算法,有的成功了,有的失败了,凡

14、是成功了的算法,都是由于我们比较充分地研究了语言形式出现的条件,凡是失败了的算法,或者是山于我们根木没有提出语言出现的条件,或者是我们虽然提出了语言形式出现的条件,但是条件给得不具体、不精确,或者是条件给错了。积多年之经验,我们深知条件对于建立计算语言学语法的重要性,“条件一动作”偶对,确实是建立计算语言学语法的最基本、最关键的公式。由于汉语中单词或词组的种类与它们的句法功能之间没有明确的对应关系,语言成分的句法功能与它们的语义关系之间也没有明确的对应关系,所以,在汉语的计算语言学中,认真研究现代汉语的各种“条件一动作”偶对,就显得更加重要了。我国汉语语法研究已取得很大的成绩,

15、尽管过去的汉语语法研究没有专门考虑到计算语言学的需要,但是,汉语语法的许多研究成果都是自觉或不自觉地体现了“条件一动作”偶对这一公式的原则,因此,这些成果都程度不同地能够在汉语的计算语言学中得到运用。例如,我们在进行汉语的自动生成时,起初以为“把字句”的作用是把及物动词的宾语提前,其实,这是一个极不严格的条件,我们把这样的条件写到程序中,凡是及物动词的宾语都用“巴”字提前了,结果形成了通篇的把字句。实践使我们认识到,把字句的出现条件不只是及物动词的宾语提前,还有着更为严格的条件,进一步学习汉语语法研究的有关文献,我们加上了如下限制条件:“把”字组成的连动结构,其中的动

16、词不能是单纯的单音节或双音节动词,而.86.语言文字应用是一个比较复杂的动词组合;“把”字的宾语在语义关系上是后边动词的受事,而不是一般的宾语;“把”字的宾语在意念上是确定的、特指的。根据这些规律对把字句的出现条件作了进一步的限制,结果计算机生成的把字句荃本上正确了。后来,我们根据汉语语法研究的有关结果,把上述条件进一步加以概括,得出这样更简练的规律:凡是受事主语句的主语之前,都可以加“把”字形成把字句。例如,“门开着”、“门关了”、“他免了,职”等受事主语句,主语前加“把”字就可以形成“把门开着”、“把门关了”、“把他免了职”等把字句。找出了这样的概括性更高的条件,就能更好地通过简单的程序来有效地控制把字句的生成了。其实,人学习语言的情况与计算机处理语言的情况有许多相似之处。一个学汉语的外族人,他必须知适汉语的各种语法现象的出现条件,刁有可能去正确地使用它。现代英语语法对于动词的各种时态的出现条件作了比较确切的说明,因此,学习英语的人可以很快地掌握它,从而造出各种合乎规范的句子来。在学习英语时我们之所以觉得

展开阅读全文