我国计算词典学发展的问题及对策

上传人:wt****50 文档编号:44616259 上传时间:2018-06-14 格式:PDF 页数:5 大小:164.24KB
返回 下载 相关 举报
我国计算词典学发展的问题及对策_第1页
第1页 / 共5页
我国计算词典学发展的问题及对策_第2页
第2页 / 共5页
我国计算词典学发展的问题及对策_第3页
第3页 / 共5页
我国计算词典学发展的问题及对策_第4页
第4页 / 共5页
我国计算词典学发展的问题及对策_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《我国计算词典学发展的问题及对策》由会员分享,可在线阅读,更多相关《我国计算词典学发展的问题及对策(5页珍藏版)》请在金锄头文库上搜索。

1、 5我国计算词典学发展的问题及对策 广东外语外贸大学词典学研究中心 章宜华 词典与计算机信息处理技术的结合产生了一种新的词典学理论: 计算词典学。国外在2 0世纪6 0 - 7 0 年代就开始了计算词典学的理论研究,自2 0 世纪9 0 年代以来,有关计算词典学的研究走向繁荣时期,研究成果不断推出。计算词典学的发展直接推动了辞书研究和编纂现代化的进程。 一、 计算词典学概述 词典学是研究词典编纂理论和实践的学科,计算词典学当然不能背离这个范围。通俗地讲,词典学反映的是传统词典研究和编纂的范式,而计算词典学反映的则是基于现代化技术的新型词典研究和编纂的方法论。 在信息社会, 人们对语言特别是外语

2、学习的需求日益高涨,对词典工具书的信息量和提供信息的方法,要求也越来越高,传统的词典无法满足人们学习的需要,计算机信息技术和多媒体技术的发展无疑给词典学提供了绝佳的工具。 1. 计算词典学定义 计算机技术的发展为词典研究和词典编纂中的资料存储、提取、分析、传播、交换和语料库建设等方面供了坚实的基础。另一方面,在自然语言处理中,需要大型词库或电子词典来加强数据处理能力,这些外因也对计算词典学(Computational Lexicography)的产生起到了重要作用。从这种意义上讲, “计算词典学”是指以开发印刷文本词典的机读版本或计算机使用的词库。 (参见 Boguraer 和 Briscoe

3、, 1989: 2)这样的词典可用于机器翻译或自然语言处理,与传统文本词典在编纂方式上有着很大的不同。当然,计算词典学也包含供人使用的大型词典数据库和语料库的内容。 Hartmann 等(2000)认为,计算词典学指的是与电子词典的设计、编纂、使用和评价相关联的一系列复杂活动。从这一定义来看,计算词典学的研究对象是电子词典,与传统词典学研究的印刷版本词典是相对。当然,这里的电子词典是一个比较宽泛的概念,包括供人和机器使用的电子词典。Ooi(1998: 1 -2)认为,一是利用计算机辅助系统实现词典编纂工作自动化的目标,二是利用现有商业性词典的机读版本,使其格式明晰化,从而服务于自然语言处理系统

4、。Amsler(1982:661)把计算词典学定义为“利用计算机研究词库” 。他强调用知识信息和统计学为基础的处理办法来对语篇做词汇分析。Bennett 等(1986:26)把计算词典学定义为“词典编纂活动的自动化(automation of lexicographic tasks) ” 。不要小看这简单的一句话,这可是决算词典学发展的最高目标。 2. 计算词典学的特征和任务 从形成的历史来看,计算词典学首先是解决词典知识内容的“电子化”和“机读性”问题,研究两个词典数据库(词库)的计算机自动读取、自动识别、自动转换;其次是研究如何使用计算机进行词典的辅助编纂、编辑和修订,力争在不远的将来达到

5、词典编纂和修订半自动化的目标,最终向基本自动化的方向发展;其三是对现有的商业词典进行电子化改造,或设计编纂专门供人阅读的电子词典或网络词典。 6在词典数据处理和编纂电子化方面,除众所周知的计算机辅助词典编纂之外,还有真实连续文本的分析以及词汇索引和提取。 通过索引的方法调查和分析有关语词在自然话语中的分布,以便考察词的语法、语义和语用等功能,获取词项的功能和用法特征,同时得到词的义项分布或划分的根据。当然,词汇索引也是词典配例的可靠资源。目前,我们尝试建立基于语料库的词典数据库,在微观数据结构的基础上生成词典。 总的来说,计算词典学是研究如何实现词典语料处理电子化,词典编纂半自动化或自动化,词

6、典编排形式化,词典载体数字化、词典查检智能化、词典信息表述多媒体化。研究的主要内容是:语料的搜集与处理(主要是标注) 、义项划分的数据支持(词频统计、语义统计、词的配价结构统计) 、综合语义分析、例句的提供、辅助词典编纂、词典数据库及其标识、语料库和数据库的管理、词典的半自动或自动化生成、词典信息统计、词典编纂管理、词典导出接口等。 (详见章宜华 2004) 3. 计算词典学的发展 词典最初直接与计算机结合的时间应该是 20 世纪 40 年代,始于机器翻译的兴起,因为翻译系统的核心之一就是双语或多语电子词典,也叫做机器词典(Machine-Translation Dictionary) 。迄今

7、,词典与计算机等现代化技术手段的“联姻”已历时半个世纪,相关理论的研究也有 30 多年的历史,无论是词典信息承载的介质,还是知识内容的组织方式都发生了巨大的变化。 近十多年来, 有关计算词典学的研究成果不少, 如著名的词典学刊物 Lexicographica 在1988 年也出了“计算词典学和计算语言学专辑 ” ;Boguraev 等人在 1989 年著了自然语言处理中的计算词典学一书;Zampolli 的计算机词库和 Eynde 等人的话语和语言处理词库的开发都对计算词典学的相关问题做了深入的探讨。近年,有关语料库词典学的专著也有不少,最具代表性的是 Ooi 的计算机语料库词典学 ,有关计算

8、词典学的论文更是不计其数。而我国辞书界在计算词典学和语料库词典学方面的系统研究,还处在初级阶段,与国外相比存在很大的差距,这一现象应该引起重视,因为这关系到我国词典学现代化的进程。下面就我国计算词典学研究的问题和对策发表一点粗浅的看法。 二、我国计算词典学发展的现状与问题 1光盘电子词典 汉语单语词典较少,而双语词典品种繁杂,少有类似欧美等国家的主导品牌,缺乏原创高质量电子词典;词典内容无特色,体例千篇一律、大同小异;有些大型电子词典实际是多类小词典或专科词典机械拼凑而成,无内在统一词库,词典与词典之间无有机联系;释义简单而又不严谨,错误较多;检索方式单一,无法开发和利用词汇数据;没有建立真正

9、意义上的词典数据库,电子词典大多是文本词典的另一种形式,无法充分利用电子数据的数字检索手段,实现智能查捡。 2. 掌上电子词典 品种繁多,但良莠不齐;其中部分词典义项划分少,且较随意;释义简单,且不够准确释义错误比较常见;尽管大多是面向学生的,但极少从学习者的角度去设计词典体例或释义;词典以外的附加功能多,但词典的知识信息的表现手法单一,词典学技能不高;词汇量水分多,动辄 30-40 万,但常有很多词查不到;只是在电子技术上下功夫,在词典本身上面敷衍;不在原创上下功夫,转而走向引进成熟的印刷版词典;数据显示方法不尽人意,分7辨率低,单屏显示容量十分有限,相对国外(如日本等)电子词典差距较大。

10、3网络词典 网络词典少,各电子词典出版机构和辞书出版社大多无网络词典推出,不像英法等国的主要辞书出版社都有相应的网络词典或词典网站; 浏览网上, 只发现一些翻译网站或一些软件公司,为了宣传自己的业务,在网上挂了一些电子词典,缺少网络词典的特征。此外,还有一些不成规模的个人词典网站或网页。这些与“1000Dictionaries” 、 “Yourdictionaries” 等词典网站和朗文网络词典 、 剑桥在线词典 、 拉鲁斯百科词典 、 阿歇特多媒体百科词典和Atlas 网络百科词典等网络词典相比,无论词典内容和查询界面的设计都有很大差距。比如,仅“1000Dictionaries”网站就收录

11、了 3200 部各类词典和其他参考书。 (见图)词典类型包括单语、双语和多语词典,还有术语、百科词典、分类词典等。当然,你还可以在这个网站上找到各类新词语词表。 4语料库的建设 我国语料库的建设虽然起步晚一些,但发展势头很猛,乍一看来似乎很繁荣了,实际上至今也无大规模的、地位明确的商用语料库推出。汉语语料库,包括深加工标注语料库,立项较多,但大多的研究目的是用作自然语言处理和语言研究的,少有词典语料库;双语语料库或双语平行语料库,投入少、规模小,无法独立支持双语词典编纂。总之,各类语料库的建设相对辞书发达国家英国还十分落后,而他们的商用词典语料库却十分发达。比如,COBUILD 的“英语文库”

12、 (The Bank of English) , 朗文语料库网络(Longman Corpus Network) ,英国国家语料库(British National Corpus-BNC)和剑桥国际语料库(Cambridge International Corpus -CIC)等,都是可作商业运行的成熟语料库,这些语料库已创造了极大的经济效益和社会效益。 值得注意的是,国内语料库不仅规模较小,且建设的目的与英国有很大的不同。英国都是辞书出版社与大学合作建的,目的就是词典编纂;而我国大多是研究机构的行为,目的是自然语言处理和机器翻译,很少是为词典编纂而建造的;因此,能投入商业运行的也就少了。 5

13、词典数据现代化处理技术的研究 国外词典数据库或词库等现代化处理技术的研究大多建立在学术研究的基础上, 有系统的理论支持,整个项目构成完整的理论体系。如美国的 FarmeNet 词库建立在框架语义学基础上,加拿大的 DiCo 词典数据库(DiCo lexical database)是建立在篇章-语义理论基础上的。而我们辞书界对这方面的研究项目少,研究定位不甚明确,缺乏远期规划;有些长期处于探索阶段,难有实质性成果;在如何把计算机技术和信息处理技术引入词典研究和编纂方面,似乎满足于解决一些基本现实问题,学术会议讨论的定位不够准、无明确的理论支持,研究深度不足,少有实质型突破;现在已展开的几项计算机

14、词典辅助编纂项目,由于经费严重不足或缺乏有效的合作,研究难以深入,数据处理仍然建立在表格模式上,缺乏智能化支持。值得注意的是,许多词典编纂者还在沿用传统的资料处理方式,计算机仅限于词条的录8入和存储。 6语言处理技的研究 语言信息处理自动化需要语言描述的形式化, 形式化是指以元语言方式用专门的编码语言对自然语言和计算机信息进行编码,而且编码的方式要尽量明晰、易懂。明晰是十分重要的,否则计算机无法理解或处理。当然,不同的数据库其编码方式也不尽相同。一般常用的电子文件格编码语言或标记语言为:标准通用标记语言(Standard Generalized Markup Language: SGML) 、

15、超文本标记语言(Hypertext Markup Language: HTML)和可扩展标记语言(Extensible Markup Language: XML)以及文件类型定义(DTD) ;而用于语言形式化表述的语法构建模式有广域短语结构语法(Generalized Phrase Structure Grammar- GPSG) 、 词汇功能语法(Lexical Functional Grammar- LFG) 、中心词驱动短语语法等理论(Head-Driven Phrase Structure Grammar -HDPSG)和范畴语法(categorical grammar)等。此外,支持

16、计算词典学的语言学理论也很丰富:逻辑数理语义学、概念依存理论、格语法、词语法、蒙太格语义学、原型语义学、篇章-语义理论、框架语义学。这些理论在国外词典学界引起了广泛的讨论和研究,而在我国词典学的论文中,有关这些前沿理论的研究不多。 三、对问题的思考 出现上述问题的原因很多,有对计算词典学的认识问题、政策导向问题、经费投入问题和组织操作问题等。主要表现在以下几个方面: 1首先应该是观念问题,对计算词典学或计算机信息处理技术在辞书研究和编纂中的应用重要性认识不足,缺乏足够的重视;另一方面,政府有关部门缺乏对词典,特别是双语词典发展的重视。 2词典学和计算词典学的研究项目在国家基金项目和省部级社科规划项目的“课题指南”中没有位置,往往搭别的学科或专业的顺风车申报,因此在这些研究项目中所占的比例相当小。 3科研导向存在问题。词典既要对自然语言进行客观描述,又要对语言语义、语法和语用进行必要的规范提示,是一项需要大量的语言调查、细致的分析、缜密的思考、高度的抽象和归纳以及创造性的语言表现手法,是艰苦而有严密的学术工

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号