现代汉语语法信息词典的收词原则.doc

上传人:F****n 文档编号:101128620 上传时间:2019-09-26 格式:DOC 页数:12 大小:63KB
返回 下载 相关 举报
现代汉语语法信息词典的收词原则.doc_第1页
第1页 / 共12页
现代汉语语法信息词典的收词原则.doc_第2页
第2页 / 共12页
现代汉语语法信息词典的收词原则.doc_第3页
第3页 / 共12页
现代汉语语法信息词典的收词原则.doc_第4页
第4页 / 共12页
现代汉语语法信息词典的收词原则.doc_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《现代汉语语法信息词典的收词原则.doc》由会员分享,可在线阅读,更多相关《现代汉语语法信息词典的收词原则.doc(12页珍藏版)》请在金锄头文库上搜索。

1、现代汉语语法信息词典的收词原则  王惠 chswhnus.edu.sg  关键词:现代汉语、语法词典、收词原则 一. 前言  现代汉语语法信息词典是一部供计算机分析与生成汉语句子而使用的机器词典。词典计划收词6万左右,所收条目包括:名词n,时间词t,处所词s,方位词f,数词m,量词q, 区别词b,代词r,动词v,形容词a,状态词z,副词d,介词p,连词c,助词u,语气词y,象声词o,叹词e,前接成分h,后接成分k,成语i,简称略语j,习用语l,语素g,非语素字x,标点符号w等26类。其中前18类是语言学界普遍认可的词,后8类只是借助这些术语对词典中所收的

2、非词成分进行归类1。为行文方便,本报告中将对词典中收录的这26类成分都统称为“词语”。 北京大学计算语言学研究所从1986年起就开始研制现代汉语语法信息词典。该项研究先后纳入国家“七五”攻关项目和“八五”科技攻关项目中文信息处理技术应用开发平台3的总规划, 并与国家自然科学基金项目“自然语言的计算理论”相配合。 经过七年的连续开发, 目前, 该研究已取得重要的阶段性成果, 词典已初步完成了五万词的收录、归类及属性描述。 本报告就是在这些实际工作经验的基础上, 详细介绍这部电子词典的收词原则。 二. 收词原则  词典的收词原则依赖于其应用目标。现代汉语语法信息词典( 以下简称

3、“电子词典”)是供计算机使用的, 与供人使用的词典相比较, 收词原则应有所区别;本词典又是一部面向中文信息处理各个领域的通用性词典, 它不依赖于任何特定的语言处理模型及算法, 因而, 与一般依赖于某个具体处理系统的电子词典相比较, 收词原则也有很大的区别。 下面从6个方面对这部电子词典的收词原则进行介绍:1. 规范原则(1). 符合国家标准信息处理用现代汉语分词规范的词语,都属于电子词典的收词范围。 根据该信息处理用现代汉语分词规范中对“分词单位”的定义:“汉语信息处理使用的、具有确定的语义或语法功能的基本单位。它包括本规范的规则限定的词和词组”。语言学中所定义的词:“最小的能自由运用的语言单

4、位,首先是电子词典的收录对象。在目前已收录的五万余条词语中, 词占95%以上, 包括了全部的18个基本类。对于其中的9个封闭类:方位词、量词、代词、副词、介词、连词、助词、 语气词、叹词等, 电子词典尽可能全部收录。而另外9个开放类,名词、时间词、处所词、动词、形容词、状态词、区别词、数词、象声词等, 由于其数目众多, 电子词典不可能都收录, 而是还要进一步参照下面将要介绍的其它几个收词原则(如高频原则、稳定原则、 词部件原则等)进行取舍。 除了18类基本词以外, 符合信息处理用现代汉语分词规范的成语、习用语、缩略语3类比词大的语言成分也属于电子词典的收录范围。这些固定短语大多数是由语素和词组

5、合而成, 其构成成分和格式都是在汉语的长期发展中形成的, 不可随意切割, 而且其意义也带有整体性。在句子中所起的作用与词相当, 是汉语词汇体系的重要成员。如:  成语: 胸有成竹、走马观花、子虚乌有 固定短语 习用语: 跑龙套、卖关子、总而言之 简称略语: 三好、人大 由于这3类固定短语数量也非常可观, 电子词典对其处理策略与处理开放类的策略相同,只选收其中一部分使用频率高、稳定性强的。(2).不符合分词规范的词语, 原则上将不予收录。 这主要包括以下几种情况: 1). 不是分词单位的词 实际文本中的数词千变万化, 如:“一、十一、一亿八千万、第六、五分之二、一千多、三十几

6、、数万”等等。但根据分词规范,可以作分词单位的只有: a. 系数词“一、十、两、几”等 b. 位数词“十、百、千、万、亿、兆”等 c. 助数词“第、初、零、分之、多、数、约”等 d. 数量词“若干、许多、不少、大量、少许”等那么, 除了这4组, 其它数词都不是分词单位, 因而也不属于电子词典的收录范围之内。 2). 不是分词单位的短语成分, 如: a. (一)般说 (出其)不意 热胀(冷缩) 超低(空) (三)年来 之首 最关 并以 发展 时间就是生命 听说读写 早来 桌子上 c. 联合国教科文组织 国家标准局 北京大学 中国少年先锋队其中a组可能在词频统计时这些字的组合出现频度较高, 但它们

7、不在合理的层次上, 既不成词也不成短语, b组是自由短语, c组是组织、机构、单位的名称。2. 高频原则 现代汉语词语非常丰富, 即使是严格符合信息处理用现代汉语分词规范的分词单位, 也数不胜数。因而, 电子词典不可能见词就收。为了做到收词量一定而词的覆盖面最大或词的覆盖面足够大而收词量最少, 电子词典应在规范原则的基础上, 遵守高频原则,尽可能多地选收那些使用频率高、适用面广的词语, 尽量少收低频词。 词语频度主要是通过对大规模语料的统计、分析获得。我们词语的频度, 主要是参照电子工业部提供的“频度词表”(约4万词语)以及我们七五时选的五万词、北京语言学院编写的现代汉语频率词典等现有的9种词

8、表、词典(详见附录)。按照词频的从高到低, 依次收录;频率过低的, 原则上暂不收录。3. 稳定原则 语言是处于不断发展变化中的, 有些词语在一定时期内使用频率很高, 但过了一段时间之后, 就不大使用了, 甚至被淘汰; 然而, 也有相当一部分词语是很稳定的, 具有长久的生命力。 因此, 电子词典在选收词语时, 不仅要遵守规范原则、高频原则, 而且要遵守稳定原则。尽可能多收录稳定性强的词语, 如:“我、你、人、山、水、跑、吃、好、坏、日、常、不、在、的、吗、吧、啊”等; 对那些只通行于过去某一段时期, 而现在已较少使用的词语, 即使统计频率较高, 也一般不予收录, 如:“黑帮、士大夫、 黑五类、臭

9、老九、三线”等。另外, 对于当前较为流行的一些新词, 如:“大腕儿、款爷、 打的、面的”等, 由于尚未稳定下来, 电子词典也不收录。 为了保证所收词语具有较强的稳定性, 电子词典在收词时, 不是首先从各种语料中进行切词, 而是直接利用现有的9种有代表性的词表和词典作为词条来源(见附录。具体工作时, 若一个词语在各种词表或词典中出现的次数越多, 则认为其稳定性越高, 因而也就优先收录到电子词典中。4. 词部件原则 无论是词典开发者或使用者都希望收词完备, 如何提高完备性?有两种办法可供选择。一是增加收词数目, 如我国已有一部收词达30余万条的电子词典, 但相对于汉语的词语来说, 30万并不完备,

10、 却大大增加了词典存贮空间, 使得一般微机难以承受, 而且收词过多,也有副作用,增加分析的难度;二是收录尽可能多的“词部件”。汉语中词语数目无限多, 可是构成这些词语的基本部件却是有限的。任何自由短语都可以拆为若干词和固定短语,词和固定短语都可以拆成若干个语素和更小的词。因而, 词典中若把这些基本的词部件(可以是语素、词或固定短语)收录进来, 并辅之以对这些词部件的构词能力及其组合规则的描写, 就可以让计算机运用这些知识去处理未定义词。这样, 电子词典的规模不仅不会过于庞大, 而且还可以大大增加词典的容量。 语法信息词典正是采用第二种方法, 着重收录可以作为“词部件”的基本构词成分、词和固定短

11、语。对于由这些词部件构成的上级语言单位, 如派生词、复合词、重叠形式、自由短语等, 尽可能少收, 甚至不收。具体做法如下: (1). 把构词能力强的比词小的“词部件”列入电子词典的收录范围。 信息处理用现代汉语分词规范中规定的“分词单位”只包括词和词组。但实际文本中还时常会出现比词更小的单位, 如: a. 买了一个磁化杯 b. 新华社3日讯 c. 我姓刘 d. “枇杷”的“枇”字不常见。其中的“杯、讯、刘、枇”都不是词, 但它们不仅在一定场合下单独出现, 而且可以作为词部件, 与其它成分结合, 组成很多的词语, 如:“茶杯、酒杯、塑料杯、玻璃杯、杯子、杯底、杯盖、通讯、电讯、审讯、音讯、老刘、

12、小刘、刘胡兰、刘先生、刘经理、枇杷、”等等。 类似地, 汉语还有一些可作切分标记的前接成分和后接成分, 如“阿、老、子、头、们”等, 也可以与其它成分结合构成众多的合成词。如: 阿: 阿爸、阿妈、阿妹、阿哥、阿婆、阿五、阿春 老: 老虎、老鼠、老王 子: 杯子、盖子、刀子、尺子、小辫子、胖子 头: 老头、苦头、甜头 们: 哥们、姐们、爷们 因此, 一部实用的电子词典, 除了收录符合信息处理用现代汉语分词规范的词和短语以外, 还应把这些基本的词部件收录进来, 尽管它们不是分词单位。电子词典把以下4 种比词小的单位也列入了收录范围: 1). 前接成分: 阿、老、超、非、单、反、小、伪、过、无 2)

13、. 后接成分: 子、儿、头、们、性、员、者、化、界、学、观、率(lv4)、家、器、长(zhang3) 3). 语素: 齿、贝、芳、函、讯、澡、杯、冬、遥、失、驰、耽、丽、秀、忿、罕、恭、釜、赴、冠、丹、邢、刘 4). 非语素字: 枇、杷、鸳、鸯、垃、圾、蝴、蝶、葡、萄并对它们一一作了标注,设立专门的语法属性字段描述其构词规则。目前, 限于规模, 电子词典只把国标GB2312-80中所出现的这4种单位收录了进来; 超出此范围的, 不可能收录。 (2). 自由短语原则上不列入电子词典的收录范围。 在§2.1规范原则一节中,本文已从自由短语(包括机关、组织名称)不是分词单位角度, 讲述了它

14、们不属于电子词典的收词范围之内。本节将着重从自由短语不是基本的“词部件”角度, 再次明确这一点。 自由短语是词与词(或短语)在句子中组成的临时结构, 不具有稳定性和整体性, 因而不是词汇体系中的成员。如名词“科技、国家、机关”和动词“发展、工作、睡觉”可以与不同的名词或动词组成很多的定中式偏正结构的自由短语。如:“科技进步、科技发展、科技成果、科技人员、科技鉴定、国家机关、国家标准、国家栋梁、机关人员、工作机关、发展中心、发展程度、工作人员、工作时间、睡觉时间、”等等。如果把这些自由短语都收录到电子词典中, 不仅不符合国家分词规范, 而且有可能把“名词+ 名词”、“名词+动词”、“动词+名词”等形式的自由短语都收录进来。这样的话, 电子词典即使使用海存, 也难以包容。因此, 电子词典对这些自由短语原则上均不予收录, 而只收录组成自由短语的基本词, 并另立语法属性字段描述其组合规则。如电子词典中的实例:  字段名: 词语 词类 前名 后名 前动记录号 1 科技 n 可 可 否 2 国家 n 可 可 否 3 机关 n 可

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号