现代汉语语义词典规范

上传人:鲁** 文档编号:498135628 上传时间:2022-12-27 格式:DOC 页数:12 大小:187.01KB
返回 下载 相关 举报
现代汉语语义词典规范_第1页
第1页 / 共12页
现代汉语语义词典规范_第2页
第2页 / 共12页
现代汉语语义词典规范_第3页
第3页 / 共12页
现代汉语语义词典规范_第4页
第4页 / 共12页
现代汉语语义词典规范_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《现代汉语语义词典规范》由会员分享,可在线阅读,更多相关《现代汉语语义词典规范(12页珍藏版)》请在金锄头文库上搜索。

1、现代汉语语义词典规范本研究得到国家973重点基础研究项目“面向新闻领域的汉英机器翻译系统”(项目号:G1998030507-4)与“面向中文信息处理的现代汉语动词论旨结构系统和汉语词语语义分类层级系统研究”(项目号:G1998030507-1)的支持。王惠Email: 摘要:“现代汉语语义词典”(SKCC)是一部面向自然语言信息处理的语义知识库,它以数据库文件形式收录了6.6万余条汉语实词,不仅给出了每个词语所属的词类、语义类,而且以义项为单位详细描述了它们的配价信息和多种语义组合限制,可以为包括机器翻译在内的多种中文信息处理系统中的语义自动分析提供强有力的支持,同时,对于汉语词汇语义学和计算

2、词典学研究也具有重要的意义。本文概要介绍这部语义词典的结构、内容,以及语义属性项目的填写规范。 关键词:语义知识库 语义类 配价信息 计算词典学 中文信息处理The Specification of The Semantic Knowledge-base of Contemporary Chinese Wang Hui1, Yu Shiwen1, Zhan Weidong21(Institute of Computational Linguistics, Peking University, Beijing 100871, China)2(Dept. of Chinese Language &

3、 Literature, Peking University, Beijing 100871, China); ; Abstract: The Semantic Knowledge-base of Contemporary Chinese (SKCC) is a large machine-readable dictionary developed by the Institute of Computational Linguistics and Chinese Department of Peking University. It can provide a large amount of

4、 semantic information such as semantic hierarchy and collocation features of 66,539 Chinese words. Its semantic classification system represents the latest progress in Chinese linguistics and language engineering. The descriptions of semantic attributes are fairly thorough, comprehensive and authori

5、tative. The paper introduces the outline and specification of SKCC, and indicates that, as a large scale fundamental semantic resource of Chinese, SKCC will not only provide valuable semantic knowledge for Chinese language processing, but also play an important role in Chinese lexical semantics and

6、computational lexicography research. Key words: Semantic knowledge-base, lexical semantic, computational lexicography, semantic hierarchy, valence information, Chinese language processing1 引言在自然语言处理中,语义分析占有很重要的位置。北京大学计算语言学研究所与中科院计算所自1994年联合开发“汉英机器翻译模型系统”开始,就着手研制面向汉英机器翻译的“现代汉语语义词典”(SKCC),目的是在语法分析的基础上

7、,为计算机自动分析汉语句子和生成英语句子提供更深入的语义信息。1996年至1998年,双方共同承担了国家863高科技项目“通用机器翻译开发平台和汉英机器翻译系统”课题(项目编号: 863-306-03-06-2)。作为该课题的一个重要组成部分,“现代汉语语义词典”进入到大规模开发阶段,并取得阶段性成果,完成了4.9万汉语常用实词 (名词、动词、形容词) 及部分成语、习用语的语义分类和搭配信息描述1。IBM、Intel、Fujitsu, Toshiba, NTT, Canon, Sail-labs等20多家公司与大学先后从北大购买了该词典的许可使用权。4年多来,北京大学计算语言学研究所在积极应用

8、、推广该词典的同时,仍不断地投入力量进行词典本身的发展。从2001年11月开始,“现代汉语语义词典”的二期开发工作受到了国家973重点基础研究项目“面向新闻领域的汉英机器翻译系统”和“面向中文信息处理的现代汉语动词论旨结构系统和汉语词语语义分类层级系统研究”的支持,由计算语言学研究所和中文系联合承担,对词典规模进行较大幅度的扩充,并对全部词语的语义分类及属性描述进行全面修订。在双方的积极努力下,项目进展得非常顺利。目前,词典规模已达到6.6万余词条,同时语义属性描写质量有了显著提高。在一个汉英机器翻译系统中的实际应用表明,新版本的SKCC可以为句义分析、词汇歧义消解提供更全面的语义知识,有效地

9、提高翻译精度。2 现代汉语语义词典的内容概要2 .1 规模与结构语义词典(SKCC)原有词条48,835个,它们全部来自于北大计算语言学研究所开发的现代汉语语法信息词典(5万词版)。但1999年,后者的规模已由5万词扩充到了7万词2,此后的继续改进又使得属性信息的质量有了很大提高2。相比之下,语义词典却仍然停留在原来的水平上,无论数量还是质量上,二者都已不太协调,不能满足与语法词典配套使用的实际需要。SKCC的二期工程及时吸收了语法信息词典的最新成果,对原有的“词语”、“词类”、“同形”、“拼音”、“兼类”、“备注”等字段进行了统一检查、修订,而且增加了14,663个名词、动词、形容词,以及1

10、993个区别词、时间词、处所词、方位词、副词、数词。现在语义词典SKCC的规模比原来增加了1.8万词语,达到了6.6万余条它们均是从北京大学计算语言学研究所开发的现代汉语语法信息词典(2002版)3中直接继承而来。这不仅保证了语义词典收词的规范性、注音与词性标注的准确性,而且也使得它可通过“词语、词类、同形”3个关键字段与语法信息词典进行链接,相互配合使用,从而使计算机获得更完备的语法、语义信息。词典采用Microsoft Forxpro中文版6.0数据库实现,其中包含全部词语的总库1个,每类词语(实词)各建一库,计11个。每个库文件都详细刻画了词语及其语义属性的二维关系。比如,总库中包括词语

11、、拼音、同形、义项、释义、语义类、词类、子类、兼类等8个属性字段。名词库设15个属性字段,动词库设16个属性字段,如此等等(见表1)。 库名词条属性字段名 词3752215时间词56715处所词18515方位词20415代 词23615动 词2114216形容词382715区别词75315状态词99715副 词99711数 词10911总 库665398表1 语义词典SKCC的规模所有的库都可以通过“词语、词类、同形、义项”这4个关键字段进行链接。这样,12个库文件构成有上下位继承关系的“树”,子结点继承父结点的全部信息,如图1。总库名词库动词库形容词库贷次Adverb DatabaseNum

12、eralDatabase2 .2 词语的语义分类本词典语义分类的一个基本原则是,分类的深度与广度取决于语法分析的需要,应用语义知识应着重于解决那些仅靠语法规则难以解决的问题。因而语义分类是在词的语法分类基础上进行的,并且只对名词、动词、形容词等实词进行语义分类描述,而那些带有明显标志的、通常用句法形式就可以表示的语义关系,如各类虚词,则不作为语义分类研究的对象。具体分类如下:(1)名词分类1 具体事物(entity)1.1 生物(organism)1.1.1人(person)1.1.1.1个人(individual) 1.1.1.1.1职业(profession):教师 秘书 会计 医生1.1

13、.1.1.2身份(identity): 华侨 外行 健将 模范1.1.1.1.3关系(relation):父亲 阿姨 长辈 朋友1.1.1.2团体(group)1.1.1.1.1机构(organization):工厂 医院 商店 剧团1.1.1.1.2人群(society):人民 委员会 少先队 团伙 1.1.2动物(animal)1.1.2.1 兽(beast):狗 猪 牛 羊 老虎 豹子 狐狸 1.1.2.2 鸟(bird):鸡 鸭 麻雀 杜鹃 1.1.2.3 鱼(fish):鲤鱼 河豚 鲸 泥鳅1.1.2.4 昆虫(insect):蚯蚓 知了 蟑螂1.1.2.5 爬行动物(reptile

14、):青蛙 乌龟 甲鱼 蛇1.1.3植物(plant):树 花 草 牡丹 芍药 1.1.3.1 树(tree):白杨 水杉 芭蕉 1.1.3.2 草(grass): 狗尾巴草 含羞草 蒲公英 1.1.3.3 花(flower):牡丹 芍药 杜鹃 映山红1.1.3.4 庄稼(crop):蔬菜 小麦 高粱 棉花 1.1.4微生物(microbe):细菌 病毒 霉菌1.2 非生物(object)1.2.1 人工物(artifact)1.2.1.1建筑物(building):别墅 礼堂 会议室 水库 庙1.2.1.2衣物(clothes):服装 外套 衬衫 裙子 帽子1.2.1.3食物(food):面包

15、 牛奶 菜 米饭 饮料1.2.1.4药物(drug):药片 阿斯匹林 酒精 镇定剂 1.2.1.5创作物(works):论文 书 杂志 文章 油画 电影1.2.1.6计算机软件(software):操作系统 数据库 程序 软件1.2.1.7钱财(asset):财产 钱 资金 报酬 罚款 美元 利息1.2.1.9票据(bill):发票 单据 汇票 支票 包裹单1.2.1.10证书(certificate):结婚证 执照 毕业证 驾驶证1.2.1.11符号(symbol):签名 路标 箭头 句号 1.2.1.12材料(material):木材 钢铁 煤炭 玻璃 水泥1.2.1.13器具(instrument)1

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 国内外标准规范

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号