《《现代汉语语法信息词典(高频词)》填写规范》由会员分享,可在线阅读,更多相关《《现代汉语语法信息词典(高频词)》填写规范(2页珍藏版)》请在金锄头文库上搜索。
1、现代汉语语法信息词典(高频词)填写规范一. 任务说明973项目现代汉语语法信息词典(高频词)例句要求基于北大的现代汉语语法信息词典(7.3万词语)和基本标注语料库(1998年全年人民日报)给原有的现代汉语语法信息词典增添如下信息。1. 词语频度(1) 首先根据在基本标注语料库中词语出现的形式“词语/标记”进行统计,得到“频次”数据。由于基本标注语料库没有区分现代汉语语法信息词典中的“同形”(“词语”+“词类”+“同形”构成数据库的主关键字,使每个记录的唯一标识),因此“频次”只是笼统针对“词语/标记”的。(2) 考虑到仅以全年语料为统计对象,不能区分仅在某个月特别频繁出现的词语和每个月都经常出
2、现的词语的频次的意义。张化瑞提出了通用词语频度的概念与计算方法(另文详述)。这项工作是任务书以外新增加的,且有创新性和实用价值。(3) 因此,关于“词语频度”给出了两套数据。(4) 原计划统计“基本词”频度。因“基本词”的解析需要相当多的人力介入,留待今后继续完成。完成后的版本将及时提交CLDC。2. 例句选取现代汉语语法信息词典中的高频词语25000到30000,为每个词语选取3-5个典型的例句。选取例句时,考虑了“同形”的区分,这项工作超出了任务书的要求。二. 例句选择的基本原则 (1) 正确性a. 词语本身在例句中的用法正确,包括词类、同形、拼音等。由于基本标注语料库并没有标注同形信息,
3、因此在选取例句时,需要人工甄别。同时,应当说明,可能有些词语的例句未能按“同形”分开,只好留待以后补齐。b. 词语所在的例句切分标注正确。错误的不选, (2) 典型性a. 词语若在若干例句中的用法和功能相同,只选其中有代表性的一个例句;b. 如果在去除错误例句后,例句总数不足3个时,只要是正确的就选;总数不足6个时,只要用法略有差异就选 。c. 如果在例句中不能确定词的真正含义,不选。如:“中/j 巴/j 之间/f 的/u 友谊/n” (单独这句话,不能确定“巴”是巴基斯坦还是巴勒斯坦)。 (3) 长效性a. 与日常生活相关的优先;b. 与某一特定时期的事件相关的尽量不选;c. 涉及对有争议事件评价的,不选;d. 有损国家声誉(包括中国和其它国家)、民族感情(包括少数民族和汉族)的、涉及国际争端(包括中国和其它国家之间)的,不选。